Iterative Network Pruning with Uncertainty Regularization for Lifelong Sentiment Classification

提出了一种新的具有不确定性正则化的迭代网络修剪方法,用于终身情感分类(IPRLS),它利用了网络修剪和权重正则化的原则。通过以迭代的方式进行网络修剪和不确定性正则化,IPRLS可以使一个单一的BERT模型适应来自多个领域的连续到达的数据,同时避免灾难性的遗忘和相互影响。

具体来说,利用迭代修剪方法来去除大型深度网络中的冗余参数,这样释放出来的空间就可以用来学习新的任务,解决灾难性遗忘的问题。

在学习新任务时,我们也使用基于贝叶斯在线学习框架的不确定性正则化来约束BERT中旧任务权重的更新,这使得正向转移成为可能,即学习新任务可以提高过去任务的表现,同时保护旧知识不被丢失。

此外,我们提出了一个与BERT各层并行的特定任务的低维残差函数,这使得IPRLS在学习新任务时不容易丢失保存在基础BERT网络中的知识。

INTRODUCTION

随着网络上大量富含观点的文档的增加,人们对情感分类给予了极大的关注,其目的是自动预测给定文本的情感极性。近年来,深度学习取得了巨大的成功,在情感分类领域几乎占主导地位[35, 36, 38]。强大的深度神经网络必须依赖于大量的注释训练资源。然而,标注大型数据集通常是费时费力的,在将训练好的情感分类器应用于新领域时,会产生很大的障碍。此外,无论收集多少数据并用于训练情感分类器,都很难覆盖网络上所有可能的意见数据领域。因此,当在实践中部署时,训练有素的情感分类器的表现往往不尽如人意。

Method

Overview

在本文中,我们使用BERT作为基础模型来构建情感分类器。BERT是快速发展的预训练模型的一个重要代表,它在各种NLP任务中显示出卓越的性能。一般来说,当任务依次到达时,BERT在学习新任务时,会对旧任务产生 “灾难性的遗忘”。为了缓解 “灾难性遗忘 “的问题,我们利用基于架构和基于正则化的持续学习方法来提高BERT在终身情感分类中的性能。具体来说,我们探索了两种机制,以促进BERT模型在学习新任务时保留对先前任务重要的知识。首先,我们探索了一种具有不确定性正则化的迭代修剪,以将来自多个任务的重要知识整合到一个单一的BERT模型中,同时确保准确性的最小下降。其次,我们在每个BERT层中 “并行 “添加一个特定任务的并行残差函数,以进一步保留最重要的新知识,同时适应新任务。接下来,我们将详细说明BERT、具有不确定性正则化的迭代修剪和特定任务的平行残差函数。