Exploring Low-dimensional Intrinsic Task Subspace via Prompt Tuning
Exploring Low-dimensional Intrinsic Task Subspace via Prompt Tuning预训练的语言模型(PLM)如何学习通用的表征,并有效地适应广泛的NLP任务的差异很大的表面上?
在这项工作中,我们从经验上发现了一些证据,表明PLM对各种任务的适应性可以被重新参数化,即在一个共同的低维内在任务子空间中只优化几个自由参数。这可能有助于我们理解为什么PLMs 可以帮助我们理解为什么PLM可以很容易地适应各种NLP任务的 小规模的数据。
具体来说,为了找到这样一个子空间并考察其普遍性,我们借助最近在prompt tuning方面的成功经验,将多个NLP任务的软提示分解到同一个低维非线性子空间中,然后我们只通过调谐子空间中的参数来学习使PLM适应未见的任务或数据。
我们把这个管道称为 intrinsic prompt tuning(IPT)。在实验中,我们研究了不同的少量NLP任务,并令人惊讶地发现,在用100个随机任务找到的5维子空间中,只需调整5个自由参数,我们就可以对100个看过的任务(使用不同的训练数据)和20个未看过的任务分别恢复87 ...
Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language Model
Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language Model最近的研究表明,在大规模的无标签文本上预训练跨语言语言模型,可以在各种跨语言和低资源任务中产生明显的性能改进。通过对一百种语言和TB级文本的训练,跨语言模型已被证明能有效地利用高资源语言来提高低资源语言的处理能力,并超过了单语言模型。在本文中,我们进一步研究了当预训练的跨语言模型需要适应新领域时的跨语言和跨领域(CLCD)设置。具体来说,我们提出了一种新的无监督的特征分解方法,该方法可以从纠缠在一起的预训练的跨语言表征中自动提取特定领域的特征和领域不变的特征,给定源语言中未标记的原始文本。我们提出的模型利用相互信息估计,将跨语言模型计算的表征分解为领域变量和领域特定部分。实验结果表明,我们提出的方法比最先进的预训练的跨语言模型在CLCD环境中取得了明显的性能改进。本文的源代码可在https://github.com/lijuntaopku/UFD。
Introduction深度学习的最新进展使各种NLP任务受益,并在大规模注释数据集可用时 ...
Contrastive Representation Distillation
Contrastive Representation Distillation我们经常希望将表征性知识从一个神经网络转移到另一个神经网络。这方面的例子包括将一个大型网络提炼成一个较小的网络,将知识从一种感觉模式转移到另一种感觉模式,或者将一系列模型集合成一个单一的估计器。知识提炼是解决这些问题的标准方法,它使教师和学生网络的概率输出之间的KL散度最小。我们证明这个目标忽略了教师网络的重要结构知识。
这促使我们提出了另一个目标,即训练学生在教师的数据表述中捕捉到更多的信息。我们把这个目标表述为对比学习。
实验证明,我们所产生的新目标在各种知识迁移任务上优于知识蒸馏和其他尖端的蒸馏器,包括单一模型压缩、集合蒸馏和跨modal转移。我们的方法在许多迁移任务中创造了新的最先进的技术,当与知识蒸馏相结合时,有时甚至超过了教师网络。
INTRODUCTION知识蒸馏(KD)将知识从一个深度学习模型(教师)转移到另一个(学生)。最初由Hinton等人(2015)提出的目标是最小化教师和学生输出之间的KL散度。当输出是一个分布时,这种表述具有直观的意义,例如,在类上的概率质量函数。然而,我们经常希望迁 ...
Achieving Forgetting Prevention and Knowledge Transfer in Continual Learning
Achieving Forgetting Prevention and Knowledge Transfer in Continual LearningAbstract持续学习(CL)是指逐步学习一连串的任务,目的是实现两个主要目标:克服灾难性遗忘(CF)和鼓励跨任务的知识转移(KT)。然而,大多数现有的技术只注重克服CF,没有鼓励KT的机制,因此在KT中表现不佳。尽管有几篇论文试图同时处理CF和KT,但我们的实验表明,当任务没有太多的共享知识时,它们受到严重的CF影响。
另一个观察结果是,目前大多数CL方法没有使用预训练的模型,但事实证明,这种模型可以大大改善最终的任务表现。例如,在自然语言处理中,对类似BERT的预训练语言模型进行微调是最有效的方法之一。
然而,对于CL来说,这种方法受到了严重的CF的影响。一个有趣的问题是如何将预训练的模型最好地用于CL。本文提出了一个名为CTR的新模型来解决这些问题。我们的实验结果证明了CTR的有效性。
Introduction本文研究了在任务持续学习(Task-CL)环境下的自然语言处理(NLP)任务序列的持续学习(CL)。它的目的是
( ...
On Transferability of Prompt Tuning for Natural Language Understanding
On Transferability of Prompt Tuning for Natural Language UnderstandingPrompt tuning(PT)是一种很有前途的参数高效方法,可以利用极其庞大的预训练语言模型(PLM),只需 tuning 几个软提示,就可以达到与全参数微调相当的性能。
然而,与微调相比,经验上PT需要更多的训练步骤。为了探索是否可以通过重复使用训练好的 soft prompts 和分享学到的知识来提高 PT 的效率,我们从经验上研究了 soft prompts 在不同任务和模型中的可迁移性。
在跨任务迁移中,发现经过训练的 soft prompts 可以很好地迁移到类似的任务中,并为它们初始化PT,以加速训练和提高性能。此外,为了探索哪些因素会影响 prompts 的跨任务转移性,我们研究了如何测量 prompt 的相似性,发现激活的神经元的重叠率与迁移性高度相关。
在跨模型迁移中,我们探索了如何将一个PLM的 prompt 投射到另一个PLM上,并成功地训练了一种 projector,该projector 可以在类似的任务上实现非微 ...
TransPrompt Towards an Automatic Transferable Prompting Framework for Few-shot Text Classification
TransPrompt: Towards an Automatic Transferable Prompting Framework for Few-shot Text ClassificationAbstract最近的研究表明,prompts 可以提高大型预训练语言模型在 few-shot 文本分类中的表现。然而,目前还不清楚如何在类似的NLP任务中迁移 prompts 知识以达到相互强化的目的。基于连续的 prompts 嵌入,我们提出了TransPrompt,一个可迁移的 prompt 框架,用于在类似的任务中进行 few-shot 的学习。
在TransPrompt中,我们采用了一个多任务元知识获取程序来训练一个元学习者,以捕获跨任务的可迁移知识。我们进一步设计了两种去偏技术,使其对任何任务都更具有任务无关性和无偏性。
之后,元学习器可以以高精确度适应目标任务。大量的实验表明,TransPrompt在多个NLP任务和数据集上的表现优于单任务和跨任务的强基线。我们进一步表明,元学习器可以有效地提高以前未见过的任务的性能。当用完整的训练集学习时,TransPrompt也优于强大的 ...
Iterative Network Pruning with Uncertainty Regularization for Lifelong Sentiment Classification
Iterative Network Pruning with Uncertainty Regularization for Lifelong Sentiment Classification提出了一种新的具有不确定性正则化的迭代网络修剪方法,用于终身情感分类(IPRLS),它利用了网络修剪和权重正则化的原则。通过以迭代的方式进行网络修剪和不确定性正则化,IPRLS可以使一个单一的BERT模型适应来自多个领域的连续到达的数据,同时避免灾难性的遗忘和相互影响。
具体来说,利用迭代修剪方法来去除大型深度网络中的冗余参数,这样释放出来的空间就可以用来学习新的任务,解决灾难性遗忘的问题。
在学习新任务时,我们也使用基于贝叶斯在线学习框架的不确定性正则化来约束BERT中旧任务权重的更新,这使得正向转移成为可能,即学习新任务可以提高过去任务的表现,同时保护旧知识不被丢失。
此外,我们提出了一个与BERT各层并行的特定任务的低维残差函数,这使得IPRLS在学习新任务时不容易丢失保存在基础BERT网络中的知识。
INTRODUCTION随着网络上大量富含观点的文档的增加,人们对情感分类给予了极大的关注, ...
Continual Learning with Hypernetworks
[TOC]
Continual Learning with Hypernetworks当人工神经网络在多个任务上进行顺序训练时,它们会遭受灾难性的遗忘。 为了克服这个问题,我们提出了一种基于任务条件超网络的新方法,即基于任务身份生成目标模型权重的网络。
由于一个简单的关键特征,此类模型的持续学习 (CL) 难度较小:任务条件超网络不需要回忆所有先前看到的数据的输入-输出关系,只需要排练特定于任务的权重实现,这可以 使用简单的正则化器在内存中维护。
除了在标准的CL基准上取得最先进的性能外,对长任务序列的额外实验显示,任务条件下的超网络显示出非常大的能力来保留以前的记忆。
值得注意的是,当可训练的超网络权重数量与目标网络大小相当或小于目标网络大小时,如此长的记忆寿命是在一个压缩制度下实现的。我们对低维任务嵌入空间(超网络的输入空间)的结构进行了深入研究,并表明任务条件下的超网络展示了迁移学习。最后,基于CIFAR-10/100图像数据集的挑战性CL基准的经验结果进一步支持了前向信息迁移。
INTRODUCTION我们假设一个具有可训练权重 $Θ$ 的神经网络 $f(x,Θ)$ 被赋予来自 ...
PromptBERT: Improving BERT Sentence Embeddings with Prompts
PromptBERT: Improving BERT Sentence Embeddings with Prompts在以前的工作中,原始的BERT在句子语义相似性方面的表现不佳,已经被广泛讨论。我们发现,不尽如人意的表现主要是由于静态 token 嵌入的偏差和无效的 BERT 层,而不是因为句子嵌入的高余弦相似度。
为此,我们提出了一种 prompt based 的句子嵌入方法,它可以减少 token 嵌入的偏差,使原来的BERT层更加有效。通过将句子嵌入任务重新表述为填空问题,我们的方法显著提高了原始BERT的性能。我们讨论了 prompt based 的句子嵌入的两种 prompt 表示方法和三种 prompt 搜索方法
此外,我们通过模板去噪技术提出了一个新的无监督训练目标,这大大缩短了有监督和无监督设置之间的性能差距。
在实验中,我们对我们的方法在非微调和微调的设置上进行评估。即使是一个非微调的方法,也可以在STS任务上超过微调的方法,如无监督的ConSERT。我们的微调方法在无监督和有监督的情况下都优于最先进的方法SimCSE。与SimCSE相比,在无监督设置下,我们在BE ...
Parameter-Efficient Tuning by Manipulating Hidden States of Pretrained Language Models For Classification Tasks
Parameter-Efficient Tuning by Manipulating Hidden States of Pretrained Language Models For Classification TasksParameter-Efficient tuning旨在通过优化一些引入的参数的同时,冻结 PLMs 来提取下游任务的知识。
连续的 prompt tuning 在输入的嵌入中预先加入一些可训练向量。是其中的一种方法,由于其有效性和效率而受到广泛关注。这个系列的方法可以被理解为对PLM内部的隐藏状态进行了非线性转换。
然而,一个自然的问题被忽略了:隐藏状态能否直接用于分类而不改变它们?在本文中,我们旨在通过提出一种简单的 tuning 方法来回答这个问题,这种方法只引入了三个可训练的向量。
首先,我们使用引入的向量整合不同层的隐藏状态。然后,我们将整合后的隐藏状态输入到一个特定任务的线性分类器中,以预测类别。
这个方案类似于ELMo利用隐藏状态的方式,只是他们将隐藏状态反馈给基于LSTM的模型。 虽然我们提出的tuning 方案很简单,但它取得了与 P-tuning ...