Towards a Unified View of Parameter-Efficient Transfer Learning

ICLR2022高分文章

这篇工作将最近提出的多种Parameter-Efficient的迁移学习方法联系在了一起，提出了一个统一的框架，并探索了这些方法成功的关键因素是什么。

统一什么？把Adapter、prompt-tuning、LoRA都定义为预训练模型中添加可调整的特定的隐层状态，只是设计的参数维度、修改函数的计算和位置不同。定义成一个统一的框架，顺便还排列组合出几个小变体。

INTRODUCTION

使通用PLM适应下游任务的最常见方法是微调所有模型参数。然而，这导致每个任务都有一份单独的微调模型参数，当为执行大量任务的模型提供服务时，其成本过高。

为了缓解这个问题，已经提出了一些轻量级的替代方案，只更新少量的额外参数，同时保持大多数预训练参数的冻结，如：Adapters、prefix tuning 与 prompt tuning、LoRA 。（下文详细介绍他们）

这些方法都在不同的任务集上表现出与完全微调相媲美的性能，通常是通过更新不到1%的原始模型参数。除了节省参数外，参数有效的调整使其有可能快速适应新的任务，而不会出现灾难性的遗忘（Pfeiffer等人，2021），并且在 out-of-distribution 上往往表现出卓越的稳健性。

作者接下来针对上面这几种参数有效的方法提出了几个问题：

这些方法是如何联系的？
这些方法是否具有对其有效性至关重要的设计要素，这些要素是什么？
每种方法的有效成分是否可以转移到其他方法中，以产生更有效的变体？

PRELIMINARIES

首先看一下现有这些方法在Transformer里的结构是如何：

Adapters：在PLM的每一层插入称为适配器的小型神经模块，在微调时只对适配器进行训练。适配器层一般使用$W{down}\in R^{d×r}$的向下投影，将输入 $h$ 投影到瓶颈维度 $r$ 指定的低维空间，然后使用非线性激活函数 $f(\cdot)$，再使用$W{up}\in R^{r×d}$的向上投影，还有一个残差连接。
$\begin{equation}\begin{split} h \leftarrow h + f(hW_{dnow})W_{up} \end{split}\end{equation}$
将两个适配器依次放在变压器的一个层内，一个在多头关注之后，一个在FFN子层之后。
prefix tuning 与 prompt tuning ：受通prompt方法的启发，在输入层或隐藏层中预置了额外的 $l$ 个可调整的前缀tokens，在下游任务的微调时只训练这些 soft prompt。具体来说，两组prefix 向量 $P_k , P_v\in R^{l×d}$ 与原始键 $K$ 和值$V$相连接，如图中所示。然后对新的 prefixed key 和值进行多头注意力计算：
$\begin{equation}\begin{split} head_i = Attn(x W_{q}^{(i)} , concat(P_k^{(i)}, CW_{k}^{(i)}), concat(P_v^{(i)}, CW_v^{(i)})) \end{split}\end{equation}$
这其实也于Graphormer等Graph Transformer模型有异曲同工之妙。$P_k$ 和 $P_v$ 分别被分成 $N_h$个头部向量。Prompt-tuning 简化了前缀调整，其只对第一层的输入词嵌入进行预处理；类似工作还包括P-tuning。
LoRA ：将可训练的低秩矩阵注入 transformer 层，以近似权重更新。对于一个预训练好的权重矩阵 $W\in R^{d×k}$ LoRA用低秩分解 $W +\Delta W = W +W{down}W{up}$ 表示其更新，其中$W{down}\in R^{d×r},W{up}\in R^{r×k} $ 是可调整的参数。LoRA将这种更新应用于多头注意子层中的 Query 和 Key 投影矩阵，如图1所示。对于多头注意力中的线性投影的特定输入$x$ ，LoRA将投影输出 $h$ 修改为:
$\begin{equation}\begin{split} h \leftarrow h + s \cdot x W_{down}W_{up} \end{split}\end{equation}$
其中 $s≥1$ 是可调标量超参数。

其实还有一些参数有效的调整方法像：BitFit 只对预训练模型中的 bias 向量进行微调，以及上一篇文章提到的diff-pruning，它学习一个稀疏的参数更新向量。

推导 prefix tuning

上文关于 prefix tuning 在注意力 K 和 V上添加可学习的向量来改变注意力模块，这里提出另一种观点：

$\begin{equation}\begin{split} head &=Attn(x W_{q} , concat(P_k, CW_{k}, concat(P_v, CW_v) \\ &= softmax(x W_q concat(P_k, CW_k)^T) \begin{bmatrix} P_v \\ CW_v\\ \end{bmatrix} \\ &= (1-\lambda(x)) softmax(xW_qW_k^TC^T) CW_v + \lambda(x)softmax(xW_qP_k^T) P_v\\ & = (1 - \lambda(x)) \underbrace{ \text{Attn}(xW_q, CW_k, CW_v) }_{\text{standard attention}} + \lambda(x) \underbrace{ \text{Attn}(xW_q, P_k, P_v) }_{\text{independent of } C}, \end{split}\end{equation}$

其中 $λ(X)$ 是标量，归一化注意力权重之和：

$\begin{equation}\begin{split} \lambda(x) = \frac{\sum_i\exp (xW_qP_k^T)_i}{\sum_i \exp (xW_qP_k^T)_i + \sum_j \exp(xW_qW_k^TC^T)_j}. \end{split}\end{equation}$

THE UNIFIED FRAMEWORK

受 prefix tuning 和 Adapter 之间联系的启发，作者提出了一个总体框架，旨在统一几种最先进的参数有效的调谐方法。

具体来说，作者把它们看作是学习一个向量 $∆h$，它被应用于各种隐藏表征。形式上，作者把要直接修改的隐藏表征表示为 $h$ ，把计算 $h$ 的PLM子模块的直接输入表示为 $x$。

为了描述这个修改过程，作者定义了一组设计维度，不同的方法可以通过改变这些维度的值而被实例化。并在表1中说明了Adapters、prefix tuning 和LoRA在这些维度上的情况。

表中的 Functional Form :是指计算 $∆h$ 的具体函数。所有这些方法的函数形式都类似于proj down → nonlinear → proj up的架构。
Modified Representation : 指直接修改的隐藏表示形式。
Insertion Form : 指添加的模块如何插入到网络中。传统上适配器是以 sequential 方式插入某个位置的，其中输入和输出都是 $h$ 。prefix tuning和LoRA 相当于 parallel 插入。
Composition Function :指修改后的向量 $∆h$ 如何与原始隐藏表征 $h$ 计算，以形成新的隐藏表征。例如，适配器执行简单的加法组合，前缀调整使用门控加法组合，而LoRA通过一个恒定的因子对 $Δh$ 进行缩放，并将其添加到原始隐藏表示中。

变体组合——通过在不同的方法之间转移设计元素而得到

Parallel Adapter 是通过将 prefix tuning 的 parallel 插入转移到 Adapter 的变体。
Multi-head Parallel Adapter 是使 Adapter 与 prefix tuning 更加相似的进一步措施：应用 Parallel Adapter 来修改头部注意力输出作为 prefix tuning 。这样，变体通过利用多头投影来提高能力
Scaled Parallel Adapter 是通过将LoRA的组成和插入形式转移到适配器的变体，如图3e所示。