Contrastive Representation Distillation

我们经常希望将表征性知识从一个神经网络转移到另一个神经网络。这方面的例子包括将一个大型网络提炼成一个较小的网络,将知识从一种感觉模式转移到另一种感觉模式,或者将一系列模型集合成一个单一的估计器。知识提炼是解决这些问题的标准方法,它使教师和学生网络的概率输出之间的KL散度最小。我们证明这个目标忽略了教师网络的重要结构知识。

这促使我们提出了另一个目标,即训练学生在教师的数据表述中捕捉到更多的信息。我们把这个目标表述为对比学习。

实验证明,我们所产生的新目标在各种知识迁移任务上优于知识蒸馏和其他尖端的蒸馏器,包括单一模型压缩、集合蒸馏和跨modal转移。我们的方法在许多迁移任务中创造了新的最先进的技术,当与知识蒸馏相结合时,有时甚至超过了教师网络。

INTRODUCTION

知识蒸馏(KD)将知识从一个深度学习模型(教师)转移到另一个(学生)。最初由Hinton等人(2015)提出的目标是最小化教师和学生输出之间的KL散度。当输出是一个分布时,这种表述具有直观的意义,例如,在类上的概率质量函数。然而,我们经常希望迁移关于一个表示的知识。例如,在 “跨模型蒸馏 “的问题中,我们可能希望将图像处理网络的表示迁移到声音(Aytar等人,2016)或深度(Gupta等人,2016)处理网络,这样,图像的深度特征和相关的声音或深度特征是高度相关的。在这种情况下,KL散度是不确定的。