谣言、虚假信息综述
[TOC]
谣言、虚假信息综述
A Survey on Natural Language Processing for Fake News DetectionAbstract虚假新闻检测是自然语言处理(NLP)中的一个关键但具有挑战性的问题。社交网络平台的迅速崛起不仅带来了信息可及性的大幅提高,而且也加速了假新闻的传播。因此,假新闻的影响越来越大,有时甚至延伸到线下世界,威胁到公共安全。鉴于海量的网络内容,自动检测假新闻是一个实用的NLP问题,对所有在线内容提供商都有用,以减少人类检测和防止假新闻传播的时间和精力。在本文中,我们描述了假新闻检测所涉及的挑战,也描述了相关任务。我们系统地回顾和比较了为该任务开发的任务描述、数据集和NLP解决方案,还讨论了它们的潜力和局限性。基于我们的见解,我们概述了有希望的研究方向,包括更精细、详细、公平和实用的检测模型。我们还强调了假新闻检测和其他相关任务之间的区别,以及NLP解决方案对假新闻检测的重要性。
1 Introduction自动假新闻检测是评估新闻中 claims(声明,主张) 的真实性的任务。这是一个新的但关键的NLP问题,因为传统的新闻 ...
Learn Continually, Generalize Rapidly, Lifelong Knowledge Accumulation for Few-shot Learning
Learn Continually, Generalize Rapidly: Lifelong Knowledge Accumulation for Few-shot Learning随着时间的推移不断扩展知识,并利用这些知识迅速归纳到新的任务中,这是人类语言智能的一个关键特征。
现有的追求快速泛化到新任务的模型(如few-shot learning),大多是在固定的数据集上进行单次训练,无法动态地扩展其知识;而持续学习算法则不是专门为快速泛化设计的。
作者提出了一个新的学习设置,即 “ Continual Learning of Few-Shot Learners”(CLIF),以在一个统一的设置中解决这两种学习设置的挑战。
CLIF假设一个模型从一连串不同的NLP任务中依次学习,积累知识以提高对新任务的概括能力,同时也保留了之前学习的任务的性能。
本文研究了在持续学习设置中泛化能力是如何受到影响的,评估了一些持续学习算法,并提出了一种新颖的带有正则化的Adapter的双级超网络。
挑战:模型在一连串的NLP任务中学习(逐一到达;不重复访问),然后在以下方面进行评估:(1)对新的( ...
Pattern Exploiting Training (PET)
Pattern Exploiting Training (PET)介绍PET范式,可用于半监督或无监督训练。
这篇主要关注两篇相同作者的文章:
《Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference》
《It’s Not Just Size That Matters:Small Language Models Are Also Few-Shot Learners》
首先看到一个问题比较好:BERT在预训练时学习到的知识或者说参数我们在fine-tunning的时候都有用到吗?
答案是不是的。
BERT的预训练其中一个任务是MLM,就是去预测被 【MASK】掉的token,采用的是拿bert的最后一个encoder(base版本,就是第12层的encoder输出,下图左图蓝色框)作为输入,然后接全连接层,做一个全词表的softmax分类(这部分就是左图的红色框)。但在finetuing的时候,我们是把MLM任务的全连接层抛弃掉,在最后一层encoder后接的初始 ...
Parameter-Efficient Transfer Learning for NLP
Parameter-Efficient Transfer Learning for NLP微调大型预训练模型是 NLP 中一种有效的传输机制。 但是,在存在很多下游任务的情况下,微调参数效率低下:每项任务都需要一个全新的模型。
作为替代方案,作者建议使用Adapter进行迁移。原始网络的参数保持不变,实现了高度的参数共享。
Adapter提供紧凑且可扩展的模型;它们只为每个任务添加几个可训练的参数,并且可以添加新任务,而无需重新访问以前的任务。
紧凑型模型:在每个任务中使用少量附加参数解决多个任务的模型。
可扩展模型:可以增量训练以解决新任务,而不会忘记以前的任务。
自然语言处理中最常见的两种迁移学习技术是 feature-based 和 fine-tuning。
feature-based的转移涉及预训练实值嵌入向量。 这些嵌入可能在单词、句子或段落级别。 然后将嵌入提供给自定义的下游模型。
fine-tuning 涉及从预先训练的网络复制权重并在下游任务上调整它们
feature-based 和 fine-tuning 都需要为每个任务设置一组新的权重。 如果网络的较低 ...
二分查找基本思想:减而治之
二分查找基本思想:减而治之
这里「减」是「减少问题」规模的意思,治是「解决」的意思。「减治思想」从另一个角度说,是「排除法」,意即:每一轮排除掉一定不存在目标元素的区间,在剩下 可能 存在目标元素的区间里继续查找。每一次我们通过一些判断和操作,使得问题的规模逐渐减少。又由于问题的规模是有限的,我们通过有限次的操作,一定可以解决这个问题。
可能有的朋友听说过「分治思想」,「分治思想」与「减治思想」的差别就在于,我们把一个问题拆分成若干个子问题以后,应用「减治思想」解决的问题就只在其中一个子问题里寻找答案。
二分查找算法的应用范围在有序数组中进行查找一个数(二分下标)这里「数组」和「有序」是很重要的,我们知道:数组具有 随机访问 的特性,由于数组在内存中 连续存放,因此我们可以通过数组的下标快速地访问到这个元素。如果数据存放在链表中,访问一个元素我们都得通过遍历,有遍历的功夫我们早就找到了这个元素,因此,在链表中不适合使用二分查找。
在整数范围内查找一个整数(二分答案)如果我们要找的是一个整数,并且我们知道这个整数的范围,那么我们就可以使用二分查找算法,逐渐缩小整数的范围。这一点其实也不难 ...
Adapting BERT for Continual Learning of a Sequence of Aspect Sentiment Classification Tasks
Adapting BERT for Continual Learning of a Sequence of Aspect Sentiment Classification Tasks增量学习ASC任务序列的CL系统应解决以下两个问题:
将从以前的任务中学到的知识转移到新的任务中,帮助它学习更好的模型
维护以前任务的模型性能,以便不会忘记它们
针对这些问题,本文提出了一种新的基于胶囊网络的模型B-CL (BERT-based Continual Learning) ,受《Parameter-efficient transfer learning for NLP》的Adapter Bert启发。
B-CL通过前向和后向知识转移显著提高了ASC在新任务和旧任务上的效果。
ASC任务定义如下:给定一个方面(例如,相机评论中的图像质量)和在特定领域(例如,相机)中包含该方面的意义,分类句子对该方面表示正面、负面还是中性(无意见)。
利用胶囊和动态路由 来识别与新任务相似的先前任务,并利用它们的共享知识来帮助新任务学习,并使用任务掩码来保护任务特定的知识,以避免遗忘(CF)。
Adapter ...
只用一行代码可以提高模型表现吗?
只用一行代码能提高模型表现吗?一行代码能做什么,有的人能发顶会,而有的人…
相信大家在训练模型的时候都会遇到一个现象,训练集损失降到一定的值之后,验证集的损失就开始上升了,在实验中一般奇怪的是准确率还跟着上升。这是为什么?如下图所示:
先看图(a),是一个正常的训练过程,对于阶段A,随着training loss的降低,test loss也会 跟着降低;
但是到阶段B后,我们继续在训练集上训练,会让test loss上升。我们通常认为这是过拟合了,因为泛化误差变大了。
图 (b) 是ICML2020上《Do We Need Zero Training Loss After Achieving Zero Training Error》提出的flooding方法。这是一种使训练损失在一个小常量附近浮动的方法,以防止训练损失趋近于零 (这也是flooding的约束假设)。
为什么要防止训练损失趋近于0呢?
如果我们在模型已经记住了训练数据,完全没有错误的情况下仍继续训练,训练损失可以很容易地变得(接近)零,特别是对于过度参数化的模型。我们的模型其实就是个函数拟合器,在训练集上拟合的太好就容 ...
79/130/200/733FloodFill/17/22/784字符串回溯
79/130/200/733FloodFill/17/22/784字符串回溯Flood Fill提示:Flood 是「洪水」的意思,Flood Fill 直译是「泛洪填充」的意思,体现了洪水能够从一点开始,迅速填满当前位置附近的地势低的区域。类似的应用还有:PS 软件中的「点一下把这一片区域的颜色都替换掉」,扫雷游戏「点一下打开一大片没有雷的区域」。
下面这几个问题,思想不难,但是初学的时候代码很不容易写对,并且也很难调试。我们的建议是多写几遍,忘记了就再写一次,参考规范的编写实现(设置 visited 数组,设置方向数组,抽取私有方法),把代码写对。
79. 单词搜索12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152535455class Solution { private static final int[][] DIRECTIONS = {{-1,0}, {0, -1}, & ...
Meta-Learning Representations for Continual Learning
Meta-Learning Representations for Continual Learning持续学习的代理应该能够在现有知识的基础上快速学习新数据,同时最大限度地减少遗忘。
目前基于神经网络函数逼近器的智能系统 很容易遗忘,而且很少经过训练来促进未来的学习。这种糟糕行为的一个原因是,他们从没有为这两个目标明确训练的表征中学习。
本文提出了OML,它的目标是通过学习表征来直接最小化灾难性的干扰,加速未来的学习,并且在连续学习中对在线更新下的遗忘具有健壮性。
证明了学习自然稀疏表示是可能的,这对于在线更新更有效。此外,该算法是对现有的连续学习策略(如MER和GEM)的补充。
有经验的程序员学习一门新的编程语言比以前从未编程的人要快得多,而且不需要忘记旧的语言来学习新的语言。
在这项工作中,显式地学习一种持续学习的表示法,以避免干扰并促进未来的学习。设计一个元目标,它使用灾难性干扰作为训练信号,通过在线更新直接优化。目标是学习一种表示,以便模型在 meta-test 时使用的随机在线更新总体上提高其预测的准确性。
Problem FormulationContinual Le ...
Continual Lifelong Learning in Natural Language Processing: A Survey
Continual Lifelong Learning in Natural Language Processing: A Survey与计算机视觉或机器人技术相反,NLP领域中的CL仍处于初级阶段
持续学习 (CL) 旨在使信息系统能够跨时间从连续数据流中学习。然而,现有的深度学习体系结构很难在不遗忘以前获得的知识的情况下学习新任务。此外,由于自然语言是模棱两可的,CL对语言学习尤其具有挑战性:它是离散的,组合的,意思是上下文相关的。
Introductioncatastrophic forgetting (CF) or catastrophic interference
由于数据分布的变化,模型会随着时间的推移而变得不那么精确—这一现象称为概念漂移。现有的方法不能有效地保留以前学到的知识并同时适应新的信息。
最简单的,从头开始重新训练模型以适应新的任务(或新的数据分布),是昂贵和耗时的,容量饱和和模型扩展问题也扩大了这个问题。
具体地说,参数模型在学习具有不同分布的数据样本或通过一系列任务进行处理时,最终到达不能存储更多知识的点-即其表示能力接近极限。在这一点上,要么扩展了模型的容 ...