第五届达观杯——风险事件标签识别比赛复盘
第五届达观杯Rank4——风险事件标签识别比赛复盘成绩:A榜第5,B榜第4,最终分数分别为:0.62411600、0.58140504
比赛链接:https://www.datafountain.cn/competitions/512
代码:https://github.com/Coding-Zuo/DaguanFengxian
赛题任务这个比赛的全名是叫:基于大规模预训练模型的风险事件标签识别,在技术层面上可以提取为两个任务,一个是预训练一个是文本分类。
针对预训练赛题方给了一个70g的无标注预训练文本,训练集有14009条,测试集6004条(包含AB榜数据)
赛题全部为脱敏数据(所有文字都转换成了数字表达)脱敏前的数据样例为:
资讯文本
风险事件标签
新冠肺炎疫情给美国劳动力市场造成巨大冲击,首次申请失业救济人数已经连续19周超过100万人,约为疫情暴发前平均水平的6倍
宏观_经济数据下滑
石化公司双苯厂发生爆炸事故,造成大量苯类污染物进入江河水体,造成重大环境污染
事故_生产设施
市场监管局执法人员对5家品牌奶茶店进行了检查,发现多家门店存在工作人员健康证 ...
Learning to Prompt for Continual Learning
Learning to Prompt for Continual Learning持续学习背后的主流范式是使模型参数适应非平稳数据分布,其中灾难性遗忘是核心挑战。
典型的方法依赖于测试时的预演缓冲区或已知的任务身份来检索学到的知识并解决遗忘问题,而这项工作提出了一种新的持续学习范式,旨在训练一个更简洁的记忆系统,而无需在测试时访问任务身份 .
我们的方法学习动态 prompt (L2P) 预训练模型以在不同的任务转换下按顺序学习任务。 在我们提出的框架中,prompt 是小的可学习参数,它们保存在内存空间中。 目标是优化 prompts 以指导模型预测并明确管理任务不变和任务特定的知识,同时保持模型的可塑性。
我们在具有不同挑战性的持续学习设置的流行图像分类基准下进行了综合实验,其中 L2P 始终优于先前的最先进方法。 令人惊讶的是,即使没有排练缓冲,L2P 也能与基于排练的方法取得有竞争力的结果,并且直接适用于具有挑战性的与任务无关的持续学习。
Introduction与在独立和同分布 (i.i.d.) 数据上训练的普通监督学习相反,持续学习解决了在顺序呈现不同分类任务的非平稳数据 ...
主动学习Active Learning调研
主动学习调研主动学习概念与目标主动学习是一种通过主动选择最有价值的样本进行标注的机器学习或人工智能方法。
其目的是使用尽可能少的、高质量的样本标注使模型达到尽可能好的性能,即最大限度地减少 oracle 和主动学习者之间的相互作用。也就是说,主动学习方法能够提高样本及标注的增益,在有限标注预算的前提下,最大化模型的性能,是一种从样本的角度,提高数据效率的方案,因而被应用在标注成本高、标注难度大等任务中。
下图是经典的基于池的主动学习框架。在每次的主动学习循环中,根据任务模型和无标签数据的信息,查询策略选择最有价值的样本交给专家进行标注并将其加入到有标签数据集中继续对任务模型进行训练。主动学习方法是一个迭代式的交互训练过程,主要由五个核心部分组成,包括:未标注样本池(unlabeled pool,记为U)、筛选策略(select queries,记为Q)、标注者(human annotator,记为S),标注数据集(labeled training set,记为L),目标模型(machine learning model,记为G)。
oracle 从主动学习者那里请求未标记的实例(查询 ...
Prompt tuning 调研
[TOC]
Prompt tuning调研基本介绍在海量数据上预训练 PLM,将其调整为下游任务,这已经成为NLP的典型范式(Fine tuning/微调/精调)。传统上,它通过特定任务的监督,优化PLM的所有参数。
然而,随着 PLM 参数的持续增长,全参数微调对于典型的范式和模型存储都变得难以承受。为了弥补这一缺陷,人们提出了许多参数高效的 tuning 方法,这些方法只调整几个参数,而保持大部分PLM参数的冻结。
在这些具有参数效率的微调变体中,Prompt Tuning 得到了广泛的关注,这是由 GPT-3 激发的。 它通过在输入文本之前给每个任务预留一个文本提示,并让 PLM 直接生成答案,从而展示了显著的【少样本】与【跨任务/domain迁移】性能。
Prompt 的突然兴起,主要是因为学者们把任务扩展到了NLU,之前大部分是做生成和信息抽取,而在统一了方法之后,现在可以做分类任务和匹配任务了,同时在少样本甚至全样本,能追上微调的效果。
Prompt的思想:设计不同的输入形态,激发语言模型的潜力,得到任务相关的输出,从而避免微调模式带来的灾难性遗忘问题。引用刘鹏飞博士放在博 ...
Auto-Encoding Variational Bayes
Auto-Encoding Variational Bayes在存在后验分布难以处理的连续隐变量和大数据集的情况下,我们如何在有向概率模型中进行有效的推理和学习?我们介绍了一种随机变分推理和学习算法,该算法可以扩展到大型数据集,在一些温和的可分性条件下,甚至可以在难以解决的情况下工作。
我们的贡献有两个方面。首先,我们表明,变分下限的重新参数化产生了一个下限估计器,可以使用标准的随机梯度方法直接优化。其次,我们表明,对于每个数据点具有连续潜变量的i.i.d.数据集,通过使用提议的下限估计器将近似推理模型(也称为识别模型)拟合到难以解决的后验中,可以使后验推理特别有效。理论上的优势反映在实验结果中。
Introduction如何才能对连续隐变量和/或参数具有难以处理的后验分布的有向概率模型进行有效的近似推理和学习?
变分贝叶斯(VB)方法涉及对难以处理的后验的近似进行优化。不幸的是,常见的均值场方法需要对近似后验的期望值进行分析解,这在一般情况下也是难以解决的。
我们展示了变分下限的重新参数化如何产生一个简单的可微分的无偏估计器;这个SGVB(随机梯度变分贝叶斯)估计器可用于几乎任何具有 ...
A Survey of Active Learning for Text Classification Using Deep Neural Networks
A Survey of dy for Text Classification Using Deep Neural Networks通过利用NN的卓越文本分类性能进行Active Learning (AL),我们可以使用相同数量的数据提高模型的性能,或者减少数据,从而减少所需的注释工作,同时保持相同的性能。
我们回顾了使用深度神经网络(DNNs)进行文本分类的AL,并阐述了阻碍其采用的两个主要原因:
NNs无法提供可靠的不确定性估计,这是最常用的查询策略所依赖的
在小数据上训练DNN的挑战。
为了研究前者,我们构建了一个查询策略分类,区分了基于数据、基于模型和基于预测的实例选择,并调查了这些类别在最近的研究中的流行情况。
通过利用NN的卓越文本分类性能进行AL,我们可以使用相同数量的数据提高模型的性能,或者减少数据,从而减少所需的注释工作,同时保持相同的性能。
最后,我们分析了AL在文本分类方面的最新工作,将各自的查询策略与分类法联系起来,并概述了它们的共性和不足。因此,我们强调了当前研究中的差距,并提出了开放的研究问题。
Introduction数据是机器学习应用的燃料,因此其价值 ...
ZeroPrompt- Scaling Prompt-Based Pretraining to 1,000 Tasks Improves Zero-Shot Generalization
ZeroPrompt: Scaling Prompt-Based Pretraining to 1,000 Tasks Improves Zero-Shot Generalization任务数量极大的情况下,模型大小对性能的影响很小…
论文地址: https://arxiv.org/pdf/2201.06910.pdf
XLNet作者杨植麟团队发布了首个中文多任务Prompt统一模型:ZeroPrompt。研究的重点是 【任务的规模】 和 【zero-shot】 的 prompting。
以前的模型只在几十个任务上进行训练,ZeroPrompt 使用真实世界的数据将其扩展到1000个任务(中文数据)。这导致了一个重要的发现,即任务规模可以成为模型尺寸的有效替代方案; 即,模型尺寸对大量任务的性能影响很小。
此外,该文还提出了一种结合了遗传算法来自动搜索 unseen 任务的最佳 prompt。
Introduction众所周知,prompt 可以激发语言模型的潜力,避免预训练和Fine tuning 之间的gap,并且是一个非常 Parameter-Efficient 的调整方法 ...
Prompt-Guided Few-Shot Event Detection
Prompt-Guided Few-Shot Event Detection长期以来,事件提取系统对大量人工注释的需求阻碍了其实际应用。
为了扩展到新的领域和事件类型,模型必须学会应对有限的监督,就像在few-shot环境中一样。
为此,主要的挑战是让模型掌握事件类型的语义,而不需要大量的事件注释。
在本文研究中,使用完形填空提示从预先训练的语言模型中引出与事件相关的知识,并进一步使用事件定义和关键词来确定触发词。
通过将事件检测任务描述为一个【先识别后定位】的过程,我们将类型特定参数的数量最小化,使我们的模型能够快速适应新类型的事件检测任务。
在三个事件检测基准数据集(ACE、FewEvent、MAVEN)上的实验表明,当每种事件类型仅提供5个示例时,我们提出的方法在完全监督设置下表现良好,并且在FewEvent数据集和MAVEN数据集上分别比现有的few-shot方法高出16%和23%。
Introduction理解事件是信息提取的核心,而事件检测是这一过程中不可避免的一步。事件检测的任务是定位事件触发器(即指示事件的最小词汇单位),并将触发器分类为给定的事件类型之一。尽管在充分监 ...
MetaPrompting: Learning to Learn Better Prompts
MetaPrompting: Learning to Learn Better Prompts
28实现strStr()——KMP
28实现strStr()——KMP28. 实现 strStr()朴素解法枚举原串 ss 中的每个字符作为【发起点】,每次从原串中的【发起点】和匹配串的首位,开始尝试匹配:
匹配成功:返回本次匹配的原串【发起点】
匹配失败:枚举原串的下一个【发起点】,重新尝试匹配
12345678910111213141516public int Strstr(String haystack, String needle){ int n = haystack.length(), m = needle.length(); for(int i=0;i<n;i++){ boolean flag = true; for(int j=0; j<m ; j++){ if(haystack.charAt(i+j) != needle.charAt(j)){ flag = false; break; } } if(flag) ...