人群顺序注释可能是一种有效且具有成本效益的方式,用于构建用于序列标签的大型数据集。不同于标记独立实例,对于人群顺序注释,标签序列的质量取决于注释者在捕获序列中每个令牌的内部依赖性方面的专业知识水平。在本文中,我们提出了与人群(SA-SLC)进行序列标记的序列注释。首先,开发了有条件的概率模型,以共同模拟顺序数据和注释者的专业知识,其中引入分类分布以估计每个注释者在捕获局部和非本地标签依赖性以进行顺序注释时的可靠性。为了加速所提出模型的边缘化,提出了有效的标签序列推理(VLSE)方法,以从人群顺序注释中得出有效的地面真相标签序列。 VLSE从令牌级别中得出了可能的地面真相标签,并在标签序列解码的正向推断中进一步介绍了李子标签。 VLSE减少了候选标签序列的数量,并提高了可能的地面真实标签序列的质量。自然语言处理的几个序列标记任务的实验结果显示了所提出的模型的有效性。
translated by 谷歌翻译
现有的部分序列标记模型主要集中在最大边缘框架上,该框架未能提供对预测的不确定性估计。此外,这些模型采用的独特地面真理歧义策略可能包括用于参数学习的错误标签信息。在本文中,我们提出了部分序列标签(SGPPSL)的结构化高斯过程,该过程编码了预测中的不确定性,并且不需要额外的努力来选择模型选择和超参数学习。该模型采用因子式近似,将线性链图结构划分为一组,从而保留了基本的马尔可夫随机场结构,并有效地避免处理由部分注释数据生成的大量候选输出序列。然后在模型中引入了置信度度量,以解决候选标签的不同贡献,这使得能够在参数学习中使用地面真相标签信息。基于所提出模型的变异下限的派生下限,在交替优化的框架中估计了变分参数和置信度度量。此外,提出了加权viterbi算法将置信度度量纳入序列预测,该预测考虑了训练数据中的多个注释,从而考虑了标签歧义,从而有助于提高性能。 SGPPSL在几个序列标记任务上进行了评估,实验结果显示了所提出的模型的有效性。
translated by 谷歌翻译
局部结构化输出学习的现有歧义策略不能很好地概括地解决有些候选人可能是假阳性或与地面真相标签相似的问题。在本文中,我们提出了针对部分结构化输出学习(WD-PSL)的新型弱歧义。首先,分段较大的边距公式被推广到部分结构化输出学习,该学习有效地避免处理大量的复杂结构候选结构化输出。其次,在拟议的弱歧义策略中,每个候选标签都具有一个置信值,表明其真实标签的可能性是多大的,该标签旨在减少学习过程中错误地面真相标签分配的负面影响。然后配制了两个大边缘,以结合两种类型的约束,这是候选人和非候选者之间的歧义,以及候选人的弱歧义。在交替优化的框架中,开发了一种新的2N-SLACK变量切割平面算法,以加速每种优化的迭代。自然语言处理的几个序列标记任务的实验结果显示了所提出的模型的有效性。
translated by 谷歌翻译
众包被视为有效监督学习的一个潜在解决方案,旨在通过人群工人建立大规模的注释培训数据。以前的研究重点是减少来自众包注释的噪音的影响。我们在这项工作中涉及不同的观点,关于所有众包作为个人注册人的金标。通过这种方式,我们发现众群可能与域适应高度相似,然后近域方法的最近进步几乎可以直接应用于众包。在这里,我们将命名实体识别(ner)作为一项研究案例,建议由尝试捕获有效域感知功能的域适配方法的吸引人感知表示学习模型。我们调查无监督和监督的众群学习,假设没有或只有小型专家注释。基准众包的实验结果表明,我们的方法非常有效,导致新的最先进的性能。此外,在监督环境下,我们只能通过非常小的专家注释来实现令人印象深刻的性能。
translated by 谷歌翻译
命名实体识别是一项信息提取任务,可作为其他自然语言处理任务的预处理步骤,例如机器翻译,信息检索和问题答案。命名实体识别能够识别专有名称以及开放域文本中的时间和数字表达式。对于诸如阿拉伯语,阿姆哈拉语和希伯来语之类的闪族语言,由于这些语言的结构严重变化,指定的实体识别任务更具挑战性。在本文中,我们提出了一个基于双向长期记忆的Amharic命名实体识别系统,并带有条件随机字段层。我们注释了一种新的Amharic命名实体识别数据集(8,070个句子,具有182,691个令牌),并将合成少数群体过度采样技术应用于我们的数据集,以减轻不平衡的分类问题。我们命名的实体识别系统的F_1得分为93%,这是Amharic命名实体识别的新最新结果。
translated by 谷歌翻译
情绪分析通常是许多注释器给出的主观标签的众群任务。尚未完全理解每个注释器的注释偏差如何使用最先进的方法正确建模。但是,精确且可靠地解决了注释偏见是了解注释器标记行为的关键,并成功解决有关注释任务的相应个人误解和不法行为。我们的贡献是精确神经端到端偏置建模和地面真理估计的解释和改进,这减少了对现有最先进的现有的不期望的不匹配。分类实验表明,在每个样品仅被一个单个注释器注释的情况下,它具有提高准确性。我们公开提供整个源代码,并释放包含10,000个句子的自己的域特定情绪数据集,讨论有机食品。这些蔓延从社交媒体上爬行,并由10名非专家注释器单独标记。
translated by 谷歌翻译
食源性疾病是一个严重但可以预防的公共卫生问题 - 延迟发现相关的暴发导致生产力损失,昂贵的召回,公共安全危害甚至生命丧失。尽管社交媒体是识别未报告的食源性疾病的有前途的来源,但缺乏标记的数据集来开发有效的爆发检测模型。为了加快基于机器学习的疫苗爆发检测模型的开发,我们提出了推文-FID(Tweet-Foodborne疾病检测),这是第一个用于多种食源性疾病事件检测任务的公开注释的数据集。从Twitter收集的Tweet-FID带有三个方面:Tweet类,实体类型和老虎机类型,并带有专家以及众包工人生产的标签。我们介绍了利用这三个方面的几个域任务:文本相关性分类(TRC),实体提及检测(EMD)和插槽填充(SF)。我们描述了用于支持这些任务模型开发的数据集设计,创建和标签的端到端方法。提供了这些任务的全面结果,以利用Tweet-FID数据集上的最新单项和多任务深度学习方法。该数据集为未来的Foodborne爆发检测提供了机会。
translated by 谷歌翻译
最先进的命名实体识别(NER)模型在很大程度上依赖于完全注释的培训数据。但是,AC可访问的数据通常是不完全注释的,注释者通常缺乏目标域中的全面知识。通常,默认情况下,未注释的代币被认为是非实体,而我们强调这些令牌可能是任何实体的非实体。在这里,我们使用不完整的带注释数据研究NER mod-Eling,其中只有一部分命名实体是la-bel的,并且未标记的令牌被每个可能的标签都刻有多标签。路径可以分散训练模型从金路径(地面真相标签序列)中分散注意力,从而阻碍了学习能力。在本文中,我们提出了称为自适应顶级助攻的Adak-ner,该模型集中在一个较小的可行重新上,其中黄金路径更有可能被宠爱。我们通过广泛的英语和中文数据集证明了UR方法的优势,平均在2003年的F-评分中可以提高2%的速度,而在两个中文数据集中则超过10%,与先前的最新作品相比。
translated by 谷歌翻译
Information Extraction (IE) aims to extract structured information from heterogeneous sources. IE from natural language texts include sub-tasks such as Named Entity Recognition (NER), Relation Extraction (RE), and Event Extraction (EE). Most IE systems require comprehensive understandings of sentence structure, implied semantics, and domain knowledge to perform well; thus, IE tasks always need adequate external resources and annotations. However, it takes time and effort to obtain more human annotations. Low-Resource Information Extraction (LRIE) strives to use unsupervised data, reducing the required resources and human annotation. In practice, existing systems either utilize self-training schemes to generate pseudo labels that will cause the gradual drift problem, or leverage consistency regularization methods which inevitably possess confirmation bias. To alleviate confirmation bias due to the lack of feedback loops in existing LRIE learning paradigms, we develop a Gradient Imitation Reinforcement Learning (GIRL) method to encourage pseudo-labeled data to imitate the gradient descent direction on labeled data, which can force pseudo-labeled data to achieve better optimization capabilities similar to labeled data. Based on how well the pseudo-labeled data imitates the instructive gradient descent direction obtained from labeled data, we design a reward to quantify the imitation process and bootstrap the optimization capability of pseudo-labeled data through trial and error. In addition to learning paradigms, GIRL is not limited to specific sub-tasks, and we leverage GIRL to solve all IE sub-tasks (named entity recognition, relation extraction, and event extraction) in low-resource settings (semi-supervised IE and few-shot IE).
translated by 谷歌翻译
大数据具有巨大的量,高速度,多样性,价值符合性和不确定性的特征,这些特征带领知识从他们那里学习充满了挑战。随着众包的出现,可以按需获得多功能信息,以便易于参与人群的智慧,以促进知识学习过程。在过去的十三年中,AI社区的研究人员竭尽全力消除人群学习领域的障碍。这份集中的调查论文全面回顾了从系统的角度来研究众包学习的技术进步,其中包括数据,模型和学习过程的三个维度。除了审查现有的重要工作外,本文还特别强调在每个维度上提供一些有希望的蓝图,并讨论从我们过去的研究工作中学到的经验教训,这将为新的研究人员提供道路,并鼓励他们追求新的研究。贡献。
translated by 谷歌翻译
注释数据是用于培训和评估机器学习模型的自然语言处理中的重要成分。因此,注释具有高质量是非常理想的。但是,最近的工作表明,几个流行的数据集包含令人惊讶的注释错误或不一致之处。为了减轻此问题,多年来已经设计了许多注释错误检测方法。尽管研究人员表明他们的方法在新介绍的数据集上效果很好,但他们很少将其方法与以前的工作或同一数据集进行比较。这引起了人们对方法的一般表现的强烈关注,并且使他们的优势和劣势很难解决。因此,我们重新实现18种检测潜在注释错误的方法,并在9个英语数据集上对其进行评估,以进行文本分类以及令牌和跨度标签。此外,我们定义了统一的评估设置,包括注释错误检测任务,评估协议和一般最佳实践的新形式化。为了促进未来的研究和可重复性,我们将数据集和实施释放到易于使用和开源软件包中。
translated by 谷歌翻译
弱监督指定的实体识别方法训练标签模型,以汇总多个嘈杂标签功能(LFS)的代币注释,而无需看到任何手动注释的标签。为了正常工作,标签模型需要在上下文上识别和强调表现出色的LF,同时降低表现不佳的情况。但是,由于缺乏地面真理,评估LFS是具有挑战性的。为了解决这个问题,我们提出了稀疏条件隐藏的马尔可夫模型(稀疏-CHMM)。稀疏-CHMM并没有将整个发射矩阵视为其他基于HMM的方法,而是专注于估计其对角线元素,这些元素被认为是LFS的可靠性得分。然后将稀疏分数扩展到具有预定义膨胀函数的全面发射矩阵。我们还通过加权XOR分数来增强发射,该分数跟踪LF观察不正确实体的概率。通过三阶段的训练管道通过无监督的学习来优化稀疏-CHMM,从而降低了训练难度并防止模型落入本地Optima。与扳手基准中的基线相比,稀疏-CHMM在五个综合数据集上取得了3.01的平均F1分数提高。实验表明,稀疏-CHMM的每个组件都是有效的,估计的LF可靠性与真实LF F1分数密切相关。
translated by 谷歌翻译
命名实体识别(NER)是自然语言处理中的重要任务。但是,传统的监督NER需要大规模注释的数据集。提出了远处的监督以减轻对数据集的巨大需求,但是以这种方式构建的数据集非常嘈杂,并且存在严重的未标记实体问题。交叉熵(CE)损耗函数对未标记的数据高度敏感,从而导致严重的性能降解。作为替代方案,我们提出了一种称为NRCES的新损失函数,以应对此问题。Sigmoid项用于减轻噪声的负面影响。此外,我们根据样品和训练过程平衡模型的收敛性和噪声耐受性。关于合成和现实世界数据集的实验表明,在严重的未标记实体问题的情况下,我们的方法表现出强大的鲁棒性,从而实现了现实世界数据集的新最新技术。
translated by 谷歌翻译
命名实体识别(ner)旨在标识在非结构化文本中的命名实体的提到,并将它们分类为预定义的命名实体类。尽管基于深度学习的预先训练的语言模型实现了良好的预测性能,但许多域特定的NERTASK仍然需要足够量的标记数据。主动学习(AL)是标签采集问题的一般框架,已用于NER任务,以最大限度地降低注释成本而不会牺牲模型性能。然而,令牌的严重不平衡的课程分布引入了设计有效的NER Querying方法的挑战。我们提出了al句子查询评估函数,这些函数更加关注可能的积极令牌,并评估基于句子和基于令牌的成本评估策略的这些提出的功能。我们还提出了更好的数据驱动的归一化方法来惩罚太长或太短的句子。我们在来自不同域的三个数据集上的实验表明,所提出的方法减少了带有常规方法的更好或可比预测性能的增注令牌的数量。
translated by 谷歌翻译
Selecting an effective training signal for tasks in natural language processing is difficult: collecting expert annotations is expensive, and crowd-sourced annotations may not be reliable. At the same time, recent work in machine learning has demonstrated that learning from soft-labels acquired from crowd annotations can be effective, especially when there is distribution shift in the test set. However, the best method for acquiring these soft labels is inconsistent across tasks. This paper proposes new methods for acquiring soft-labels from crowd-annotations by aggregating the distributions produced by existing methods. In particular, we propose to find a distribution over classes by learning from multiple-views of crowd annotations via temperature scaling and finding the Jensen-Shannon centroid of their distributions. We demonstrate that using these aggregation methods leads to best or near-best performance across four NLP tasks on out-of-domain test sets, mitigating fluctuations in performance when using the constituent methods on their own. Additionally, these methods result in best or near-best uncertainty estimation across tasks. We argue that aggregating different views of crowd-annotations as soft-labels is an effective way to ensure performance which is as good or better than the best individual view, which is useful given the inconsistency in performance of the individual methods.
translated by 谷歌翻译
在科学研究中,该方法是解决科学问题和关键研究对象的必不可少手段。随着科学的发展,正在提出,修改和使用许多科学方法。作者在抽象和身体文本中描述了该方法的详细信息,并且反映该方法名称的学术文献中的关键实体称为方法实体。在大量的学术文献中探索各种方法实体有助于学者了解现有方法,为研究任务选择适当的方法并提出新方法。此外,方法实体的演变可以揭示纪律的发展并促进知识发现。因此,本文对方法论和经验作品进行了系统的综述,重点是从全文学术文献中提取方法实体,并努力使用这些提取的方法实体来建立知识服务。首先提出了本综述涉及的关键概念的定义。基于这些定义,我们系统地审查了提取和评估方法实体的方法和指标,重点是每种方法的利弊。我们还调查了如何使用提取的方法实体来构建新应用程序。最后,讨论了现有作品的限制以及潜在的下一步。
translated by 谷歌翻译
Distantly-Supervised Named Entity Recognition (DS-NER) effectively alleviates the data scarcity problem in NER by automatically generating training samples. Unfortunately, the distant supervision may induce noisy labels, thus undermining the robustness of the learned models and restricting the practical application. To relieve this problem, recent works adopt self-training teacher-student frameworks to gradually refine the training labels and improve the generalization ability of NER models. However, we argue that the performance of the current self-training frameworks for DS-NER is severely underestimated by their plain designs, including both inadequate student learning and coarse-grained teacher updating. Therefore, in this paper, we make the first attempt to alleviate these issues by proposing: (1) adaptive teacher learning comprised of joint training of two teacher-student networks and considering both consistent and inconsistent predictions between two teachers, thus promoting comprehensive student learning. (2) fine-grained student ensemble that updates each fragment of the teacher model with a temporal moving average of the corresponding fragment of the student, which enhances consistent predictions on each model fragment against noise. To verify the effectiveness of our proposed method, we conduct experiments on four DS-NER datasets. The experimental results demonstrate that our method significantly surpasses previous SOTA methods.
translated by 谷歌翻译
To effectively train accurate Relation Extraction models, sufficient and properly labeled data is required. Adequately labeled data is difficult to obtain and annotating such data is a tricky undertaking. Previous works have shown that either accuracy has to be sacrificed or the task is extremely time-consuming, if done accurately. We are proposing an approach in order to produce high-quality datasets for the task of Relation Extraction quickly. Neural models, trained to do Relation Extraction on the created datasets, achieve very good results and generalize well to other datasets. In our study, we were able to annotate 10,022 sentences for 19 relations in a reasonable amount of time, and trained a commonly used baseline model for each relation.
translated by 谷歌翻译
由于互联网工作人员的不可靠性,很难满足众群项目,特别是当任务多次并且预算有限时。最近,元学习为少量学习带来了新的生命力,使得可以使用几个训练样本获得具有公平性能的分类器。在这里,我们介绍了由Meta学习训练的机器注释员的概念,用于适合AI的任务类型(即图像分类)。与常规人群工人不同,元工人可以是可靠的,稳定的,更重要的,不知疲倦和自由。我们首先群集未标记的数据,并要求人群工人反复注释集群中心附近的情况;然后,我们利用带注释的数据和元训练数据集来建立使用不同的元学习算法来构建一组元工人。随后,要求元工人注释剩余的众群任务。 Jensen-Shannon分歧用于衡量Meta-Workers提供的注释中的分歧,这决定了人群工人是否应被邀请进一步注释同一任务。最后,我们模拟了Meta-Workers的偏好并计算了加权多数投票的共识注释。我们的实证研究证实,通过组合机器和人类智能,我们可以完成比最先进的任务分配方法的预算较低的众群项目,同时实现了优越或相当的质量。
translated by 谷歌翻译
Labeling training data is increasingly the largest bottleneck in deploying machine learning systems. We present Snorkel, a first-of-its-kind system that enables users to train stateof-the-art models without hand labeling any training data. Instead, users write labeling functions that express arbitrary heuristics, which can have unknown accuracies and correlations. Snorkel denoises their outputs without access to ground truth by incorporating the first end-to-end implementation of our recently proposed machine learning paradigm, data programming. We present a flexible interface layer for writing labeling functions based on our experience over the past year collaborating with companies, agencies, and research labs. In a user study, subject matter experts build models 2.8× faster and increase predictive performance an average 45.5% versus seven hours of hand labeling. We study the modeling tradeoffs in this new setting and propose an optimizer for automating tradeoff decisions that gives up to 1.8× speedup per pipeline execution. In two collaborations, with the U.S. Department of Veterans Affairs and the U.S. Food and Drug Administration, and on four open-source text and image data sets representative of other deployments, Snorkel provides 132% average improvements to predictive performance over prior heuristic approaches and comes within an average 3.60% of the predictive performance of large hand-curated training sets.
translated by 谷歌翻译