目的本文的目的是探讨哪些学术文章裁判的结构将更加关注,具体内容裁判的重点是哪些特定内容,以及中国的分布是否与引用有关。设计/方法/方法首先,利用节标题和分层注意网络模型(HAN)的特征单词来识别学术文章结构。其次,根据PRC中规则提取的位置信息在不同结构中的分布。第三,分析通过卡方检验和TF-IDF在不同结构中提取的PRC特征单词的分布。最后,使用四种相关分析方法来分析PRC在不同结构中的分布是否与引用相关。发现在材料和方法和结果部分中分布的PRC计数远远超过了引言和讨论的结构,这表明裁判员更多地关注材料,方法和结果。中国在不同结构中的特征单词的分布显然是不同的,这可以反映裁判员关注的内容。中国在不同结构中的分布与引用之间没有相关性。由于裁判员写同行评审报告的差异,研究的局限性/含义,用于提取位置信息的规则不能涵盖所有中国的所有中国。原创性/价值本文在不同的学术文章结构中发现了中国分布的一种模式,证明了长期的经验理解。它还提供了对学术文章写作的见解:研究人员应确保方法的科学性和撰写学术文章的结果的可靠性,以获得裁判的高度认可。
translated by 谷歌翻译
Future work sentences (FWS) are the particular sentences in academic papers that contain the author's description of their proposed follow-up research direction. This paper presents methods to automatically extract FWS from academic papers and classify them according to the different future directions embodied in the paper's content. FWS recognition methods will enable subsequent researchers to locate future work sentences more accurately and quickly and reduce the time and cost of acquiring the corpus. The current work on automatic identification of future work sentences is relatively small, and the existing research cannot accurately identify FWS from academic papers, and thus cannot conduct data mining on a large scale. Furthermore, there are many aspects to the content of future work, and the subdivision of the content is conducive to the analysis of specific development directions. In this paper, Nature Language Processing (NLP) is used as a case study, and FWS are extracted from academic papers and classified into different types. We manually build an annotated corpus with six different types of FWS. Then, automatic recognition and classification of FWS are implemented using machine learning models, and the performance of these models is compared based on the evaluation metrics. The results show that the Bernoulli Bayesian model has the best performance in the automatic recognition task, with the Macro F1 reaching 90.73%, and the SCIBERT model has the best performance in the automatic classification task, with the weighted average F1 reaching 72.63%. Finally, we extract keywords from FWS and gain a deep understanding of the key content described in FWS, and we also demonstrate that content determination in FWS will be reflected in the subsequent research work by measuring the similarity between future work sentences and the abstracts.
translated by 谷歌翻译
随着文献资源的丰富,研究人员面临着信息爆炸和知识过载的不断增长的问题。为了帮助学者检索文学并成功获得知识,澄清学术文学中内容的语义结构已成为基本的研究问题。在识别学术文章中章节的结构功能的研究中,只有几项研究使用了深度学习模型,并探索了特征输入的优化。这限制了研究任务深度学习模型的应用,优化潜力。本文将ACL会议的文章作为语料库。我们采用传统的机器学习模型和深度学习模型,基于各种特征输入构建分类器。实验结果表明,(1)与章节内容相比,章节标题更有利于识别学术文章的结构功能。 (2)相对位置是建立传统模型的有价值的功能。 (3)受到(2)的启发,本文进一步将上下文信息引入深度学习模型,取得了显着的结果。同时,我们的模型在包含200个采样的非训练样本的开放式测试中显示出良好的迁移能力。近五年我们还基于表演模型的最佳实践,并对整体语料库进行了时间序列分析,近五年注释了ACL主要会议文件。这项工作通过多个比较实验探索并总结了此任务的实际功能和模型,并为相关文本分类任务提供了参考。最后,我们表示当前模型的局限性和缺点以及进一步优化的方向。
translated by 谷歌翻译
同行评审是一项广泛接受的研究评估机制,在学术出版中发挥关键作用。然而,批评已经长期升级了这种机制,主要是因为它的低效率和主体性。近年来已经看到人工智能(AI)在协助同行评审过程中的应用。尽管如此,随着人类的参与,这种限制仍然是不可避免的。在本文中,我们提出了自动化学术纸质审查(ASPR)的概念,并审查了相关的文献和技术,讨论实现全面的计算机化审查流程的可能性。我们进一步研究了现有技术ASPR的挑战。在审查和讨论的基础上,我们得出结论,ASPR的每个阶段都有相应的研究和技术。这验证了随着相关技术继续发展的长期可以实现ASPR。其实现中的主要困难在于不完美的文献解析和表示,数据不足,数据缺陷,人机互动和有缺陷的深度逻辑推理。在可预见的未来,ASPR和同行评审将在ASPR能够充分承担从人类的审查工作量之前以加强方式共存。
translated by 谷歌翻译
在科学研究中,该方法是解决科学问题和关键研究对象的必不可少手段。随着科学的发展,正在提出,修改和使用许多科学方法。作者在抽象和身体文本中描述了该方法的详细信息,并且反映该方法名称的学术文献中的关键实体称为方法实体。在大量的学术文献中探索各种方法实体有助于学者了解现有方法,为研究任务选择适当的方法并提出新方法。此外,方法实体的演变可以揭示纪律的发展并促进知识发现。因此,本文对方法论和经验作品进行了系统的综述,重点是从全文学术文献中提取方法实体,并努力使用这些提取的方法实体来建立知识服务。首先提出了本综述涉及的关键概念的定义。基于这些定义,我们系统地审查了提取和评估方法实体的方法和指标,重点是每种方法的利弊。我们还调查了如何使用提取的方法实体来构建新应用程序。最后,讨论了现有作品的限制以及潜在的下一步。
translated by 谷歌翻译
学术研究是解决以前从未解决过的问题的探索活动。通过这种性质,每个学术研究工作都需要进行文献审查,以区分其Novelties尚未通过事先作品解决。在自然语言处理中,该文献综述通常在“相关工作”部分下进行。鉴于研究文件的其余部分和引用的论文列表,自动相关工作生成的任务旨在自动生成“相关工作”部分。虽然这项任务是在10年前提出的,但直到最近,它被认为是作为科学多文件摘要问题的变种。然而,即使在今天,尚未标准化了自动相关工作和引用文本生成的问题。在这项调查中,我们进行了一个元研究,从问题制定,数据集收集,方法方法,绩效评估和未来前景的角度来比较相关工作的现有文献,以便为读者洞察到国家的进步 - 最内容的研究,以及如何进行未来的研究。我们还调查了我们建议未来工作要考虑整合的相关研究领域。
translated by 谷歌翻译
随着互联网技术的发展,信息超载现象变得越来越明显。用户需要花费大量时间来获取所需的信息。但是,汇总文档信息的关键词非常有助于用户快速获取和理解文档。对于学术资源,大多数现有研究通过标题和摘要提取关键纸张。我们发现引用中的标题信息还包含作者分配的密钥次。因此,本文使用参考信息并应用两种典型的无监督的提取方法(TF * IDF和Textrank),两个代表传统监督学习算法(NA \“IVE贝叶斯和条件随机场)和监督的深度学习模型(Bilstm- CRF),分析参考信息对关键症提取的具体性能。从扩大源文本的角度来提高关键术识别的质量。实验结果表明,参考信息可以提高精度,召回和F1自动关键肾上腺瓶在一定程度上提取。这表明了参考信息关于学术论文的关键症提取的有用性,并为以下关于自动关键正萃取的研究提供了新的想法。
translated by 谷歌翻译
法律判决预测是NLP,AI和法律联合领域最受欢迎的领域之一。通过法律预测,我们是指能够预测特定司法特征的智能系统,例如司法结果,司法阶级,可以预测特定案例。在这项研究中,我们使用AI分类器来预测巴西法律体系中的司法结果。为此,我们开发了一个文本爬网,以从巴西官方电子法律系统中提取数据。这些文本构成了二级谋杀和主动腐败案件的数据集。我们应用了不同的分类器,例如支持向量机和神经网络,通过分析数据集中的文本功能来预测司法结果。我们的研究表明,回归树,封闭的重复单元和分层注意力网络给出了不同子集的较高指标。作为最终目标,我们探讨了一种算法的权重,即分层注意力网络,以找到用于免除或定罪被告的最重要词的样本。
translated by 谷歌翻译
[目的]更好地了解在线评论,并帮助潜在的消费者,商人和产品制造商有效地获得用户对产品方面的评估,本文从在线评论的时间角度来探讨了用户关注和对产品方面的情感分布规律性。 [设计/方法/方法]在线评论的时间特征(购买时间和审核时间之间的购买时间,审核时间和时间间隔),类似的属性聚类以及属性级别的情感计算技术是基于340k智能手机评论来使用的在JD.com(中国著名的在线购物平台)的三种产品中,探讨了本文中用户对产品方面的关注和情感的分布规律。 [调查结果]经验结果表明,幂律分布可以符合用户对产品方面的关注,并且在短时间间隔发布的评论包含更多产品方面。此外,结果表明,在短时间间隔内,产品方面的用户情感值显着更高/较低,这有助于判断产品的优势和弱点。 [研究局限性]本文无法获得更多具有时间特征的产品的在线评论,以验证发现,因为对购物平台的评论的限制限制了。 [原创性/价值]这项工作揭示了用户对产品方面的关注和情感的分布规律,这在协助决策,优化审查演示和改善购物体验方面具有重要意义。
translated by 谷歌翻译
在临床研究和临床决策中,重要的是要知道学习是否发生或仅支持目前的特定疾病管理的护理标准。我们将这种变化定义为变换性和作为增量研究的支持。它通常需要大量的人类专业知识和时间来完成这些任务。教师意见为我们提供了一个关于研究挑战或仅确认建立研究的良好注释的语料库。在本研究中,提出了一种机器学习方法,以区分从增量临床证据的变化。摘要和2年窗口的文本被收集了培训临床研究的培训,由教师观察专家标记。我们通过随机林为分类器,达到0.755(0.705-0.875)的平均AUC的最佳性能,并引用句子作为该功能。结果表明,与抽象句不同,转型研究具有引用句子的典型语言模式。我们提供了一个有效的工具,用于识别这些临床证据挑战或仅确认临床医生和研究人员的索赔。
translated by 谷歌翻译
Open peer review is a growing trend in academic publications. Public access to peer review data can benefit both the academic and publishing communities. It also serves as a great support to studies on review comment generation and further to the realization of automated scholarly paper review. However, most of the existing peer review datasets do not provide data that cover the whole peer review process. Apart from this, their data are not diversified enough as they are mainly collected from the field of computer science. These two drawbacks of the currently available peer review datasets need to be addressed to unlock more opportunities for related studies. In response to this problem, we construct MOPRD, a multidisciplinary open peer review dataset. This dataset consists of paper metadata, multiple version manuscripts, review comments, meta-reviews, author's rebuttal letters, and editorial decisions. Moreover, we design a modular guided review comment generation method based on MOPRD. Experiments show that our method delivers better performance indicated by both automatic metrics and human evaluation. We also explore other potential applications of MOPRD, including meta-review generation, editorial decision prediction, author rebuttal generation, and scientometric analysis. MOPRD is a strong endorsement for further studies in peer review-related research and other applications.
translated by 谷歌翻译
社会科学的学术文献是记录人类文明并研究人类社会问题的文献。随着这种文献的大规模增长,快速找到有关相关问题的现有研究的方法已成为对研究人员的紧迫需求。先前的研究,例如SCIBERT,已经表明,使用特定领域的文本进行预训练可以改善这些领域中自然语言处理任务的性能。但是,没有针对社会科学的预训练的语言模型,因此本文提出了关于社会科学引文指数(SSCI)期刊上许多摘要的预培训模型。这些模型可在GitHub(https://github.com/s-t-full-text-knowledge-mining/ssci-bert)上获得,在学科分类和带有社会科学文学的抽象结构 - 功能识别任务方面表现出色。
translated by 谷歌翻译
在本文中,我们将科学文章分类为自然语言处理(NLP)和机器学习(ML)的科学文章(i)是否通过引入击败现有模型或的新型技术来扩展当前的最新技术是否(ii)他们是否主要批评现有的最新技术,即,它相对于某些属性(例如,错误的评估,错误的数据集,误导性的任务规范)不足。我们将(i)下的贡献称为具有\ enquote {正姿势}和(ii)下的贡献为具有\ enquote {负姿势}(对相关工作)。我们注释来自NLP和ML的1.5k纸以超过1.5k的论文来培训基于SCIBERT的模型,以自动根据其标题和抽象来预测论文的立场。然后,我们分析了NLP和ML的最后35年$ 35年以上的41k纸上的大规模趋势,发现随着时间的流逝,论文变得更加积极,但是负面论文也变得更加负面,我们观察到更多的负面论文,我们观察到了更多的负面论文。最近几年。在收到的引用方面,负面论文也更具影响力。
translated by 谷歌翻译
[目的]要理解句子的含义,人类可以专注于句子中的重要单词,这反映了我们的眼睛在不同的凝视时间或时间保持在每个单词上。因此,一些研究利用眼睛跟踪值来优化深度学习模型中的注意力机制。但是这些研究缺乏解释这种方法的合理性。需要探索注意力机制是否具有人类阅读的这一特征。 [设计/方法/方法]我们进行了有关情感分类任务的实验。首先,我们从两个开源的眼睛追踪语料库中获得了令人眼前一亮的值,以描述人类阅读的特征。然后,从情感分类模型中学到了每个句子的机器注意值。最后,进行了比较以分析机器注意值和眼睛跟踪值。 [发现]通过实验,我们发现注意机制可以集中在重要词,例如形容词,副词和情感词,这些单词对于判断情感分类任务的句子情感很有价值。它具有人类阅读的特征,重点是阅读时的句子中的重要单词。由于注意力机制的学习不足,有些单词被错误地集中了。眼睛跟踪值可以帮助注意机制纠正此错误并改善模型性能。 [原创性/价值]我们的研究不仅为使用眼睛追踪值的研究提供了合理的解释来优化注意力机制,而且还为注意力机制的解释性提供了新的灵感。
translated by 谷歌翻译
诸如学术文章和商业报告之类的长期文件一直是详细说明重要问题和需要额外关注的复杂主题的标准格式。自动汇总系统可以有效地将长文档置于简短而简洁的文本中,以封装最重要的信息,从而在帮助读者的理解中很重要。最近,随着神经体系结构的出现,已经做出了重大的研究工作,以推动自动文本摘要系统,以及有关将这些系统扩展到长期文档领域的挑战的大量研究。在这项调查中,我们提供了有关长期文档摘要的研究的全面概述,以及其研究环境的三个主要组成部分的系统评估:基准数据集,汇总模型和评估指标。对于每个组成部分,我们在长期汇总的背景下组织文献,并进行经验分析,以扩大有关当前研究进度的观点。实证分析包括一项研究基准数据集的内在特征,摘要模型的多维分析以及摘要评估指标的综述。根据总体发现,我们通过提出可能在这个快速增长的领域中提出未来探索的方向来得出结论。
translated by 谷歌翻译
期刊影响因素(JIF)通常等同于期刊质量和提交给该期刊的论文的同行评审质量。我们通过分析提交给1,644家医学和生命科学期刊的10,000个同行评审报告,研究了同行评审与JIF的内容之间的关联。两名研究人员手工编码了2,000个句子的随机样本。然后,我们训练了机器学习模型,以将所有187,240个句子分类为贡献或不为内容类别做出贡献。我们研究了JIF DICILES定义的十组期刊与使用线性混合效应模型的同行评审的内容之间的关联,并调整了评论的长度。 JIF的范围为0.21至74.70。同行评审长度从最低(单词中位数185)增加到JIF组(387个单词)。分配给不同内容类别的句子的比例甚至在JIF组中也有很大变化。为了彻底,与最低的JIF组相比,关于“材料和方法”的句子在最高的JIF期刊中更为普遍(7.8个百分点; 95%CI 4.9至10.7%)。 “演示和报告”的趋势朝相反的方向发展,最高的JIF期刊对此类内容的重视程度较小(差异-8.9%; 95%CI -11.3至-6.5%)。为了有助于,对更高的JIF期刊的评论更少关注“建议和解决方案”,而提供的示例少于较低的影响因素期刊。对于其他内容类别而言,没有,或者只有很小的差异。总之,在讨论使用的方法时,在提出解决方案和提供示例方面,在讨论所使用的方法但较小的帮助时,较高的JIF期刊的同行评审往往更为透彻。差异是适度的,可变性很高,表明JIF是对单个手稿的同伴评论质量的不良预测指标。
translated by 谷歌翻译
多文件摘要(MDS)是信息聚合的有效工具,它从与主题相关文档集群生成信息和简洁的摘要。我们的调查是,首先,系统地概述了最近的基于深度学习的MDS模型。我们提出了一种新的分类学,总结神经网络的设计策略,并进行全面的最先进的概要。我们突出了在现有文献中很少讨论的各种客观函数之间的差异。最后,我们提出了与这个新的和令人兴奋的领域有关的几个方向。
translated by 谷歌翻译
The number of scientific publications continues to rise exponentially, especially in Computer Science (CS). However, current solutions to analyze those publications restrict access behind a paywall, offer no features for visual analysis, limit access to their data, only focus on niches or sub-fields, and/or are not flexible and modular enough to be transferred to other datasets. In this thesis, we conduct a scientometric analysis to uncover the implicit patterns hidden in CS metadata and to determine the state of CS research. Specifically, we investigate trends of the quantity, impact, and topics for authors, venues, document types (conferences vs. journals), and fields of study (compared to, e.g., medicine). To achieve this we introduce the CS-Insights system, an interactive web application to analyze CS publications with various dashboards, filters, and visualizations. The data underlying this system is the DBLP Discovery Dataset (D3), which contains metadata from 5 million CS publications. Both D3 and CS-Insights are open-access, and CS-Insights can be easily adapted to other datasets in the future. The most interesting findings of our scientometric analysis include that i) there has been a stark increase in publications, authors, and venues in the last two decades, ii) many authors only recently joined the field, iii) the most cited authors and venues focus on computer vision and pattern recognition, while the most productive prefer engineering-related topics, iv) the preference of researchers to publish in conferences over journals dwindles, v) on average, journal articles receive twice as many citations compared to conference papers, but the contrast is much smaller for the most cited conferences and journals, and vi) journals also get more citations in all other investigated fields of study, while only CS and engineering publish more in conferences than journals.
translated by 谷歌翻译
专利数据已用于工程设计研究,因为它包含大量的设计信息。人工智能和数据科学的最新进展呈现了我前所未有的机会,分析和对专利数据感开发设计理论和方法。在此,我们通过他们的贡献来调查专利设计文献,以设计理论,方法,工具和策略,以及不同形式的专利数据和各种方法。我们的评论阐明了对该领域的未来研究方向的光临。
translated by 谷歌翻译
为什么有些事情在想法的市场中取得成功?虽然一些人认为内容推动成功,但其他人建议展示风格,或者思想的方式,也起到了重要作用。为了提供严谨的风格的重要性,我们将其审视内容应该是至关重要的:学术研究。虽然科学家们经常看到作为一种无私的方式,但多种方法调查表明写作风格的影响。从内容中分离风格可能是易于使用某些语言的论文也可能写出某些主题。因此,我们专注于链接到风格的独特单词(即,诸如“的功能词,”,“和”开启“),这些单词完全没有内容。来自一系列学科的自然语言处理近30,000篇文章发现功能词解释了13-27%的语言对引用的影响。辅助分析探讨了特定类别的功能词语,以表达风格的重要事项,突出了写作简单,个人声音和时间视角的作用。实验进一步强调了风格的因果影响。结果表明如何提高通信的影响并突出自然语言处理的价值,以了解思想成功。
translated by 谷歌翻译