智能论文笔记

Tensor Processing Primitives: A Programming Abstraction for Efficiency and Portability in Deep Learning & HPC Workloads

Evangelos Georganas , Dhiraj Kalamkar , Sasikanth Avancha , Menachem Adelman , Deepti Aggarwal , Cristina Anderson , Alexander Breuer , Jeremy Bruestle , Narendra Chaudhary , Abhisek Kundu

分类：人工智能

2021-04-12

在过去十年中，已经开发出新的深度学习（DL）算法，工作负载和硬件来解决各种问题。尽管工作量和硬件生态系统的进步，DL系统的编程方法是停滞不前的。 DL工作负载从DL库中的高度优化，特定于平台和不灵活的内核，或者在新颖的操作员的情况下，通过具有强大性能的DL框架基元建立参考实现。这项工作介绍了Tensor加工基元（TPP），一个编程抽象，用于高效的DL工作负载的高效，便携式实现。 TPPS定义了一组紧凑而多才多艺的2D张镜操作员（或虚拟张量ISA），随后可以用作构建块，以在高维张量上构建复杂的运算符。 TPP规范是平台 - 不可行的，因此通过TPPS表示的代码是便携式的，而TPP实现是高度优化的，并且特定于平台。我们展示了我们使用独立内核和端到端DL＆HPC工作负载完全通过TPPS表达的方法的效力和生存性，这在多个平台上优于最先进的实现。

translated by 谷歌翻译

Named Entity Recognition in Indian court judgments

Prathamesh Kalamkar , Astha Agarwal , Aman Tiwari , Smita Gupta , Saurabh Karn , Vivek Raghavan

分类：自然语言处理 | 人工智能

2022-11-07

Identification of named entities from legal texts is an essential building block for developing other legal Artificial Intelligence applications. Named Entities in legal texts are slightly different and more fine-grained than commonly used named entities like Person, Organization, Location etc. In this paper, we introduce a new corpus of 46545 annotated legal named entities mapped to 14 legal entity types. The Baseline model for extracting legal named entities from judgment text is also developed.

translated by 谷歌翻译

Corpus for Automatic Structuring of Legal Documents

Prathamesh Kalamkar , Aman Tiwari , Astha Agarwal , Saurabh Karn , Smita Gupta , Vivek Raghavan , Ashutosh Modi

分类：自然语言处理 | 人工智能 | 机器学习

2022-01-31

在人口稠密的国家中，悬而未决的法律案件呈指数增长。需要开发处理和组织法律文件的技术。在本文中，我们引入了一个新的语料库来构建法律文件。特别是，我们介绍了用英语的法律判断文件进行的，这些文件被分割为局部和连贯的部分。这些零件中的每一个都有注释，标签来自预定义角色的列表。我们开发基线模型，以根据注释语料库自动预测法律文档中的修辞角色。此外，我们展示了修辞角色在提高总结和法律判断预测任务的绩效方面的应用。我们发布了语料库和基线模型代码以及纸张。

translated by 谷歌翻译

Variational Learning for Unsupervised Knowledge Grounded Dialogs

Mayank Mishra , Dhiraj Madan , Gaurav Pandey , Danish Contractor

分类：自然语言处理 | 机器学习

2021-11-23

最近的知识接地对话框方法通过从外部文本文档中包含信息来生成响应。这些方法不需要在训练期间知道确切的文件，并依赖于使用检索系统来从大型索引获取相关文档。用于生成响应的文档被建模为潜在的变量，其先验概率需要估计。诸如rag等型号，在从索引中检索的文档上边缘化文档概率，以定义对端到端优化的日志似然丢失函数。在本文中，我们开发了上述技术的变分方法，据称，我们最大化证据下限（ELBO）。使用三个公开可用的开放式对话数据集的集合，我们展示了与地面真相响应的信息的后部分布如何允许在训练期间更好地逼近客观函数。为了克服与大型知识收集相关的抽样相关的挑战，我们开发了一种高效的方法来近似eLBO。据我们所知，我们是第一个适用于开放式无监督知识接地对话系统的变分培训。

translated by 谷歌翻译

An Information Retrieval Approach to Building Datasets for Hate Speech Detection

Md Mustafizur Rahman , Dinesh Balakrishnan , Dhiraj Murthy , Mucahid Kutlu , Matthew Lease

分类：自然语言处理

2021-06-17

构建用于仇恨语音检测的基准数据集具有各种挑战。首先，因为仇恨的言论相对少见，随机抽样对诠释的推文是非常效率的发现仇恨。为了解决此问题，先前的数据集通常仅包含匹配已知的“讨厌字”的推文。然而，将数据限制为预定义的词汇表可能排除我们寻求模型的现实世界现象的部分。第二个挑战是仇恨言论的定义往往是高度不同和主观的。具有多种讨论仇恨言论的注释者可能不仅可能不同意彼此不同意，而且还努力符合指定的标签指南。我们的重点识别是仇恨语音的罕见和主体性类似于信息检索（IR）中的相关性。此连接表明，可以有效地应用创建IR测试集合的良好方法，以创建更好的基准数据集以进行仇恨语音。为了智能和有效地选择要注释的推文，我们应用{\ em汇集}和{em主动学习}的标准IR技术。为了提高注释的一致性和价值，我们应用{\ EM任务分解}和{\ EM注释器理由}技术。我们在Twitter上共享一个用于仇恨语音检测的新基准数据集，其提供比以前的数据集更广泛的仇恨覆盖。在这些更广泛形式的仇恨中测试时，我们还表现出现有检测模型的准确性的戏剧性降低。注册器理由我们不仅可以证明标签决策证明，而且还可以在建模中实现未来的双重监督和/或解释生成的工作机会。我们的方法的进一步细节可以在补充材料中找到。

translated by 谷歌翻译

Providentia -- A Large-Scale Sensor System for the Assistance of Autonomous Vehicles and Its Evaluation

Annkathrin Krämmer , Christoph Schöller , Dhiraj Gulati , Venkatnarayanan Lakshminarasimhan , Franz Kurz , Dominik Rosenbaum , Claus Lenz , Alois Knoll

分类：机器人 | 计算机视觉

2019-06-16

自主车辆的环境感知受其物理传感器范围和算法性能的限制，以及通过降低其对正在进行的交通状况的理解的闭塞。这不仅构成了对安全和限制驾驶速度的重大威胁，而且它也可能导致不方便的动作。智能基础设施系统可以帮助缓解这些问题。智能基础设施系统可以通过在当前交通情况的数字模型的形式提供关于其周围环境的额外详细信息，填补了车辆的感知中的差距并扩展了其视野。数字双胞胎。然而，这种系统的详细描述和工作原型表明其可行性稀缺。在本文中，我们提出了一种硬件和软件架构，可实现这样一个可靠的智能基础架构系统。我们在现实世界中实施了该系统，并展示了它能够创建一个准确的延伸高速公路延伸的数字双胞胎，从而提高了自主车辆超越其车载传感器的极限的感知。此外，我们通过使用空中图像和地球观测方法来评估数字双胞胎的准确性和可靠性，用于产生地面真理数据。

translated by 谷歌翻译