智能论文笔记

Multimodal Machine Learning for Automated ICD Coding

Keyang Xu , Mike Lam , Jingzhi Pang , Xin Gao , Charlotte Band , Piyush Mathur , Frank Papay , Ashish K. Khanna , Jacek B. Cywinski , Kamal Maheshwari

分类：机器学习 | (统计)机器学习

2018-10-31

这项研究提出了一个多模式的机器学习模型，以预测ICD-10诊断代码。我们开发了单独的机器学习模型，可以处理来自不同模式的数据，包括非结构化文本，半结构化文本和结构化表格数据。我们进一步采用了合奏方法来集成所有模式特异性模型以生成ICD-10代码。还提取了主要证据，以使我们的预测更具说服力和可解释。我们使用医学信息集市进行重症监护III（模拟-III）数据集来验证我们的方法。对于ICD代码预测，我们的表现最佳模型（Micro-F1 = 0.7633，Micro-AUC = 0.9541）显着超过其他基线模型，包括TF-IDF（Micro-F1 = 0.6721，Micro-AUC = 0.7879）和Text-CNN模型（Micro-F1 = 0.6569，Micro-AUC = 0.9235）。为了解释性，我们的方法在文本数据上实现了JACCARD相似性系数（JSC）为0.1806，在表格数据上分别获得了0.3105，训练有素的医生分别达到0.2780和0.5002。

translated by 谷歌翻译

Securing Federated Learning against Overwhelming Collusive Attackers

Priyesh Ranjan , Ashish Gupta , Federico Corò , Sajal K. Das

分类：机器学习

2022-09-28

在数据驱动的社会的时代，物联网（IoT）设备的无处不在，存储在不同地方的大量数据，分布式学习已获得了很多吸引力，但是，假设具有独立和相同分布的数据（IID）跨设备。在放松这种假设的同时，由于设备的异质性质，无论如何都无法实现现实，但Federated Learnation（FL）已成为一种保护隐私的解决方案，可以训练与大量设备分布的非IID数据进行协作模型。但是，由于不受限制的参与，打算破坏FL模型的恶意设备（攻击者）的出现是不可避免的。在这项工作中，我们旨在确定此类攻击者并减轻对模型的影响，从本质上讲，在双向标签与勾结的翻转攻击的情况下。我们通过利用本地模型之间的相关性来提出两种基于最小生成树和k-densest图的理论算法。即使攻击者最多占所有客户的70％，我们的FL模型也会消除攻击者的影响力，而先前的作品不能负担超过50％的客户作为攻击者。通过在两个基准数据集（即Mnist和Fashion-Mnist）的实验中确定我们算法的有效性，并具有压倒性的攻击者。我们使用准确性，攻击成功率和早期检测回合建立了算法优于现有算法的优势。

translated by 谷歌翻译

Raising the Bar on the Evaluation of Out-of-Distribution Detection

Jishnu Mukhoti , Tsung-Yu Lin , Bor-Chun Chen , Ashish Shah , Philip H. S. Torr , Puneet K. Dokania , Ser-Nam Lim

分类：计算机视觉 | 机器学习

2022-09-24

在图像分类中，在检测分布（OOD）数据时发生了许多发展。但是，大多数OOD检测方法是在一组标准数据集上评估的，该数据集与培训数据任意不同。没有明确的定义``好的''ood数据集。此外，最先进的OOD检测方法已经在这些标准基准上取得了几乎完美的结果。在本文中，我们定义了2类OOD数据使用与分布（ID）数据的感知/视觉和语义相似性的微妙概念。我们将附近的OOD样本定义为感知上相似但语义上与ID样本的不同，并将样本转移为视觉上不同但在语义上与ID相似的点数据。然后，我们提出了一个基于GAN的框架，用于从这两个类别中生成OOD样品，给定一个ID数据集。通过有关MNIST，CIFAR-10/100和Imagenet的广泛实验，我们表明A）在常规基准上表现出色的ART OOD检测方法对我们提出的基准测试的稳健性明显较小。 N基准测试，反之亦然，因此表明甚至可能不需要单独的OOD集来可靠地评估OOD检测中的性能。

translated by 谷歌翻译

Learning to Simulate Realistic LiDARs

Benoit Guillard , Sai Vemprala , Jayesh K. Gupta , Ondrej Miksik , Vibhav Vineet , Pascal Fua , Ashish Kapoor

分类：机器人 | 计算机视觉

2022-09-22

模拟逼真的传感器是自主系统数据生成的挑战，通常涉及精心手工的传感器设计，场景属性和物理建模。为了减轻这一点，我们引入了一条管道，用于对逼真的激光雷达传感器进行数据驱动的模拟。我们提出了一个模型，该模型可以在RGB图像和相应的LIDAR功能（例如Raydrop或每点强度）之间直接从真实数据集中进行映射。我们表明，我们的模型可以学会编码逼真的效果，例如透明表面上的掉落点或反射材料上的高强度回报。当应用于现成的模拟器软件提供的天真播放点云时，我们的模型通过根据场景的外观预测强度和删除点来增强数据，以匹配真实的激光雷达传感器。我们使用我们的技术来学习两个不同的LIDAR传感器的模型，并使用它们相应地改善模拟的LiDAR数据。通过车辆细分的示例任务，我们表明通过我们的技术增强模拟点云可以改善下游任务性能。

translated by 谷歌翻译

FedAR+: A Federated Learning Approach to Appliance Recognition with Mislabeled Data in Residential Buildings

Ashish Gupta , Hari Prabhat Gupta , Sajal K. Das

分类：机器学习

2022-09-03

随着人们的生活水平的增强和通信技术的快速增长，住宅环境变得聪明且连接，从而大大增加了整体能源消耗。由于家用电器是主要的能源消费者，因此他们的认可对于避免无人看管的用途至关重要，从而节省了能源并使智能环境更可持续。传统上，通过从客户（消费者）收集通过智能插头记录的电力消耗数据，在中央服务器（服务提供商）中培训设备识别模型，从而导致隐私漏洞。除此之外，当设备连接到非指定的智能插头时，数据易受嘈杂的标签。在共同解决这些问题的同时，我们提出了一种新型的联合学习方法来识别设备识别，即Fedar+，即使使用错误的培训数据，也可以以隐私的方式跨客户进行分散的模型培训。 Fedar+引入了一种自适应噪声处理方法，本质上是包含权重和标签分布的关节损耗函数，以增强设备识别模型的能力，以抵制嘈杂标签。通过将智能插头部署在公寓大楼中，我们收集了一个标记的数据集，该数据集以及两个现有数据集可用于评估Fedar+的性能。实验结果表明，我们的方法可以有效地处理高达$ 30 \％$的嘈杂标签，同时以较大的准确性优于先前的解决方案。

translated by 谷歌翻译

IterMiUnet: A lightweight architecture for automatic blood vessel segmentation

Ashish Kumar , R. K. Agrawal , Leve Joseph

分类：计算机视觉 | 机器学习

2022-08-02

眼底图像中血管的自动分割可以帮助分析视网膜脉管系统的状况，这对于确定各种全身性疾病（如高血压，糖尿病等）至关重要大量参数化，因此在实际应用中使用有限。本文提出了Itermiunet，这是一种新的基于轻量级卷积的细分模型，需要更少的参数，但提供了类似于现有模型的性能。该模型利用了ITERNET体系结构的出色分割功能，但通过将Miunet模型的编码器解码器结合在其中克服了严重的参数化性质。因此，新模型可减少参数，而不会与网络的深度进行任何妥协，这对于在深模型中学习抽象的层次概念是必不可少的。这种轻巧的分割模型可以加快训练和推理时间的速度，并且在数据稀缺的医疗领域可能会有所帮助，因此，大量参数化的模型往往过于拟合。在三个公开可用的数据集上评估了所提出的模型：驱动器，凝视和Chase-DB1。还进行了进一步的交叉培训和评估者之间的变异性评估。提出的模型具有很大的潜力，可以用作早期诊断许多疾病的工具。

translated by 谷歌翻译

Beyond Low Earth Orbit: Biomonitoring, Artificial Intelligence, and Precision Space Health

Ryan T. Scott , Erik L. Antonsen , Lauren M. Sanders , Jaden J. A. Hastings , Seung-min Park , Graham Mackintosh , Robert J. Reynolds , Adrienne L. Hoarfrost , Aenor Sawyer , Casey S. Greene

分类：机器学习

2021-12-22

超越地球轨道的人类空间勘探将涉及大量距离和持续时间的任务。为了有效减轻无数空间健康危害，数据和空间健康系统的范式转移是实现地球独立性的，而不是Earth-Reliance所必需的。有希望在生物学和健康的人工智能和机器学习领域的发展可以解决这些需求。我们提出了一个适当的自主和智能精密空间健康系统，可以监控，汇总和评估生物医学状态;分析和预测个性化不良健康结果;适应并响应新累积的数据;并提供对其船员医务人员的个人深度空间机组人员和迭代决策支持的预防性，可操作和及时的见解。在这里，我们介绍了美国国家航空航天局组织的研讨会的建议摘要，以便在太空生物学和健康中未来的人工智能应用。在未来十年，生物监测技术，生物标志科学，航天器硬件，智能软件和简化的数据管理必须成熟，并编织成精确的空间健康系统，以使人类在深空中茁壮成长。

translated by 谷歌翻译

Beyond Low Earth Orbit: Biological Research, Artificial Intelligence, and Self-Driving Labs

Lauren M. Sanders , Jason H. Yang , Ryan T. Scott , Amina Ann Qutub , Hector Garcia Martin , Daniel C. Berrios , Jaden J. A. Hastings , Jon Rask , Graham Mackintosh , Adrienne L. Hoarfrost

分类：机器学习

2021-12-22

空间生物学研究旨在了解太空飞行对生物的根本影响，制定支持深度空间探索的基础知识，最终生物工程航天器和栖息地稳定植物，农作物，微生物，动物和人类的生态系统，为持续的多行星寿命稳定。要提高这些目标，该领域利用了来自星空和地下模拟研究的实验，平台，数据和模型生物。由于研究扩展到低地球轨道之外，实验和平台必须是最大自主，光，敏捷和智能化，以加快知识发现。在这里，我们介绍了由美国国家航空航天局的人工智能，机器学习和建模应用程序组织的研讨会的建议摘要，这些应用程序为这些空间生物学挑战提供了关键解决方案。在未来十年中，将人工智能融入太空生物学领域将深化天空效应的生物学理解，促进预测性建模和分析，支持最大自主和可重复的实验，并有效地管理星载数据和元数据，所有目标使生活能够在深空中茁壮成长。

translated by 谷歌翻译

NL-Augmenter: A Framework for Task-Sensitive Natural Language Augmentation

Kaustubh D. Dhole , Varun Gangal , Sebastian Gehrmann , Aadesh Gupta , Zhenhao Li , Saad Mahamood , Abinaya Mahendiran , Simon Mille , Ashish Srivastava , Samson Tan

分类：自然语言处理 | 人工智能 | 机器学习

2021-12-06

数据增强是自然语言处理（NLP）模型的鲁棒性评估的重要组成部分，以及增强他们培训的数据的多样性。在本文中，我们呈现NL-Cogmenter，这是一种新的参与式Python的自然语言增强框架，它支持创建两个转换（对数据的修改）和过滤器（根据特定功能的数据拆分）。我们描述了框架和初始的117个变换和23个过滤器，用于各种自然语言任务。我们通过使用其几个转换来分析流行自然语言模型的鲁棒性来证明NL-Upmenter的功效。基础架构，Datacards和稳健性分析结果在NL-Augmenter存储库上公开可用（\ url {https://github.com/gem-benchmark/nl-augmenter}）。

translated by 谷歌翻译

Computing the Performance of A New Adaptive Sampling Algorithm Based on The Gittins Index in Experiments with Exponential Rewards

James K. He , Sofía S. Villar , Lida Mavrogonatou

分类：机器学习

2023-01-03

Designing experiments often requires balancing between learning about the true treatment effects and earning from allocating more samples to the superior treatment. While optimal algorithms for the Multi-Armed Bandit Problem (MABP) provide allocation policies that optimally balance learning and earning, they tend to be computationally expensive. The Gittins Index (GI) is a solution to the MABP that can simultaneously attain optimality and computationally efficiency goals, and it has been recently used in experiments with Bernoulli and Gaussian rewards. For the first time, we present a modification of the GI rule that can be used in experiments with exponentially-distributed rewards. We report its performance in simulated 2- armed and 3-armed experiments. Compared to traditional non-adaptive designs, our novel GI modified design shows operating characteristics comparable in learning (e.g. statistical power) but substantially better in earning (e.g. direct benefits). This illustrates the potential that designs using a GI approach to allocate participants have to improve participant benefits, increase efficiencies, and reduce experimental costs in adaptive multi-armed experiments with exponential rewards.

translated by 谷歌翻译