智能论文笔记

An Empirical Study on the Usage of Automated Machine Learning Tools

Forough Majidi , Moses Openja , Foutse Khomh , Heng Li

分类：人工智能 | 机器学习

2022-08-28

在过去几年中，自动化机器学习（AUTOML）工具的普及有所增加。机器学习（ML）从业人员使用自动工具来自动化和优化功能工程，模型培训和超参数优化的过程。最近的工作对从业人员使用汽车工具的经验进行了定性研究，并根据其性能和提供的功能比较了不同的汽车工具，但是现有的工作都没有研究在大规模实际项目中使用Automl工具的实践。因此，我们进行了一项实证研究，以了解ML从业者如何在其项目中使用汽车工具。为此，我们在GitHub上托管的大量开源项目存储库中研究了最常用的十大汽车工具及其各自的用法。我们研究的结果表明1）ML从业人员主要使用哪种汽车工具，以及2）使用这些汽车工具的存储库的特征。此外，我们确定了使用Automl工具的目的（例如，模型参数采样，搜索空间管理，模型评估/错误分析，数据/功能转换和数据标记）以及ML管道的阶段（例如功能工程）使用工具。最后，我们报告在同一源代码文件中使用Automl工具的频率。我们希望我们的结果可以帮助ML从业人员了解不同的汽车工具及其使用情况，以便他们可以为其目的选择正确的工具。此外，Automl工具开发人员可以从我们的发现中受益，以深入了解其工具的用法并改善其工具以更好地适合用户的用法和需求。

translated by 谷歌翻译

HTML版本

An Empirical Study of Challenges in Converting Deep Learning Models

Moses Openja , Amin Nikanjam , Ahmed Haj Yahmed , Foutse Khomh , Zhen Ming , Jiang

分类：机器学习

2022-06-28

在现实世界应用程序中部署深度学习（DL）的软件系统有所增加。通常，DL模型是使用具有自己的内部机制/格式来代表和训练DL模型的DL框架开发和培训的，通常这些格式无法通过其他框架识别。此外，训练有素的模型通常被部署在与开发的环境不同的环境中。为了解决互操作性问题并使DL模型与不同的框架/环境兼容，引入了一些交换格式，例如ONNX和Coreml等DL模型。但是，社区从未对ONNX和Coreml进行经验评估，以揭示其转换后的预测准确性，性能和稳健性。转换模型的准确性差或不稳定行为可能导致部署的基于DL的软件系统的质量差。在本文中，我们进行了第一项评估ONNX和Coreml的经验研究，以转换训练有素的DL模型。在我们的系统方法中，两个流行的DL框架Keras和Pytorch用于在三个流行数据集上训练五种广泛使用的DL模型。然后将训练有素的模型转换为ONNX和Coreml，并将其转移到待评估该格式的两个运行时环境中。我们研究转换之前和之后的预测准确性。我们的结果揭示了转换模型的预测准确性在相同的原始级别。也研究了转换模型的性能（时间成本和内存消耗）。转换后模型的大小减小，这可能导致基于DL的软件部署。通常将转换的模型评估为在相同级别的原始级别上。但是，获得的结果表明，与ONNX相比，Coreml模型更容易受到对抗攻击的影响。

translated by 谷歌翻译

A Characterization of List Learnability

Moses Charikar , Chirag Pabbaraju

分类： (统计)机器学习 | 机器学习

2022-11-07

A classical result in learning theory shows the equivalence of PAC learnability of binary hypothesis classes and the finiteness of VC dimension. Extending this to the multiclass setting was an open problem, which was settled in a recent breakthrough result characterizing multiclass PAC learnability via the DS dimension introduced earlier by Daniely and Shalev-Shwartz. In this work we consider list PAC learning where the goal is to output a list of $k$ predictions. List learning algorithms have been developed in several settings before and indeed, list learning played an important role in the recent characterization of multiclass learnability. In this work we ask: when is it possible to $k$-list learn a hypothesis class? We completely characterize $k$-list learnability in terms of a generalization of DS dimension that we call the $k$-DS dimension. Generalizing the recent characterization of multiclass learnability, we show that a hypothesis class is $k$-list learnable if and only if the $k$-DS dimension is finite.

translated by 谷歌翻译

Frontiers in Collective Intelligence: A Workshop Report

Tyler Millhouse , Melanie Moses , Melanie Mitchell

分类：人工智能

2021-12-13

2021年8月，圣达菲研究所举办了一个关于集体智力的研讨会，是智力项目基础的一部分。该项目旨在通过促进智能性质的跨学科研究来推进人工智能领域。该研讨会汇集了计算机科学家，生物学家，哲学家，社会科学家和其他人，以分享他们对多种代理人之间的互动产生的洞察力的见解 - 是否这些代理商是机器，动物或人类。在本报告中，我们总结了每个会谈和随后的讨论。我们还借出了许多关键主题，并确定未来研究的重要前沿。

translated by 谷歌翻译

Organ localisation using supervised and semi supervised approaches combining reinforcement learning with imitation learning

Sankaran Iyer , Alan Blair , Laughlin Dawes , Daniel Moses , Christopher White , Arcot Sowmya

分类：计算机视觉 | 机器学习

2021-12-06

计算机辅助诊断通常需要分析放射学扫描内的感兴趣区域（ROI），并且ROI可以是器官或子机构。虽然深入学习算法具有优于其他方法的能力，但它们依赖于大量注释数据的可用性。通过解决这一限制的需要，这里提出了一种基于监督和半监督学习的多个器官的定位和检测的方法。它借鉴了作者在CT图像中定位胸椎和腰椎区域的工作者。该方法生成六个感兴趣的器官的边界框，然后将其融合到单个边界框。使用受监督和半监督学习（SSL）在CT图像中的脾脏，左和右肾定位的实验结果证明了与其他状态相比，以更小的数据集和更少的注释来解决数据限制的能力。最新方法。使用三种不同的标记和未标记的数据（即30：70,35：65,40：60）评估SSL性能，分别为腰椎，脾脏左和右肾的每种。结果表明，SSL提供了可行的替代方案，特别是在医学成像中，难以获得注释数据。

translated by 谷歌翻译

Hexagonal Flanks, Confocal Parabolas, and a Focal Equilateral

Peter Moses , Dan Reznik

分类：机器人

2021-12-03

我们描述了平铺的“侧翼”三角形和常规六边形的好奇特性，包括（i）在固定六边形周围的侧翼的侧翼的普通突出（II）保护中的常见六边形（II）保护，（iii）能够建立无限的能力栅格或平铺，（iv）共聚焦抛物线的家庭编织成平铺，其（v）三个不同的焦点是等边的顶点。

translated by 谷歌翻译

CytoImageNet: A large-scale pretraining dataset for bioimage transfer learning

Stanley Bryan Z. Hua , Alex X. Lu , Alan M. Moses

分类：计算机视觉 | 人工智能

2021-11-23

动机：近年来，基于形象的生物测定稳步成为高吞吐量，引发了快速自动化方法，以提取来自数百种图像的生物学有意义的信息。从想象成的成功取得灵感，我们驯服细胞造就花，一个公开源和弱标记的显微镜图像的大规模数据集（890K图像，894级）。预先训练的细胞造黄养箱产生了对上游显微镜分类任务的想象成特征具有竞争力的功能。我们展示了CytoImAgenet的证据表明，CytoImAgenet在想象中训练有素的功能中捕获信息不可用。数据集是在https://www.kaggle.com/stanleyhua/cyaagenet中提供的。

translated by 谷歌翻译

Near-Optimal Explainable $k$-Means for All Dimensions

Moses Charikar , Lunjia Hu

分类：机器学习 | (统计)机器学习

2021-06-29

许多聚类算法由某些成本函数引导，例如广泛使用的$ k $ -means成本。这些算法将数据点划分为具有经常复杂的边界的集群，在解释聚类决策时创造了困难。在最近的工作中，Dasgupta，Frost，Moshkovitz和Rashtchian（ICML 2020）引入了可解释的聚类，其中群集边界是轴并行超平面，并且通过将决策树应用于数据来获得群集。这里的核心问题是：解释性限制增加了多少成本函数的值？鉴于$ d $ -dimensional数据点，我们显示了一个有效的算法，该算法找到了可解释的群集，其$ k $ -means成本为$ k ^ {1 - 2 / d} \，\ mathrm {poly}（d \ log k）在没有可解释性约束的情况下，群集可实现的最低成本的$倍，假设$ k，d \ ge 2 $。通过Makarychev-Shan（ICML 2021），Gamlath-jia-polak-svensson（2021），或esfandiari-mirrokni - Narayanan（2021），我们得到了$ k ^ {1 - 2 / d} \，\ mathrm {polylog}（k）$的改进界限，我们为每种选择$ k，d \ ge 2 $最多可为$ k $的多对数因子。对于$ d = 2 $特别地，我们显示$ o（\ log k \ log \ log k）$绑定，在leaker和murtinho的$ o（k \ log k）$的以前最佳界限的近乎指数上（ICML 2021）。

translated by 谷歌翻译

Moses: Open source toolkit for statistical machine translation

分类：

We describe an open-source toolkit for statistical machine translation whose novel contributions are (a) support for linguistically motivated factors, (b) confusion network decoding, and (c) efficient data formats for translation models and language models. In addition to the SMT decoder, the toolkit also includes a wide variety of tools for training, tuning and applying the system to many translation tasks.

translated by 谷歌翻译