智能论文笔记

Learning Generative Models for Active Inference using Tensor Networks

Samuel T. Wauthier , Bram Vanhecke , Tim Verbelen , Bart Dhoedt

分类：机器学习 | 人工智能

2022-08-18

主动推论为自主代理人的行为和学习提供了一个一般框架。它指出，代理商将尝试最大程度地减少其变异自由能，这是根据观察，内部状态和政策的信念定义的。传统上，必须手动指定离散主动推理模型的每个方面，即手动定义隐藏的状态空间结构以及所需的分布，例如可能性和过渡概率。最近，已经努力从使用深神经网络的观察结果自动学习状态空间表示。但是，这些模型通常被过度参数化，并可能过度拟合手头的数据。在本文中，我们提出了一种使用量子物理启发的张量网络的学习状态空间的新方法。张量网络代表量子状态的概率性质以及减少大状态空间的能力使张量网络成为自然推断的自然候选者。我们展示了如何将张量网络用作顺序数据的生成模型。此外，我们展示了如何从这种生成模型中获得信念，以及主动推理剂如何使用这些信念来计算预期的自由能。最后，我们演示了有关经典T迷宫环境的方法。

translated by 谷歌翻译

Matching Normalizing Flows and Probability Paths on Manifolds

Heli Ben-Hamu , Samuel Cohen , Joey Bose , Brandon Amos , Aditya Grover , Maximilian Nickel , Ricky T. Q. Chen , Yaron Lipman

分类： (统计)机器学习 | 机器学习

2022-07-11

连续归一化流（CNF）是一类生成模型，可以通过求解普通的微分方程（ODE）将先验分布转换为模型分布。我们建议通过最大程度地减少概率路径差异（PPD）来训练CNF，这是CNF产生的概率密度路径与目标概率密度路径之间的新型差异家族。 PPD是使用对数质量保护公式制定的，该公式是线性的一阶部分微分方程，将对数目标概率和CNF的定义向量场进行配方。 PPD比现有方法具有多个关键好处：它避免了在迭代中解决颂歌的需求，很容易应用于歧管数据，比例到高维度，并与大型目标路径兼容，该目标路径在有限的时间内插值纯噪声和数据。从理论上讲，PPD显示为结合经典概率差异。从经验上讲，我们表明，通过最小化PPD实现最新的CNF在现有的低维歧管基准上获得了最新的可能性和样品质量，并且是生成模型以扩展到中度高维歧管的第一个示例。

translated by 谷歌翻译

Benchopt: Reproducible, efficient and collaborative optimization benchmarks

Thomas Moreau , Mathurin Massias , Alexandre Gramfort , Pierre Ablin , Pierre-Antoine Bannier , Benjamin Charlier , Mathieu Dagréou , Tom Dupré la Tour , Ghislain Durif , Cassio F. Dantas

分类：机器学习 | (统计)机器学习

2022-06-27

数值验证是机器学习研究的核心，因为它允许评估新方法的实际影响，并确认理论和实践之间的一致性。然而，该领域的快速发展构成了一些挑战：研究人员面临着大量的方法来比较，有限的透明度和最佳实践的共识以及乏味的重新实施工作。结果，验证通常是非常部分的，这可能会导致错误的结论，从而减慢研究的进展。我们提出了Benchopt，这是一个协作框架，旨在在跨编程语言和硬件体系结构的机器学习中自动化，复制和发布优化基准。 Benchopt通过提供用于运行，共享和扩展实验的现成工具来简化社区的基准测试。为了展示其广泛的可用性，我们在三个标准学习任务上展示基准：$ \ ell_2 $ regulaine的逻辑回归，套索和RESNET18用于图像分类的培训。这些基准强调了关键的实际发现，这些发现对这些问题的最新问题更加细微，这表明在实际评估中，魔鬼在细节上。我们希望Benchopt能在社区中促进合作工作，从而改善研究结果的可重复性。

translated by 谷歌翻译

Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models

Aarohi Srivastava , Abhinav Rastogi , Abhishek Rao , Abu Awal Md Shoeb , Abubakar Abid , Adam Fisch , Adam R. Brown , Adam Santoro , Aditya Gupta , Adrià Garriga-Alonso

分类：自然语言处理 | 人工智能 | 机器学习 | (统计)机器学习

2022-06-09

语言模型既展示了定量的改进，又展示了新的定性功能，随着规模的增加。尽管它们具有潜在的变革性影响，但这些新能力的特征却很差。为了为未来的研究提供信息，为破坏性的新模型能力做准备，并改善社会有害的效果，至关重要的是，我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战，我们介绍了超越模仿游戏基准（Big Bench）。 Big Bench目前由204个任务组成，由132家机构的442位作者贡献。任务主题是多样的，从语言学，儿童发展，数学，常识性推理，生物学，物理学，社会偏见，软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号，Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为，跨越了数百万到数十亿个参数。此外，一个人类专家评估者团队执行了所有任务，以提供强大的基准。研究结果包括：模型性能和校准都随规模改善，但绝对的术语（以及与评估者的性能相比）；在模型类中的性能非常相似，尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分，而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标；社交偏见通常会随着含糊不清的环境而随着规模而增加，但这可以通过提示来改善。

translated by 谷歌翻译

A comparative study of paired versus unpaired deep learning methods for physically enhancing digital rock image resolution

Yufu Niu , Samuel J. Jackson , Naif Alqahtani , Peyman Mostaghimi , Ryan T. Armstrong

分类：计算机视觉

2021-12-16

X射线微型计算机断层扫描（Micro-CT）已被广泛利用，以在地下多孔岩石中表征孔隙尺度几何形状。使用深度学习的超分辨率（SR）方法的最新进程允许在大型空间尺度上进行数字增强低分辨率（LR）图像，从而创建与高分辨率（HR）地理真理相当的SR图像。这避免了传统的解决方案和视野折衷。出色的问题是使用配对（已注册的）LR和HR数据，这些数据通常需要在此类方法的训练步骤中，但难以获得。在这项工作中，我们严格比较两种不同的最先进的SR深度学习技术，使用两者和未配对数据，具有类似于类似的地面真理数据。第一方法需要配对的图像来训练卷积神经网络（CNN），而第二种方法使用未配对的图像来训练生成的对抗网络（GaN）。使用具有复杂的微孔纹理的微型CT碳酸盐岩样品进行比较两种方法。我们实现了基于图像的各种图像和数值验证和实验验证，以定量评估两种方法的物理精度和敏感性。我们的定量结果表明，未配对GaN方法可以将超分辨率图像重建为精确，如配对的CNN方法，具有可比的训练时间和数据集要求。这将使用未配对的深度学习方法解除微型CT图像增强的新应用;数据处理阶段不再需要图像注册。来自数据存储平台的解耦图像可以更有效地利用用于培训SR数字岩体应用的网络。这为异构多孔介质中的多尺度流模拟各种应用开辟了新的途径。

translated by 谷歌翻译

NL-Augmenter: A Framework for Task-Sensitive Natural Language Augmentation

Kaustubh D. Dhole , Varun Gangal , Sebastian Gehrmann , Aadesh Gupta , Zhenhao Li , Saad Mahamood , Abinaya Mahendiran , Simon Mille , Ashish Srivastava , Samson Tan

分类：自然语言处理 | 人工智能 | 机器学习

2021-12-06

数据增强是自然语言处理（NLP）模型的鲁棒性评估的重要组成部分，以及增强他们培训的数据的多样性。在本文中，我们呈现NL-Cogmenter，这是一种新的参与式Python的自然语言增强框架，它支持创建两个转换（对数据的修改）和过滤器（根据特定功能的数据拆分）。我们描述了框架和初始的117个变换和23个过滤器，用于各种自然语言任务。我们通过使用其几个转换来分析流行自然语言模型的鲁棒性来证明NL-Upmenter的功效。基础架构，Datacards和稳健性分析结果在NL-Augmenter存储库上公开可用（\ url {https://github.com/gem-benchmark/nl-augmenter}）。

translated by 谷歌翻译

Shape-Dependent Multi-Weight Magnetic Artificial Synapses for Neuromorphic Computing

Thomas Leonard , Samuel Liu , Mahshid Alamdar , Can Cui , Otitoaleke G. Akinola , Lin Xue , T. Patrick Xiao , Joseph S. Friedman , Matthew J. Marinella , Christopher H. Bennett

分类：神经与进化计算

2021-11-22

在神经形态计算中，人工突触提供了一种基于来自神经元的输入来设置的多重导电状态，类似于大脑。可能需要超出多重权重的突触的附加属性，并且可以取决于应用程序，需要需要从相同材料生成不同的突触行为。这里，我们基于使用磁隧道结和磁畴壁的磁性材料测量人造突触。通过在单个磁隧道结下面的畴壁轨道中制造光刻槽口，我们实现了4-5个稳定的电阻状态，可以使用自旋轨道扭矩电气可重复控制。我们分析几何形状对突触行为的影响，表明梯形装置具有高可控性的不对称性重量，而直线装置具有较高的随机性，但具有稳定的电阻水平。设备数据被输入到神经形态计算模拟器中以显示特定于应用程序突触函数的有用性。实施应用于流式的时尚 - MNIST数据的人工神经网络，我们表明梯形磁突出可以用作高效在线学习的元塑功能。为CiFar-100图像识别实施卷积神经网络，我们表明直流突触由于其电阻水平的稳定性而达到近乎理想的推理精度。这项工作显示多重磁突触是神经形态计算的可行技术，并为新兴人工突触技术提供设计指南。

translated by 谷歌翻译

Deep learning of multi-resolution X-Ray micro-CT images for multi-scale modelling

Samuel J. Jackson , Yufu Niu , Sojwal Manoorkar , Peyman Mostaghimi , Ryan T. Armstrong

分类：机器学习

2021-11-01

X射线微型计算机断层摄影成像中存在固有的视野和分辨率折衷，这限制了多尺寸多孔系统的表征，分析和模型开发。在本文中，我们通过开发3D增强的深层超分辨率（EDSR）卷积神经网络来克服这些权衡来通过来自低分辨率数据的大型空间尺度创建增强的高分辨率数据。配对高分辨率（HR，2 $ \ MU $ M）和低分辨率（LR，6 $ \ MU $ M）来自Bentheimer Rock样本的图像数据用于培训网络。来自训练样本的未见LR和HR数据以及具有不同微结构的另一个样本，用于验证具有各种度量的网络：文本分析，分段行为和孔网络模型（PNM）多相流模拟。经过验证的EDSR网络用于为每个长度为6-7厘米的全核样品生成约1000个高分辨率转速子图像（总图像大小为约6000x6000x32000体素）。每个子培养物都具有从PNMS预测的不同的岩石物理特性，它们组合以创建每个样本的3D连续级模型。在一系列分数流动下模拟低毛细管数不混溶的流动，并直接在1：1的基础上与实验压力和3D饱和度进行比较。 EDSR产生的模型比在存在异质性存在下预测实验行为的基础LR模型更准确，特别是在遇到孔隙尺寸的广泛分布的流动状态下。该模型通常在预测到在实验重复性和三个数量级的实验重复性和相对渗透率内的饱和度准确。所示的工作流程是一个完全预测的，无需校准，并且打开了在真正的多尺度异构系统中的图像，模拟和分析流动的可能性。

translated by 谷歌翻译

Flexible Supervised Autonomy for Exploration in Subterranean Environments

Harel Biggie , Eugene R. Rush , Danny G. Riley , Shakeeb Ahmad , Michael T. Ohradzansky , Kyle Harlow , Michael J. Miles , Daniel Torres , Steve McGuire , Eric W. Frew

分类：机器人

2023-01-02

While the capabilities of autonomous systems have been steadily improving in recent years, these systems still struggle to rapidly explore previously unknown environments without the aid of GPS-assisted navigation. The DARPA Subterranean (SubT) Challenge aimed to fast track the development of autonomous exploration systems by evaluating their performance in real-world underground search-and-rescue scenarios. Subterranean environments present a plethora of challenges for robotic systems, such as limited communications, complex topology, visually-degraded sensing, and harsh terrain. The presented solution enables long-term autonomy with minimal human supervision by combining a powerful and independent single-agent autonomy stack, with higher level mission management operating over a flexible mesh network. The autonomy suite deployed on quadruped and wheeled robots was fully independent, freeing the human supervision to loosely supervise the mission and make high-impact strategic decisions. We also discuss lessons learned from fielding our system at the SubT Final Event, relating to vehicle versatility, system adaptability, and re-configurable communications.

translated by 谷歌翻译

Muse: Text-To-Image Generation via Masked Generative Transformers

Huiwen Chang , Han Zhang , Jarred Barber , AJ Maschinot , Jose Lezama , Lu Jiang , Ming-Hsuan Yang , Kevin Murphy , William T. Freeman , Michael Rubinstein

分类：计算机视觉 | 人工智能 | 机器学习

2023-01-02

We present Muse, a text-to-image Transformer model that achieves state-of-the-art image generation performance while being significantly more efficient than diffusion or autoregressive models. Muse is trained on a masked modeling task in discrete token space: given the text embedding extracted from a pre-trained large language model (LLM), Muse is trained to predict randomly masked image tokens. Compared to pixel-space diffusion models, such as Imagen and DALL-E 2, Muse is significantly more efficient due to the use of discrete tokens and requiring fewer sampling iterations; compared to autoregressive models, such as Parti, Muse is more efficient due to the use of parallel decoding. The use of a pre-trained LLM enables fine-grained language understanding, translating to high-fidelity image generation and the understanding of visual concepts such as objects, their spatial relationships, pose, cardinality etc. Our 900M parameter model achieves a new SOTA on CC3M, with an FID score of 6.06. The Muse 3B parameter model achieves an FID of 7.88 on zero-shot COCO evaluation, along with a CLIP score of 0.32. Muse also directly enables a number of image editing applications without the need to fine-tune or invert the model: inpainting, outpainting, and mask-free editing. More results are available at https://muse-model.github.io

translated by 谷歌翻译