智能论文笔记

EEG2Vec: Learning Affective EEG Representations via Variational Autoencoders

David Bethge , Philipp Hallgarten , Tobias Grosse-Puppendahl , Mohamed Kari , Lewis L. Chuang , Ozan Özdenizci , Albrecht Schmidt

分类：机器学习 | 人工智能

2022-07-16

人们对人类情感状态的稀疏代表性格式的需求日益增长，这些格式可以在有限的计算记忆资源的情况下使用。我们探讨了在潜在矢量空间中代表神经数据对情绪刺激的响应是否可以用于预测情绪状态，并生成参与者和/或情绪特定于情绪的合成EEG数据。我们提出了一个有条件的基于变异自动编码器的框架EEG2VEC，以从脑电图数据中学习生成歧视性表示。关于情感脑电图记录数据集的实验结果表明，我们的模型适用于无监督的脑电图建模，基于潜在表示的三个不同情绪类别（正，中性，负）的分类，可实现68.49％的稳健性能，并产生的合成eeg序列共同存在于真实的脑电图数据输入到特别重建低频信号组件。我们的工作推进了情感脑电图表示可以在例如生成人工（标签）训练数据或减轻手动功能提取的领域，并为记忆约束的边缘计算应用程序提供效率。

translated by 谷歌翻译

A 3D-Shape Similarity-based Contrastive Approach to Molecular Representation Learning

Austin Atsango , Nathaniel L. Diamant , Ziqing Lu , Tommaso Biancalani , Gabriele Scalia , Kangway V. Chuang

分类：机器学习

2022-11-03

Molecular shape and geometry dictate key biophysical recognition processes, yet many graph neural networks disregard 3D information for molecular property prediction. Here, we propose a new contrastive-learning procedure for graph neural networks, Molecular Contrastive Learning from Shape Similarity (MolCLaSS), that implicitly learns a three-dimensional representation. Rather than directly encoding or targeting three-dimensional poses, MolCLaSS matches a similarity objective based on Gaussian overlays to learn a meaningful representation of molecular shape. We demonstrate how this framework naturally captures key aspects of three-dimensionality that two-dimensional representations cannot and provides an inductive framework for scaffold hopping.

translated by 谷歌翻译

Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models

Aarohi Srivastava , Abhinav Rastogi , Abhishek Rao , Abu Awal Md Shoeb , Abubakar Abid , Adam Fisch , Adam R. Brown , Adam Santoro , Aditya Gupta , Adrià Garriga-Alonso

分类：自然语言处理 | 人工智能 | 机器学习 | (统计)机器学习

2022-06-09

语言模型既展示了定量的改进，又展示了新的定性功能，随着规模的增加。尽管它们具有潜在的变革性影响，但这些新能力的特征却很差。为了为未来的研究提供信息，为破坏性的新模型能力做准备，并改善社会有害的效果，至关重要的是，我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战，我们介绍了超越模仿游戏基准（Big Bench）。 Big Bench目前由204个任务组成，由132家机构的442位作者贡献。任务主题是多样的，从语言学，儿童发展，数学，常识性推理，生物学，物理学，社会偏见，软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号，Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为，跨越了数百万到数十亿个参数。此外，一个人类专家评估者团队执行了所有任务，以提供强大的基准。研究结果包括：模型性能和校准都随规模改善，但绝对的术语（以及与评估者的性能相比）；在模型类中的性能非常相似，尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分，而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标；社交偏见通常会随着含糊不清的环境而随着规模而增加，但这可以通过提示来改善。

translated by 谷歌翻译

Pareto-optimal clustering with the primal deterministic information bottleneck

Andrew K. Tan , Max Tegmark , Isaac L. Chuang

分类：机器学习 | (统计)机器学习

2022-04-05

有损压缩和聚类的核心是学习代表的忠诚度和规模之间的权衡。我们的目标是绘制并研究量化此权衡的帕累托前沿。我们关注确定性信息瓶颈（DIB）目标在硬聚类空间上的优化。为此，我们介绍了原始的DIB问题，当优化在离散搜索空间上时，我们显示出比以前研究的拉格朗日放松的最丰富的领域。我们提出了一种算法，用于绘制原始DIB权衡的Pareto前沿，该算法也适用于其他两种目标聚类问题。我们研究了帕累托边境的一般特性，并提供了总体上对数稀疏性的分析和数值证据。我们提供的证据表明，尽管有超过指数的搜索空间，但我们的算法具有多项式缩放，此外，我们提出了对算法的修改，该算法可以在预期采样噪声显着的情况下使用。最后，我们使用算法来绘制三个不同任务的DIB前沿：压缩英语字母，从自然图像中提取信息性的颜色类别，并压缩了一个以群体理论为灵感的数据集，揭示了Frontier的有趣特征，并演示了如何展示的结构。边界可用于模型选择，重点是先前由凸船斗篷隐藏的点。

translated by 谷歌翻译

Learning nonlinear dynamics in synchronization of knowledge-based leader-following networks

Shimin Wang , Xiangyu Meng , Hongwei Zhang , Frank L. Lewis

分类：人工智能

2021-12-29

由于领导者的动态信息对所有跟随节点未知，所以基于知识的非线性多种代理系统的同步问题是具有挑战性的。本文提出了一类非线性领导系统的基于学习的完全分布式观察者，可以同时学习领导者的动态和状态。这里考虑的领导者动态不需要有界雅各的矩阵。基于基于学习的分布式观察者，我们进一步综合了一种自适应分布式控制法，用于解决经受不确定非线性领导系统的多个Euler-Lagrange系统的前导次的同步问题。结果由模拟示例说明。

translated by 谷歌翻译

Active Learning of Quantum System Hamiltonians yields Query Advantage

Arkopal Dutt , Edwin Pednault , Chai Wah Wu , Sarah Sheldon , John Smolin , Lev Bishop , Isaac L. Chuang

分类：机器学习

2021-12-29

Hamiltonian学习是量子系统识别，校准和量子计算机成功运行的重要程序。通过对量子系统的查询，该过程寻求获得给定Hamiltonian模型的参数和噪声源的描述。汉密尔顿学习的标准技术需要仔细设计查询和$ O（\ epsilon ^ {-2}）$查询，以获得由于标准量子限制而实现学习错误$ \ epsilon $。通过实现学习错误$ \ epsilon $ \ opsilon $的有效和准确地估计Hamiltonian参数，我们介绍了一个活跃的学习者，它给出了一个初始的训练示例和交互式查询量子系统以产生新的培训数据的能力。我们正式指定和实验地评估该汉密尔顿主动学习（HAL）算法的性能，用于学习四个不同超导IBM量子器件上的双态交叉谐振Hamiltonian的六个参数。与同一问题的标准技术和指定的学习错误相比，HAL可以在相当的非自适应学习算法上实现高达99.8 \％$ 99.1 \％$ 49.1％。此外，通过访问汉密尔顿参数的子集的先前信息，并提供了在学习期间用线性（或指数）的较长系统交互时间选择查询的能力，Hal可以超过标准量子限制，实现Heisenberg（或超级Heisenberg）有限公司学习期间的收敛速度。

translated by 谷歌翻译

Dim but not entirely dark: Extracting the Galactic Center Excess' source-count distribution with neural nets

Florian List , Nicholas L. Rodd , Geraint F. Lewis

分类：机器学习

2021-07-19

$ \ Texit {Fermi} $数据中的银河系中多余（GCE）的两个领先假设是一个未解决的微弱毫秒脉冲条件（MSP）和暗物质（DM）湮灭。这些解释之间的二分法通常通过将它们建模为两个单独的发射组分来反映。然而，诸如MSP的点源（PSS）在超微弱的极限中具有统计变质的泊松发射（正式的位置，预期每个来源平均贡献远低于一个光子），导致可能提出问题的歧义如排放是否是PS样或性质中的泊松人。我们提出了一种概念上的新方法，以统一的方式描述PS和泊松发射，并且刚刚从此获得的结果中获得了对泊松组件的约束。为了实现这种方法，我们利用深度学习技术，围绕基于神经网络的方法，用于直方图回归，其表达量数量的不确定性。我们证明我们的方法对许多困扰先前接近的系统，特别是DM / PS误操作来稳健。在$ \ texit {fermi} $数据中，我们发现由$ \ sim4 \ times 10 ^ {-11} \ \ text {counts} \ {counts} \ text {counts} \ text {counts} \ \ text {cm} ^ { - 2} \ \ text {s} ^ { - 1} $（对应于$ \ sim3 - 4 $每pL期望计数），这需要$ n \ sim \ mathcal {o}（ 10 ^ 4）$源来解释整个过剩（中位数价值$ n = \文本{29,300} $横跨天空）。虽然微弱，但这种SCD允许我们获得95％信心的Poissonian比赛的约束$ \ eta_p \ leq 66 \％$。这表明大量的GCE通量是由于PSS 。

translated by 谷歌翻译

Galaxy Zoo DECaLS: Detailed Visual Morphology Measurements from Volunteers and Deep Learning for 314,000 Galaxies

Mike Walmsley , Chris Lintott , Tobias Geron , Sandor Kruk , Coleman Krawczyk , Kyle W. Willett , Steven Bamford , Lee S. Kelvin , Lucy Fortson , Yarin Gal

分类：计算机视觉

2021-02-16

我们介绍了Galaxy动物园贴花：SDSS DR8占地面积的星系中的黑色能量相机传统调查图像的详细视觉形态学分类。更深的贴花图像（R = 23.6与SDSS的r = 22.2）显示螺旋臂，弱杆和在SDSS成像中未见的潮汐功能。为了最佳利用较大的贴花图像，志愿者从一套新的答案中选择，旨在提高对合并和酒吧的敏感性。 Galaxy动物园志愿者提供750万个单独的分类超过314,000个星系。 140,000个星系收到至少30分类，足以准确测量像条状的详细的形态，其余的收到约5.所有分类都用于培训贝叶斯卷积神经网络的集合（一种最先进的深度学习方法）预测所有314,000个星系的详细形态的后海外。当衡量自信的志愿者分类时，每个问题的网络大约有99％。形态学是每个星系的基本特征;我们的人机和机器分类是理解星系如何发展的准确和详细资源。

translated by 谷歌翻译

ThreeDWorld: A Platform for Interactive Multi-Modal Physical Simulation

Chuang Gan , Jeremy Schwartz , Seth Alter , Damian Mrowca , Martin Schrimpf , James Traer , Julian De Freitas , Jonas Kubilius , Abhishek Bhandwaldar , Nick Haber

分类：计算机视觉 | 机器学习 | 机器人

2020-07-09

我们介绍了ThreedWorld（TDW），是交互式多模态物理模拟的平台。 TDW能够模拟高保真感官数据和富裕的3D环境中的移动代理和对象之间的物理交互。独特的属性包括：实时近光 - 真实图像渲染;对象和环境库，以及他们定制的例程;有效构建新环境课程的生成程序;高保真音频渲染;各种材料类型的现实物理相互作用，包括布料，液体和可变形物体;可定制的代理体现AI代理商;并支持与VR设备的人类交互。 TDW的API使多个代理能够在模拟中进行交互，并返回一系列表示世界状态的传感器和物理数据。我们在计算机视觉，机器学习和认知科学中的新兴的研究方向上提供了通过TDW的初始实验，包括多模态物理场景理解，物理动态预测，多代理交互，像孩子一样学习的模型，并注意研究人类和神经网络。

translated by 谷歌翻译

Confident Learning: Estimating Uncertainty in Dataset Labels

Curtis G. Northcutt , Lu Jiang , Isaac L. Chuang

分类： (统计)机器学习 | 机器学习

2019-10-31

学习存在于数据的背景下，但信心的概念通常集中在模型预测上，而不是标签质量上。自信学习（CL）是一种替代方法，它通过根据修剪嘈杂数据的原理来表征和识别数据集中的标签错误来重点关注标签质量，并使用概率阈值来估算噪声，并将示例排名以自信。尽管许多研究已经独立开发了这些原理，但在这里，我们将它们结合起来，建立在类似的噪声过程的基础上，以直接估计嘈杂（给定的）标签和未腐败（未知）标签之间的关节分布。这导致了广义的CL，该CL证明是一致且具有实验性能的。我们提供了足够的条件，CL准确地发现标签错误，并且CL性能超过了CIFAR数据集上使用嘈杂标签的七种近期学习方法。独特的是，CL框架不与特定的数据模式或模型耦合（例如，我们使用CL在假定的无错误MNIST数据集中查找几个标签错误，并在亚马逊评论中对文本数据进行改善的情感分类）。我们还使用Imagenet上的CL来量化本体论类重叠（例如，估计645个“导弹”图像被错误标记为其母体类“弹丸”），并通过清洁训练前清洁数据来提高模型准确性（例如，用于RESNET）。使用开源清洁行释放可以复制这些结果。

translated by 谷歌翻译