智能论文笔记

A clinically motivated self-supervised approach for content-based image retrieval of CT liver images

Kristoffer Knutsen Wickstrøm , Eirik Agnalt Østmo , Keyur Radiya , Karl Øyvind Mikalsen , Michael Christian Kampffmeyer , Robert Jenssen

分类：计算机视觉 | (统计)机器学习

2022-07-11

CT肝图像的基于内容的图像检索（CBIR）的深度基于学习的方法是一个积极的研究领域，但受到了一些关键局限性。首先，它们非常依赖标签的数据，这可能是具有挑战性的，而且获取成本很高。其次，它们缺乏透明度和解释性，这限制了深CBIR系统的可信度。我们通过（1）提出一个自制的学习框架来解决这些局限性，该框架将领域知识纳入培训过程中，以及（2）在CT肝图像的CBIR背景下提供首次表示学习解释性分析。结果表明，与几个指标的标准自我监督方法相比，性能的提高，并且在跨数据集的概括方面得到了改善。此外，我们在CBIR的背景下进行了首次表示学习性分析，该分析揭示了对特征提取过程的新见解。最后，我们通过盘问CBIR进行了一个案例研究，该案例证明了我们提出的框架的可用性。我们认为，我们提出的框架可以在创建可信赖的深层CBIR系统中发挥至关重要的作用，这些系统可以成功利用未标记的数据。

translated by 谷歌翻译

Towards dynamic stability analysis of sustainable power grids using graph neural networks

Christian Nauck , Michael Lindner , Konstantin Schürholt , Frank Hellmann

分类：机器学习

2022-12-21

To mitigate climate change, the share of renewable needs to be increased. Renewable energies introduce new challenges to power grids due to decentralization, reduced inertia and volatility in production. The operation of sustainable power grids with a high penetration of renewable energies requires new methods to analyze the dynamic stability. We provide new datasets of dynamic stability of synthetic power grids and find that graph neural networks (GNNs) are surprisingly effective at predicting the highly non-linear target from topological information only. To illustrate the potential to scale to real-sized power grids, we demonstrate the successful prediction on a Texan power grid model.

translated by 谷歌翻译

ConvLab-3: A Flexible Dialogue System Toolkit Based on a Unified Data Format

Qi Zhu , Christian Geishauser , Hsien-chin Lin , Carel van Niekerk , Baolin Peng , Zheng Zhang , Michael Heck , Nurul Lubis , Dazhen Wan , Xiaochen Zhu

分类：自然语言处理 | 人工智能

2022-11-30

Diverse data formats and ontologies of task-oriented dialogue (TOD) datasets hinder us from developing general dialogue models that perform well on many datasets and studying knowledge transfer between datasets. To address this issue, we present ConvLab-3, a flexible dialogue system toolkit based on a unified TOD data format. In ConvLab-3, different datasets are transformed into one unified format and loaded by models in the same way. As a result, the cost of adapting a new model or dataset is significantly reduced. Compared to the previous releases of ConvLab (Lee et al., 2019b; Zhu et al., 2020b), ConvLab-3 allows developing dialogue systems with much more datasets and enhances the utility of the reinforcement learning (RL) toolkit for dialogue policies. To showcase the use of ConvLab-3 and inspire future work, we present a comprehensive study with various settings. We show the benefit of pre-training on other datasets for few-shot fine-tuning and RL, and encourage evaluating policy with diverse user simulators.

translated by 谷歌翻译

Profiling and Improving the PyTorch Dataloader for high-latency Storage: A Technical Report

Ivan Svogor , Christian Eichenberger , Markus Spanring , Moritz Neun , Michael Kopp

分类：机器学习

2022-11-09

A growing number of Machine Learning Frameworks recently made Deep Learning accessible to a wider audience of engineers, scientists, and practitioners, by allowing straightforward use of complex neural network architectures and algorithms. However, since deep learning is rapidly evolving, not only through theoretical advancements but also with respect to hardware and software engineering, ML frameworks often lose backward compatibility and introduce technical debt that can lead to bottlenecks and sub-optimal resource utilization. Moreover, the focus is in most cases not on deep learning engineering, but rather on new models and theoretical advancements. In this work, however, we focus on engineering, more specifically on the data loading pipeline in the PyTorch Framework. We designed a series of benchmarks that outline performance issues of certain steps in the data loading process. Our findings show that for classification tasks that involve loading many files, like images, the training wall-time can be significantly improved. With our new, modified ConcurrentDataloader we can reach improvements in GPU utilization and significantly reduce batch loading time, up to 12X. This allows for the use of the cloud-based, S3-like object storage for datasets, and have comparable training time as if datasets are stored on local drives.

translated by 谷歌翻译

Personalized Longitudinal Assessment of Multiple Sclerosis Using Smartphones

Oliver Y. Chén , Florian Lipsmeier , Huy Phan , Frank Dondelinger , Andrew Creagh , Christian Gossens , Michael Lindemann , Maarten de Vos

分类： (统计)机器学习

2022-09-20

个性化的纵向疾病评估对于快速诊断，适当管理和最佳调整多发性硬化症（MS）的治疗策略至关重要。这对于识别特殊主体特异性疾病特征也很重要。在这里，我们设计了一种新型的纵向模型，以使用可能包含缺失值的传感器数据以自动化方式绘制单个疾病轨迹。首先，我们使用在智能手机上管理的基于传感器的评估来收集与步态和平衡有关的数字测量以及上肢功能。接下来，我们通过插补对待缺失的数据。然后，我们通过使用广义估计方程来发现MS的潜在标记。随后，从多个培训数据集中学到的参数被结合起来形成一个简单的，统一的纵向预测模型，以预测MS在先前看不见的MS的人中随着时间的推移。为了减轻严重疾病得分的个体的潜在低估，最终模型结合了第一天的数据。结果表明，所提出的模型有望实现个性化的纵向MS评估。他们还表明，与步态和平衡以及上肢功能有关的功能（从基于传感器的评估中远程收集）可能是预测MS随时间推移的有用数字标记。

translated by 谷歌翻译

Sampling-Based Trajectory (re)planning for Differentially Flat Systems: Application to a 3D Gantry Crane

Minh Nhat Vu , Michael Schwegel , Christian Hartl-Nesic , Andreas Kugi

分类：机器人

2022-09-12

在本文中，提出了一种基于静态障碍的环境中实验室规模3D龙门起重机的基于抽样的轨迹计划算法，并呈现了龙门起重机系统速度和加速度的范围。重点是针对差异化系统开发快速运动计划算法，在该系统中可以存储和重复使用中间结果以进行进一步的任务，例如重新植入。所提出的方法基于知情的最佳迅速探索随机树算法（知情RRT*），该算法用于构建轨迹树，这些树在开始和/或目标状态变化时重新使用。与最先进的方法相反，拟议的运动计划算法包含了线性二次最低时间（LQTM）本地计划者。因此，在提出的算法中直接考虑了动态特性，例如时间最优性和轨迹的平滑度。此外，通过集成分支和结合方法以在轨迹树上执行修剪过程，提出的算法可以消除树中没有促成更好解决方案的点中的点。这有助于抑制记忆消耗并降低运动（RE）计划期间的计算复杂性。 3D龙门起重机的经过验证的数学模型的仿真结果显示了所提出的方法的可行性。

translated by 谷歌翻译

Dialogue Evaluation with Offline Reinforcement Learning

Nurul Lubis , Christian Geishauser , Hsien-Chin Lin , Carel van Niekerk , Michael Heck , Shutong Feng , Milica Gašić

分类：自然语言处理

2022-09-02

面向任务的对话系统旨在通过自然语言互动实现用户目标。他们可以与人类用户一起评估它们，但是在开发阶段的每个迭代中都无法实现。模拟用户可能是替代方案，但是他们的开发是不平凡的。因此，研究人员诉诸于现有的人类语料库的离线指标，这些指标更实用且易于再现。不幸的是，它们在反映对话系统的真实性能方面受到限制。例如，BLEU与人类判断力的相关性很差，现有的基于语料库的指标（例如成功率忽略对话环境不匹配）。对于具有良好概括且与人类判断密切相关的任务导向系统，仍然需要一个可靠的指标。在本文中，我们建议使用离线增强学习来基于静态语料库的对话评估。这样的评估者通常称为评论家，并用于政策优化。我们迈出了一步，并表明可以在任何对话系统的静态语料库上对离线RL批评家作为外部评估者进行培训，从而可以在各种类型的系统上进行对话性能比较。这种方法的好处是与人类判断达到密切的相关性，使其成为与模型无关的，我们通过交互式用户试验确认。

translated by 谷歌翻译

HTML版本

GenTUS: Simulating User Behaviour and Language in Task-oriented Dialogues with Generative Transformers

Hsien-Chin Lin , Christian Geishauser , Shutong Feng , Nurul Lubis , Carel van Niekerk , Michael Heck , Milica Gašić

分类：自然语言处理

2022-08-23

用户模拟器（USS）通常用于通过增强学习训练面向任务的对话系统（DSS）。相互作用通常是在语义层面上以提高效率的，但是从语义动作到自然语言仍然存在差距，这会导致培训和部署环境之间的不匹配。在培训期间，将自然语言生成（NLG）模块与USS结合在一起可以部分解决此问题。但是，由于US的策略和NLG是单独优化的，因此在给定的情况下，这些模拟的用户话语可能不够自然。在这项工作中，我们提出了一个基于生成变压器的用户模拟器（Gentus）。 Gentus由编码器结构组成，这意味着它可以共同优化用户策略和自然语言。 Gentus既产生语义动作又产生自然语言话语，从而保留了解释性和增强语言的变化。另外，通过将输入和输出表示为单词序列以及使用大型的预训练语言模型，我们可以在功能表示中实现普遍性。我们通过自动指标和人类评估评估绅士。我们的结果表明，绅士会产生更多的自然语言，并能够以零拍的方式转移到看不见的本体论中。此外，通过加强学习为培训专业用户模拟器打开大门，可以进一步塑造其行为。

translated by 谷歌翻译

ARMANI: Part-level Garment-Text Alignment for Unified Cross-Modal Fashion Design

Xujie Zhang , Yu Sha , Michael C. Kampffmeyer , Zhenyu Xie , Zequn Jie , Chengwen Huang , Jianqing Peng , Xiaodan Liang

分类：计算机视觉

2022-08-11

跨模式时尚图像合成已成为一代域中最有前途的方向之一，因为巨大的未开发的潜力融合了多种方式和广泛的时尚图像应用。为了促进准确的生成，跨模式合成方法通常依赖于对比的语言图像预训练（剪辑）来对齐文本和服装信息。在这项工作中，我们认为，简单地对齐纹理和服装信息不足以捕获视觉信息的语义，因此提出了maskClip。 MaskClip将服装分解为语义部分，以确保视觉和文本信息之间的细粒度和语义准确对齐。在MaskClip上，我们建议Armani，这是一位统一的跨模式时装设计师，具有零件级的服装文本对齐。 Armani在第一阶段将图像分散成统一令牌，并使用变压器在第二阶段的控制信号的标记中使用变压器为真实图像的图像令牌进行建模。与同样依赖两阶段范式的先前方法相反，Armani将文本令牌引入了代码簿中，使该模型可以利用细粒语义信息来生成更真实的图像。此外，通过引入跨模式变压器，Armani具有通用性，可以从各种控制信号（例如纯文本，草图图像和部分图像）中完成图像合成。在我们新收集的跨模式时尚数据集上进行的广泛实验表明，Armani在不同的合成任务中生成了光真实的图像，并且优于现有的最先进的跨模式图像综合方法。 github.com/harvey594/armani。

translated by 谷歌翻译

PASTA-GAN++: A Versatile Framework for High-Resolution Unpaired Virtual Try-on

Zhenyu Xie , Zaiyu Huang , Fuwei Zhao , Haoye Dong , Michael Kampffmeyer , Xin Dong , Feida Zhu , Xiaodan Liang

分类：计算机视觉

2022-07-27

基于图像的虚拟试验是以人为中心的现实潜力，是以人为中心的图像生成的最有希望的应用之一。在这项工作中，我们迈出了一步，探索多功能的虚拟尝试解决方案，我们认为这应该具有三个主要属性，即，它们应支持无监督的培训，任意服装类别和可控的服装编辑。为此，我们提出了一个特征性的端到端网络，即用空间自适应的斑点适应性GAN ++（Pasta-gan ++），以实现用于高分辨率不合规的虚拟试验的多功能系统。具体而言，我们的意大利面++由一个创新的贴布贴片的拆卸模块组成，可以将完整的服装切换为归一化贴剂，该贴片能够保留服装样式信息，同时消除服装空间信息，从而减轻在未受监督训练期间过度适应的问题。此外，面食++引入了基于贴片的服装表示和一个贴片引导的解析合成块，使其可以处理任意服装类别并支持本地服装编辑。最后，为了获得具有逼真的纹理细节的尝试结果，面食gan ++结合了一种新型的空间自适应残留模块，以将粗翘曲的服装功能注入发电机。对我们新收集的未配对的虚拟试验（UPT）数据集进行了广泛的实验，证明了面食gan ++比现有SOTA的优越性及其可控服装编辑的能力。

translated by 谷歌翻译