智能论文笔记

Expert Human-Level Driving in Gran Turismo Sport Using Deep Reinforcement Learning with Image-based Representation

Ryuji Imamura , Takuma Seno , Kenta Kawamoto , Michael Spranger

分类：人工智能 | 计算机视觉

2021-11-11

当人类播放虚拟赛车游戏时，他们使用游戏屏幕上的视觉环境信息来了解环境中的规则。相比之下，优于人类玩家的最先进的现实赛车游戏AI代理商不使用基于图像的环境信息，而是由环境提供的紧凑和精确的测量。在本文中，提出了一种基于视觉的控制算法，并在使用Gran Turismo Sport（GTS）的现实赛车场景中的相同条件下与人类播放器性能进行比较，这被称为高保真逼真的赛车模拟器。在所提出的方法中，构成在传统最先进的方法中的部分观测的环境信息被从游戏屏幕图像中提取的特征表示替换。我们证明，即使使用游戏屏幕图像，所提出的方法也在高速驾驶场景下执行专家人级车辆控制，作为游戏屏幕图像作为高维输入。此外，它在时间试用任务中以GTS中内置的AI占此胜过，其分数将其分为大约28,000人的人类玩家。

translated by 谷歌翻译

Spatiotemporal forecasting of track geometry irregularities with exogenous factors

Katsuya Kosukegawa , Yasukuni Mori , Hiroki Suyari , Kazuhiko Kawamoto

分类：机器学习 | 人工智能

2022-11-07

To ensure the safety of railroad operations, it is important to monitor and forecast track geometry irregularities. A higher safety requires forecasting with a higher spatiotemporal frequency. For forecasting with a high spatiotemporal frequency, it is necessary to capture spatial correlations. Additionally, track geometry irregularities are influenced by multiple exogenous factors. In this study, we propose a method to forecast one type of track geometry irregularity, vertical alignment, by incorporating spatial and exogenous factor calculations. The proposed method embeds exogenous factors and captures spatiotemporal correlations using a convolutional long short-term memory (ConvLSTM). In the experiment, we compared the proposed method with other methods in terms of the forecasting performance. Additionally, we conducted an ablation study on exogenous factors to examine their contribution to the forecasting performance. The results reveal that spatial calculations and maintenance record data improve the forecasting of the vertical alignment.

translated by 谷歌翻译

Multi-Task Adversarial Training Algorithm for Multi-Speaker Neural Text-to-Speech

Yusuke Nakai , Yuki Saito , Kenta Udagawa , Hiroshi Saruwatari

分类：人工智能 | 机器学习

2022-09-26

我们提出了一种基于多任务对抗训练的多扬声器神经文本到语音（TTS）模型的新型培训算法。传统的基于基于的训练算法的常规生成对抗网络（GAN）通过减少自然语音和合成语音之间的统计差异来显着提高合成语音的质量。但是，该算法不能保证训练有素的TTS模型的概括性能在综合培训数据中未包括的看不见的说话者的声音中。我们的算法替代训练两个深神经网络：多任务歧视器和多扬声器神经TTS模型（即GAN的生成器）。对歧视者的训练不仅是为了区分自然语音和合成语音，而且还存在验证输入语音的说话者的存在或不存在（即，通过插值可见的说话者的嵌入向量而新生成）。同时，对发电机进行了训练，以最大程度地减少语音重建损失的加权总和和欺骗歧视者的对抗性损失，即使目标扬声器看不见，也可以实现高质量的多演讲者TT。实验评估表明，我们的算法比传统的甘斯多克算法更好地提高了合成语音的质量。

translated by 谷歌翻译

Consistency between ordering and clustering methods for graphs

Tatsuro Kawamoto , Masaki Ochi , Teruyoshi Kobayashi

分类：机器学习

2022-08-27

通常，通过聚类或订购将标签分配给每个元素，通常可以分析关系数据集。尽管通过聚类和排序方法可以实现数据集的类似表征，但前者比后者更积极地研究了数据集，尤其是对于表示为图的数据。这项研究通过研究几种聚类和订购方法之间的方法学关系来填补这一空白，重点是光谱技术。此外，我们评估了聚类和订购方法的结果性能。为此，我们提出了一种称为标签连续性误差的度量，该度量通常量化了一组元素的序列和分区之间的一致性程度。基于合成和现实世界数据集，我们评估了订购方法标识模块结构和聚类方法标识带状结构的范围。

translated by 谷歌翻译

HTML版本

Time Series Clustering with an EM algorithm for Mixtures of Linear Gaussian State Space Models

Ryohei Umatani , Takashi Imai , Kaoru Kawamoto , Shutaro Kunimasa

分类：机器学习 | 计算机视觉

2022-08-25

在本文中，我们考虑在对每个群集建模时，即基于模型的时间序列群集时，将一组单个时间序列集群的任务。该任务需要一个具有足够灵活性的参数模型来描述各个时间序列中的动力学。为了解决这个问题，我们提出了一种基于模型的时间序列聚类方法，该方法具有线性高斯状态空间模型的混合物，具有很高的灵活性。提出的方法对混合模型使用一种新的期望最大化算法来估计模型参数，并使用贝叶斯信息标准确定簇数。模拟数据集上的实验证明了该方法在聚类，参数估计和模型选择中的有效性。该方法应用于真实的数据集，该数据集以前提出的时间序列聚类方法表现出低精度。结果表明，与使用先前方法获得的方法相比，我们的方法产生的聚类结果更准确。

translated by 谷歌翻译

Sound and Relatively Complete Belief Hoare Logic for Statistical Hypothesis Testing Programs

Yusuke Kawamoto , Tetsuya Sato , Kohei Suenaga

分类：人工智能

2022-08-15

我们提出了一种新方法，以正式描述统计推断的要求，并检查程序是否适当使用统计方法。具体而言，我们定义了信仰Hoare逻辑（BHL），以形式化和推理通过假设检验获得的统计信念。对于假设检验的Kripke模型，此程序逻辑是合理的，并且相对完成。我们通过示例证明，BHL对于假设检验中的实际问题有用。在我们的框架中，我们阐明了通过假设检验获得统计信念的先前信念的重要性，并讨论了程序逻辑内外统计推断的全部图片。

translated by 谷歌翻译

Generalizable and Robust Deep Learning Algorithm for Atrial Fibrillation Diagnosis Across Ethnicities, Ages and Sexes

Shany Biton , Mohsin Aldhafeeri , Erez Marcusohn , Kenta Tsutsui , Tom Szwagier , Adi Elias , Julien Oster , Jean Marc Sellal , Mahmoud Suleiman , Joachim A. Behar

分类：机器学习 | 人工智能

2022-07-20

为了推动满足所有人需求并使医疗保健民主化的健康创新，有必要评估各种分配转变的深度学习（DL）算法的概括性能，以确保这些算法具有强大的态度。据我们所知，这项回顾性研究是第一个开发和评估从跨种族，年龄和性别的长期跳动间隔的AF事件检测的深度学习模型（DL）模型的概括性能（DL）模型的概括。新的复发DL模型（表示为ARNET2）是在2,147名患者的大型回顾性数据集中开发的，总计51,386小时连续心电图（ECG）。对来自四个中心（美国，以色列，日本和中国）的手动注释测试集评估了模型的概括，总计402名患者。该模型在以色列海法的Rambam医院Holter Clinic的1,730个Consecutives Holter记录中进一步验证了该模型。该模型的表现优于最先进的模型，并且在种族，年龄和性别之间进行了广泛的良好。女性的表现高于男性和年轻人（不到60岁），并且在种族之间显示出一些差异。解释这些变化的主要发现是心房颤动患病率更高（AFL）的群体的性能受损。我们关于跨组的ARNET2相对性能的发现可能对选择相对于感兴趣群的首选AF检查方法具有临床意义。

translated by 谷歌翻译

Reforming an Envy-Free Matching

Takehiro Ito , Yuni Iwamasa , Naonori Kakimura , Naoyuki Kamiyama , Yusuke Kobayashi , Yuta Nozaki , Yoshio Okamoto , Kenta Ozeki

分类：人工智能

2022-07-06

我们考虑将每个代理分配一个项目时改革无嫉妒的匹配的问题。给定无嫉妒的匹配，我们考虑一个操作，将代理商与代理人首选的未分配项目交换，从而导致另一种无嫉妒的匹配。我们尽可能地重复此操作。我们证明，由此产生的无嫉妒匹配是唯一确定的，可以在选择初始嫉妒的匹配下进行选择，并且可以在多项式时间中找到。我们称之为由此产生的匹配，是一个不正确的嫉妒的匹配，然后我们研究了最短的序列，以从最初的无嫉妒匹配中获得无嫉妒的嫉妒匹配。我们证明，即使每个代理最多接受四个项目，最短的序列在计算上也很难获得，并且每个项目最多都被三个代理所接受。另一方面，当每个代理最多接受三个项目或最多两个代理接受每个项目时，我们给出多项式时间算法。还讨论了不可Ximibibibibibibility和固定参数（IN）的障碍性。

translated by 谷歌翻译

Generating Repetitions with Appropriate Repeated Words

Toshiki Kawamoto , Hidetaka Kamigaito , Kotaro Funakoshi , Manabu Okumura

分类：自然语言处理

2022-07-03

重复是一种反应，可以在对话中重复上一位演讲者的话语中的单词。如语言研究所述，重复对于与他人建立信任至关重要。在这项工作中，我们专注于重复生成。据我们所知，这是解决重复产生的第一种神经方法。我们提出了加权标签平滑，一种平滑方法，用于明确学习在微调过程中重复哪些单词，以及一种重复评分方法，可以在解码过程中输出更合适的重复。我们进行了自动和人类评估，涉及将这些方法应用于预先训练的语言模型T5来产生重复。实验结果表明，我们的方法在两种评估中都超过了基线。

translated by 谷歌翻译

Human-in-the-loop Speaker Adaptation for DNN-based Multi-speaker TTS

Kenta Udagawa , Yuki Saito , Hiroshi Saruwatari

分类：神经与进化计算

2022-06-21

本文提出了一种用于多演讲者文本到语音的人类扬声器适应方法。使用常规的说话者适应方法，使用对扬声器歧视任务进行培训的扬声器编码器，从其参考语音中提取目标扬声器的嵌入矢量。但是，当参考语音不可用时，该方法无法获得目标扬声器的嵌入向量。我们的方法基于人类的优化框架，该框架结合了用户来探索扬声器 - 安装空间以查找目标扬声器的嵌入。提出的方法使用顺序线搜索算法，该算法反复要求用户在嵌入空间中的线段上选择一个点。为了有效地从多个刺激中选择最佳的语音样本，我们还开发了一个系统，在该系统中，用户可以在每个音素的声音之间切换在循环发音的同时。实验结果表明，即使不直接将参考语音用作说话者编码器的输入，提出的方法也可以在客观和主观评估中实现与常规评估相当的性能。

translated by 谷歌翻译