我们提出了一种基于多任务对抗训练的多扬声器神经文本到语音(TTS)模型的新型培训算法。传统的基于基于的训练算法的常规生成对抗网络(GAN)通过减少自然语音和合成语音之间的统计差异来显着提高合成语音的质量。但是,该算法不能保证训练有素的TTS模型的概括性能在综合培训数据中未包括的看不见的说话者的声音中。我们的算法替代训练两个深神经网络:多任务歧视器和多扬声器神经TTS模型(即GAN的生成器)。对歧视者的训练不仅是为了区分自然语音和合成语音,而且还存在验证输入语音的说话者的存在或不存在(即,通过插值可见的说话者的嵌入向量而新生成)。同时,对发电机进行了训练,以最大程度地减少语音重建损失的加权总和和欺骗歧视者的对抗性损失,即使目标扬声器看不见,也可以实现高质量的多演讲者TT。实验评估表明,我们的算法比传统的甘斯多克算法更好地提高了合成语音的质量。
translated by 谷歌翻译
本文提出了一种用于多演讲者文本到语音的人类扬声器适应方法。使用常规的说话者适应方法,使用对扬声器歧视任务进行培训的扬声器编码器,从其参考语音中提取目标扬声器的嵌入矢量。但是,当参考语音不可用时,该方法无法获得目标扬声器的嵌入向量。我们的方法基于人类的优化框架,该框架结合了用户来探索扬声器 - 安装空间以查找目标扬声器的嵌入。提出的方法使用顺序线搜索算法,该算法反复要求用户在嵌入空间中的线段上选择一个点。为了有效地从多个刺激中选择最佳的语音样本,我们还开发了一个系统,在该系统中,用户可以在每个音素的声音之间切换在循环发音的同时。实验结果表明,即使不直接将参考语音用作说话者编码器的输入,提出的方法也可以在客观和主观评估中实现与常规评估相当的性能。
translated by 谷歌翻译
为了推动满足所有人需求并使医疗保健民主化的健康创新,有必要评估各种分配转变的深度学习(DL)算法的概括性能,以确保这些算法具有强大的态度。据我们所知,这项回顾性研究是第一个开发和评估从跨种族,年龄和性别的长期跳动间隔的AF事件检测的深度学习模型(DL)模型的概括性能(DL)模型的概括。新的复发DL模型(表示为ARNET2)是在2,147名患者的大型回顾性数据集中开发的,总计51,386小时连续心电图(ECG)。对来自四个中心(美国,以色列,日本和中国)的手动注释测试集评估了模型的概括,总计402名患者。该模型在以色列海法的Rambam医院Holter Clinic的1,730个Consecutives Holter记录中进一步验证了该模型。该模型的表现优于最先进的模型,并且在种族,年龄和性别之间进行了广泛的良好。女性的表现高于男性和年轻人(不到60岁),并且在种族之间显示出一些差异。解释这些变化的主要发现是心房颤动患病率更高(AFL)的群体的性能受损。我们关于跨组的ARNET2相对性能的发现可能对选择相对于感兴趣群的首选AF检查方法具有临床意义。
translated by 谷歌翻译
我们考虑将每个代理分配一个项目时改革无嫉妒的匹配的问题。给定无嫉妒的匹配,我们考虑一个操作,将代理商与代理人首选的未分配项目交换,从而导致另一种无嫉妒的匹配。我们尽可能地重复此操作。我们证明,由此产生的无嫉妒匹配是唯一确定的,可以在选择初始嫉妒的匹配下进行选择,并且可以在多项式时间中找到。我们称之为由此产生的匹配,是一个不正确的嫉妒的匹配,然后我们研究了最短的序列,以从最初的无嫉妒匹配中获得无嫉妒的嫉妒匹配。我们证明,即使每个代理最多接受四个项目,最短的序列在计算上也很难获得,并且每个项目最多都被三个代理所接受。另一方面,当每个代理最多接受三个项目或最多两个代理接受每个项目时,我们给出多项式时间算法。还讨论了不可Ximibibibibibibility和固定参数(IN)的障碍性。
translated by 谷歌翻译
没有一致响应的对话系统并不令人着迷。在这项研究中,我们建立了一个对话系统,可以根据给定的角色设置(角色)响应以带来一致性。考虑到语言模型迅速增加的趋势,我们提出了一种使用迅速调整的方法,该方法在预训练的大规模语言模型上使用了低学习成本。英语和日语中自动和手动评估的结果表明,可以使用比微调更少的计算资源来构建具有更自然和个性化响应的对话系统。
translated by 谷歌翻译
近年来,分散的学习不仅是大规模机器学习的强大工具,而且还用于保留隐私。分散学习的主要挑战之一是,每个节点持有的数据分布在统计上是异质的。为了应对这一挑战,提出了称为边缘传感器学习(ECL)的原始二重算法,并在实验上证明对数据分布的异质性是可靠的。但是,仅当目标函数是凸的时,才提供ECL的收敛速率,并且在目标函数为非convex的标准机器学习设置中尚未显示。此外,尚未研究ECL对数据分布的异质性强大的直观原因。在这项工作中,我们首先研究了ECL和八卦算法之间的关系,并表明ECL的更新公式可以被视为纠正八卦算法中的局部随机梯度。然后,我们提出了包含ECL作为特殊情况的广义ECL(G-ECL),并在(强)凸和非凸面设置中提供G-ECL的收敛速率,这不取决于该设置数据分布的异质性。通过合成实验,我们证明了G-ECL和ECL的数值结果与G-ECL的收敛速率一致。
translated by 谷歌翻译
大规模的语言模型(LLM),例如GPT-2,BERT和ROBERTA已成功应用于ASR N-OX-t-bess Rescore。但是,在最新的ASR系统附近,它们是否或如何使竞争性受益。在这项研究中,我们将LLM重新验证纳入最具竞争力的ASR基准之一:构象异构体模型。我们证明,LLM的双向,预处理,内域填充和上下文增强可以实现一致的改进。此外,我们的词汇分析阐明了这些组件中的每一个如何有助于ASR性能。
translated by 谷歌翻译
最近的工作[4]分析了两次可差化函数的最佳解决方案附近的亚当局部融合。结果发现,学习率必须足够小,以确保最佳解决方案的局部稳定性。以上的收敛结果也适用于Adamw。在这项工作中,我们提出了一种新的自适应优化方法,通过在两个方面扩展Adamw,以便放宽对局部稳定性的小型学习率的要求,我们称之为AIDA。首先,我们考虑跟踪梯度大小的第2矩R_T。当p = 2时,r_t减少到adamw的v_t。假设{m_t}是adamw的第一个时刻。众所周知,更新方向M_ {T + 1} /(v_ {t + 1} + epsilon)^ 0.5(或m_ {t + 1} /(v_ {t + 1} ^ 0.5 + epsilon)的Adamw(或者亚当)可以被分解为标志向量符号(M_ {t + 1})通过幅度的向量乘以量数| m_ {t + 1} | /(v_ {t + 1} + epsilon)^ 0.5(或| m_ {t + 1} | /(v_ {t + 1} ^ 0.5 + epsilon)。Aida旨在以| m_ {t + 1} | ^ q /(r_ {t + 1} + epsilon)^(q / p)(或| m_ {t + 1} | ^ q /((r_ {t + 1})^(q / p)+ epsilon),减少到当(p,q)=(2,1)时的adamw。假设原点0是两次可差化函数的本地最佳解决方案。理论上是在理论上发现的,当Q> 1和P> 1在Aida中,原点0只有当重量衰减是非零时局部稳定。进行实验,用于解决十个玩具优化问题和训练变压器和训练变压器和Swin变压器,为两个深度学习(DL)任务。实证研究表明,在许多场景中表明(包括两个DL任务),AIDA具有特定设置(P,Q)不等于(2,1)优于Adamw的设置(p,q)=(2,1)。
translated by 谷歌翻译
当人类播放虚拟赛车游戏时,他们使用游戏屏幕上的视觉环境信息来了解环境中的规则。相比之下,优于人类玩家的最先进的现实赛车游戏AI代理商不使用基于图像的环境信息,而是由环境提供的紧凑和精确的测量。在本文中,提出了一种基于视觉的控制算法,并在使用Gran Turismo Sport(GTS)的现实赛车场景中的相同条件下与人类播放器性能进行比较,这被称为高保真逼真的赛车模拟器。在所提出的方法中,构成在传统最先进的方法中的部分观测的环境信息被从游戏屏幕图像中提取的特征表示替换。我们证明,即使使用游戏屏幕图像,所提出的方法也在高速驾驶场景下执行专家人级车辆控制,作为游戏屏幕图像作为高维输入。此外,它在时间试用任务中以GTS中内置的AI占此胜过,其分数将其分为大约28,000人的人类玩家。
translated by 谷歌翻译
Graph Neural Networks (graph NNs) are a promising deep learning approach for analyzing graph-structured data. However, it is known that they do not improve (or sometimes worsen) their predictive performance as we pile up many layers and add non-lineality. To tackle this problem, we investigate the expressive power of graph NNs via their asymptotic behaviors as the layer size tends to infinity. Our strategy is to generalize the forward propagation of a Graph Convolutional Network (GCN), which is a popular graph NN variant, as a specific dynamical system. In the case of a GCN, we show that when its weights satisfy the conditions determined by the spectra of the (augmented) normalized Laplacian, its output exponentially approaches the set of signals that carry information of the connected components and node degrees only for distinguishing nodes. Our theory enables us to relate the expressive power of GCNs with the topological information of the underlying graphs inherent in the graph spectra. To demonstrate this, we characterize the asymptotic behavior of GCNs on the Erdős -Rényi graph. We show that when the Erdős -Rényi graph is sufficiently dense and large, a broad range of GCNs on it suffers from the "information loss" in the limit of infinite layers with high probability. Based on the theory, we provide a principled guideline for weight normalization of graph NNs. We experimentally confirm that the proposed weight scaling enhances the predictive performance of GCNs in real data 1 .
translated by 谷歌翻译