We study the capabilities of speech processing systems trained simply to predict large amounts of transcripts of audio on the internet. When scaled to 680,000 hours of multilingual and multitask supervision, the resulting models generalize well to standard benchmarks and are often competitive with prior fully supervised results but in a zero-shot transfer setting without the need for any fine-tuning. When compared to humans, the models approach their accuracy and robustness. We are releasing models and inference code to serve as a foundation for further work on robust speech processing.
translated by 谷歌翻译
由于其高质量的重建以及将现有迭代求解器结合起来的易于性,因此最近将扩散模型作为强大的生成反问题解决器研究。但是,大多数工作都专注于在无噪声设置中解决简单的线性逆问题,这显着不足以使实际问题的复杂性不足。在这项工作中,我们将扩散求解器扩展求解器,以通过后采样的拉普拉斯近似有效地处理一般噪声(非)线性反问题。有趣的是,所得的后验采样方案是扩散采样的混合版本,具有歧管约束梯度,而没有严格的测量一致性投影步骤,与先前的研究相比,在嘈杂的设置中产生了更可取的生成路径。我们的方法表明,扩散模型可以结合各种测量噪声统计量,例如高斯和泊松,并且还有效处理嘈杂的非线性反问题,例如傅立叶相检索和不均匀的脱毛。
translated by 谷歌翻译
扩散模型是强大的生成模型,可使用得分函数模拟扩散过程的反面,以合成噪声数据。扩散模型的采样过程可以解释为求解反向随机微分方程(SDE)或扩散过程的普通微分方程(ODE),通常需要多达数千个离散步骤来生成单个图像。这引发了人们对开发反向S/ODE的有效整合技术的极大兴趣。在这里,我们提出了一种基于得分的采样的正交方法:Denoising MCMC(DMCMC)。 DMCMC首先使用MCMC在数据和方差(或扩散时间)的产品空间中生产样品。然后,使用反向S/ODE积分器来定义MCMC样品。由于MCMC越过数据歧管接近数据,因此为DMCMC生产干净样品的计算成本远小于从噪声中产生干净样品的计算成本。为了验证拟议的概念,我们表明denoing langevin Gibbs(DLG)是DMCMC实例,成功地加速了有关CIFAR10和Celeba-HQ-HQ-256图像生成的这项工作中考虑的所有六个反向S/ODE集成器。值得注意的是,结合了Karras等人的集成商。 (2022)和Song等人的预训练分数模型。 (2021b),DLG达到SOTA结果。在CIFAR10上有限数量的分数功能评估(NFE)设置中,我们有$ 3.86 $ fid,$ \ \ \ \ \ $ \ $ \ $ 2.63 $ fid,$ \ \ \ \ \ \ 20 $ nfe。在Celeba-HQ-256上,我们有$ 6.99 $ fid,$ \ $ \ 160 $ nfe,击败了Kim等人的当前最佳记录。 (2022)在基于分数的型号中,$ 7.16 $ FID,$ 4000 $ NFE。代码:https://github.com/1202KBS/DMCMC
translated by 谷歌翻译
医学图像中的血管分割是诊断血管疾病和治疗计划的重要任务之一。尽管已经对基于学习的细分方法进行了广泛的研究,但在有监督的方法中需要大量的基础真实标签,并且令人困惑的背景结构使神经网络难以以无监督的方式分割血管。为了解决这个问题,在这里,我们介绍了一种新型的扩散对抗表示学习(DARL)模型,该模型利用具有对抗性学习的降解扩散概率模型,并将其应用于血管分割。特别是,对于自我监管的血管分割,Darl使用扩散模块学习背景图像分布,该模块使生成模块有效地提供了容器表示。同样,通过基于提议的可切换在空间自适应的否定规范化的对抗学习,我们的模型估计了合成的假船只图像以及船舶分割掩码,这进一步使模型捕获了辅助血管的语义信息。一旦训练了提出的模型,该模型就会生成一个步骤,并可以应用于冠状动脉血管造影和视网膜图像的一般血管结构分割。各种数据集的实验结果表明,我们的方法在船舶分割中的现有无监督和自我监督方法的表现显着胜过。
translated by 谷歌翻译
在过去的十年中,我们看到了工业数据,计算能力的巨大改善以及机器学习的重大理论进步。这为在大规模非线性监控和控制问题上使用现代机器学习工具提供了机会。本文对过程行业的应用进行了对最新结果的调查。
translated by 谷歌翻译
机器学习(ML)为生物处理工程的发展做出了重大贡献,但其应用仍然有限,阻碍了生物过程自动化的巨大潜力。用于模型构建自动化的ML可以看作是引入另一种抽象水平的一种方式,将专家的人类集中在生物过程开发的最认知任务中。首先,概率编程用于预测模型的自动构建。其次,机器学习会通过计划实验来测试假设并进行调查以收集信息性数据来自动评估替代决策,以收集基于模型预测不确定性的模型选择的信息数据。这篇评论提供了有关生物处理开发中基于ML的自动化的全面概述。一方面,生物技术和生物工程社区应意识到现有ML解决方案在生物技术和生物制药中的应用的限制。另一方面,必须确定缺失的链接,以使ML和人工智能(AI)解决方案轻松实施在有价值的生物社区解决方案中。我们总结了几个重要的生物处理系统的ML实施,并提出了两个至关重要的挑战,这些挑战仍然是生物技术自动化的瓶颈,并减少了生物技术开发的不确定性。没有一个合适的程序;但是,这项综述应有助于确定结合生物技术和ML领域的潜在自动化。
translated by 谷歌翻译
对抗性示例是故意生成用于欺骗深层神经网络的输入。最近的研究提出了不受规范限制的不受限制的对抗攻击。但是,以前的不受限制攻击方法仍然存在限制在黑框设置中欺骗现实世界应用程序的局限性。在本文中,我们提出了一种新的方法,用于使用GAN生成不受限制的对抗示例,其中攻击者只能访问分类模型的前1个最终决定。我们的潜在方法有效地利用了潜在空间中基于决策的攻击的优势,并成功地操纵了潜在的向量来欺骗分类模型。通过广泛的实验,我们证明我们提出的方法有效地评估了在黑框设置中查询有限的分类模型的鲁棒性。首先,我们证明我们的目标攻击方法是有效的,可以为包含307个身份的面部身份识别模型产生不受限制的对抗示例。然后,我们证明所提出的方法还可以成功攻击现实世界的名人识别服务。
translated by 谷歌翻译
在本文中,我们提出了一种使用CNN和变压器结构融合以提高图像分类性能的方法。对于CNN,可以很好地提取有关图像上局部区域的信息,但是限制了全局信息的提取。另一方面,变压器在相对全局的提取方面具有优势,但缺点是因为它需要大量的内存来进行本地特征值提取。在图像的情况下,它通过CNN转换为特征映射,每个特征映射的像素都被视为令牌。同时,将图像分为贴片区域,然后与将其视为令牌视图的变压器方法融合在一起。对于令牌与两个不同特征的融合,我们提出了三种方法:(1)具有平行结构的晚令融合,(2)早期令牌融合,(3)逐层中的令牌融合。在使用Imagenet 1K的实验中,提出的方法显示了最佳的分类性能。
translated by 谷歌翻译
手语制作(SLP)旨在将语言的表达方式转化为手语的相应语言,例如基于骨架的标志姿势或视频。现有的SLP型号是自动回旋(AR)或非自动入口(NAR)。但是,AR-SLP模型在解码过程中遭受了回归对均值和误差传播的影响。 NSLP-G是一种基于NAR的模型,在某种程度上解决了这些问题,但会带来其他问题。例如,它不考虑目标符号长度,并且会遭受虚假解码启动的影响。我们通过知识蒸馏(KD)提出了一种新型的NAR-SLP模型,以解决这些问题。首先,我们设计一个长度调节器来预测生成的符号姿势序列的末端。然后,我们采用KD,该KD从预训练的姿势编码器中提取空间语言特征以减轻虚假解码的启动。广泛的实验表明,所提出的方法在特里切特的手势距离和背面翻译评估中都显着优于现有的SLP模型。
translated by 谷歌翻译
大脑磁共振成像(MRI)扫描的自动分割和体积对于诊断帕金森氏病(PD)和帕金森氏症综合症(P-Plus)至关重要。为了提高诊断性能,我们在大脑分割中采用了深度学习(DL)模型,并将其性能与金标准的非DL方法进行了比较。我们收集了健康对照组(n = 105)和PD患者(n = 105),多个全身性萎缩(n = 132)和渐进性超核麻痹(n = 69)的大脑MRI扫描。 2020.使用金标准的非DL模型FreeSurfer(FS),我们对六个脑结构进行了分割:中脑,PON,CAUDATE,CAUDATE,PUTATATE,pALLIDUM和THIRD CNTRICLE,并将其视为DL模型的注释数据,代表性V -net和unet。计算了分化正常,PD和P-Plus病例的曲线下的骰子分数和面积。每位患者六个大脑结构的V-NET和UNETR的分割时间分别为3.48 +-0.17和48.14 +-0.97 s,比FS(15,735 +-1.07 s)快至少300倍。两种DL模型的骰子得分都足够高(> 0.85),它们的疾病分类AUC优于FS。为了分类正常与P-Plus和PD与多个全身性萎缩(小脑型)的分类,DL模型和FS显示出高于0.8的AUC。 DL显着减少了分析时间,而不会损害大脑分割和差异诊断的性能。我们的发现可能有助于在临床环境中采用DL脑MRI分割并提高大脑研究。
translated by 谷歌翻译