智能论文笔记

Compute Cost Amortized Transformer for Streaming ASR

Yi Xie , Jonathan Macoskey , Martin Radfar , Feng-Ju Chang , Brian King , Ariya Rastrow , Athanasios Mouchtaris , Grant P. Strimel

分类：自然语言处理

2022-07-05

我们提出了基于流的端到端自动语音识别（ASR）体系结构，该体系结构通过计算成本摊销来实现有效的神经推断。我们的体系结构在推理时间动态创建稀疏的计算途径，从而选择性地使用计算资源在整个解码过程中，从而使计算中的大幅降低，对准确性的影响最小。完全可区分的体系结构是端到端训练的，随附的轻巧仲裁器机制在帧级别运行，以在每个输入上做出动态决策，同时使用可调损耗函数来正规化针对预测性能的整体计算水平。我们使用在LiblisPeech数据上进行的计算摊销变压器变形器（T-T）模型报告了实验的经验结果。我们的最佳模型可以实现60％的计算成本降低，而相对单词错误率仅3％（WER）增加。

translated by 谷歌翻译

Sub-8-Bit Quantization Aware Training for 8-Bit Neural Network Accelerator with On-Device Speech Recognition

Kai Zhen , Hieu Duy Nguyen , Raviteja Chinta , Nathan Susanj , Athanasios Mouchtaris , Tariq Afzal , Ariya Rastrow

分类：人工智能

2022-06-30

我们提出了一种针对8位神经网络加速器的新型8位量化感知训练（S8BQAT）方案。我们的方法灵感来自Lloyd-Max压缩理论，其实际适应性适应训练期间可行的计算开销。通过量化质心源自32位基线，我们使用多区域绝对余弦（MRACOS）正规器增强训练损失，该培训将重量汇总到其最近的质心，有效地充当伪压缩机。此外，引入了定期调用的硬压缩机，以通过模拟运行时模型重量量化来提高收敛速率。我们将S8BQAT应用于语音识别任务，使用经常性神经网络TransDucer（RNN-T）体系结构。使用S8BQAT，我们能够将模型参数大小增加，以将单词错误率相对降低4-16％，同时仍将延迟提高5％。

translated by 谷歌翻译

Context-Aware Transformer Transducer for Speech Recognition

Feng-Ju Chang , Jing Liu , Martin Radfar , Athanasios Mouchtaris , Maurizio Omologo , Ariya Rastrow , Siegfried Kunzmann

分类：自然语言处理 | 机器学习

2021-11-05

端到端（E2E）自动语音识别（ASR）系统通常难以识别出罕见的单词，这在训练数据中出现了很少。一种有希望的方法，提高了这种稀有词语的识别准确性，是在推理的推理中锁定在个性化/上下文信息上。在这项工作中，我们通过利用这种上下文信号，提出了一种新颖的上下文传感器传感器（CATT）网络，其通过利用这种上下文信号来改善基于最先进的变换器的ASR系统。具体地，我们提出了一种基于多主题的上下文偏置网络，其与ASR子网的其余部分共同训练。我们探讨了对编码上下文数据的不同技术，并创建最终注意上下文向量。我们还利用BLSTM和预借用的基于BERT的模型来编码上下文数据并指导网络培训。使用内部现场数据集，我们示出了使用基于BERT的上下文编码器的CATT，可提高基线变压器传感器的字错误率，并且分别优于现有的深层上下文模型24.2％和19.4％。

translated by 谷歌翻译

Sample-Efficient Unsupervised Domain Adaptation of Speech Recognition Systems A case study for Modern Greek

Georgios Paraskevopoulos , Theodoros Kouzelis , Georgios Rouvalis , Athanasios Katsamanis , Vassilis Katsouros , Alexandros Potamianos

分类：自然语言处理

2022-12-31

Modern speech recognition systems exhibits rapid performance degradation under domain shift. This issue is especially prevalent in data-scarce settings, such as low-resource languages, where diversity of training data is limited. In this work we propose M2DS2, a simple and sample-efficient finetuning strategy for large pretrained speech models, based on mixed source and target domain self-supervision. We find that including source domain self-supervision stabilizes training and avoids mode collapse of the latent representations. For evaluation, we collect HParl, a $120$ hour speech corpus for Greek, consisting of plenary sessions in the Greek Parliament. We merge HParl with two popular Greek corpora to create GREC-MD, a test-bed for multi-domain evaluation of Greek ASR systems. In our experiments we find that, while other Unsupervised Domain Adaptation baselines fail in this resource-constrained environment, M2DS2 yields significant improvements for cross-domain adaptation, even when a only a few hours of in-domain audio are available. When we relax the problem in a weakly supervised setting, we find that independent adaptation for audio using M2DS2 and language using simple LM augmentation techniques is particularly effective, yielding word error rates comparable to the fully supervised baselines.

translated by 谷歌翻译

Adnexal Mass Segmentation with Ultrasound Data Synthesis

Clara Lebbos , Jen Barcroft , Jeremy Tan , Johanna P. Muller , Matthew Baugh , Athanasios Vlontzos , Srdjan Saso , Bernhard Kainz

分类：计算机视觉 | 机器学习

2022-09-25

卵巢癌是最致命的妇科恶性肿瘤。该疾病在早期阶段最常是无症状的，其诊断依赖于经阴道超声图像的专家评估。超声是表征附加质量的一线成像方式，它需要大量的专业知识，其分析是主观的和劳动的，因此易于误差。因此，在临床实践中需要进行自动化的过程，以促进和标准化扫描评估。使用监督的学习，我们证明了附加质量的分割是可能的，但是，患病率和标签不平衡限制了代表性不足的类别的性能。为了减轻这种情况，我们应用了一种新颖的病理学数据合成器。我们通过使用Poisson图像编辑将较少常见的质量整合到其他样品中，从而创建及其相应的地面真实分割的合成医学图像。我们的方法在所有班级中都取得了最佳性能，包括与NNU-NET基线方法相比，提高了多达8％。

translated by 谷歌翻译

nnOOD: A Framework for Benchmarking Self-supervised Anomaly Localisation Methods

Matthew Baugh , Jeremy Tan , Athanasios Vlontzos , Johanna P. Müller , Bernhard Kainz

分类：计算机视觉

2022-09-02

医学成像中各种各样的分布和分布数据使通用异常检测成为一项艰巨的任务。最近，已经开发了许多自我监督的方法，这些方法是对健康数据的端到端模型，并具有合成异常的增强。但是，很难比较这些方法，因为尚不清楚绩效的收益是从任务本身还是围绕其培训管道来进行的。也很难评估一项任务是否可以很好地通用通用异常检测，因为它们通常仅在有限的异常范围内进行测试。为了协助这一点，我们开发了NOOD，该框架适应NNU-NET，以比较自我监督的异常定位方法。通过将综合，自我监督的任务隔离在其余培训过程中，我们对任务进行了更忠实的比较，同时还可以快速简便地评估给定数据集的工作流程。使用此功能，我们实施了当前的最新任务，并在具有挑战性的X射线数据集上对其进行了评估。

translated by 谷歌翻译

HTML版本

Cross-Lingual Knowledge Transfer for Clinical Phenotyping

Jens-Michalis Papaioannou , Paul Grundmann , Betty van Aken , Athanasios Samaras , Ilias Kyparissidis , George Giannakoulas , Felix Gers , Alexander Löser

分类：自然语言处理

2022-08-03

临床表型可以从患者记录中自动提取临床状况，这可能对全球医生和诊所有益。但是，当前的最新模型主要适用于用英语编写的临床笔记。因此，我们研究了跨语化知识转移策略，以针对不使用英语并且有少量可用数据的诊所执行此任务。我们评估了希腊和西班牙诊所的这些策略，利用来自心脏病学，肿瘤学和ICU等不同临床领域的临床笔记。我们的结果揭示了两种策略，这些策略优于最先进的方法：基于翻译的方法，结合了域的编码器和跨语性编码器以及适配器。我们发现，这些策略在对稀有表型进行分类方面表现特别好，我们建议在哪种情况下更喜欢哪种方法。我们的结果表明，使用多语言数据总体可以改善临床表型模型，并可以补偿数据稀疏性。

translated by 谷歌翻译

Visual Speech-Aware Perceptual 3D Facial Expression Reconstruction from Videos

Panagiotis P. Filntisis , George Retsinas , Foivos Paraperas-Papantoniou , Athanasios Katsamanis , Anastasios Roussos , Petros Maragos

分类：计算机视觉

2022-07-22

由于深度学习的出现，图像数据的最新技术对单眼3D面对重建的重建取得了令人印象深刻的进步。但是，它主要集中于来自单个RGB图像的输入，忽略以下重要因素：a）如今，感兴趣的绝大多数面部图像数据不是来自单个图像，而是来自包含丰富动态信息的视频。。 b）此外，这些视频通常以某种形式的口头交流捕捉个人（公众对话，电视会议，视听人类计算机的互动，访谈，电影中的独白/对话等）。当在此类视频中应用现有的3D面部重建方法时，重建口腔区域的形状和运动中的伪影通常很严重，因为它们与语音音频不太匹配。为了克服上述局限性，我们提出了3D口表达的视觉语音感知重建的第一种方法。我们通过提出“口语”损失来做到这一点，该损失指导拟合过程，从而使3D重建的说话头的感知与原始录像相似。我们证明，有趣的是，与传统的具有里程碑意义的损失，甚至直接3D监督相比，口头损失更适合3D重建嘴运动。此外，设计的方法不依赖于任何文本转录或相应的音频，因此非常适合在未标记的数据集中培训。我们通过对三个大规模数据集的详尽客观评估以及通过两种基于网络的用户研究进行主观评估来验证方法的效率。

translated by 谷歌翻译

Automatic inspection of cultural monuments using deep and tensor-based learning on hyperspectral imagery

Ioannis N. Tzortzis , Ioannis Rallis , Konstantinos Makantasis , Anastasios Doulamis , Nikolaos Doulamis , Athanasios Voulodimos

分类：计算机视觉 | 机器学习

2022-07-05

在文化遗产中，高光谱图像通常使用，因为它们提供了有关材料光学特性的扩展信息。因此，从要应用的机器学习技术的角度来看，这种高维数据的处理变得具有挑战性。在本文中，我们提出了一种基于排名的基于张量的学习模型，以识别和对文化遗产纪念碑的物质缺陷进行分类。与常规的深度学习方法相反，拟议的高阶基于张量的学习表明，具有更高的准确性和鲁棒性，以防止过度拟合。来自联合国教科文组织保护区的现实世界数据的实验结果表明，与常规深度学习模型相比，该计划的优越性。

translated by 谷歌翻译

Towards trustworthy Energy Disaggregation: A review of challenges, methods and perspectives for Non-Intrusive Load Monitoring

Maria Kaselimi , Eftychios Protopapadakis , Athanasios Voulodimos , Nikolaos Doulamis , Anastasios Doulamis

分类：机器学习 | 人工智能

2022-07-05

非侵入性负载监控（NILM）是将总功率消耗分为单个子组件的任务。多年来，已经合并了信号处理和机器学习算法以实现这一目标。关于最先进的方法，进行了许多出版物和广泛的研究工作，以涉及最先进的方法。科学界最初使用机器学习工具的尼尔姆问题制定和描述的最初兴趣已经转变为更实用的尼尔姆。如今，我们正处于成熟的尼尔姆时期，在现实生活中的应用程序方案中尝试使用尼尔姆。因此，算法的复杂性，可转移性，可靠性，实用性和普遍的信任度是主要的关注问题。这篇评论缩小了早期未成熟的尼尔姆时代与成熟的差距。特别是，本文仅对住宅电器的尼尔姆方法提供了全面的文献综述。本文分析，总结并介绍了大量最近发表的学术文章的结果。此外，本文讨论了这些方法的亮点，并介绍了研究人员应考虑的研究困境，以应用尼尔姆方法。最后，我们表明需要将传统分类模型转移到一个实用且值得信赖的框架中。

translated by 谷歌翻译