在这项工作中,我们为点击率(CTR)预测引入了一个增量学习框架,并证明了其对Taboola大规模推荐服务的有效性。我们的方法可以通过从先前部署的模型中进行热烈启动并仅对“新鲜”数据进行微调来快速捕捉新兴趋势。过去的知识是通过教师范式维护的,教师充当蒸馏技术,减轻灾难性的遗忘现象。我们的增量学习框架可以显着更快地训练和部署周期(X12加速)。我们证明,每毫米(RPM)在多个交通段中的收入一致,新引入的物品的CTR大幅增加。
translated by 谷歌翻译
We present RAVEn, a self-supervised multi-modal approach to jointly learn visual and auditory speech representations. Our pre-training objective involves encoding masked inputs, and then predicting contextualised targets generated by slowly-evolving momentum encoders. Driven by the inherent differences between video and audio, our design is asymmetric w.r.t. the two modalities' pretext tasks: Whereas the auditory stream predicts both the visual and auditory targets, the visual one predicts only the auditory targets. We observe strong results in low- and high-resource labelled data settings when fine-tuning the visual and auditory encoders resulting from a single pre-training stage, in which the encoders are jointly trained. Notably, RAVEn surpasses all self-supervised methods on visual speech recognition (VSR) on LRS3, and combining RAVEn with self-training using only 30 hours of labelled data even outperforms a recent semi-supervised method trained on 90,000 hours of non-public data. At the same time, we achieve state-of-the-art results in the LRS3 low-resource setting for auditory speech recognition (as well as for VSR). Our findings point to the viability of learning powerful speech representations entirely from raw video and audio, i.e., without relying on handcrafted features. Code and models will be made public.
translated by 谷歌翻译
Recognizing a word shortly after it is spoken is an important requirement for automatic speech recognition (ASR) systems in real-world scenarios. As a result, a large body of work on streaming audio-only ASR models has been presented in the literature. However, streaming audio-visual automatic speech recognition (AV-ASR) has received little attention in earlier works. In this work, we propose a streaming AV-ASR system based on a hybrid connectionist temporal classification (CTC)/attention neural network architecture. The audio and the visual encoder neural networks are both based on the conformer architecture, which is made streamable using chunk-wise self-attention (CSA) and causal convolution. Streaming recognition with a decoder neural network is realized by using the triggered attention technique, which performs time-synchronous decoding with joint CTC/attention scoring. For frame-level ASR criteria, such as CTC, a synchronized response from the audio and visual encoders is critical for a joint AV decision making process. In this work, we propose a novel alignment regularization technique that promotes synchronization of the audio and visual encoder, which in turn results in better word error rates (WERs) at all SNR levels for streaming and offline AV-ASR models. The proposed AV-ASR model achieves WERs of 2.0% and 2.6% on the Lip Reading Sentences 3 (LRS3) dataset in an offline and online setup, respectively, which both present state-of-the-art results when no external training data are used.
translated by 谷歌翻译
最近,在一系列独立作品中提出了几种培训策略和时间模型,用于隔离单词唇读。但是,尚未探索结合最佳策略和调查每个策略的影响的潜力。在本文中,我们系统地研究了最先进的数据增强方法,时间模型和其他培训策略的性能,例如自我验证和使用单词边界指标。我们的结果表明,时间掩盖(TM)是最重要的增强,其次是混合和密集连接的时间卷积网络(DC-TCN)是隔离单词唇读的最佳时间模型。使用自我验证和单词边界指标也是有益的,但程度较小。上述所有方法的组合导致分类精度为93.4%,这比LRW数据集的当前最新性能的绝对提高了4.6%。通过预先培训其他数据集,可以将性能进一步提高到94.1%。对各种培训策略的错误分析表明,绩效通过提高难以认可词的分类准确性来提高。
translated by 谷歌翻译
手动相互作用的研究需要为高维多手指模型产生可行的掌握姿势,这通常依赖于分析抓取的合成,从而产生脆弱且不自然的结果。本文介绍了Grasp'd,这是一种与已知模型和视觉输入的可区分接触模拟的掌握方法。我们使用基于梯度的方法作为基于采样的GRASP合成的替代方法,该方法在没有简化假设的情况下失败,例如预先指定的接触位置和本本特征。这样的假设限制了掌握发现,尤其是排除了高接触功率掌握。相比之下,我们基于模拟的方法允许即使对于具有高度自由度的抓地力形态,也可以稳定,高效,物理逼真,高接触抓紧合成。我们确定并解决了对基于梯度的优化进行掌握模拟的挑战,例如非平滑对象表面几何形状,接触稀疏性和坚固的优化景观。 GRASP-D与人类和机器人手模型的分析掌握合成相比,并且结果抓紧超过4倍,超过4倍,从而导致较高的GRASP稳定性。视频和代码可在https://graspd-eccv22.github.io/上获得。
translated by 谷歌翻译
本文的目的是比较医学声学任务中不同可学习的前端。已经实施了一个框架,以将人类的呼吸道声音和心跳分为两类,即健康或受病理影响。在获得两个合适的数据集后,我们开始使用两个可学习的前端(叶子和nnaudio)对声音进行分类,以及一个不可学习的基线前端,即mel-Filterbanks。然后,计算出的功能将被馈送到两种不同的CNN模型中,即VGG16和EfficityNet。前端根据参数,计算资源和有效性的数量进行了仔细的基准测试。这项工作表明了神经音频分类系统中可学习前端的整合如何提高性能,尤其是在医学声学领域。但是,此类框架的使用使所需的数据数量更大。因此,如果可用于培训的数据量足够大以帮助特征学习过程,则它们很有用。
translated by 谷歌翻译
本文提出了一种基于机器学习的方法,旨在提醒患者可能呼吸道疾病。各种类型的病理可能会影响呼吸系统,可能导致严重疾病,在某些情况下死亡。通常,有效的预防实践被视为改善患者健康状况的主要参与者。提出的方法致力于实现一种易于使用的工具,以自动诊断呼吸道疾病。具体而言,该方法利用变异自动编码器体系结构允许使用有限的复杂性和相对较小的数据集的培训管道。重要的是,它的精度为57%,这与现有的强烈监督方法一致。
translated by 谷歌翻译
哮喘是呼吸系统的常见慢性疾病,导致严重的残疾和社会负担。它影响了全球超过5亿人,2011年在美国产生的成本超过560亿美元。管理哮喘涉及控制症状,预防加重和维持肺功能。改善哮喘控制会影响患者的日常生活,并与降低患者的风险降低和肺功能障碍,降低了哮喘护理的成本和与生产率降低相关的间接成本。了解肺系统的复杂动力学以及肺对疾病,损伤和治疗的反应是哮喘治疗的发展。呼吸系统的计算模型试图提供一个理论框架,以了解结构与功能之间的相互作用。他们的应用可以通过特定于患者的药物方法来改善肺部医学,以优化鉴于个性化的几何形状和个性化通风模式,同时引入了一种最大化药物输送的患者技术,从而优化了分娩。在这一点上,本论文中解决的三倍目标变得突出。第一部分是指对肺病理生理学的理解以及哮喘的力学以及随后的肺部疾病的理解。第二部分是指促进个性化医学以提高交付和有效性的工具的设计和实施。最后,第三部分是指疾病的自我管理,这意味着医务人员和患者可以使用工具和方法,使第一方可以轻松地跟踪病情和第二方的过程,即患者轻松轻松自我管理,它减轻了卫生系统的重大负担。
translated by 谷歌翻译
本文调查了美国境内自动驾驶汽车进行的最后一英里交付的最终用户接受。总共向296名参与者介绍了有关该技术的信息,然后要求填写有关他们的看法的调查表,以评估他们有关接受的行为意图。采用了部分最小二乘风味(PLS-SEM)的结构方程模型来分析收集的数据。结果表明,该技术的有用性在最终用户接受决策中起着最大作用,随后是他人的影响,然后通过与技术互动而获得的享受。此外,对使用自动递送工具进行最后一英里交付的风险的看法导致接受程度减少。但是,大多数参与者并未认为使用该技术具有风险。本文总结了我们的发现对各个利益相关者的影响,并提出了这一研究领域的下一步。
translated by 谷歌翻译
视频到语音的合成(也称为Lip-speech)是指沉默的唇部动作转换为相应的音频。由于其自我监督的性质(即可以在无需手动标记的情况下训练)以及在线可用的视听数据的收集量不断增长,因此该任务受到了越来越多的关注。尽管有这些强烈的动机,现代视频到语音的作品主要集中在词汇和环境中具有很大限制的中小型语料库。在这项工作中,我们引入了一个可扩展的视频到语音框架,该框架由两个组件组成:视频到光谱图预测器和一个预训练的神经声码器,该框架将MEL频谱图转换为波形音频。我们在LRW上取得了最先进的效果,并且在LRW上的表现要优于以前的方法。更重要的是,通过使用简单的FeedForward模型专注于频谱图预测,我们可以有效地将方法扩展到非常不受约束的数据集:据我们所知,我们是第一个在具有挑战性的LRS3数据集上显示出可理解的结果。
translated by 谷歌翻译