数据文章介绍了路线损坏数据集RDD2022,其中包括来自六个国家,日本,印度,捷克共和国,挪威,美国和中国的47,420条道路图像。图像已注释了超过55,000个道路损坏的实例。数据集中捕获了四种类型的道路损坏,即纵向裂缝,横向裂纹,鳄鱼裂纹和坑洼。设想注释的数据集用于开发基于深度学习的方法以自动检测和对道路损害进行分类。该数据集已作为基于人群传感的道路伤害检测挑战(CRDDC2022)的一部分发布。 CRDDC2022挑战邀请了来自全球的研究人员提出解决方案,以在多个国家 /地区自动道路损害检测。市政当局和道路机构可以使用RDD2022数据集,并使用RDD2022培训的模型用于低成本自动监测道路状况。此外,计算机视觉和机器学习研究人员可能会使用数据集对其他类型的其他基于图像的应用程序(分类,对象检测等)进行不同算法的性能。
translated by 谷歌翻译
我们提出了一项实证研究,以适应现有的经过验证的文本对文本模型,以备长期输入。通过沿预训练管道的三个轴的全面研究 - 模型架构,优化目标和训练式语料库,我们提出了一种有效的食谱,以从现有的短篇小说模型中构建长篇小说模型。具体而言,我们用汇总仪的块关注替换了变压器中的全部注意力,并使用蒙版的跨度预测任务为模型预算,长度不同。就训练训练的语料库而言,我们发现,与使用通常在其域覆盖范围中通常受到限制的现有长文档语料库相比,使用大型开放域语料库的随机串联的短篇小说可以提高性能。通过这些发现,我们建立了一个长篇文本模型,该模型可以在长篇文本质量检查任务上实现竞争性能,并在五个长文本摘要数据集上建立新的最新技术,通常优于先前的方法,具有较大的模型大小。
translated by 谷歌翻译
神经网络在与噪声扰动的图像分类中的精度较小。 CNN卷积神经网络以其在良性图像的分类中无与伦比的精度而闻名。但是我们的研究表明,它们极易受到噪声的攻击,而馈送前向神经网络,FNN与噪声扰动的对应性较小,几乎不受干扰地保持其准确性。观察到FNN可以更好地分类噪声密集的单通道图像,而这些图像只是人类视觉的巨大噪音。在我们的研究中,我们使用了以下架构的手写数字数据集,MNIST:具有1和2个隐藏层和CNN的FNN,带有3、4、6和8卷积,并分析了其准确性。 FNN脱颖而出表明,无论噪声强度如何,它们的分类精度超过85%。在我们通过此数据对CNN的分析中,CNN的分类准确性减速8卷积是其余CNN的一半。准确性趋势的相关分析和数学建模是这些结论的路线图。
translated by 谷歌翻译
一种自然语言模型才能理解小说,例如《指环王》?除其他外,这种模型必须能够:(a)识别和记录新字符(实体)及其在文本中引入的属性,以及(b)确定对先前介绍的字符的后续引用并更新其属性。实体跟踪问题对于语言理解至关重要,因此,对于NLP中的各种下游应用程序,例如提问,摘要。在本论文中,我们关注有关促进实体跟踪模型使用的两个关键问题:(i)将实体跟踪模型缩放到长文档,例如小说和(ii)将实体跟踪集成到语言模型中。最近将语言技术应用于长文档,最近引起了兴趣,但是计算限制是扩大当前方法的重要瓶颈。在本论文中,我们认为可以通过代表具有较丰富的,固定维的矢量表示的实体来开发计算高效的实体跟踪模型,并通过审计的语言模型和利用实体的短暂性质来开发。我们还主张将实体跟踪集成到语言模型中,因为它将允许:(i)鉴于当前无处不在的NLP应用程序中使用预处理的语言模型的应用程序,并且(ii)更容易采用,因为更容易交换要容易得多一个新的预审前的语言模型,而不是集成单独的独立实体跟踪模型。
translated by 谷歌翻译
机器学习中的知识蒸馏是将知识从名为教师的大型模型转移到一个名为“学生”的较小模型的过程。知识蒸馏是将大型网络(教师)压缩到较小网络(学生)的技术之一,该网络可以部署在手机等小型设备中。当教师和学生之间的网络规模差距增加时,学生网络的表现就会下降。为了解决这个问题,在教师模型和名为助教模型的学生模型之间采用了中间模型,这反过来弥补了教师与学生之间的差距。在这项研究中,我们已经表明,使用多个助教模型,可以进一步改进学生模型(较小的模型)。我们使用加权集合学习将这些多个助教模型组合在一起,我们使用了差异评估优化算法来生成权重值。
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译
学习高级语音表征的自学学习(SSL)一直是在低资源环境中构建自动语音识别(ASR)系统的一种流行方法。但是,文献中提出的共同假设是,可以使用可用于SSL预训练的相同域或语言的大量未标记数据,我们承认,在现实世界中,这是不可行的。在本文中,作为Interspeech Gram Vaani ASR挑战的一部分,我们尝试研究域,语言,数据集大小和上游训练SSL数据对最终性能下游ASR任务的效果。我们还建立在持续的训练范式的基础上,以研究使用SSL训练的模型所拥有的先验知识的效果。广泛的实验和研究表明,ASR系统的性能易受用于SSL预训练的数据。它们的性能随着相似性和预训练数据量的增加而提高。我们认为,我们的工作将有助于语音社区在低资源环境中建立更好的ASR系统,并引导研究改善基于SSL的语音系统预培训的概括。
translated by 谷歌翻译
虽然自我监督的语音表示学习(SSL)模型执行了各种下游任务,但已经观察到这些模型过于拟合未标记数据来源的域。为了减轻此问题,我们提出了PADA(修剪辅助域的适应性),并在大量室外(OOD)数据上进行预训练的模型中的冗余权重。直观地,这有助于为目标域ASR芬太尼腾出空间。可以通过各种修剪策略来识别多余的权重,这些策略已作为本工作的一部分进行了详细讨论。具体而言,我们研究了最近发现的任务不合时宜的和任务感知的修剪对PADA的效果,并根据后者提出了一个新的修剪范式,我们称之为跨域任务意识到的修剪(CD-TAW)。 CD-TAW从精心调整的OOD模型中获得了初始修剪面膜,这使其与本文讨论的其余修剪策略完全不同。当在没有语言模型(LM)解码的2小时子集中进行微调时,我们提出的CD-TAW方法比基线相对相对改善高达20.6%。此外,我们进行了详细的分析,以突出提出的方法的关键设计选择。
translated by 谷歌翻译
除了使用硬标签的标准监督学习外,通常在许多监督学习设置中使用辅助损失来改善模型的概括。例如,知识蒸馏增加了第二个教师模仿模型训练的损失,在该培训中,教师可能是一个验证的模型,可以输出比标签更丰富的分布。同样,在标记数据有限的设置中,弱标记信息以标签函数的形式使用。此处引入辅助损失来对抗标签函数,这些功能可能是基于嘈杂的规则的真实标签近似值。我们解决了学习以原则性方式结合这些损失的问题。我们介绍AMAL,该AMAL使用元学习在验证度量上学习实例特定的权重,以实现损失的最佳混合。在许多知识蒸馏和规则降解域中进行的实验表明,Amal在这些领域中对竞争基准的增长可显着。我们通过经验分析我们的方法,并分享有关其提供性能提升的机制的见解。
translated by 谷歌翻译
由于不规则的病变界限,病变与背景之间的对比度较差,以及伪影之间的对比度,皮肤病的自动分割是一种具有挑战性的任务。在这项工作中,提出了一种新的卷积神经网络的方法,用于皮肤病变分割。在这项工作中,提出了一种新型多尺度特征提取模块,用于提取更多辨别特征,以处理与复杂的皮肤病变有关的挑战;该模块嵌入在UNET中,替换标准架构中的卷积层。此外,在这项工作中,两个不同的关注机制完善了编码器提取的特征和后ups采样的特征。使用两个公开的数据集进行评估,包括ISBI2017和ISIC2018数据集。该方法报告了ISBI2017数据集中的准确性,召回和JSI,97.5%,94.29%,91.16%,95.92%,95.92%,95.37%,95.37%,91.52%在ISIC2018数据集。它在各个竞争中表现出现有的方法和排名的模型。
translated by 谷歌翻译