公共数据集是商业AI软件的关键驱动程序之一。使用公共可用数据集(特别是商业目的)由DataSet许可证管理。这些数据集许可证概述权利人有权获得给定数据集的权利以及必须履行必须履行诸如违反许可违规行为的权利的义务。但是,与标准化开源软件(OSS)许可不同,现有数据集许可证以临时方式定义,并不明确概述与其使用相关的权利和义务。这使得检查潜在的许可合规性违规。此外,公共数据集可以托管在多个位置,并从多个数据源创建,每个数据源可以具有不同的许可。因此,不能使用现有的检查OSS许可合规性的方法。在本文中,如果要用于建立商业AI软件,则提出了一种新的方法来评估潜在的许可合规性违规行为,如果要用于建立商业AI软件。我们在Huawei的两个产品组上进行了方法,常用的公共数据集进行了试验。我们的研究结果表明,如果它们用于商业目的,这6个学习的数据集中有5个违规风险。因此,我们为AI工程师提供了如何更好地评估公开可用数据集以获得许可合规性违规的建议。
translated by 谷歌翻译
这项工作提出了两种统计方法,用于基于通用和用户依赖模型的击键生物识别数据的合成。两种方法在机器人检测任务上均经过验证,使用击键合成数据来更好地训练系统。我们的实验包括一个来自168,000名受试者的1.36亿击球事件的数据集。我们通过定性和定量实验分析了两种合成方法的性能。根据两个监督分类器(支持向量机和长期的短期内存网络)和一个包括人类和生成的样本在内的学习框架,考虑了不同的机器人探测器。我们的结果证明,所提出的统计方法能够生成现实的人类合成击键样品。此外,分类结果表明,在具有大型标记数据的情况下,可以高精度检测这些合成样品。但是,在几次学习方案中,它代表了一个重要的挑战。
translated by 谷歌翻译
这项工作提出了基于眼闪烁频率的远程关注水平估计的可行性研究。我们首先提出了一种基于卷积神经网络(CNNS)的眼睛闪烁检测系统,对相关工程非常竞争。使用此探测器,我们通过在线会话期间通过实验评估眼睛眨眼率与学生的注意力水平之间的关系。实验框架是使用公共多模式数据库进行的用于眼睛眨眼检测和称为Mebal的注意力水平估计,包括来自38名学生的数据和倍数采集传感器,特别是i)提供时间信号的脑电图(EEG)频带从学生的认知信息和ii)RGB和NIR相机捕捉学生面部姿势。实现的结果表明眼睛闪烁频率与关注水平之间的反比相关性。在我们所提出的方法中使用该关系,称为ALEBK,用于估计注意力水平作为眼睛闪烁频率的倒数。我们的成果开设了新的研究线,以介绍这种技术的关注水平估计,以及这种行为生物识别基于面部分析的其他应用。
translated by 谷歌翻译
幻想运动让粉丝管理他们最喜欢的运动员团队并与朋友竞争。幻想平台对抗运动员的真实统计表现,幻想得分,稳步上升,估计每月有44亿球员的估计为910万名球员,2018 - 2019年的ESPN幻想足球平台。同时,体育媒体社区并行产生新闻报道,博客,论坛帖子,推文,视频,播客和幻想运动内外的曲目。然而,人类幻想足球运动员只能分析3.9个信息来源。我们的工作讨论了机器学习管道的结果来管理ESPN幻想足球队。每天使用训练有素的统计实体探测器和文档2Vector模型应用于超过100,000个新闻源和230万件文章,视频和播客使系统能够理解自然语言,这些自然语言具有100%和关键字测试精度为80%的类别。深度学习前馈神经网络提供了播放器分类,例如,如果玩家将是一个胸围,繁荣,用隐藏的伤害玩或玩有意义的触摸,累计72%的准确性。最后,多元回归集合使用深度学习输出和ESPN投影数据,为2018年为前500多个幻想足球运动员提供了一个点投影。点投影保持了6.78点的RMSE。选择来自一组24的最佳拟合概率密度函数以可视化分数扩展。在产品发布的前6周内,用户总数花了46年来观看我们的AI洞察力。我们模型的培训数据由2015年到2016年的Web档案提供,来自Webhose,ESPN统计和Rootowire损伤报告。我们使用2017年幻想足球数据作为测试集。
translated by 谷歌翻译
Earthquakes, fire, and floods often cause structural collapses of buildings. The inspection of damaged buildings poses a high risk for emergency forces or is even impossible, though. We present three recent selected missions of the Robotics Task Force of the German Rescue Robotics Center, where both ground and aerial robots were used to explore destroyed buildings. We describe and reflect the missions as well as the lessons learned that have resulted from them. In order to make robots from research laboratories fit for real operations, realistic test environments were set up for outdoor and indoor use and tested in regular exercises by researchers and emergency forces. Based on this experience, the robots and their control software were significantly improved. Furthermore, top teams of researchers and first responders were formed, each with realistic assessments of the operational and practical suitability of robotic systems.
translated by 谷歌翻译
Planning is an extraordinary ability in which the brain imagines and then enacts evaluated possible futures. Using traditional planning models, computer scientists have attempted to replicate this capacity with some level of success but ultimately face a reoccurring limitation: as the plan grows in steps, the number of different possible futures makes it intractable to determine the right sequence of actions to reach a goal state. Based on prior theoretical work on how the ecology of an animal governs the value of spatial planning, we developed a more efficient biologically-inspired planning algorithm, TLPPO. This algorithm allows us to achieve mouselevel predator evasion performance with orders of magnitude less computation than a widespread algorithm for planning in the situations of partial observability that typify predator-prey interactions. We compared the performance of a real-time agent using TLPPO against the performance of live mice, all tasked with evading a robot predator. We anticipate these results will be helpful to planning algorithm users and developers, as well as to areas of neuroscience where robot-animal interaction can provide a useful approach to studying the basis of complex behaviors.
translated by 谷歌翻译
研究界长期以来一直在非本地语音中研究了计算机辅助的发音训练(上尉)方法。研究人员致力于研究各种模型架构,例如贝叶斯网络和深度学习方法,以及分析语音信号的不同表示。尽管近年来取得了重大进展,但现有的CAPT方法仍无法以高精度检测发音误差(在40 \%-80 \%召回时只有60 \%精度)。关键问题之一是发音错误检测模型的可靠培训所需的语音错误的可用性较低。如果我们有一个可以模仿非本地语音并产生任何数量的训练数据的生成模型,那么检测发音错误的任务将容易得多。我们介绍了基于音素到音量(P2P),文本到语音(T2S)以及语音到语音(S2S)转换的三种创新技术,以生成正确发音和错误发音的合成语音。我们表明,这些技术不仅提高了三个机器学习模型的准确性,以检测发音错误,而且还有助于在现场建立新的最新技术。早期的研究使用了简单的语音生成技术,例如P2P转换,但仅是提高发音误差检测准确性的附加机制。另一方面,我们认为语音生成是检测发音误差的第一类方法。这些技术的有效性在检测发音和词汇应力误差的任务中进行了评估。评估中使用了非本地英语言语语料库。与最先进的方法相比,最佳提出的S2S技术将AUC度量误差的准确性从41 \%提高到41 \%从0.528提高到0.749。
translated by 谷歌翻译
由于传统的社交媒体平台继续禁止演员传播仇恨言论或其他形式的滥用语言(称为令人作为令人作为的过程),因此这些演员迁移到不适中用户内容的替代平台。一个流行的平台与德国Hater社区相关,是迄今为止已经有限的研究工作的电报。本研究旨在开发一个广泛的框架,包括(i)用于德国电报消息的滥用语言分类模型和(ii)电报频道仇恨性的分类模型。对于第一部分,我们使用包含来自其他平台的帖子的现有滥用语言数据集来开发我们的分类模型。对于信道分类模型,我们开发了一种方法,该方法将从主题模型中收集的信道特定内容信息与社会图组合以预测频道的仇恨性。此外,我们补充了这两种仇恨语音检测方法,并在德国电报上的呼吸群落演变。我们还提出了对仇恨语音研究界进行可扩展网络分析的方法。作为本研究的额外输出,我们提供了包含1,149个注释电报消息的注释滥用语言数据集。
translated by 谷歌翻译
露天矿山留下了许多全世界地区,不管怎样或无法居住。要将这些地区送回使用,整个土地必须转向化。对于可持续的随后使用或转移到新的主要用途,必须永久管理许多受污染的地点和土壤信息。在大多数情况下,此信息以非结构化数据集合或文件文件夹中的专家报告的形式提供,在最佳情况下是数字化的。由于数据的大小和复杂性,一个人难以概述该数据,以便能够进行可靠的陈述。这是将这些地区快速转移到使用后最重要的障碍之一。基于信息的方法支持本问题支持履行有关环境问题,健康和气候行动的几个可持续发展目标。我们使用一堆光学字符识别,文本分类,主动学习和地理信息系统可视化,以有效地挖掘并可视化这些信息。随后,我们将提取的信息链接到地理坐标并使用地理信息系统可视化它们。主动学习发挥着重要作用,因为我们的数据集不提供培训数据。总共,我们处理九个类别,并积极学习其数据集中的表示。我们分别评估OCR,主动学习和文本分类,以报告系统的性能。主动学习和文本分类结果是双重的:而我们关于限制的类别足够的工作($> $。85 F1),为人类编码人员复杂化了七个主题类别,因此取得了平庸的评价分数($ <$。70 F1)。
translated by 谷歌翻译