本报告描述了一组新生儿脑电图(EEG)记录,根据背景模式中异常的严重程度分级。该数据集由来自新生儿重症监护病房记录的53个新生儿的169小时多通道脑电图组成。所有新生儿均诊断出低氧缺血性脑病(HIE),这是全年前婴儿脑损伤的最常见原因。对于每种新生儿,选择了多个1小时的高质量脑电图,然后对背景异常进行评分。分级系统评估eeg属性,例如振幅和频率,连续性,睡眠循环,对称性和同步以及异常波形。然后将背景严重程度分为4年级:正常或轻度异常,中度异常,严重异常和不活跃的脑电图。数据可用作用于HIE,用于脑电图训练目的的新生儿的多通道脑电图的参考集,或用于开发和评估自动化等级算法。
translated by 谷歌翻译
Large language models have ushered in a golden age of semantic parsing. The seq2seq paradigm allows for open-schema and abstractive attribute and relation extraction given only small amounts of finetuning data. Language model pretraining has simultaneously enabled great strides in natural language inference, reasoning about entailment and implication in free text. These advances motivate us to construct ImPaKT, a dataset for open-schema information extraction, consisting of around 2500 text snippets from the C4 corpus, in the shopping domain (product buying guides), professionally annotated with extracted attributes, types, attribute summaries (attribute schema discovery from idiosyncratic text), many-to-one relations between compound and atomic attributes, and implication relations. We release this data in hope that it will be useful in fine tuning semantic parsers for information extraction and knowledge base construction across a variety of domains. We evaluate the power of this approach by fine-tuning the open source UL2 language model on a subset of the dataset, extracting a set of implication relations from a corpus of product buying guides, and conducting human evaluations of the resulting predictions.
translated by 谷歌翻译
由于计算机视觉的最新进展,流量视频数据已成为限制交通拥堵状况的关键因素。这项工作为使用颜色编码方案提供了一种独特的技术,用于在深度卷积神经网络中训练流量数据之前。首先,将视频数据转换为图像数据集。然后,使用您只看一次算法进行车辆检测。已经采用了颜色编码的方案将图像数据集转换为二进制图像数据集。这些二进制图像被馈送到深度卷积神经网络中。使用UCSD数据集,我们获得了98.2%的分类精度。
translated by 谷歌翻译
资源说明框架(RDF)和属性图(PG)是表示,存储和查询图数据的两个最常用的数据模型。我们提出了表达推理图存储(ERGS) - 构建在Janusgraph(属性图存储)顶部的图存储,该图还允许存储和查询RDF数据集。首先,我们描述了如何将RDF数据转换为属性图表示,然后描述将SPARQL查询转换为一系列Gremlin遍历的查询翻译模块。因此,开发的转换器和翻译器可以允许任何Apache TinkerPop符合图形数据库存储和查询RDF数据集。我们证明了使用JanusGraph作为基本属性图存储的建议方法的有效性,并将其性能与标准RDF系统进行比较。
translated by 谷歌翻译
电子表格广泛用于桌面操作和演示。这些表的风格格式是演示和分析的重要属性。结果,流行的电子表格软件(例如Excel)支持基于数据依赖性规则的自动格式表。不幸的是,编写这些格式规则对于用户来说可能是具有挑战性的,因为这需要了解基础规则语言和数据逻辑。在本文中,我们提出了Cornet,这是一种神经符号系统,该系统解决了从格式化细胞的用户示例中自动学习此类格式规则的新问题。 Cornet从归纳计划的合成中汲取灵感,并根据半监督聚类和迭代决策树学习结合了符号规则,并与神经排名者一起产生条件格式的规则。为了激励和评估我们的方法,我们从超过40k真实电子​​表格的语料库中提取了表格的表格。使用这些数据,我们将短号与各种符号和神经基线进行了比较。我们的结果表明,与这些基线相比,Cornet可以在不同条件下更准确地学习规则。除了从用户示例中学习规则外,我们还提出了两个案例研究,以激发Cornet的其他用途:简化用户条件格式规则并恢复规则,即使用户可能手动格式化了其数据。
translated by 谷歌翻译
相对摄像头姿势估计,即使用在不同位置拍摄的一对图像来估算翻译和旋转向量,是增强现实和机器人技术系统中系统的重要组成部分。在本文中,我们使用独立于摄像机参数的暹罗体系结构提出了端到端的相对摄像头姿势估计网络。使用剑桥地标数据和四个单独的场景数据集和一个结合四个场景的数据集对网络进行培训。为了改善概括,我们提出了一种新颖的两阶段训练,以减轻超参数以平衡翻译和旋转损失量表的需求。将提出的方法与基于CNN的一阶段培训方法(例如RPNET和RCPNET)进行了比较,并证明了所提出的模型在Kings College,Old Hospital和St Marys上提出的翻译量估计提高了16.11%,28.88%和52.27%教堂场景分别。为了证明纹理不变性,我们使用生成的对抗网络研究了提出的方法的概括,将数据集扩展到不同场景样式,作为消融研究。此外,我们对网络预测和地面真相构成的异性线进行定性评估。
translated by 谷歌翻译
本文正式对系统之间的战略重复交互作用,包括机器学习(ML)模型和相关的解释方法,以及正在寻求预测/标签的最终用户,并通过查询/输入进行解释,游戏理论。在这个游戏中,恶意的最终用户必须从战略上决定何时停止查询并尝试妥协系统,而系统必须战略性地决定其与最终用户以及何时分享的信息(以嘈杂的解释的形式)停止分享,所有这些都不知道最终用户的类型(诚实/恶意)。本文使用连续的随机信号游戏框架正式对这种权衡进行了正式建模,并在这种框架内表征了马尔可夫的完美平衡状态。
translated by 谷歌翻译
属性值提取是指识别来自产品信息的感兴趣属性的值的任务。产品属性值在许多电子商务方案中是必不可少的,例如客户服务机器人,产品排名,检索和建议。在现实世界中,产品的属性值通常不完整并随着时间的变化而变化,这极大地阻碍了实际应用。在本文中,我们介绍了一个新的数据集,以更好地促进产品属性值提取的研究。 Mave由亚马逊页面的策划组220万产品组成,跨越1257个独特类别的300万个属性值注释。 Mave有四个主要和独特的优势:首先,Mave是由属性值示例的数量的最大产品属性值提取数据集。其次,MAVE包括来自产品的多源表示,其捕获具有高属性覆盖的完整产品信息。第三,Mave表示相对于先前的数据集覆盖范围的更多样化的属性和值。最后,Mave提供了一个非常具有挑战性的零点测试集,因为我们经验在实验中说明。我们进一步提出了一种新的方法,它有效地从多源产品信息中提取了属性值。我们使用几个基线进行广泛的实验,并显示MAVE是属性值提取任务的有效数据集。它在零拍摄属性提取也是一个非常具有挑战性的任务。数据可在{\ it \ url {https://github.com/google-research-datasets/mave}}上获得。
translated by 谷歌翻译
生成机器学习模型越来越被视为在机构之间共享敏感数据的一种方式。尽管一直在开发差异化生成建模方法,但这些方法通常会导致低于标准的样本质量,从而限制了它们在现实世界应用中的使用。另一项工作重点是开发产生模型,从而导致更高质量的样本,但目前缺乏任何正式的隐私保证。在这项工作中,我们为生成模型中的会员隐私估算提出了第一个正式框架。我们将成员隐私风险制定为培训样本和持有样本之间的统计差异,并提出基于样本的方法来估计这种分歧。与以前的作品相比,我们的框架更加逼真和灵活。首先,我们提供可推广的指标,以替代准确度量指标,尤其是对于不平衡的数据集。其次,我们放松了从先前研究中完全访问基础分布的假设,并提出了具有理论保证的基于样本的估计。第三,以及通过最佳会员优势估算人口级会员资格隐私风险,我们通过个人隐私风险提供个人级别的估计。第四,我们的框架使对手可以通过自定义查询访问训练有素的模型,而先前的工作需要特定的属性。
translated by 谷歌翻译
Summarization based on text extraction is inherently limited, but generation-style abstractive methods have proven challenging to build. In this work, we propose a fully data-driven approach to abstractive sentence summarization. Our method utilizes a local attention-based model that generates each word of the summary conditioned on the input sentence. While the model is structurally simple, it can easily be trained end-to-end and scales to a large amount of training data. The model shows significant performance gains on the DUC-2004 shared task compared with several strong baselines.
translated by 谷歌翻译