实体链接(EL)是将实体提及在文本中及其相应实体中出现在知识库中的过程。通常基于Wikipedia估算实体的EL特征(例如,先前的概率,相关性评分和实体嵌入)。但是,对于刚刚在新闻中发现的新兴实体(EES)而言,它们可能仍未包含在Wikipedia中。结果,它无法获得Wikipedia和EL模型的EES所需的EL功能,将始终无法将歧义提及与这些EES正确链接,因为它没有其EL功能。为了解决这个问题,在本文中,我们专注于以一般方式为新兴实体学习EL功能的新任务。我们提出了一种名为Stamo的新颖方法,可以自动学习EES的高质量EL功能,该功能仅需要从网络中收集的每个EE的少数标记文档,因为它可以进一步利用隐藏在未标记的数据中的知识。 Stamo主要基于自我训练,这使其与任何EL功能或EL模型都灵活地集成在一起,但也使其很容易遭受由错误标签的数据引起的错误加强问题。我们认为自我训练是相对于EES的EL特征,而不是一些试图将错误标签的数据抛弃的常见自我训练策略,而是提出了内部插槽和斜率优化的多重优化过程,以减轻误差加强问题隐含。我们构建了涉及选定的EE的两个EL数据集,以评估EES获得的EL特征的质量,实验结果表明,我们的方法显着优于其他学习EL特征的基线方法。
translated by 谷歌翻译
人脑中的神经网络如何代表常识性知识,而完整的相关推理任务是神经科学,认知科学,心理学和人工智能的重要研究主题。尽管使用固定长度向量代表符号的传统人工神经网络在某些特定任务中取得了良好的表现,但它仍然是一个黑匣子,缺乏可解释性,远非人类对世界的看法。受神经科学中的祖母细胞假设的启发,这项工作调查了可以将编码和峰值定时依赖性可塑性(STDP)机制的人群整合到峰值神经网络的学习中,以及神经元的人群如何通过指导符号来指导符号在不同的神经元种群之间完成顺序触发。不同社区的神经元种群共同构成了整个常识知识图,形成了巨大的图形尖峰神经网络。此外,我们引入了奖励调节的峰值时间依赖性可塑性(R-STDP)机制,以模拟生物增强学习过程并相应地完成相关推理任务,比图形卷积人工神经网络实现了可比的准确性和更快的收敛速度。对于神经科学和认知科学领域,本文的工作为进一步探索人脑代表常识知识的方式提供了计算建模的基础。对于人工智能领域,本文通过构建常识性知识表示并推理具有固体生物学合理性的尖峰神经网络,指出了实现更健壮和可解释的神经网络的探索方向。
translated by 谷歌翻译
医生经常基于患者的图像扫描,例如磁共振成像(MRI),以及患者的电子健康记录(EHR),如年龄,性别,血压等。尽管在计算机视觉或自然语言研究领域的图像或文本分析中提出了大量的自动方法,但已经为医学图像的融合和医疗问题的EHR数据进行了更少的研究。在现有的早期或中间融合方法中,两种方式的特征串联仍然是一个主流。为了更好地利用图像和EHR数据,我们提出了一种多模态注意力模块,该模块使用EHR数据来帮助选择传统CNN的图像特征提取过程期间的重要区域。此外,我们建议将多头Machnib纳入门控多媒体单元(GMU),使其能够在不同子空间中平行熔断图像和EHR特征。在两个模块的帮助下,可以使用两个模态增强现有的CNN架构。预测脑内出血患者的Glasgow结果规模(GOS)和分类Alzheimer病的实验表明,该方法可以自动关注任务相关领域,并通过更好地利用图像和EHR功能来实现更好的结果。
translated by 谷歌翻译
人工智能(AI)为简化Covid-19诊断提供了有前景的替代。然而,涉及周围的安全和可信度的担忧阻碍了大规模代表性的医学数据,对临床实践中训练广泛的模型造成了相当大的挑战。为了解决这个问题,我们启动了统一的CT-Covid AI诊断计划(UCADI),其中AI模型可以在没有数据共享的联合学习框架(FL)下在每个主机机构下分发和独立地在没有数据共享的情况下在每个主机机构上执行。在这里,我们认为我们的FL模型通过大的产量(中国测试敏感性/特异性:0.973 / 0.951,英国:0.730 / 0.942),与专业放射科医师的面板实现可比性表现。我们进一步评估了持有的模型(从另外两家医院收集,留出FL)和异构(用造影材料获取)数据,提供了模型所做的决策的视觉解释,并分析了模型之间的权衡联邦培训过程中的性能和沟通成本。我们的研究基于来自位于中国和英国的23家医院的3,336名患者的9,573次胸部计算断层扫描扫描(CTS)。统称,我们的工作提出了利用联邦学习的潜在保留了数字健康的前景。
translated by 谷歌翻译
我们通过将此任务视为视觉令牌生成问题来提出新的视角来实现图像综合。与现有的范例不同,即直接从单个输入(例如,潜像)直接合成完整图像,新配方使得能够为不同的图像区域进行灵活的本地操作,这使得可以学习内容感知和细粒度的样式控制用于图像合成。具体地,它需要输入潜像令牌的序列,以预测用于合成图像的视觉令牌。在这种观点来看,我们提出了一个基于令牌的发电机(即Tokengan)。特别是,Tokengan输入了两个语义不同的视觉令牌,即,来自潜在空间的学习常量内容令牌和风格代币。鉴于一系列风格令牌,Tokengan能够通过用变压器将样式分配给内容令牌来控制图像合成。我们进行了广泛的实验,并表明拟议的Tokengan在几个广泛使用的图像综合基准上实现了最先进的结果,包括FFHQ和LSUN教会,具有不同的决议。特别地,发电机能够用1024x1024尺寸合成高保真图像,完全用卷曲分配。
translated by 谷歌翻译
近年来,自动路滚轮作为一种流行的建筑机器人,吸引了行业和研究界的兴趣。然而,当涉及突破退变问题的隧道时,为机器人提供准确的定位结果,仍然是一个具有挑战性的问题。在本文中,我们的目的是通过基于优化来解决激光雷达和UWB测量来处理这个问题。在所提出的定位方法中,将受到限制的非变性的指示,将引入UWB重建的协方差以提高本地化的准确性。除此之外,还介绍了一种可以提取隧道内壁的特征以辅助定位的方法。为了评估所提出的方法的有效性,进行了真正的公路滚轮的三个实验,结果表明,我们的方法可以实现比现有方法更好的性能,并且可以应用于隧道内部工作的自动路滚轮。最后,我们讨论了在实际应用中部署系统的可行性,并提出了一些建议。
translated by 谷歌翻译
Current audio-visual separation methods share a standard architecture design where an audio encoder-decoder network is fused with visual encoding features at the encoder bottleneck. This design confounds the learning of multi-modal feature encoding with robust sound decoding for audio separation. To generalize to a new instrument: one must finetune the entire visual and audio network for all musical instruments. We re-formulate visual-sound separation task and propose Instrument as Query (iQuery) with a flexible query expansion mechanism. Our approach ensures cross-modal consistency and cross-instrument disentanglement. We utilize "visually named" queries to initiate the learning of audio queries and use cross-modal attention to remove potential sound source interference at the estimated waveforms. To generalize to a new instrument or event class, drawing inspiration from the text-prompt design, we insert an additional query as an audio prompt while freezing the attention mechanism. Experimental results on three benchmarks demonstrate that our iQuery improves audio-visual sound source separation performance.
translated by 谷歌翻译
We present HashEncoding, a novel autoencoding architecture that leverages a non-parametric multiscale coordinate hash function to facilitate a per-pixel decoder without convolutions. By leveraging the space-folding behaviour of hashing functions, HashEncoding allows for an inherently multiscale embedding space that remains much smaller than the original image. As a result, the decoder requires very few parameters compared with decoders in traditional autoencoders, approaching a non-parametric reconstruction of the original image and allowing for greater generalizability. Finally, by allowing backpropagation directly to the coordinate space, we show that HashEncoding can be exploited for geometric tasks such as optical flow.
translated by 谷歌翻译
具有对比性学习目标的预训练方法在对话了解任务中表现出了显着的成功。但是,当前的对比学习仅将自调查的对话样本视为正样本,并将所有其他对话样本视为负面样本,即使在语义上相关的对话框中,也会强制执行不同的表示。在本文中,我们提出了一个树木结构化的预培训对话模型Space-2,该模型从有限标记的对话框和大规模的无标记的对话框COLPORA通过半监督的对比度预培训来学习对话框表示。具体而言,我们首先定义一个通用的语义树结构(STS),以统一不同对话框数据集的注释模式,以便可以利用所有标记数据中存储的丰富结构信息。然后,我们提出了一个新颖的多视图分数功能,以增加共享类似STS的所有可能对话框的相关性,并且在监督的对比预训练期间仅推开其他完全不同的对话框。为了充分利用未标记的对话,还增加了基本的自我监督对比损失,以完善学习的表示。实验表明,我们的方法可以在DialogLue基准测试中实现新的最新结果,该基准由七个数据集和四个流行的对话框组成。为了获得可重复性,我们在https://github.com/alibabaresearch/damo-convai/tree/main/main/space-2上发布代码和数据。
translated by 谷歌翻译
标准化的数据集和基准刺激了计算机视觉,自然语言处理,多模式和表格设置的创新。我们注意到,与其他经过良好研究的领域相比,欺诈检测有许多差异。差异包括高级失衡,多样化的特征类型,经常改变的欺诈模式以及问题的对抗性。由于这些差异,用于其他分类任务的建模方法可能对欺诈检测效果不佳。我们介绍了欺诈数据集基准(FDB),该基准是针对欺诈检测的公开可用数据集的汇编。 FDB包括各种与欺诈相关的任务,从识别欺诈性卡片 - 不出现交易,检测机器人攻击,对恶意URL进行分类,预测贷款的风险降至内容适度。来自FDB的基于Python的库为数据加载提供了一致的API,并具有标准化的训练和测试拆分。作为参考,我们还提供了FDB上不同建模方法的基线评估。考虑到各种研究和业务问题的自动化机器学习(AUTOML)的日益普及,我们使用了Automl框架进行基线评估。为了预防欺诈,拥有有限资源和缺乏ML专业知识的组织通常会聘请一个调查人员,使用区块列表和手动规则,所有这些规则效率低下且规模不佳。这些组织可以从易于在生产中部署并通过欺诈预防要求的汽车解决方案受益。我们希望FDB有助于开发适合不同欺诈模式操作数(MOS)的定制欺诈检测技术,以及改善汽车系统,这些系统可以很好地适用于基准中的所有数据集。
translated by 谷歌翻译