人工智能(AI)对计算的巨大需求正在推动对AI的硬件和软件系统的无与伦比的投资。这导致了专用硬件设备数量的爆炸,现在由主要的云供应商提供。通过通过基于张量的界面隐藏低级复杂性,张量计算运行时间(TCR)(例如Pytorch)允许数据科学家有效利用新硬件提供的令人兴奋的功能。在本文中,我们探讨了数据库管理系统如何在AI空间中乘坐创新浪潮。我们设计,构建和评估张量查询处理器(TQP):TQP将SQL查询转换为张量程序,并在TCR上执行它们。 TQP能够通过在张量例程中实现与关系运算符的新颖算法来运行完整的TPC-H基准。同时,TQP可以支持各种硬件,而仅需要通常的开发工作。实验表明,与专用CPU和仅GPU的系统相比,TQP可以将查询执行时间提高到10美元$ \ times $。最后,TQP可以加速查询ML预测和SQL端到端,并在CPU基线上输送高达9 $ \ times $速度。
translated by 谷歌翻译
数据库中的部署机学习(ML)算法是由于现代ML算法的不同计算脚印和多数数据库技术的挑战,每个数据库技术都具有自己的限制性语法。我们介绍了一个基于Apache Spark的微服务编排框架,其扩展了数据库操作以包含Web服务基元。我们的系统可以协调数百台机器的Web服务,并充分利用群集,线程和异步并行性。使用此框架,我们为智能服务提供大规模客户端,如语音,视觉,搜索,异常检测和文本分析。这允许用户将随意使用的智能集成到具有Apache Spark连接器的任何数据存储器中。为了消除网络通信的大多数开销,我们还引入了我们架构的低延迟集装箱版本。最后,我们证明我们调查的服务在各种基准上具有竞争力,并在此框架中展示了两个应用程序来创建智能搜索引擎和实时自动竞赛分析系统。
translated by 谷歌翻译
通用数据模型解决了标准化电子健康记录(EHR)数据的许多挑战,但无法将其集成深度表型所需的资源。开放的生物学和生物医学本体论(OBO)铸造本体论提供了可用于生物学知识的语义计算表示,并能够整合多种生物医学数据。但是,将EHR数据映射到OBO Foundry本体论需要大量的手动策展和域专业知识。我们介绍了一个框架,用于将观察性医学成果合作伙伴关系(OMOP)标准词汇介绍给OBO铸造本体。使用此框架,我们制作了92,367条条件,8,615种药物成分和10,673个测量结果的映射。域专家验证了映射准确性,并且在24家医院进行检查时,映射覆盖了99%的条件和药物成分和68%的测量结果。最后,我们证明OMOP2OBO映射可以帮助系统地识别可能受益于基因检测的未诊断罕见病患者。
translated by 谷歌翻译
社交媒体通常被用作自然灾害期间交流的生命线。传统上,自然灾害推文使用自然灾害的名称从Twitter流进行过滤,并将过滤的推文发送以进行人体注释。人类注释创建用于机器学习模型的标签集的过程是费力的,耗时的,有时不准确的,更重要的是,在大小和实时使用方面不可扩展。在这项工作中,我们使用薄弱的监督来策划一个银标准数据集。为了验证其效用,我们在弱监督的数据上训练机器学习模型,以识别三种不同类型的自然灾害,即地震,飓风和洪水。我们的结果表明,在对手动策划的金标准数据集进行分类时,经过银标准数据集训练的模型大于90%。为了启用可重现的研究和其他下游公用事业,我们为科学界发布了银标准数据集。
translated by 谷歌翻译