变量名称对于传达预期的程序行为至关重要。基于机器学习的程序分析方法使用变量名称表示广泛的任务,例如建议新的变量名称和错误检测。理想情况下,这些方法可以捕获句法相似性的名称之间的语义关系,例如,名称平均和均值的事实是相似的。不幸的是,以前的工作发现,即使是先前的最佳的表示方法主要是捕获相关性(是否有两个变量始终链接),而不是相似性(是否具有相同的含义)。我们提出了VarCLR,一种用于学习变量名称的语义表示的新方法,这些方法有效地捕获了这种更严格的意义上的可变相似性。我们观察到这个问题是对比学习的优秀契合,旨在最小化明确类似的输入之间的距离,同时最大化不同输入之间的距离。这需要标记的培训数据,因此我们构建了一种新颖的弱监督的变量重命名数据集,从GitHub编辑开采。我们表明VarCLR能够有效地应用BERT等复杂的通用语言模型,以变为变量名称表示,因此也是与变量名称相似性搜索或拼写校正等相关的下游任务。 varclr产生模型,显着越优于idbench的最先进的现有基准,明确地捕获可变相似度(与相关性不同)。最后,我们贡献了所有数据,代码和预先训练模型的版本,旨在为现有或未来程序分析中使用的可变表示提供的可变表示的替代品。
translated by 谷歌翻译
The number of international benchmarking competitions is steadily increasing in various fields of machine learning (ML) research and practice. So far, however, little is known about the common practice as well as bottlenecks faced by the community in tackling the research questions posed. To shed light on the status quo of algorithm development in the specific field of biomedical imaging analysis, we designed an international survey that was issued to all participants of challenges conducted in conjunction with the IEEE ISBI 2021 and MICCAI 2021 conferences (80 competitions in total). The survey covered participants' expertise and working environments, their chosen strategies, as well as algorithm characteristics. A median of 72% challenge participants took part in the survey. According to our results, knowledge exchange was the primary incentive (70%) for participation, while the reception of prize money played only a minor role (16%). While a median of 80 working hours was spent on method development, a large portion of participants stated that they did not have enough time for method development (32%). 25% perceived the infrastructure to be a bottleneck. Overall, 94% of all solutions were deep learning-based. Of these, 84% were based on standard architectures. 43% of the respondents reported that the data samples (e.g., images) were too large to be processed at once. This was most commonly addressed by patch-based training (69%), downsampling (37%), and solving 3D analysis tasks as a series of 2D tasks. K-fold cross-validation on the training set was performed by only 37% of the participants and only 50% of the participants performed ensembling based on multiple identical models (61%) or heterogeneous models (39%). 48% of the respondents applied postprocessing steps.
translated by 谷歌翻译
Point-of-Care Ultrasound (POCUS) refers to clinician-performed and interpreted ultrasonography at the patient's bedside. Interpreting these images requires a high level of expertise, which may not be available during emergencies. In this paper, we support POCUS by developing classifiers that can aid medical professionals by diagnosing whether or not a patient has pneumothorax. We decomposed the task into multiple steps, using YOLOv4 to extract relevant regions of the video and a 3D sparse coding model to represent video features. Given the difficulty in acquiring positive training videos, we trained a small-data classifier with a maximum of 15 positive and 32 negative examples. To counteract this limitation, we leveraged subject matter expert (SME) knowledge to limit the hypothesis space, thus reducing the cost of data collection. We present results using two lung ultrasound datasets and demonstrate that our model is capable of achieving performance on par with SMEs in pneumothorax identification. We then developed an iOS application that runs our full system in less than 4 seconds on an iPad Pro, and less than 8 seconds on an iPhone 13 Pro, labeling key regions in the lung sonogram to provide interpretable diagnoses.
translated by 谷歌翻译
Large language models (LLMs) have been shown to be able to perform new tasks based on a few demonstrations or natural language instructions. While these capabilities have led to widespread adoption, most LLMs are developed by resource-rich organizations and are frequently kept from the public. As a step towards democratizing this powerful technology, we present BLOOM, a 176B-parameter open-access language model designed and built thanks to a collaboration of hundreds of researchers. BLOOM is a decoder-only Transformer language model that was trained on the ROOTS corpus, a dataset comprising hundreds of sources in 46 natural and 13 programming languages (59 in total). We find that BLOOM achieves competitive performance on a wide variety of benchmarks, with stronger results after undergoing multitask prompted finetuning. To facilitate future research and applications using LLMs, we publicly release our models and code under the Responsible AI License.
translated by 谷歌翻译
具有多模式传感(AIPPMS)的自适应信息路径计划(AIPPMS)考虑了配备多个传感器的代理商的问题,每个传感器具有不同的感应精度和能量成本。代理商的目标是探索环境并在未知的,部分可观察到的环境中受到其资源约束的信息。先前的工作集中在不太一般的适应性信息路径计划(AIPP)问题上,该问题仅考虑了代理人运动对收到的观察结果的影响。 AIPPMS问题通过要求代理的原因共同出现感应和移动的影响,同时平衡资源约束与信息目标,从而增加了额外的复杂性。我们将AIPPMS问题作为一种信念马尔可夫决策过程,并具有高斯流程信念,并使用在线计划中使用顺序的贝叶斯优化方法来解决它。我们的方法始终优于以前的AIPPMS解决方案,这几乎将几乎每个实验中获得的平均奖励增加了一倍,同时还将根平方的错误在环境信念中减少了50%。我们完全开放我们的实施方式,以帮助进一步开发和比较。
translated by 谷歌翻译
基础模型(FMS)已证明了前所未有的功能,包括零拍学习,高保真数据合成和范围内的概括。但是,正如我们在本文中所显示的那样,FMS在专家任务上的开箱即用表现较差(例如,从语言查询中检索汽车手册技术插图),数据是看不见的,或者属于长尾的数据用于FM预训练的大型数据集的数据分布的一部分。这强调了在此类专家任务上明确评估和芬太尼FMS的必要性,这可以说是在实际现实世界中最重要的任务。在本文中,我们提出了围绕教授FMS了解技术文档的任务,通过学习将其图形插图与相应的语言描述相匹配的任务围绕着了解技术文档的任务。我们的FETA基准重点是公共汽车手册和销售目录手册中的文本对图像和图像到文本检索。 FETA配备了完全自动注释提取的程序(接受后将发布代码),从而使Feta轻松扩展到将来更多的文档类型和应用域。我们的自动注释导致自动性能指标显示,该指标与在人类策划注释中计算的指标一致(也发布)。我们提供多个基线和对FETA的流行FM的分析,从而导致一些有趣的发现,我们认为这对FM社区非常有价值,为现实世界中FMS应用于当前被标准基准的“忽视”的实践专家任务铺平了道路。在常见对象上。
translated by 谷歌翻译
结肠镜检查被广泛认为是早期检测结直肠癌(CRC)的金标准程序。分割对于两种重要的临床应用,即病变检测和分类很有价值,提供了提高准确性和鲁棒性的手段。结肠镜检查中息肉的手动分割是耗时的。结果,使用深度学习(DL)进行息肉的自动化已经变得很重要。但是,基于DL的解决方案可能容易受到过度拟合的影响,因此无法推广到不同结肠镜捕获的图像。最新的基于变压器的语义分割的体系结构既实现更高的性能又比替代方案更好,但是通常可以预测$ \ frac {h} {4} \ times \ times \ frac {w} {4} {4} $ apatial dimensions的分割图h \ times w $输入图像。为此,我们提出了一种用于全尺寸分割的新体系结构,该结构利用了变压器在主要分支中提取最重要的特征的优势,同时用二级全卷积分支全面预测其限制了其局限性。然后将两个分支的最终功能融合,以最终预测$ h \ times w $分段地图。我们在KVASIR-SEG和CVC-ClinicDB数据集基准上都证明了我们方法相对于MDICE,MIOU,MPRECISION和MRECALL METICS的最先进性能。此外,我们在每个数据集上训练模型,并对另一个数据集进行评估以证明其出色的概括性能。
translated by 谷歌翻译
现实世界的行为通常是由多种代理之间复杂的相互作用来塑造的。为了可靠地研究多代理行为,无监督和自我监督的学习的进步使从轨迹数据中学到了各种不同的行为表示。迄今为止,还没有一组统一的基准测试,可以在广泛的行为分析设置中进行定量和系统地比较方法。我们的目的是通过引入来自现实世界行为神经科学实验的大规模,多代理轨迹数据集来解决这一问题,该数据集涵盖了一系列行为分析任务。我们的数据集由来自通用模型生物的轨迹数据组成,其中有960万帧的小鼠数据和440万帧的飞行数据,在各种实验环境中,例如不同的菌株,相互作用的长度和光遗传学刺激。框架的子集还包括专家注销的行为标签。我们数据集的改进对应于跨多种生物的行为表示,并能够捕获常见行为分析任务的差异。
translated by 谷歌翻译
低计数正电子发射断层扫描(PET)数据的图像重建是具有挑战性的。内核方法通过在迭代宠物图像重建的前向模型中结合图像先前信息来解决挑战。已经开发出并证明了内核预期的最大化(KEM)算法是有效且易于实施的。进一步改进内核方法的常见方法是添加明确的正则化,但是导致复杂的优化问题。在本文中,我们通过使用深度系数来提出内核方法的隐含正则化,其使用卷积神经网络表示宠物前进模型中的内核系数图像。为解决基于最大似然性的神经网络的重建问题,我们应用优化转移原理来推导神经KEM算法。算法的每次迭代包括两个单独的步骤:从投影数据的图像更新的KEM步骤和图像域中的深度学习步骤,用于使用神经网络更新内核系数图像。这种优化算法保证单调地增加数据可能性。计算机模拟和实际患者数据的结果表明神经KEM可以优于现有的KEM和深度图像的先前方法。
translated by 谷歌翻译
虽然已知存在强烈相关的抗病毒发动机的组,但目前有限地了解如何或为什么这些相关性所在的理解。使用代表杀毒扫描数据十年的2500万致毒素报告的语料库,我们挑战普遍的智慧,即这些相关性主要来自“一阶”互动,例如杀毒供应商复制领先供应商标签。我们介绍时间秩-1相似性矩阵分解(R1SM-T),以研究这些相关性的起源,并模拟杀毒发动机之间的共识如何随时间变化。我们揭示了一流的相互作用,并不像以前认为杀毒相关的那么多的行为,并且杀毒发动机之间的关系具有高度挥发性。我们提出了根据我们的研究结果需要未来学习和考虑的项目的建议。
translated by 谷歌翻译