联合学习是一种新兴的机器学习(ML)范式,其中大量设备集体训练ML模型,而数据仍保留在设备上。该研究领域有一系列独特的实践挑战,为了系统地取得进步,需要策划与此范式兼容的新数据集。图像域中的现有联合学习基准不能准确捕获许多实际用例的规模和异质性。我们介绍了Flair,这是一个具有挑战性的大规模注释图像数据集,用于适合联合学习的多标签分类。弗莱尔(Flair)拥有来自51,414个Flickr用户的429,078张图像,并捕获了联合学习中通常遇到的许多复杂性,例如异质用户数据和长尾标签分布。我们在此数据集上的不同任务中实现了不同的学习设置中的多个基线。我们认为,天赋可以作为推进联邦学习最先进的具有挑战性的基准。数据集访问和基准的代码可在\ url {https://github.com/apple/ml-flair}上获得。
translated by 谷歌翻译
机器学习社区目前没有记录数据集的标准化过程,这可能导致高赌注域的严重后果。要解决此差距,我们提出了数据集的数据表。在电子行业,每个组件,无论多么简单或复杂,都附带了一个描述其操作特征,测试结果,推荐使用和其他信息的数据表。通过类比,我们建议每个数据集都附有一个数据表,这些表记录了它的动机,组成,收集过程,推荐用途等。数据集的数据表将有助于在数据集创建者和数据集消费者之间更好地沟通,并鼓励机器学习界优先考虑透明度和问责制。
translated by 谷歌翻译
成对图像和文本的大型数据集越来越受到愿景和愿景和语言任务的通用表示。此类数据集已通过查询搜索引擎或收集HTML Alt-Text构建 - 由于Web数据是嘈杂的,因此它们需要复杂的过滤管道来维护质量。我们探索备用数据源以收集具有最小滤波的高质量数据。我们介绍Redcaps - 从Reddit收集的12M图像文本对的大规模数据集。来自Reddit的图像和标题描绘并描述了各种各样的物体和场景。我们从手动策划的FuSoddits集中收集数据,这为粗略图像标签提供给粗略图像标签,并允许我们转向数据集组合而不标记单个实例。我们展示Redcaps培训的标题模型产生了人类优选的丰富和各种标题,并学习转移到许多下游任务的视觉表现。
translated by 谷歌翻译
大型预先训练的语言模型已经显示了几次拍摄学习的承诺,只提供了几个任务特定示例给出了基于文本的任务。款式将很快解决到目前为止为人类研究助理保留的分类任务吗?现有的基准标记不设计用于衡量应用设置的进度,因此不要直接回答这个问题。 RAFT基准(现实世界注释的少量拍摄任务)侧重于自然发生的任务,并使用镜像部署的评估设置。 RAFT的基线评估揭示了当前技术斗争的地区:推理在许多班级的长篇文章和任务上。人类基线表明,非专家人类难以反映出一些分类任务,反映了现实世界的价值有时依赖于域名专业知识。甚至非专业人类基线F1分数超过GPT-3平均为0.11。 RAFT DataSets和排行榜将跟踪哪些模型改进在https://raft.elict.org中转化为现实世界的优势。
translated by 谷歌翻译
多代理行为建模旨在了解代理之间发生的交互。我们从行为神经科学,Caltech鼠标社交交互(CALMS21)数据集中提供了一个多代理数据集。我们的数据集由社交交互的轨迹数据组成,从标准居民入侵者测定中自由行为小鼠的视频记录。为了帮助加速行为研究,CALMS21数据集提供基准,以评估三种设置中自动行为分类方法的性能:(1)用于培训由单个注释器的所有注释,(2)用于风格转移以进行学习互动在特定有限培训数据的新行为学习的行为定义和(3)的注释差异。 DataSet由600万个未标记的追踪姿势的交互小鼠组成,以及超过100万帧,具有跟踪的姿势和相应的帧级行为注释。我们的数据集的挑战是能够使用标记和未标记的跟踪数据准确地对行为进行分类,以及能够概括新设置。
translated by 谷歌翻译
超声使用是因为其成本低,非电离和非侵入性特征,并且已成为基石放射学检查。超声应用程序的研究也扩大了,尤其是通过机器学习的图像分析。但是,超声数据通常仅限于封闭的数据集,只有少数几个公开可用。尽管经常检查器官,但肾脏缺乏公开可用的超声数据集。拟议的开放肾脏超声数据集是第一套公开可用的肾脏B模式超声数据,其中包括用于多级语义分段的注释。它基于5年以上500多名患者的回顾性收集的数据,平均年龄为53.2 +/- 14。7年,体重指数为27.0 +/- 5.4 kg/m2,最常见的原发性疾病是糖尿病,IgA肾病和高血压。有两位专家超声师的视图标签和细粒度的手动注释。值得注意的是,该数据包括天然和移植的肾脏。进行了初始的基准测量测量,证明了一种最先进的算法,该算法达到了肾脏胶囊的骰子Sorenson系数为0.74。该数据集是一个高质量的数据集,包括两组专家注释,图像比以前可用的更大。为了增加获得肾脏超声数据的访问,未来的研究人员可能能够创建用于组织表征,疾病检测和预后的新型图像分析技术。
translated by 谷歌翻译
通过卫星图像和机器学习对行星进行大规模分析是一个梦想,这一梦想不断受到难以获取高度代表性的高分辨率图像的成本的阻碍。为了纠正此问题,我们在这里介绍WorldStrat数据集。 The largest and most varied such publicly available dataset, at Airbus SPOT 6/7 satellites' high resolution of up to 1.5 m/pixel, empowered by European Space Agency's Phi-Lab as part of the ESA-funded QueryPlanet project, we curate nearly 10,000独特位置的SQKM,以确保全世界所有类型的土地用途分层:从农业到冰盖,从森林到多种城市化密度。我们还丰富了通常在ML数据集中代表不足的地点的人:人道主义兴趣的地点,非法采矿地点以及有风险的人的定居点。我们以10 m/pixel的可自由访问的下分辨率Sentinel-2卫星的多个低分辨率图像为暂时匹配每个高分辨率图像。我们伴随着该数据集的开源Python软件包,以:重建或扩展WorldStrat数据集,训练和推断基线算法,并使用丰富的教程学习,所有这些都与流行的EO-Learn Toolbox兼容。我们特此希望能够促进ML在卫星图像中的广泛应用,并可能从免费的公共低分辨率Sentinel2图像中发展出昂贵的私人高分辨率图像所允许的相同的分析能力。我们通过训练并发布了有关多帧超分辨率任务的几个高度计算效率的基线来说明这一特定点。高分辨率空中图像是CC BY-NC,而标签和Sentinel2图像为CC,而BSD下的源代码和预训练模型。该数据集可从https://zenodo.org/record/6810792获得,并在https://github.com/worldstrat/worldstrat上获得。
translated by 谷歌翻译
由于几个因素之间的微妙权衡:参与者的隐私,生态有效性,数据保真度和后勤开销,记录野外未脚本人类互动的动态是具有挑战性的。为了解决这些问题,在社区精神上为社区的“数据集”之后,我们提出了会议生活实验室(Conflab):一个新的概念,用于多模式多模式数据收集,野生野外社交对话。对于此处描述的Conflab的首次实例化,我们在一次大型国际会议上组织了现实生活中的专业网络活动。该数据集涉及48个会议参与者,捕捉了地位,熟人和网络动机的各种组合。我们的捕获设置改善了先前野外数据集的数据保真度,同时保留隐私敏感性:从非侵入性的架空视图中获得8个视频(1920x1080,60 fps),并具有定制的可穿戴传感器,并带有车载记录(完整9) - 轴IMU),具有隐私性的低频音频(1250 Hz)和基于蓝牙的接近度。此外,我们开发了用于采集时分布式硬件同步的自定义解决方案,并以高采样速率对身体关键点和动作进行了及时的连续注释。我们的基准测试展示了与野外隐私保护社交数据分析有关的一些开放研究任务:从高架摄像头视图,基于骨架的No-Audio扬声器检测和F-Formation检测中的关键点检测。
translated by 谷歌翻译
多模型对现实世界应用的承诺激发了可视化和理解其内部力学的研究,其最终目标是使利益相关者能够可视化模型行为,执行模型调试并促进对机器学习模型的信任。但是,现代的多模型模型通常是黑盒神经网络,这使得了解其内部力学变得具有挑战性。我们如何能在这些模型中可视化多模式相互作用的内部建模?我们的论文旨在通过提出Multiviz来填补这一空白,这是一种通过将可解释性问题分为4个阶段来分析多模型模型行为的方法:(1)单峰的重要性:每种模式如何有助于下游建模和预测,(2)交叉交叉。 - 模式相互作用:不同模态如何相互关系,(3)多模式表示:如何在决策级特征中表示单峰和跨模式的交互作用,以及(4)多模式预测:决策级特征如何组成以制造一个预言。 Multiviz旨在在不同的模式,模型,任务和研究领域进行操作。通过对6个现实世界任务的8个训练模型的实验,我们表明,Multiviz中的互补阶段共同使用户能够(1)模拟模型预测,(2)将可解释的概念分配给功能,(3)对模型错误分析执行错误分析,(4)使用错误分析到调试模型的见解。 Multiviz公开可用,将定期使用新的解释工具和指标进行更新,并欢迎社区的意见。
translated by 谷歌翻译
现实世界的行为通常是由多种代理之间复杂的相互作用来塑造的。为了可靠地研究多代理行为,无监督和自我监督的学习的进步使从轨迹数据中学到了各种不同的行为表示。迄今为止,还没有一组统一的基准测试,可以在广泛的行为分析设置中进行定量和系统地比较方法。我们的目的是通过引入来自现实世界行为神经科学实验的大规模,多代理轨迹数据集来解决这一问题,该数据集涵盖了一系列行为分析任务。我们的数据集由来自通用模型生物的轨迹数据组成,其中有960万帧的小鼠数据和440万帧的飞行数据,在各种实验环境中,例如不同的菌株,相互作用的长度和光遗传学刺激。框架的子集还包括专家注销的行为标签。我们数据集的改进对应于跨多种生物的行为表示,并能够捕获常见行为分析任务的差异。
translated by 谷歌翻译
由于筛选乳房X线照片的假阴性评估,通常在晚期检测到与其他癌症更差的间隔和大型侵入性乳腺癌。错过的筛选时间检测通常由其周围乳腺组织模糊的肿瘤引起的,这是一种称为掩蔽的现象。为了研究和基准爆发癌症的乳房Xmmpare掩蔽,在这项工作中,我们引入CSAW-M,最大的公共乳房数据集,从10,000多个人收集并用潜在的掩蔽注释。与以前的方法对比测量乳房图像密度作为代理的方法,我们的数据集直接提供了五个专家屏蔽潜在评估的注释。我们还培训了CSAW-M的深入学习模型来估计掩蔽水平,并显示估计的掩蔽更加预测筛查患有间隔和大型侵入性癌症的参与者 - 而不是明确培训这些任务 - 而不是其乳房密度同行。
translated by 谷歌翻译
由于其主观性质,美学的计算推断是一项不确定的任务。已经提出了许多数据集来通过根据人类评级提供成对的图像和美学得分来解决问题。但是,人类更好地通过语言表达自己的观点,品味和情感,而不是单个数字总结他们。实际上,照片评论提供了更丰富的信息,因为它们揭示了用户如何以及为什么对视觉刺激的美学评价。在这方面,我们提出了Reddit照片评论数据集(RPCD),其中包含图像和照片评论的元素。 RPCD由74K图像和220k评论组成,并从业余爱好者和专业摄影师使用的Reddit社区收集,以利用建设性的社区反馈来提高其摄影技巧。所提出的数据集与以前的美学数据集不同,主要是三个方面,即(i)数据集的大规模数据集和批评图像不同方面的评论的扩展,(ii)它主要包含Ultrahd映像,以及(iii)它通过自动管道收集,可以轻松地扩展到新数据。据我们所知,在这项工作中,我们提出了首次尝试估算批评的视觉刺激质量的尝试。为此,我们利用批评情绪的极性为美学判断的指标。我们证明了情感如何与可用于两种美学评估基准的美学判断正相关。最后,我们通过使用情感得分作为排名图像的目标进行了几种模型。提供数据集和基准(https://github.com/mediatechnologycenter/aestheval)。
translated by 谷歌翻译
虽然编程是现代社会中最广泛适用的技能之一,但现代机器学习模型仍然无法对基本问题的解决方案。尽管重要的是,对评估代码生成令人惊讶的是,很少有效,并且难以准确地评估代码生成性能。为了满足这一挑战,我们介绍了一个用于代码生成的基准。与在更受限制的设置中的事先工作不同,我们的基准测试衡量模型采取任意自然语言规范的能力,并生成满意的Python代码。类似于公司如何评估候选软件开发人员,然后我们通过检查测试用例的生成代码来评估模型。我们的基准测试包括10,000个问题,从具有简单的单线解决方案来实现实质性算法挑战。我们在GitHub和我们的培训集上微调大型语言模型,我们发现语法错误的普遍性随着模型的提高而导致呈指数级递减。最近的模型如GPT-Neo可以通过大约20%的介绍性问题的测试用例,因此我们发现机器学习模型现在开始学习如何代码。随着自动代码生成的社会意义在未来几年增加,我们的基准可以提供跟踪进步的重要措施。
translated by 谷歌翻译
个体治疗效果(ITE)预测是机器学习的重要研究领域,其目的在解释和估算粒状水平时的作用的因果影响。它代表了对诸如医疗保健,在线广告或社会经济学的多个申请兴趣的问题。为了促进本主题的研究,我们释放了从几个随机控制试验中收集的1390万个样本的公开收集,通过健康的210倍因素扩展先前可用的数据集。我们提供有关数据收集的详细信息,并执行Sanity检查以验证使用此数据是否有因果推理任务。首先,我们正规化可以使用此数据执行的隆起建模(UM)的任务以及相关的评估指标。然后,我们提出了为ITE预测提供了一般设置的合成响应表面和异质处理分配。最后,我们报告实验以验证利用其大小的数据集的关键特性,以评估和比较 - 具有高统计显着性 - 基线UM和ITE预测方法的选择。
translated by 谷歌翻译
联合学习(FL)是一个系统,中央聚合器协调多个客户解决机器学习问题的努力。此设置允许分散培训数据以保护隐私。本文的目的是提供针对医疗保健的FL系统的概述。 FL在此根据其框架,架构和应用程序进行评估。这里显示的是,FL通过中央聚合器服务器通过共享的全球深度学习(DL)模型解决了前面的问题。本文研究了最新的发展,并提供了来自FL研究的快速增长的启发,列出了未解决的问题。在FL的背景下,描述了几种隐私方法,包括安全的多方计算,同态加密,差异隐私和随机梯度下降。此外,还提供了对各种FL类的综述,例如水平和垂直FL以及联合转移学习。 FL在无线通信,服务建议,智能医学诊断系统和医疗保健方面有应用,本文将在本文中进行讨论。我们还对现有的FL挑战进行了彻底的审查,例如隐私保护,沟通成本,系统异质性和不可靠的模型上传,然后是未来的研究指示。
translated by 谷歌翻译
用户每天在各种社交网络平台上暴露于大量有害内容。一种解决方案是使用机器学习技术开发在线审核工具。但是,通过在线平台处理用户数据需要遵守隐私政策。联合学习(FL)是ML范式,在该范围内,在用户设备上本地进行培训。尽管FL框架符合GDPR政策,但仍然可能发生隐私泄漏。例如,访问最终训练模型的攻击者可以成功地对参与培训过程的用户的数据进行不必要的推断。在本文中,我们为包含差异隐私(DP)的在线内容审核提出了一个隐私的FL框架。为了证明我们的方法的可行性,我们专注于在Twitter上检测有害内容 - 但总体概念可以推广到其他类型的不当行为。我们以FL方式模拟了文本分类器,该分类器可以检测具有有害内容的推文。我们表明,对于DP和非DP FL版本,提出的FL框架的性能可以接近集中式方法。此外,即使有少数客户(每个数据点)可用于FL培训,它也具有高性能。当减少客户端数量(从50到10)或每个客户端的数据点(从1K到0.1K)时,分类器仍然可以达到约81%的AUC。此外,我们将评估扩展到其他四个Twitter数据集,这些数据集捕获了不同类型的用户行为不当,并且仍然获得了有希望的性能(61%-80%的AUC)。最后,我们在FL培训阶段探索用户设备上的开销,并表明本地培训不会引入过多的CPU利用率和内存消耗开销。
translated by 谷歌翻译
We introduce Argoverse 2 (AV2) - a collection of three datasets for perception and forecasting research in the self-driving domain. The annotated Sensor Dataset contains 1,000 sequences of multimodal data, encompassing high-resolution imagery from seven ring cameras, and two stereo cameras in addition to lidar point clouds, and 6-DOF map-aligned pose. Sequences contain 3D cuboid annotations for 26 object categories, all of which are sufficiently-sampled to support training and evaluation of 3D perception models. The Lidar Dataset contains 20,000 sequences of unlabeled lidar point clouds and map-aligned pose. This dataset is the largest ever collection of lidar sensor data and supports self-supervised learning and the emerging task of point cloud forecasting. Finally, the Motion Forecasting Dataset contains 250,000 scenarios mined for interesting and challenging interactions between the autonomous vehicle and other actors in each local scene. Models are tasked with the prediction of future motion for "scored actors" in each scenario and are provided with track histories that capture object location, heading, velocity, and category. In all three datasets, each scenario contains its own HD Map with 3D lane and crosswalk geometry - sourced from data captured in six distinct cities. We believe these datasets will support new and existing machine learning research problems in ways that existing datasets do not. All datasets are released under the CC BY-NC-SA 4.0 license.
translated by 谷歌翻译
本文提出并表征了联合学习(OARF)的开放应用程序存储库,是联合机器学习系统的基准套件。以前可用的联合学习基准主要集中在合成数据集上,并使用有限数量的应用程序。 OARF模仿更现实的应用方案,具有公开的数据集,如图像,文本和结构数据中的不同数据孤岛。我们的表征表明,基准套件在数据大小,分布,特征分布和学习任务复杂性中多样化。与参考实施的广泛评估显示了联合学习系统的重要方面的未来研究机会。我们开发了参考实现,并评估了联合学习的重要方面,包括模型准确性,通信成本,吞吐量和收敛时间。通过这些评估,我们发现了一些有趣的发现,例如联合学习可以有效地提高端到端吞吐量。
translated by 谷歌翻译
联邦学习一直是一个热门的研究主题,使不同组织的机器学习模型的协作培训在隐私限制下。随着研究人员试图支持更多具有不同隐私方法的机器学习模型,需要开发系统和基础设施,以便于开发各种联合学习算法。类似于Pytorch和Tensorflow等深度学习系统,可以增强深度学习的发展,联邦学习系统(FLSS)是等效的,并且面临各个方面的面临挑战,如有效性,效率和隐私。在本调查中,我们对联合学习系统进行了全面的审查。为实现流畅的流动和引导未来的研究,我们介绍了联合学习系统的定义并分析了系统组件。此外,我们根据六种不同方面提供联合学习系统的全面分类,包括数据分布,机器学习模型,隐私机制,通信架构,联合集市和联合的动机。分类可以帮助设计联合学习系统,如我们的案例研究所示。通过系统地总结现有联合学习系统,我们展示了设计因素,案例研究和未来的研究机会。
translated by 谷歌翻译
大型语言模型经常经过数十万个计算天的训练,已经显示出零和少数学习的显着功能。鉴于它们的计算成本,如果没有大量资本,这些模型很难复制。对于通过API可用的少数产品,没有访问完整的模型权重,因此很难学习。我们提供开放训练的预训练变压器(OPT),这是一套仅解码器预训练的变压器,范围从12500万到175b参数,我们旨在与感兴趣的研究人员完全和负责任地分享。我们表明,OPT-175B与GPT-3相当,而仅需要1/7碳足迹才能开发。我们还释放了日志,详细介绍了我们面临的基础架构挑战,以及用于尝试所有发布模型的代码。
translated by 谷歌翻译