大规模的社交网络被认为通过扩大人们的偏见来促进两极分化。但是,这些技术的复杂性使得难以确定负责的机制并评估缓解策略。在这里,我们在受控的实验室条件下显示,通过社交网络进行信息传输会扩大对简单的感知决策任务的动机偏见。大型行为实验的参与者表明,当社交网络相对于社会参与者的一部分,在40个独立发展的人群中,社交网络的一部分相对于社交参与者而言,有偏见的决策率提高。利用机器学习和贝叶斯统计的技术,我们确定了对内容选择算法的简单调整,该算法预测可减轻偏置放大。该算法从个人网络内部生成了一个观点样本,这些视角更代表整个人群。在第二个大型实验中,该策略减少了偏差放大,同时保持信息共享的好处。
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译
ICECUBE是一种用于检测1 GEV和1 PEV之间大气和天体中微子的光学传感器的立方公斤阵列,该阵列已部署1.45 km至2.45 km的南极的冰盖表面以下1.45 km至2.45 km。来自ICE探测器的事件的分类和重建在ICeCube数据分析中起着核心作用。重建和分类事件是一个挑战,这是由于探测器的几何形状,不均匀的散射和冰中光的吸收,并且低于100 GEV的光,每个事件产生的信号光子数量相对较少。为了应对这一挑战,可以将ICECUBE事件表示为点云图形,并将图形神经网络(GNN)作为分类和重建方法。 GNN能够将中微子事件与宇宙射线背景区分开,对不同的中微子事件类型进行分类,并重建沉积的能量,方向和相互作用顶点。基于仿真,我们提供了1-100 GEV能量范围的比较与当前ICECUBE分析中使用的当前最新最大似然技术,包括已知系统不确定性的影响。对于中微子事件分类,与当前的IceCube方法相比,GNN以固定的假阳性速率(FPR)提高了信号效率的18%。另外,GNN在固定信号效率下将FPR的降低超过8(低于半百分比)。对于能源,方向和相互作用顶点的重建,与当前最大似然技术相比,分辨率平均提高了13%-20%。当在GPU上运行时,GNN能够以几乎是2.7 kHz的中位数ICECUBE触发速率的速率处理ICECUBE事件,这打开了在在线搜索瞬态事件中使用低能量中微子的可能性。
translated by 谷歌翻译
世界上最大的可可生产国C \^ote d'Ivoire and Ghana占全球可可生产的三分之二。在这两个国家,可可都是多年生作物,为近200万农民提供收入。然而,缺少可可种植区域的精确地图,阻碍了保护区,生产和产量的准确量化,并限制了可用于改善可持续性治理的信息。在这里,我们将可可种植园数据与公开可用的卫星图像结合在深度学习框架中,并为两国的可可种植园创建高分辨率地图,并被现场验证。我们的结果表明,可可栽培是C \^ote d'Ivoire和Ghane的保护区中森林损失的37%以上和13%的潜在驱动因素,该官员报告大大低估了种植的地区,最高40%在加纳。这些地图是提高可可生产地区保护和经济发展的关键基础。
translated by 谷歌翻译
本文提供了在过去十年中开发糖尿病足溃疡数据集的概念基础和程序,有一个时间线来证明进步。我们对脚踏照片的数据捕获方法进行了调查,概述了开发私立和公共数据集的研究,相关的计算机视觉任务(检测,分割和分类),糖尿病足溃疡挑战和未来发展的发展方向数据集。我们通过国家和年度报告数据集用户的分发。我们的目标是分享我们与DataSet开发的良好做法遇到的技术挑战,并为其他研究人员提供参与该域中的数据共享的动机。
translated by 谷歌翻译
糖尿病足溃疡分类系统使用伤口感染(伤口内的细菌)和缺血(限制血供给)作为重要的临床指标治疗和预测伤口愈合。研究使用自动化计算机化方法在糖尿病足伤中使用自动化计算机化方法的使用和缺血的使用是有限的,这是有限的,因为存在的公开可用数据集和严重数据不平衡存在。糖尿病脚溃疡挑战2021提供了一种具有更大量数据集的参与者,其总共包括15,683只糖尿病足溃疡贴剂,用于训练5,734,用于测试,额外的3,994个未标记的贴片,以促进半监督和弱的发展 - 监督深度学习技巧。本文提供了对糖尿病足溃疡攻击2021中使用的方法的评估,并总结了从每个网络获得的结果。最佳性能的网络是前3种型号的结果的集合,宏观平均F1分数为0.6307。
translated by 谷歌翻译
我们针对随机的多臂强盗及其具有线性预期奖励的上下文变体提出了基于多级汤普森采样方案的算法,在群集聚类的情况下。我们在理论上和经验上都表明,与使用标准汤普森采样相比,利用给定的集群结构如何显着改善遗憾和计算成本。在随机多军匪徒的情况下,我们对预期的累积后悔给出了上限,表明它如何取决于聚类的质量。最后,我们执行了经验评估,表明我们的算法与先前提出的具有聚集臂的匪徒相比表现良好。
translated by 谷歌翻译
虽然在现代车辆中无处不在,但控制器区域网络(罐)缺乏基本的安全性,并且很容易利用。已经出现了一种快速增长的能够安全研究领域,寻求检测罐头的入侵。由于大多数研究人员需要昂贵的资产和专业知识,因此生产车辆的数据与各种入侵的数据遥不可及。为协助研究人员,我们向现有开放的第一个全面指南介绍了现有的可入侵数据集,包括每个数据集的质量分析以及每个人的好处,缺点和建议用例的列举。目前的公众可以IDS数据集仅限于实际制造(简单的消息注入)攻击和模拟攻击通常在合成数据中,缺乏保真度。通常,在可用的数据集中不验证攻击车辆对车辆的物理效果。只有一个数据集提供信号翻译数据,但不是相应的原始二进制版本。总的来说,可用的数据鸽子孔可以IDS在有限的有限情况下重新测试,通常是不恰当的数据(通常具有太容易检测到真正测试该方法的攻击),并且这种缺乏数据具有延迟的可比性和再现性的结果。作为我们的主要贡献,我们介绍了道路(真正的ORNL汽车测力计)可以入侵数据集,包括超过3.5小时的一辆车辆的数据。道路含有在各种活动中记录的环境数据,以及随着多种变体和实际模糊,制造和独特的先进攻击以及模拟化妆舞会攻击的攻击。为了便于基准测试可以IDS方法需要信号翻译的输入,我们还提供了许多可以捕获的信号时间序列格式。我们的贡献旨在促进CAN IDS领域的适当基准和所需的可比性。
translated by 谷歌翻译
In this paper, we propose a novel technique, namely INVALIDATOR, to automatically assess the correctness of APR-generated patches via semantic and syntactic reasoning. INVALIDATOR reasons about program semantic via program invariants while it also captures program syntax via language semantic learned from large code corpus using the pre-trained language model. Given a buggy program and the developer-patched program, INVALIDATOR infers likely invariants on both programs. Then, INVALIDATOR determines that a APR-generated patch overfits if: (1) it violates correct specifications or (2) maintains errors behaviors of the original buggy program. In case our approach fails to determine an overfitting patch based on invariants, INVALIDATOR utilizes a trained model from labeled patches to assess patch correctness based on program syntax. The benefit of INVALIDATOR is three-fold. First, INVALIDATOR is able to leverage both semantic and syntactic reasoning to enhance its discriminant capability. Second, INVALIDATOR does not require new test cases to be generated but instead only relies on the current test suite and uses invariant inference to generalize the behaviors of a program. Third, INVALIDATOR is fully automated. We have conducted our experiments on a dataset of 885 patches generated on real-world programs in Defects4J. Experiment results show that INVALIDATOR correctly classified 79% overfitting patches, accounting for 23% more overfitting patches being detected by the best baseline. INVALIDATOR also substantially outperforms the best baselines by 14% and 19% in terms of Accuracy and F-Measure, respectively.
translated by 谷歌翻译
When robots learn reward functions using high capacity models that take raw state directly as input, they need to both learn a representation for what matters in the task -- the task ``features" -- as well as how to combine these features into a single objective. If they try to do both at once from input designed to teach the full reward function, it is easy to end up with a representation that contains spurious correlations in the data, which fails to generalize to new settings. Instead, our ultimate goal is to enable robots to identify and isolate the causal features that people actually care about and use when they represent states and behavior. Our idea is that we can tune into this representation by asking users what behaviors they consider similar: behaviors will be similar if the features that matter are similar, even if low-level behavior is different; conversely, behaviors will be different if even one of the features that matter differs. This, in turn, is what enables the robot to disambiguate between what needs to go into the representation versus what is spurious, as well as what aspects of behavior can be compressed together versus not. The notion of learning representations based on similarity has a nice parallel in contrastive learning, a self-supervised representation learning technique that maps visually similar data points to similar embeddings, where similarity is defined by a designer through data augmentation heuristics. By contrast, in order to learn the representations that people use, so we can learn their preferences and objectives, we use their definition of similarity. In simulation as well as in a user study, we show that learning through such similarity queries leads to representations that, while far from perfect, are indeed more generalizable than self-supervised and task-input alternatives.
translated by 谷歌翻译