Are extralinguistic signals such as image pixels crucial for inducing constituency grammars? While past work has shown substantial gains from multimodal cues, we investigate whether such gains persist in the presence of rich information from large language models (LLMs). We find that our approach, LLM-based C-PCFG (LC-PCFG), outperforms previous multi-modal methods on the task of unsupervised constituency parsing, achieving state-of-the-art performance on a variety of datasets. Moreover, LC-PCFG results in an over 50% reduction in parameter count, and speedups in training time of 1.7x for image-aided models and more than 5x for video-aided models, respectively. These results challenge the notion that extralinguistic signals such as image pixels are needed for unsupervised grammar induction, and point to the need for better text-only baselines in evaluating the need of multi-modality for the task.
translated by 谷歌翻译
自动驾驶汽车必须能够可靠地处理不利的天气条件(例如,雪地)安全运行。在本文中,我们研究了以不利条件捕获的转动传感器输入(即图像)的想法,将其下游任务(例如,语义分割)可以达到高精度。先前的工作主要将其作为未配对的图像到图像翻译问题,因为缺乏在完全相同的相机姿势和语义布局下捕获的配对图像。虽然没有完美对准的图像,但可以轻松获得粗配上的图像。例如,许多人每天在好天气和不利的天气中驾驶相同的路线;因此,在近距离GPS位置捕获的图像可以形成一对。尽管来自重复遍历的数据不太可能捕获相同的前景对象,但我们认为它们提供了丰富的上下文信息来监督图像翻译模型。为此,我们提出了一个新颖的训练目标,利用了粗糙的图像对。我们表明,我们与一致的训练方案可提高更好的图像翻译质量和改进的下游任务,例如语义分割,单眼深度估计和视觉定位。
translated by 谷歌翻译
由于大规模数据集的可用性,通常在特定位置和良好的天气条件下收集的大规模数据集,近年来,自动驾驶汽车的感知进展已加速。然而,为了达到高安全要求,这些感知系统必须在包括雪和雨在内的各种天气条件下进行稳健运行。在本文中,我们提出了一个新数据集,以通过新颖的数据收集过程启用强大的自动驾驶 - 在不同场景(Urban,Highway,乡村,校园),天气,雪,雨,阳光下,沿着15公里的路线反复记录数据),时间(白天/晚上)以及交通状况(行人,骑自行车的人和汽车)。该数据集包括来自摄像机和激光雷达传感器的图像和点云,以及高精度GPS/ins以在跨路线上建立对应关系。该数据集包括使用Amodal掩码捕获部分遮挡和3D边界框的道路和对象注释。我们通过分析基准在道路和对象,深度估计和3D对象检测中的性能来证明该数据集的独特性。重复的路线为对象发现,持续学习和异常检测打开了新的研究方向。链接到ITHACA365:https://ithaca365.mae.cornell.edu/
translated by 谷歌翻译
差异化私有(DP)数据发布是一种有前途的技术,可以在不损害数据主体的隐私而传播数据。但是,大多数先前的工作都集中在单一方拥有所有数据的方案上。在本文中,我们专注于多方设置,其中不同的利益相关者拥有属于同一数据主体的属性集合。在线性回归的上下文中,允许各方在完全数据上训练模型,而无需推断个人的私人属性或身份,我们首先直接应用高斯机制并表明其具有小的特征值问题。我们进一步提出了我们的新方法,并证明其渐近地收敛到随着数据集大小增加的最佳(非私有)解决方案。我们通过对人工和现实世界数据集的实验来证实理论结果。
translated by 谷歌翻译
我们呈现LSEG,这是一种用于语言驱动语义图像分割的新模型。 LSEG使用文本编码器来计算描述性输入标签(例如,“草”或“构建”)的嵌入式,以及基于变压器的图像编码器,该图像编码器计算输入图像的密度每个像素嵌入。图像编码器具有对比度目标,以将像素嵌入对准对应语义类的文本嵌入。文本嵌入式提供了一种灵活的标签表示,其中将语义相似的标签映射到嵌入空间中的类似区域(例如,“猫”和“毛茸茸”)。这允许LSEG概括到以前在测试时间的预先看不见的类别,而不会再培训或甚至需要单一的额外训练样本。我们展示了与现有的零点和少量拍摄语义分割方法相比,我们的方法实现了高竞争激烈的零射性能,甚至在提供固定标签集时符合传统分段算法的准确性。代码和演示可在https://github.com/isl-org/lang-seg获取。
translated by 谷歌翻译
机器学习最近被出现为研究复杂现象的有希望的方法,其特征是丰富的数据集。特别地,以数据为中心的方法为手动检查可能错过的实验数据集中自动发现结构的可能性。在这里,我们介绍可解释的无监督监督的混合机学习方法,混合相关卷积神经网络(Hybrid-CCNN),并将其应用于使用基于Rydberg Atom阵列的可编程量子模拟器产生的实验数据。具体地,我们应用Hybrid-CCNN以通过可编程相互作用分析在方形格子上的新量子阶段。初始无监督的维度降低和聚类阶段首先揭示了五个不同的量子相位区域。在第二个监督阶段,我们通过培训完全解释的CCNN来细化这些相界并通过训练每个阶段提取相关的相关性。在条纹相中的每个相捕获量子波动中专门识别的特征空间加权和相关的相关性并鉴定两个先前未检测到的相,菱形和边界有序相位。这些观察结果表明,具有机器学习的可编程量子模拟器的组合可用作有关相关量子态的详细探索的强大工具。
translated by 谷歌翻译
机器学习模型经常在现实世界部署时遇到分布班次。在本文中,我们专注于适应在线设置中的标签分配换档,其中测试时标签分布不断变化,模型必须在不观察到真实标签的情况下动态适应它。利用新的分析,我们表明,缺乏真正的标签不会妨碍预期的测试损失估计,这使得能够减少在线标签转变适应传统在线学习。通过此观察信息,我们提出了由经典在线学习技术启发的适应算法,例如遵循领导者(FTL)和在线梯度下降(OGD)并导出他们的遗憾范围。我们在模拟和现实世界标签分销班次下凭证验证了我们的调查结果,并表明OGD对各种具有挑战性的标签换档情景特别有效和强大。
translated by 谷歌翻译
在计算机视觉和自然语言处理中,模型架构中的创新,提高模型容量的性能可靠地转化为性能增益。在与这种趋势的鲜明对比中,最先进的加强学习(RL)算法通常使用小的MLP,并且性能的增益通常来自算法创新。假设RL中的小型数据集需要简单的模型是很自然的,以避免过度装备;然而,这个假设是未经测试的。在本文中,我们调查RL代理商如何通过交换具有较大现代网络的小MLP,以跳过连接和标准化,专注于演员 - 评论家算法。我们经验验证,天真地采用这种架构导致不稳定和性能差,可能在实践中有助于简单模型的普及。但是,我们表明数据集大小不是限制因素,而是争辩说,不稳定性通过评论家占据渐变是罪魁祸首。我们证明光谱归一化(SN)可以减轻这个问题并使大型现代架构稳定训练。使用SN平滑后,较大的模型会产生显着的性能改进 - 表明除了算法创新外,通过专注于模型架构,可能拥有更多“简单”的收益。
translated by 谷歌翻译
自动驾驶汽车必须在3D中检测其他车辆和行人,以计划安全路线并避免碰撞。基于深度学习的最先进的3D对象探测器已显示出有希望的准确性,但容易过度拟合域特质,使它们在新环境中失败 - 如果自动驾驶汽车旨在自动操作,则是一个严重的问题。在本文中,我们提出了一种新颖的学习方法,该方法通过在目标域中的伪标记上微调检测器,从而大大减少这一差距,我们的方法在车辆停放时会根据先前记录的驾驶序列的重播而生成的差距。在这些重播中,随着时间的推移会跟踪对象,并且检测被插值和外推 - 至关重要的是利用未来的信息来捕获硬病例。我们在五个自动驾驶数据集上显示,对这些伪标签上的对象检测器进行微调大大减少了域间隙到新的驾驶环境,从而极大地提高了准确性和检测可靠性。
translated by 谷歌翻译
We propose BERTSCORE, an automatic evaluation metric for text generation. Analogously to common metrics, BERTSCORE computes a similarity score for each token in the candidate sentence with each token in the reference sentence. However, instead of exact matches, we compute token similarity using contextual embeddings. We evaluate using the outputs of 363 machine translation and image captioning systems. BERTSCORE correlates better with human judgments and provides stronger model selection performance than existing metrics. Finally, we use an adversarial paraphrase detection task to show that BERTSCORE is more robust to challenging examples when compared to existing metrics.
translated by 谷歌翻译