智能论文笔记

Artificial Intelligence Security Competition (AISC)

Yinpeng Dong , Peng Chen , Senyou Deng , Lianji L , Yi Sun , Hanyu Zhao , Jiaxing Li , Yunteng Tan , Xinyu Liu , Yangyi Dong

分类：人工智能 | 计算机视觉 | 机器学习

2022-12-07

The security of artificial intelligence (AI) is an important research area towards safe, reliable, and trustworthy AI systems. To accelerate the research on AI security, the Artificial Intelligence Security Competition (AISC) was organized by the Zhongguancun Laboratory, China Industrial Control Systems Cyber Emergency Response Team, Institute for Artificial Intelligence, Tsinghua University, and RealAI as part of the Zhongguancun International Frontier Technology Innovation Competition (https://www.zgc-aisc.com/en). The competition consists of three tracks, including Deepfake Security Competition, Autonomous Driving Security Competition, and Face Recognition Security Competition. This report will introduce the competition rules of these three tracks and the solutions of top-ranking teams in each track.

translated by 谷歌翻译

PACT: Perception-Action Causal Transformer for Autoregressive Robotics Pre-Training

Rogerio Bonatti , Sai Vemprala , Shuang Ma , Felipe Frujeri , Shuhang Chen , Ashish Kapoor

分类：机器人 | 人工智能 | 计算机视觉 | 机器学习

2022-09-22

长期以来，Robotics一直是一个遍布复杂系统体系结构的领域，无论传统或基于学习的模块和联系都需要大量的人类专业知识和先验知识。受大型预训练语言模型的启发，这项工作引入了预先培训的通用表示范式，该范式可以作为给定机器人多个任务的起点。我们提出了感知性因果变压器（PACT），这是一种基于生成变压器的架构，旨在以自我监督的方式直接从机器人数据构建表示形式。通过对状态和行动的自动回归预测，我们的模型隐含地编码了特定机器人的动态和行为。我们的实验评估重点是移动药物的域，我们表明该机器人特定的表示可以作为单个起点，以实现不同的任务，例如安全导航，定位和映射。我们评估了两个形式：使用激光雷达传感器作为感知输入（MUSHR）的轮式机器人，以及使用第一人称RGB图像（栖息地）的模拟药物。我们表明，与训练单个模型的同时训练单个模型相比，对所有任务的单个模型进行训练，并且与独立培训单独的大型模型相当的性能，对每个任务的单个模型进行了可比的训练，则在较大的审计模型上进行了固定小型任务特异性网络，从而使性能明显提高。通过跨任务共享共同的优质表示，我们可以降低整体模型容量并加快此类系统的实时部署。

translated by 谷歌翻译

LaTTe: Language Trajectory TransformEr

Arthur Bucker , Luis Figueredo , Sami Haddadin , Ashish Kapoor , Shuang Ma , Rogerio Bonatti

分类：机器人 | 人工智能 | 自然语言处理 | 计算机视觉 | 机器学习

2022-08-04

自然语言是表达人类意图的最直观的方式之一。但是，将指示和命令转换为机器人运动生产以及在现实世界中的部署，远非一件容易的事。的确，将机器人的固有的低水平几何形状和运动动力学约束与人类的高级语义信息相结合，振奋人心，并提出了对任务设计问题的新挑战 - 通常会通过一组静态的动作目标和命令来实现任务或硬件特定的解决方案。相反，这项工作提出了一个灵活的基于语言的框架，该框架允许使用有关先前任务或机器人信息的限制的语言命令修改通用3D机器人轨迹。通过利用预训练的语言模型，我们使用自动回归变压器将自然语言输入和上下文图像映射到3D轨迹中的变化中。我们通过模拟和现实生活实验表明，该模型可以成功遵循人类的意图，从而改变了多个机器人平台和环境的轨迹的形状和速度。这项研究迈出了建立机器人技术的大型预训练的基础模型的一步，并展示了这样的模型如何在人与机器之间建立更直观，更灵活的相互作用。代码库可在以下网址提供：https：//github.com/arthurfenderbucker/nl_traimptory_reshaper。

translated by 谷歌翻译

Learning Modal-Invariant and Temporal-Memory for Video-based Visible-Infrared Person Re-Identification

Xinyu Lin , Jinxing Li , Zeyu Ma , Huafeng Li , Shuang Li , Kaixiong Xu , Guangming Lu , David Zhang

分类：计算机视觉

2022-08-04

感谢您的跨模式检索技术，通过将它们投射到一个共同的空间中，可以在24小时的监视系统中重新进行重新识别，从而实现了可见的信号（RGB-IR）重新识别（RE-ID）。但是，关于探测到探测器，几乎所有现有的基于RGB-IR的跨模式人RE-ID方法都集中在图像到图像匹配上，而视频对视频匹配包含更丰富的空间 - 和时间信息仍未探索。在本文中，我们主要研究基于视频的跨模式人Re-ID方法。为了实现这项任务，构建了一个基于视频的RGB-IR数据集，其中927个有效身份，具有463,259帧和21,863个曲目，由12个RGB/IR摄像机捕获。基于我们构造的数据集，我们证明，随着曲目中帧的增加，该性能确实达到了更多的增强功能，证明了视频对视频匹配在RGB-IR RE-ID中的重要性。此外，进一步提出了一种新颖的方法，不仅将两种模态投射到模态不变子空间，而且还提取了运动不变的时间记忆。多亏了这两种策略，我们基于视频的跨模式人重新ID取得了更好的结果。代码和数据集以：https：//github.com/vcmproject233/mitml发布。

translated by 谷歌翻译

Making the Best of Both Worlds: A Domain-Oriented Transformer for Unsupervised Domain Adaptation

Wenxuan Ma , Jinming Zhang , Shuang Li , Chi Harold Liu , Yulin Wang , Wei Li

分类：计算机视觉

2022-08-02

关于无监督的域适应性（UDA）的广泛研究已将有限的实验数据集深入学习到现实世界中无约束的领域。大多数UDA接近通用嵌入空间中的对齐功能，并将共享分类器应用于目标预测。但是，由于当域差异很大时可能不存在完全排列的特征空间，因此这些方法受到了两个局限性。首先，由于缺乏目标标签监督，强制域的比对会恶化目标域的可区分性。其次，源监督分类器不可避免地偏向源数据，因此它在目标域中的表现可能不佳。为了减轻这些问题，我们建议在两个集中在不同领域的空间中同时进行特征对齐，并为每个空间创建一个针对该域的面向域的分类器。具体而言，我们设计了一个面向域的变压器（DOT），该变压器（DOT）具有两个单独的分类令牌，以学习不同的面向域的表示形式和两个分类器，以保持域的可区分性。理论保证的基于对比度的对齐和源指导的伪标签细化策略被用来探索域名和特定信息。全面的实验验证了我们的方法在几个基准上实现了最先进的方法。

translated by 谷歌翻译

FastATDC: Fast Anomalous Trajectory Detection and Classification

Tianle Ni , Jingwei Wang , Yunlong Ma , Shuang Wang , Min Liu , Weiming Shen

分类：机器学习

2022-07-23

自动检测异常轨迹是智能运输系统中大量应用的重要问题。许多现有的研究集中在区分异常轨迹和正常轨迹上，忽略了异常轨迹之间的巨大差异。最近的一项研究在鉴定异常轨迹模式方面取得了长足进步，并提出了一种两阶段算法，用于异常轨迹检测和分类（ATDC）。该算法具有出色的性能，但受到了一些局限性，例如高时间的复杂性和不良的解释。在这里，我们对ATDC算法进行了仔细的理论和经验分析，表明可以简化两个阶段的异常得分的计算，并且该算法的第二阶段比第一阶段重要得多。因此，我们开发了一种FastATDC算法，该算法在两个阶段都引入了随机抽样策略。实验结果表明，FastATDC在实际数据集上的速度比ATDC快10到20倍。此外，FastAtDC优于基线算法，与ATDC算法相当。

translated by 谷歌翻译

Test-time Adaptation with Calibration of Medical Image Classification Nets for Label Distribution Shift

Wenao Ma , Cheng Chen , Shuang Zheng , Jing Qin , Huimao Zhang , Qi Dou

分类：计算机视觉

2022-07-02

课堂分配在学习深分类器中起着重要的作用。当测试集中每个类的比例与训练集不同时，分类网的性能通常会降低。由于疾病的患病率在位置和时间上有所不同，因此这种标签分布转移问题在医学诊断中很常见。在本文中，我们提出了第一种解决医疗图像分类标签转移的方法，该方法有效地适应了从单个培训标签分布中学到的模型，以使其成为任意未知的测试标签分布。我们的方法创新了分配校准以学习多个代表性分类器，这些分类器能够处理不同的一级分布。当给出测试图像时，不同的分类器通过一致性驱动的测试时间适应动态聚合，以处理未知的测试标签分布。我们在两个重要的医学图像分类任务上验证方法，包括肝纤维化分期和COVID-19的严重性预测。我们的实验清楚地表明了标签移位下的模型性能下降。通过我们的方法，模型性能可显着改善所有测试数据集，这些数据集具有不同的标签变化，用于两项医学图像诊断任务。

translated by 谷歌翻译

Exploiting Both Domain-specific and Invariant Knowledge via a Win-win Transformer for Unsupervised Domain Adaptation

Wenxuan Ma , Jinming Zhang , Shuang Li , Chi Harold Liu , Yulin Wang , Wei Li

分类：计算机视觉

2021-11-25

无监督的域适应（UDA）旨在将知识从标记的源域传输到未标记的目标域。大多数现有的UDA方法通过学习域 - 不变的表示和在两个域中共享一个分类器来实现知识传输。但是，忽略与任务相关的域特定信息，并强制统一的分类器以适合两个域将限制每个域中的特征表达性。在本文中，通过观察到具有可比参数的变压器架构可以产生比CNN对应的更可转换的表示，我们提出了一个双赢的变压器框架（WINTR），它分别探讨了每个域的特定于域的知识，而同时交互式跨域知识。具体而言，我们使用变压器中的两个单独的分类令牌学习两个不同的映射，以及每个特定于域的分类器的设计。跨域知识通过源引导标签改进和与源或目标的单侧特征对齐传输，这保持了特定于域的信息的完整性。三个基准数据集的广泛实验表明，我们的方法优于最先进的UDA方法，验证利用域特定和不变性的有效性

translated by 谷歌翻译

Graph Federated Learning with Hidden Representation Sharing

Shuang Wu , Mingxuan Zhang , Yuantong Li , Carl Yang , Pan Li

分类：机器学习

2022-12-23

Learning on Graphs (LoG) is widely used in multi-client systems when each client has insufficient local data, and multiple clients have to share their raw data to learn a model of good quality. One scenario is to recommend items to clients with limited historical data and sharing similar preferences with other clients in a social network. On the other hand, due to the increasing demands for the protection of clients' data privacy, Federated Learning (FL) has been widely adopted: FL requires models to be trained in a multi-client system and restricts sharing of raw data among clients. The underlying potential data-sharing conflict between LoG and FL is under-explored and how to benefit from both sides is a promising problem. In this work, we first formulate the Graph Federated Learning (GFL) problem that unifies LoG and FL in multi-client systems and then propose sharing hidden representation instead of the raw data of neighbors to protect data privacy as a solution. To overcome the biased gradient problem in GFL, we provide a gradient estimation method and its convergence analysis under the non-convex objective. In experiments, we evaluate our method in classification tasks on graphs. Our experiment shows a good match between our theory and the practice.

translated by 谷歌翻译

Wukong-Reader: Multi-modal Pre-training for Fine-grained Visual Document Understanding

Haoli Bai , Zhiguang Liu , Xiaojun Meng , Wentao Li , Shuang Liu , Nian Xie , Rongfu Zheng , Liangwei Wang , Lu Hou , Jiansheng Wei

分类：自然语言处理 | 计算机视觉

2022-12-19

Unsupervised pre-training on millions of digital-born or scanned documents has shown promising advances in visual document understanding~(VDU). While various vision-language pre-training objectives are studied in existing solutions, the document textline, as an intrinsic granularity in VDU, has seldom been explored so far. A document textline usually contains words that are spatially and semantically correlated, which can be easily obtained from OCR engines. In this paper, we propose Wukong-Reader, trained with new pre-training objectives to leverage the structural knowledge nested in document textlines. We introduce textline-region contrastive learning to achieve fine-grained alignment between the visual regions and texts of document textlines. Furthermore, masked region modeling and textline-grid matching are also designed to enhance the visual and layout representations of textlines. Experiments show that our Wukong-Reader has superior performance on various VDU tasks such as information extraction. The fine-grained alignment over textlines also empowers Wukong-Reader with promising localization ability.

translated by 谷歌翻译