智能论文笔记

Goal-oriented Autonomous Driving

Yihan Hu , Jiazhi Yang , Li Chen , Keyu Li , Chonghao Sima , Xizhou Zhu , Siqi Chai , Senyao Du , Tianwei Lin , Wenhai Wang

分类：计算机视觉 | 机器人

2022-12-20

Modern autonomous driving system is characterized as modular tasks in sequential order, i.e., perception, prediction and planning. As sensors and hardware get improved, there is trending popularity to devise a system that can perform a wide diversity of tasks to fulfill higher-level intelligence. Contemporary approaches resort to either deploying standalone models for individual tasks, or designing a multi-task paradigm with separate heads. These might suffer from accumulative error or negative transfer effect. Instead, we argue that a favorable algorithm framework should be devised and optimized in pursuit of the ultimate goal, i.e. planning of the self-driving-car. Oriented at this goal, we revisit the key components within perception and prediction. We analyze each module and prioritize the tasks hierarchically, such that all these tasks contribute to planning (the goal). To this end, we introduce Unified Autonomous Driving (UniAD), the first comprehensive framework up-to-date that incorporates full-stack driving tasks in one network. It is exquisitely devised to leverage advantages of each module, and provide complementary feature abstractions for agent interaction from a global perspective. Tasks are communicated with unified query design to facilitate each other toward planning. We instantiate UniAD on the challenging nuScenes benchmark. With extensive ablations, the effectiveness of using such a philosophy is proven to surpass previous state-of-the-arts by a large margin in all aspects. The full suite of codebase and models would be available to facilitate future research in the community.

translated by 谷歌翻译

Honor of Kings Arena: an Environment for Generalization in Competitive Reinforcement Learning

Hua Wei , Jingxiao Chen , Xiyang Ji , Hongyang Qin , Minwen Deng , Siqin Li , Liang Wang , Weinan Zhang , Yong Yu , Lin Liu

分类：机器学习 | 人工智能

2022-09-18

本文介绍了Kings Arena的荣誉，Kings Arena是基于国王荣誉的强化学习（RL）环境，这是世界上最受欢迎的游戏之一。与以前大多数工作中研究的其他环境相比，我们的人对竞争性强化学习提出了新的概括挑战。与对手竞争的一个代理商是一个多代理的问题；它需要概括能力，因为它具有控制和不同的对手竞争的不同目标。我们描述了国王域名荣誉的观察，动作和奖励规范，并提供了一个基于python的开源界面，以与游戏引擎进行通信。我们为纪念国王竞技场的二十个目标英雄提供了各种任务，并为具有可行的计算资源的基于RL的方法提供了初始基线结果。最后，我们展示了国王竞技场的荣誉和对挑战的可能补救措施所面临的概括挑战。所有软件（包括环境级）均可在https://github.com/tencent-ailab/hok_env上公开获得。该文档可在https://aiarena.tencent.com/hok/doc/上获得。

translated by 谷歌翻译

Delving into the Devils of Bird's-eye-view Perception: A Review, Evaluation and Recipe

Hongyang Li , Chonghao Sima , Jifeng Dai , Wenhai Wang , Lewei Lu , Huijie Wang , Enze Xie , Zhiqi Li , Hanming Deng , Hao Tian

分类：计算机视觉 | 机器学习 | 机器人

2022-09-12

在鸟眼中学习强大的表现（BEV），以进行感知任务，这是趋势和吸引行业和学术界的广泛关注。大多数自动驾驶算法的常规方法在正面或透视视图中执行检测，细分，跟踪等。随着传感器配置变得越来越复杂，从不同的传感器中集成了多源信息，并在统一视图中代表功能至关重要。 BEV感知继承了几个优势，因为代表BEV中的周围场景是直观和融合友好的。对于BEV中的代表对象，对于随后的模块，如计划和/或控制是最可取的。 BEV感知的核心问题在于（a）如何通过从透视视图到BEV来通过视图转换来重建丢失的3D信息；（b）如何在BEV网格中获取地面真理注释；（c）如何制定管道以合并来自不同来源和视图的特征；（d）如何适应和概括算法作为传感器配置在不同情况下各不相同。在这项调查中，我们回顾了有关BEV感知的最新工作，并对不同解决方案进行了深入的分析。此外，还描述了该行业的BEV方法的几种系统设计。此外，我们推出了一套完整的实用指南，以提高BEV感知任务的性能，包括相机，激光雷达和融合输入。最后，我们指出了该领域的未来研究指示。我们希望该报告能阐明社区，并鼓励对BEV感知的更多研究。我们保留一个活跃的存储库来收集最新的工作，并在https://github.com/openperceptionx/bevperception-survey-recipe上提供一包技巧的工具箱。

translated by 谷歌翻译

DaisyRec 2.0: Benchmarking Recommendation for Rigorous Evaluation

Zhu Sun , Hui Fang , Jie Yang , Xinghua Qu , Hongyang Liu , Di Yu , Yew-Soon Ong , Jie Zhang

分类：机器学习

2022-06-22

最近，在推荐系统领域中，一个关键问题隐约可见 - 没有进行严格评估的有效基准 - 因此，这会导致不可再生的评估和不公平的比较。因此，我们从实践理论和实验的角度进行研究，目的是为严格的评估做出基准建议。关于理论研究，一系列影响整个评估链中建议性能的超级因素通过对2017 - 2020年在八个顶级会议上发表的141篇论文进行的详尽评价进行了系统的总结和分析。然后，我们将它们分类为独立于模型和模型依赖性的超因子，并相应地定义和讨论了不同的严格评估模式。在实验研究中，我们通过将这些超级因子整合以进行严格的评估来发布DaisyREC 2.0文库，从而进行了整体经验研究，以揭示不同超级效应器对建议性能的影响。在理论和实验研究的支持下，我们最终通过提出标准化程序并在六个数据集上的六个评估指标中提供10个最先进的方法来创建严格评估的基准，以作为以后研究的参考。总体而言，我们的工作阐明了建议评估中的问题，为严格的评估提供了潜在的解决方案，并为进一步调查提供了基础。

translated by 谷歌翻译

Level 2 Autonomous Driving on a Single Device: Diving into the Devils of Openpilot

Li Chen , Tutian Tang , Zhitian Cai , Yang Li , Penghao Wu , Hongyang Li , Jianping Shi , Junchi Yan , Yu Qiao

分类：计算机视觉 | 机器人

2022-06-16

配备了广泛的传感器，主要的自主驾驶解决方案正变得越来越面向安全系统设计。尽管这些传感器已经奠定了坚实的基础，但最新的大多数生产解决方案仍然属于L2阶段。其中，Comma.ai出现在我们的视线中，声称一个售价999美元的售后设备装有单个相机和内部的木板具有处理L2场景的能力。该项目与Comma.ai发布的整个系统的开源软件一起名为OpenPilot。可能吗？如果是这样，它如何成为可能？考虑到好奇心，我们深入研究了OpenPilot，并得出结论，其成功的关键是端到端系统设计，而不是传统的模块化框架。该模型被简要介绍为SuperCombo，它可以从单眼输入中预测自我车辆的未来轨迹和其他道路语义。不幸的是，无法公开提供所有这些工作的培训过程和大量数据。为了进行深入的调查，我们尝试重新实现培训细节并测试公共基准测试的管道。这项工作中提出的重构网络称为“ op-Deepdive”。为了将我们的版本与原始SuperCombo进行公平的比较，我们引入了双模型部署方案，以测试现实世界中的驾驶性能。 Nuscenes，Comma2K19，Carla和内部现实场景的实验结果证明了低成本设备确实可以实现大多数L2功能，并且与原始的SuperCombo模型相当。在本报告中，我们想分享我们的最新发现，并阐明了从工业产品级别方面进行端到端自动驾驶的新观点，并有可能激发社区继续提高绩效。我们的代码，基准在https://github.com/openperceptionx/openpilot-deepdive上。

translated by 谷歌翻译

Causal Balancing for Domain Generalization

Xinyi Wang , Michael Saxon , Jiachen Li , Hongyang Zhang , Kun Zhang , William Yang Wang

分类：机器学习 | 人工智能 | 计算机视觉

2022-06-10

尽管机器学习模型迅速推进了各种现实世界任务的最先进，但鉴于这些模型对虚假相关性的脆弱性，跨域（OOD）的概括仍然是一个挑战性的问题。尽管当前的域概括方法通常着重于通过新的损耗函数设计在不同域上实施某些不变性属性，但我们提出了一种平衡的迷你批次采样策略，以减少观察到的训练分布中域特异性的虚假相关性。更具体地说，我们提出了一种两步方法，该方法1）识别虚假相关性的来源，以及2）通过在确定的来源上匹配，构建平衡的迷你批次而没有虚假相关性。我们提供了伪造来源的可识别性保证，并表明我们提出的方法是从所有培训环境中平衡，无虚拟分布的样本。实验是在三个具有伪造相关性的计算机视觉数据集上进行的，从经验上证明，与随机的迷你批次采样策略相比，我们平衡的微型批次采样策略可改善四个不同建立的域泛化模型基线的性能。

translated by 谷歌翻译

PersFormer: 3D Lane Detection via Perspective Transformer and the OpenLane Benchmark

Li Chen , Chonghao Sima , Yang Li , Zehan Zheng , Jiajie Xu , Xiangwei Geng , Hongyang Li , Conghui He , Jianping Shi , Yu Qiao

分类：计算机视觉

2022-03-21

最近已经提出了3D车道检测的方法，以解决许多自动驾驶场景（上坡/下坡，颠簸等）中不准确的车道布局问题。先前的工作在复杂的情况下苦苦挣扎，因为它们对前视图和鸟类视图（BEV）之间的空间转换以及缺乏现实数据集的简单设计。在这些问题上，我们介绍了Persformer：具有新型基于变压器的空间特征变换模块的端到端单眼3D车道检测器。我们的模型通过参考摄像头参数来参与相关的前视本地区域来生成BEV功能。 Persformer采用统一的2D/3D锚设计和辅助任务，以同时检测2D/3D车道，从而提高功能一致性并分享多任务学习的好处。此外，我们发布了第一个大型现实世界3D车道数据集之一：OpenLane，具有高质量的注释和场景多样性。 OpenLane包含200,000帧，超过880,000个实例级别的车道，14个车道类别，以及场景标签和封闭式对象注释，以鼓励开发车道检测和更多与工业相关的自动驾驶方法。我们表明，在新的OpenLane数据集和Apollo 3D Lane合成数据集中，Persformer在3D车道检测任务中的表现明显优于竞争基线，并且在OpenLane上的2D任务中也与最新的算法相当。该项目页面可在https://github.com/openperceptionx/persformer_3dlane上找到，OpenLane数据集可在https://github.com/openperceptionx/openlane上提供。

translated by 谷歌翻译

Video-driven Neural Physically-based Facial Asset for Production

Longwen Zhang , Chuxiao Zeng , Qixuan Zhang , Hongyang Lin , Ruixiang Cao , Wei Yang , Lan Xu , Jingyi Yu

分类：计算机视觉

2022-02-11

生产级别的工作流程用于产生令人信服的3D动态人体面孔长期以来依赖各种劳动密集型工具用于几何和纹理生成，运动捕获和索具以及表达合成。最近的神经方法可以使单个组件自动化，但是相应的潜在表示不能像常规工具一样为艺术家提供明确的控制。在本文中，我们提出了一种新的基于学习的，视频驱动的方法，用于生成具有高质量基于物理资产的动态面部几何形状。对于数据收集，我们构建了一个混合多视频测量捕获阶段，与超快速摄像机耦合以获得原始的3D面部资产。然后，我们着手使用单独的VAE对面部表达，几何形状和基于物理的纹理进行建模，我们在各个网络的潜在范围内强加了基于全局MLP的表达映射，以保留各个属性的特征。我们还将增量信息建模为基于物理的纹理的皱纹图，从而达到高质量的4K动态纹理。我们展示了我们在高保真表演者特异性面部捕获和跨认同面部运动重新定位中的方法。此外，我们的基于多VAE的神经资产以及快速适应方案也可以部署以处理内部视频。此外，我们通过提供具有较高现实主义的各种有希望的基于身体的编辑结果来激发我们明确的面部解散策略的实用性。综合实验表明，与以前的视频驱动的面部重建和动画方法相比，我们的技术提供了更高的准确性和视觉保真度。

translated by 谷歌翻译

CORE-Text: Improving Scene Text Detection with Contrastive Relational Reasoning

Jingyang Lin , Yingwei Pan , Rongfeng Lai , Xuehang Yang , Hongyang Chao , Ting Yao

分类：计算机视觉 | 人工智能

2021-12-14

本地化自然场景中的文本实例被认为是计算机愿景中的根本挑战。尽管如此，由于实际场景中的极其方向性和文本实例的尺度，大多数传统的文本检测器都遭受子文本问题，该问题仅定位文本实例的片段（即，子文本）。在这项工作中，我们定量分析了子文本问题，并提出了一种简单但有效的设计，对比关系（核心）模块，以减轻该问题。核心首先利用Vanilla关系块来模拟所有文本提案中的关系（多个文本实例的子文本），并以对比的方式进一步通过实例级子文本鉴别来增强关系推理。这种方式自然地学习了文本提案的实例感知表示，从而促进了场景文本检测。我们将核心模块集成到蒙版R-CNN的两级文本检测器中，并设计了我们的文本探测器核心文本。四个基准测试的广泛实验证明了核心文本的优越性。代码可用：\ url {https://github.com/jylins/core-text}。

translated by 谷歌翻译

FinRL-Meta: A Universe of Near-Real Market Environments for Data-Driven Deep Reinforcement Learning in Quantitative Finance

Xiao-Yang Liu , Jingyang Rui , Jiechao Gao , Liuqing Yang , Hongyang Yang , Zhaoran Wang , Christina Dan Wang , Jian Guo

分类：机器学习

2021-12-13

深增强学习（DRL）最近在建立金融市场模拟器方面表现出巨大的潜力。然而，由于现实世界市场的高度复杂和动态性质，原始的历史金融数据往往涉及大噪音，可能无法反映市场的未来，降低了基于DRL的市场模拟器的保真度。此外，基于DRL的市场模拟器的准确性严重依赖于众多和多样化的DRL代理，这增加了对市场环境宇宙的需求，并对模拟速度提出挑战。在本文中，我们介绍了一个Finrl-Meta框架，为数据驱动的金融强化学习建立了一个市场环境的宇宙。首先，Finrl-Meta将财务数据处理分开，从基于DRL的策略的设计管道分开，并为财务大数据提供开源数据工程工具。其次，Finrl-Meta为各种交易任务提供了数百个市场环境。第三，Finrl-Meta通过利用数千个GPU核心，可以实现多加工模拟和培训。我们的代码可在https://github.com/ai4finance-foundation/finrl-meta上使用。

translated by 谷歌翻译