We present a simple yet effective end-to-end Video-language Pre-training (VidLP) framework, Masked Contrastive Video-language Pretraining (MAC), for video-text retrieval tasks. Our MAC aims to reduce video representation's spatial and temporal redundancy in the VidLP model by a mask sampling mechanism to improve pre-training efficiency. Comparing conventional temporal sparse sampling, we propose to randomly mask a high ratio of spatial regions and only feed visible regions into the encoder as sparse spatial sampling. Similarly, we adopt the mask sampling technique for text inputs for consistency. Instead of blindly applying the mask-then-prediction paradigm from MAE, we propose a masked-then-alignment paradigm for efficient video-text alignment. The motivation is that video-text retrieval tasks rely on high-level alignment rather than low-level reconstruction, and multimodal alignment with masked modeling encourages the model to learn a robust and general multimodal representation from incomplete and unstable inputs. Coupling these designs enables efficient end-to-end pre-training: reduce FLOPs (60% off), accelerate pre-training (by 3x), and improve performance. Our MAC achieves state-of-the-art results on various video-text retrieval datasets, including MSR-VTT, DiDeMo, and ActivityNet. Our approach is omnivorous to input modalities. With minimal modifications, we achieve competitive results on image-text retrieval tasks.
translated by 谷歌翻译
Large language models (LLMs) have been shown to be able to perform new tasks based on a few demonstrations or natural language instructions. While these capabilities have led to widespread adoption, most LLMs are developed by resource-rich organizations and are frequently kept from the public. As a step towards democratizing this powerful technology, we present BLOOM, a 176B-parameter open-access language model designed and built thanks to a collaboration of hundreds of researchers. BLOOM is a decoder-only Transformer language model that was trained on the ROOTS corpus, a dataset comprising hundreds of sources in 46 natural and 13 programming languages (59 in total). We find that BLOOM achieves competitive performance on a wide variety of benchmarks, with stronger results after undergoing multitask prompted finetuning. To facilitate future research and applications using LLMs, we publicly release our models and code under the Responsible AI License.
translated by 谷歌翻译
Video super-resolution is one of the most popular tasks on mobile devices, being widely used for an automatic improvement of low-bitrate and low-resolution video streams. While numerous solutions have been proposed for this problem, they are usually quite computationally demanding, demonstrating low FPS rates and power efficiency on mobile devices. In this Mobile AI challenge, we address this problem and propose the participants to design an end-to-end real-time video super-resolution solution for mobile NPUs optimized for low energy consumption. The participants were provided with the REDS training dataset containing video sequences for a 4X video upscaling task. The runtime and power efficiency of all models was evaluated on the powerful MediaTek Dimensity 9000 platform with a dedicated AI processing unit capable of accelerating floating-point and quantized neural networks. All proposed solutions are fully compatible with the above NPU, demonstrating an up to 500 FPS rate and 0.2 [Watt / 30 FPS] power consumption. A detailed description of all models developed in the challenge is provided in this paper.
translated by 谷歌翻译
对预测中使用的机器学习模型的安全问题包括模型的隐私,查询和结果。已经开发了基于同态加密(HE)和/或多方计算(MPC)的安全推理解决方案,以保护所有敏感信息。最有效的解决方案之一是将HE用于线性层,而MPC用于非线性层。但是,对于具有半honest安全性的此类混合协议,对手可以在推理过程中的中间功能进行介绍,并比针对明文中的推理服务更有效地提取模型信息。在本文中,我们建议Seek,一种用于仅输出类标签的混合安全推理服务的一般提取方法。该方法可以独立提取目标模型的每个层,并且不受模型深度的影响。对于RESNET-18,Seek可以平均提取一个少于50个查询的参数,平均误差小于$ 0.03 \%$。
translated by 谷歌翻译
在鸟眼中学习强大的表现(BEV),以进行感知任务,这是趋势和吸引行业和学术界的广泛关注。大多数自动驾驶算法的常规方法在正面或透视视图中执行检测,细分,跟踪等。随着传感器配置变得越来越复杂,从不同的传感器中集成了多源信息,并在统一视图中代表功能至关重要。 BEV感知继承了几个优势,因为代表BEV中的周围场景是直观和融合友好的。对于BEV中的代表对象,对于随后的模块,如计划和/或控制是最可取的。 BEV感知的核心问题在于(a)如何通过从透视视图到BEV来通过视图转换来重建丢失的3D信息; (b)如何在BEV网格中获取地面真理注释; (c)如何制定管道以合并来自不同来源和视图的特征; (d)如何适应和概括算法作为传感器配置在不同情况下各不相同。在这项调查中,我们回顾了有关BEV感知的最新工作,并对不同解决方案进行了深入的分析。此外,还描述了该行业的BEV方法的几种系统设计。此外,我们推出了一套完整的实用指南,以提高BEV感知任务的性能,包括相机,激光雷达和融合输入。最后,我们指出了该领域的未来研究指示。我们希望该报告能阐明社区,并鼓励对BEV感知的更多研究。我们保留一个活跃的存储库来收集最新的工作,并在https://github.com/openperceptionx/bevperception-survey-recipe上提供一包技巧的工具箱。
translated by 谷歌翻译
人类姿势估计旨在准确估计各种人类姿势。但是,现有的数据集通常遵循长尾巴的分布,而异常姿势仅占据一小部分,这进一步导致缺乏稀有姿势的多样性。这些问题导致当前姿势估计器的概括能力。在本文中,我们提出了一种简单而有效的数据增强方法,称为姿势转化(后部),以减轻上述问题。具体而言,我们建议姿势转化模块(PTM)创建具有多种姿势并采用姿势歧视者的新训练样本,以确保增强姿势的合理性。此外,我们提出姿势聚类模块(PCM)来测量姿势稀有性并选择“最稀有”姿势,以帮助平衡长尾分布。在三个基准数据集上进行的广泛实验证明了我们方法的有效性,尤其是在稀有姿势上。同样,我们的方法是有效且易于实施的,可以轻松地集成到现有姿势估计模型的训练管道中。
translated by 谷歌翻译
大多数现有的复合面部表达识别(FER)方法依赖于用于训练的大型化合物表达数据。但是,收集此类数据是劳动密集型且耗时的。在本文中,我们解决了跨域少数学习(FSL)设置中的复合FER任务,该设置仅需要几个在目标域中的复合表达式样本。具体而言,我们提出了一个新型的级联分解网络(CDNET),该网络将基于顺序分解机制的几个学习到分解模块层叠,以获得可转移的特征空间。为了减轻我们任务中基本班级有限的过度拟合问题,部分正则化策略旨在有效利用情节培训和批处理培训的最佳功能。通过在多个基本表达数据集上进行类似任务的培训,CDNET了解了可以轻松适应以识别看不见的化合物表达式的学习能力。对利润和野外复合表达数据集进行的广泛实验证明了我们提出的CDNET与几种最先进的FSL方法的优越性。代码可在以下网址获得:https://github.com/zouxinyi0625/cdnet。
translated by 谷歌翻译
用于对象检测的常规知识蒸馏(KD)方法主要集中于同质的教师学生探测器。但是,用于部署的轻质检测器的设计通常与高容量探测器显着不同。因此,我们研究了异构教师对之间的KD,以进行广泛的应用。我们观察到,异质KD(异核KD)的核心难度是由于不同优化的方式而导致异质探测器的主链特征之间的显着语义差距。常规的同质KD(HOMO-KD)方法遭受了这种差距的影响,并且很难直接获得异性KD的令人满意的性能。在本文中,我们提出了异助剂蒸馏(Head)框架,利用异质检测头作为助手来指导学生探测器的优化以减少此间隙。在头上,助手是一个额外的探测头,其建筑与学生骨干的老师负责人同质。因此,将异源KD转变为同性恋,从而可以从老师到学生的有效知识转移。此外,当训练有素的教师探测器不可用时,我们将头部扩展到一个无教师的头(TF-Head)框架。与当前检测KD方法相比,我们的方法已取得了显着改善。例如,在MS-COCO数据集上,TF-Head帮助R18视网膜实现33.9 MAP(+2.2),而Head将极限进一步推到36.2 MAP(+4.5)。
translated by 谷歌翻译
由于推荐系统(RS)在指导客户进行购买中的关键作用,因此有自然的动力,不道德的政党为利润做出欺骗。在本文中,我们研究了先令攻击,在该攻击中,对抗方为不适当的目的注入了许多假用户配置文件。常规的先令攻击方法缺乏攻击性转移性(即,攻击对某些受害者RS模型无效)和/或攻击隐形性(即,很容易检测到注射的配置文件)。为了克服这些问题,我们提出了基于生成对抗网络的新型攻击模型。 Leg-Up从采样``模板''中从真实用户那里学习用户行为模式,并构建了伪造的用户配置文件。为了模拟真实的用户,Lige-Up中的发电机直接输出离散评级。为了增强攻击传递性,通过在替代RS模型上最大化攻击性能来优化生成器的参数。为了提高攻击的隐形性,Leg-Up采用歧视器来指导发电机生成无法检测到的假用户配置文件。基准测试的实验表明,在广泛的受害者RS模型上,腿部超过了最先进的先令攻击方法。我们工作的源代码可在以下网址提供:https://github.com/xmudm/shillingattack。
translated by 谷歌翻译
作为一种主动网络安全保护方案,入侵检测系统(IDS)承担以恶意网络流量形式检测网络攻击的重要责任。入侵检测技术是ID的重要组成部分。目前,许多学者已经对入侵检测技术进行了广泛的研究。但是,为大规模网络流量数据开发有效的入侵检测方法仍然很困难。由于生成的对抗网络(GAN)具有强大的建模功能,可用于复杂的高维数据,因此它们为解决此问题提供了新的想法。在本文中,我们提出了一种基于Ebgan的入侵检测方法IDS-Ebgan,该方法将网络记录归类为正常流量或恶意流量。 IDS-Ebgan中的发电机负责将培训中的原始恶意网络流量转换为对抗性恶意示例。这是因为我们想使用对抗性学习来提高歧视者检测恶意流量的能力。同时,鉴别器采用自动编码器模型。在测试过程中,IDS-Ebgan使用歧视器的重建错误来对流量记录进行分类。
translated by 谷歌翻译