In this paper, we aim to design an efficient real-time object detector that exceeds the YOLO series and is easily extensible for many object recognition tasks such as instance segmentation and rotated object detection. To obtain a more efficient model architecture, we explore an architecture that has compatible capacities in the backbone and neck, constructed by a basic building block that consists of large-kernel depth-wise convolutions. We further introduce soft labels when calculating matching costs in the dynamic label assignment to improve accuracy. Together with better training techniques, the resulting object detector, named RTMDet, achieves 52.8% AP on COCO with 300+ FPS on an NVIDIA 3090 GPU, outperforming the current mainstream industrial detectors. RTMDet achieves the best parameter-accuracy trade-off with tiny/small/medium/large/extra-large model sizes for various application scenarios, and obtains new state-of-the-art performance on real-time instance segmentation and rotated object detection. We hope the experimental results can provide new insights into designing versatile real-time object detectors for many object recognition tasks. Code and models are released at https://github.com/open-mmlab/mmdetection/tree/3.x/configs/rtmdet.
translated by 谷歌翻译
Recently, the success of pre-training in text domain has been fully extended to vision, audio, and cross-modal scenarios. The proposed pre-training models of different modalities are showing a rising trend of homogeneity in their model structures, which brings the opportunity to implement different pre-training models within a uniform framework. In this paper, we present TencentPretrain, a toolkit supporting pre-training models of different modalities. The core feature of TencentPretrain is the modular design. The toolkit uniformly divides pre-training models into 5 components: embedding, encoder, target embedding, decoder, and target. As almost all of common modules are provided in each component, users can choose the desired modules from different components to build a complete pre-training model. The modular design enables users to efficiently reproduce existing pre-training models or build brand-new one. We test the toolkit on text, vision, and audio benchmarks and show that it can match the performance of the original implementations.
translated by 谷歌翻译
由于有效的检索速度和储存率低,因此学习哈希已被广泛用于视觉检索任务。但是,现有的哈希方法假定查询和检索样品位于同一域内的均匀特征空间中。结果,它们不能直接应用于异质的跨域检索。在本文中,我们提出了一个广义图像转移检索(GITR)问题,该问题遇到了两个关键的瓶颈:1)查询和检索样品可能来自不同的域,导致不可避免的{域分布gap}; 2)两个域的特征可能是异质的或未对准的,从而增加了{特征差距}。为了解决GITR问题,我们提出了一个不对称的转移哈希(ATH)框架,其无监督/半监督/监督的实现。具体而言,ATH通过两个不对称的哈希函数之间的差异来表征域分布差距,并借助于跨域数据构建的新型自适应双分部分图,从而最小化特征差距。通过共同优化不对称的哈希功能和两分图,不仅可以实现知识转移,而且还可以避免由特征比对引起的信息损失。同时,为了减轻负转移,通过涉及域亲和图来保留单域数据的内在几何结构。对不同GITR子任务下的单域和跨域基准测试的广泛实验表明,与最新的哈希方法相比,我们的ATH方法的优越性。
translated by 谷歌翻译
强化学习算法的实用性由于相对于问题大小的规模差而受到限制,因为学习$ \ epsilon $ -optimal策略的样本复杂性为$ \ tilde {\ omega} \ left(| s | s || a || a || a || a | h^3 / \ eps^2 \ right)$在MDP的最坏情况下,带有状态空间$ S $,ACTION SPACE $ A $和HORIZON $ H $。我们考虑一类显示出低级结构的MDP,其中潜在特征未知。我们认为,价值迭代和低级别矩阵估计的自然组合导致估计误差在地平线上呈指数增长。然后,我们提供了一种新算法以及统计保证,即有效利用了对生成模型的访问,实现了$ \ tilde {o} \ left的样本复杂度(d^5(d^5(| s |+| a |)\),我们有效利用低级结构。对于等级$ d $设置的Mathrm {Poly}(h)/\ EPS^2 \ right)$,相对于$ | s |,| a | $和$ \ eps $的缩放,这是最小值的最佳。与线性和低级别MDP的文献相反,我们不需要已知的功能映射,我们的算法在计算上很简单,并且我们的结果长期存在。我们的结果提供了有关MDP对过渡内核与最佳动作值函数所需的最小低级结构假设的见解。
translated by 谷歌翻译
非负矩阵分解(NMF)已广泛用于降低机器学习的尺寸。但是,传统的NMF无法正确处理异常值,因此对噪声敏感。为了提高NMF的鲁棒性,本文提出了一种自适应加权NMF,它引入了权重,以强调每个数据点的不同重要性,因此降低了对噪声数据的算法敏感性。它与使用缓慢生长相似性度量的现有强大NMF大不相同。具体而言,提出了两种实现这一目标的策略:模糊加权技术和熵加权技术,两者都导致具有简单形式的迭代解决方案。实验结果表明,新方法在具有噪声的几个真实数据集上具有更健壮的特征表示,而不是进行噪声。
translated by 谷歌翻译
我们研究了自然非凸形公式下的不对称矩阵分解问题,并具有任意的过多参数化。考虑了无模型设置,对观察到的矩阵的秩或单数值的假设最小,在该矩阵的秩或奇异值中,全局最优值证明过度拟合。我们表明,带有小随机初始化的香草梯度下降顺序恢复了观察到的矩阵的主要成分。因此,当配备适当的早期停止时,梯度下降会产生观察到的矩阵的最佳低级别近似,而无需显式正则化。我们提供了近似误差,迭代复杂性,初始化大小和步骤大小之间关系的尖锐表征。我们的复杂性界限几乎不含尺寸,并取决于对数近似误差,与先前的工作相比,对步骤和初始化的宽大要求明显更大。我们的理论结果为行为梯度下降提供了准确的预测,显示了与数值实验的良好一致性。
translated by 谷歌翻译
$ k $ -means集群是各学科的基本问题。此问题是非核解,并且标准算法仅保证找到本地最佳算法。利用[1]的本地解决方案的结构,我们提出了一种用于逃离不良局部解决方案并恢复全球解决方案(或地面真理)的一般算法框架。该框架包括迭代:(i)在本地解决方案中检测MIS指定的群集,并通过非本地操作来改进当前本地解决方案。我们讨论这些步骤的实施,并阐明所提出的框架如何从几何视角统一文献中的k $ -means算法的变体。此外,我们介绍了所提出的框架的两个自然扩展,其中初始数量的群集被遗漏。我们为我们的方法提供了理论理的理由,这是通过广泛的实验证实的。
translated by 谷歌翻译
迭代加权收缩阈值算法(IWSTA)已经显示出优于经典的未加权迭代收缩 - 阈值算法(ISTA),用于解决线性逆问题,其不同地解决属性。本文提出了一种新的熵正则化IWSTA(ERIWSTA),该IWSTA(ERIWSTA)为成本函数增加了成本函数以衡量权重的不确定性,以刺激参与问题解决的属性。然后,用拉格朗日乘法器方法解决权重,以获得简单的迭代更新。可以解释权重作为问题解决方案的贡献的概率。CT图像恢复的实验结果表明,该方法在收敛速度和恢复精度方面具有比现有方法更好的性能。
translated by 谷歌翻译
我们根据熵风险措施研究风险敏感的强化学习(RL)。虽然现有的作品已经建立了这个问题的非渐近遗憾担保,但它们会在上限和下限之间开放指数差距。我们确定现有算法中的缺陷及其分析,从而导致如此差距。为了解决这些缺陷,我们调查了风险敏感的Bellman方程的简单转变,我们称之为指数钟声方程。指数贝尔曼方程激励我们在风险敏感RL算法中开发对Bellman备份程序的新型分析,并进一步激励了一种新颖勘探机制的设计。我们表明,这些分析和算法创新共同导致现有的遗憾的上限。
translated by 谷歌翻译
背景和目的:胃癌已经成为全球第五次常见的癌症,早期检测胃癌对于拯救生命至关重要。胃癌的组织病理学检查是诊断胃癌的金标准。然而,计算机辅助诊断技术是挑战,以评估由于公开胃组织病理学图像数据集的稀缺而评估。方法:在本文中,公布了一种贵族公共胃组织病理学子尺寸图像数据库(GashissdB)以识别分类器的性能。具体地,包括两种类型的数据:正常和异常,总共245,196个组织案例图像。为了证明图像分类领域的不同时期的方法在GashissdB上具有差异,我们选择各种分类器进行评估。选择七种古典机器学习分类器,三个卷积神经网络分类器和新颖的基于变压器的分类器进行测试,用于测试图像分类任务。结果:本研究采用传统机器学习和深入学习方法进行了广泛的实验,以证明不同时期的方法对GashissdB具有差异。传统的机器学习实现了86.08%的最佳精度率,最低仅为41.12%。深度学习的最佳准确性达到96.47%,最低为86.21%。分类器的精度率显着变化。结论:据我们所知,它是第一个公开的胃癌组织病理学数据集,包含大量的弱监督学习的图像。我们认为Gashissdb可以吸引研究人员来探索胃癌自动诊断的新算法,这可以帮助医生和临床环境中的患者。
translated by 谷歌翻译