In this report, we present a fast and accurate object detection method dubbed DAMO-YOLO, which achieves higher performance than the state-of-the-art YOLO series. DAMO-YOLO is extended from YOLO with some new technologies, including Neural Architecture Search (NAS), efficient Reparameterized Generalized-FPN (RepGFPN), a lightweight head with AlignedOTA label assignment, and distillation enhancement. In particular, we use MAE-NAS, a method guided by the principle of maximum entropy, to search our detection backbone under the constraints of low latency and high performance, producing ResNet-like / CSP-like structures with spatial pyramid pooling and focus modules. In the design of necks and heads, we follow the rule of "large neck, small head". We import Generalized-FPN with accelerated queen-fusion to build the detector neck and upgrade its CSPNet with efficient layer aggregation networks (ELAN) and reparameterization. Then we investigate how detector head size affects detection performance and find that a heavy neck with only one task projection layer would yield better results. In addition, AlignedOTA is proposed to solve the misalignment problem in label assignment. And a distillation schema is introduced to improve performance to a higher level. Based on these new techs, we build a suite of models at various scales to meet the needs of different scenarios, i.e., DAMO-YOLO-Tiny/Small/Medium. They can achieve 43.0/46.8/50.0 mAPs on COCO with the latency of 2.78/3.83/5.62 ms on T4 GPUs respectively. The code is available at https://github.com/tinyvision/damo-yolo.
translated by 谷歌翻译
视频框架插值是一项艰巨的任务,这是由于不断变化的现实场景。先前的方法通常计算双向光流,然后在线性运动假设下预测中间光流,从而导致各向同性中间流量产生。随访研究通过估计的高阶运动信息和额外的帧获得各向异性调整。基于运动假设,它们的方法很难在真实场景中对复杂的运动进行建模。在本文中,我们提出了一种端到端训练方法A^2OF,用于视频框架插值,并通过事件驱动的各向异性调整光学流量调节。具体而言,我们使用事件为中间光流生成光流分布掩码,这可以对两个帧之间的复杂运动进行建模。我们提出的方法在视频框架插值中优于先前的方法,将基于事件的视频插值带到了更高的阶段。
translated by 谷歌翻译
我们研究人员重新识别(RE-ID)的向后兼容问题,该问题旨在限制更新的新模型的功能,以与画廊中旧模型的现有功能相提并论。大多数现有作品都采用基于蒸馏的方法,这些方法着重于推动新功能模仿旧功能。但是,基于蒸馏的方法本质上是最佳的,因为它迫使新的特征空间模仿旧特征空间。为了解决这个问题,我们提出了基于排名的向后兼容学习(RBCL),该学习直接优化了新功能和旧功能之间的排名指标。与以前的方法不同,RBCL仅推动新功能以在旧功能空间而不是严格对齐中找到最佳的位置,并且与向后检索的最终目标保持一致。但是,用于使排名度量可区分的尖锐的Sigmoid函数也会导致梯度消失的问题,因此在训练后期的时期造成了排名的完善。为了解决这个问题,我们提出了动态梯度重新激活(DGR),可以通过在远期步骤中添加动态计算的常数来重新激活抑制梯度。为了进一步帮助目标最佳位置,我们包括邻居上下文代理(NCAS),以近似训练期间的整个旧特征空间。与以前仅在内域设置上测试的作品不同,我们首次尝试引入跨域设置(包括受监督和无监督的),这更有意义和困难。所有五个设置上的实验结果表明,在所有设置下,提出的RBCL都以大幅度优于先前的最新方法。
translated by 谷歌翻译
从侵入性冠状动脉造影(ICA)中准确提取冠状动脉(ICA)在临床决策中对于冠状动脉疾病的诊断和风险分层(CAD)很重要。在这项研究中,我们开发了一种使用深度学习来自动提取冠状动脉腔的方法。方法。提出了一个深度学习模型U-NET 3+,其中包含了全面的跳过连接和深度监督,以自动从ICAS中自动提取冠状动脉。在这个新型的冠状动脉提取框架中采用了转移学习和混合损失功能。结果。使用了一个包含从210名患者获得的616个ICA的数据集。在技​​术评估中,U-NET 3+的骰子得分为0.8942,灵敏度为0.8735,高于U-NET ++(骰子得分:0.8814:0.8814,灵敏度为0.8331)和U-net(骰子分数) :0.8799,灵敏度为0.8305)。结论。我们的研究表明,U-NET 3+优于其他分割框架,用于自动从ICA中提取冠状动脉。该结果表明了临床使用的巨大希望。
translated by 谷歌翻译
背景:心肌灌注SPECT(MPS)对左心室(LV)功能的评估依赖于准确的心肌分割。本文的目的是开发和验证一种新的方法,该方法将深度学习与形状先验结合在一起,以精确提取LV心肌以自动测量LV功能参数。方法:开发了与形状变形模块集成三维(3D)V-NET的分割体系结构。使用动态编程(DP)算法生成的形状先验,然后在模型训练期间限制并指导模型输出,以快速收敛和改善性能。分层的5倍交叉验证用于训练和验证我们的模型。结果:我们提出的方法的结果与地面真理的结果一致。我们提出的模型的骰子相似性系数(DSC)为0.9573(0.0244),0.9821(0.0137)和0.9903(0.0041),Hausdorff距离(HD)6.7529(2.7334)(2.7334)mm,7.2507(3.2507(3.1952)MMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMM MM,和7.6122 3.0134)MM分别提取心内膜,心肌和心外膜。结论:我们提出的方法在提取LV心肌轮廓和评估LV功能方面具有很高的精度。
translated by 谷歌翻译
质量估计,作为机器翻译的质量控制的关键步骤,多年来已经探讨过。目标是调查估计机器翻译结果的自动方法而无需参考翻译。在今年的WMT QE共享任务中,我们利用了大规模的XLM-Roberta预训练模型,另外提出了几种有用的功能来评估翻译的不确定性,以构建我们的QE系统,命名为\ texit {qemind}。该系统已应用于直接评估的句子级评分任务和严重错误检测的二进制评分预测任务。在本文中,我们向WMT 2021 QE共享任务提供了我们的提交,并且广泛的实验结果表明我们的多语言系统在WMT 2020的直接评估QE任务中表现出最佳系统。
translated by 谷歌翻译
如今,在人员重新识别(Reid)任务的真实数据面临隐私问题,例如,禁止DataSet Dukemtmc-Reid。因此,收集Reid任务的真实数据变得更难。同时,标签的劳动力成本仍然很高,进一步阻碍了Reid研究的发展。因此,许多方法转向为REID算法生成合成图像作为替代方而不是真实图像。然而,合成和真实图像之间存在不可避免的领域差距。在以前的方法中,生成过程基于虚拟场景,并且无法根据不同的目标实际场景自动更改其合成训练数据。为了处理这个问题,我们提出了一种新颖的目标感知一代管道,以产生称为Tagerson的合成人物图像。具体地,它涉及参数化渲染方法,其中参数是可控的,并且可以根据目标场景调整。在Tagperson中,我们从目标场景中提取信息,并使用它们来控制我们的参数化渲染过程以生成目标感知的合成图像,这将使目标域中的实图像保持较小的间隙。在我们的实验中,我们的目标感知的合成图像可以实现比MSMT17上的广义合成图像更高的性能,即秩1精度的47.5%与40.9%。我们将发布此工具包\脚注{\ noindent代码可用于\ href {https://github.com/tagperson/tagperson-blender} {https://github.com/tagperson/tagperson -brender}}为Reid社区以任何所需味道产生合成图像。
translated by 谷歌翻译
视觉问题应答(VQA)任务利用视觉图像和语言分析来回回答图像的文本问题。它是一个流行的研究课题,在过去十年中越来越多的现实应用。本文介绍了我们最近对AliceMind-MMU的研究(阿里巴巴的编码器 - 解码器来自Damo Academy - 多媒体理解的机器智能实验室),其比人类在VQA上获得相似甚至略微更好的结果。这是通过系统地改善VQA流水线来实现的,包括:(1)具有全面的视觉和文本特征表示的预培训; (2)与学习参加的有效跨模型互动; (3)一个新颖的知识挖掘框架,具有专门的专业专家模块,适用于复杂的VQA任务。处理不同类型的视觉问题,需要具有相应的专业知识在提高我们的VQA架构的表现方面发挥着重要作用,这取决于人力水平。进行了广泛的实验和分析,以证明新的研究工作的有效性。
translated by 谷歌翻译
Background. Functional assessment of right ventricle (RV) using gated myocardial perfusion single-photon emission computed tomography (MPS) heavily relies on the precise extraction of right ventricular contours. In this paper, we present a new deep-learning-based model integrating both the spatial and temporal features in gated MPS images to perform the segmentation of the RV epicardium and endocardium. Methods. By integrating the spatial features from each cardiac frame of the gated MPS and the temporal features from the sequential cardiac frames of the gated MPS, we developed a Spatial-Temporal V-Net (ST-VNet) for automatic extraction of RV endocardial and epicardial contours. In the ST-VNet, a V-Net is employed to hierarchically extract spatial features, and convolutional long-term short-term memory (ConvLSTM) units are added to the skip-connection pathway to extract the temporal features. The input of the ST-VNet is ECG-gated sequential frames of the MPS images and the output is the probability map of the epicardial or endocardial masks. A Dice similarity coefficient (DSC) loss which penalizes the discrepancy between the model prediction and the ground truth was adopted to optimize the segmentation model. Results. Our segmentation model was trained and validated on a retrospective dataset with 45 subjects, and the cardiac cycle of each subject was divided into 8 gates. The proposed ST-VNet achieved a DSC of 0.8914 and 0.8157 for the RV epicardium and endocardium segmentation, respectively. The mean absolute error, the mean squared error, and the Pearson correlation coefficient of the RV ejection fraction (RVEF) between the ground truth and the model prediction were 0.0609, 0.0830, and 0.6985. Conclusion. Our proposed ST-VNet is an effective model for RV segmentation. It has great promise for clinical use in RV functional assessment.
translated by 谷歌翻译
无监督域适应(UDA)旨在将从标记的源域中学习的知识转移到不同的未标记的目标域。大多数现有的UDA方法专注于使用卷积神经网络(CNNS)的框架来学习域级别或类别级别的域不变特征表示。基于类别级别的UDA的一个根本问题是针对目标域中的样本的伪标签的生产通常太嘈杂,对于精确的域对齐,不可避免地影响UDA性能。随着变压器在各种任务中的成功,我们发现变压器中的横向对嘈杂的输入对具有鲁棒,以进行更好的特征对齐,因此在挑战的UDA任务中采用了该变压器。具体地,为了生成准确的输入对,我们设计了一种双向中心感知标记算法,为目标样本产生伪标签。随着伪标签,提出了一种重量共享三分支变压器框架,以分别应用用于源/目标特征学习和源极域对齐的自我关注和横向。这种设计明确强制执行框架,以便同时学习鉴别的域和域不变的表示。所提出的方法是Dubbed CDTrans(跨域变压器),它提供了第一次尝试用纯变压器解决方案解决UDA任务。实验表明,我们的拟议方法实现了公共UDA数据集的最佳表现,例如, Visda-2017和DomainNet。代码和模型可在https://github.com/cdtrans/cdtrans中获得。
translated by 谷歌翻译