智能论文笔记

E2-AEN: End-to-End Incremental Learning with Adaptively Expandable Network

Guimei Cao , Zhanzhan Cheng , Yunlu Xu , Duo Li , Shiliang Pu , Yi Niu , Fei Wu

分类：计算机视觉

2022-07-14

可扩展的网络已经证明了它们在处理灾难性遗忘问题方面的优势。考虑到不同的任务可能需要不同的结构，最近的方法设计了通过复杂技能适应不同任务的动态结构。他们的例程是首先搜索可扩展的结构，然后训练新任务，但是，这将任务分为多个培训阶段，从而导致次优或过度计算成本。在本文中，我们提出了一个名为E2-AEN的端到端可训练的可自适应扩展网络，该网络动态生成了新任务的轻量级结构，而没有任何精确的先前任务下降。具体而言，该网络包含一个功能强大的功能适配器的序列，用于扩大以前学习的表示新任务的表示形式，并避免任务干扰。这些适配器是通过基于自适应门的修剪策略来控制的，该策略决定是否可以修剪扩展的结构，从而根据新任务的复杂性动态地改变网络结构。此外，我们引入了一种新颖的稀疏激活正则化，以鼓励模型学习具有有限参数的区分特征。 E2-aen可以降低成本，并且可以以端到端的方式建立在任何饲喂前架构上。关于分类（即CIFAR和VDD）和检测（即可可，VOC和ICCV2021 SSLAD挑战）的广泛实验证明了提出的方法的有效性，从而实现了新的出色结果。

translated by 谷歌翻译

TRIE++: Towards End-to-End Information Extraction from Visually Rich Documents

Zhanzhan Cheng , Peng Zhang , Can Li , Qiao Liang , Yunlu Xu , Pengfei Li , Shiliang Pu , Yi Niu , Fei Wu

分类：计算机视觉

2022-07-14

最近，由于其广泛的商业价值，从视觉丰富的文档（例如门票和简历）中自动提取信息已成为一个热门而重要的研究主题。大多数现有方法将此任务分为两个小节：用于从原始文档图像中获取纯文本的文本阅读部分以及用于提取密钥内容的信息提取部分。这些方法主要集中于改进第二个方法，同时忽略了这两个部分高度相关。本文提出了一个统一的端到端信息提取框架，从视觉上富含文档中提出，文本阅读和信息提取可以通过精心设计的多模式上下文块相互加强。具体而言，文本阅读部分提供了多模式功能，例如视觉，文本和布局功能。开发了多模式上下文块，以融合生成的多模式特征，甚至是从预训练的语言模型中获得的先验知识，以提供更好的语义表示。信息提取部分负责使用融合上下文功能生成密钥内容。该框架可以以端到端的可训练方式进行培训，从而实现全球优化。更重要的是，我们将视觉丰富的文档定义为跨两个维度的四个类别，即布局和文本类型。对于每个文档类别，我们提供或推荐相应的基准，实验设置和强大的基准，以弥补该研究领域缺乏统一评估标准的问题。报告了对四种基准测试的广泛实验（从固定布局到可变布局，从完整的文本到半未结构化的文本），证明了所提出的方法的有效性。数据，源代码和模型可用。

translated by 谷歌翻译

DavarOCR: A Toolbox for OCR and Multi-Modal Document Understanding

Liang Qiao , Hui Jiang , Ying Chen , Can Li , Pengfei Li , Zaisheng Li , Baorui Zou , Dashan Guo , Yingda Xu , Yunlu Xu

分类：计算机视觉

2022-07-14

本文介绍了Davarocr，这是一种用于OCR和文档理解任务的开源工具箱。Davarocr目前实施19种高级算法，涵盖9个不同的任务表。Davarocr为每种算法提供了详细的用法说明和经过训练的模型。与以前的OpenSource OCR工具箱相比，Davarocr对文档理解的尖端技术的子任务具有相对完整的支持。为了促进OCR技术在学术界和行业中的开发和应用，我们更加关注使用不同的技术可以共享的模块的使用。Davarocr在https://github.com/hikopensource/davar-lab-ocr上公开发行。

translated by 谷歌翻译

Technical Report for ICCV 2021 Challenge SSLAD-Track3B: Transformers Are Better Continual Learners

Duo Li , Guimei Cao , Yunlu Xu , Zhanzhan Cheng , Yi Niu

分类：计算机视觉

2022-01-13

在持续学习的SSLAD-TRACK 3B挑战中，我们提出了与变压器（COLT）继续学习的方法。与卷积神经网络相比，我们发现变压器遭受灾难性遗忘的损失。我们方法的主要原则是用旧知识蒸馏和头部扩展策略装备基于变压器的特征提取器来竞争灾难性的遗忘。在本报告中，我们首先介绍了对象检测的持续学习的整体框架。然后，我们分析了解决我们解决方案中灾难性遗址的关键要素对效果。我们的方法在SSLAD-TRACK 3B挑战测试集上实现70.78映射。

translated by 谷歌翻译

Specificity-Preserving Federated Learning for MR Image Reconstruction

Chun-Mei Feng , Yunlu Yan , Huazhu Fu , Yong Xu , Ling Shao

分类：计算机视觉

2021-12-09

联合学习（FL）可用于通过使多个机构协作，改善磁共振（MR）图像重建的数据隐私和效率，而无需聚合本地数据。然而，由不同MR成像协议引起的域移位可以显着降低FL模型的性能。最近的流程倾向于通过增强全局模型的概括来解决这一点，但它们忽略了特定于域的特征，这可能包含有关设备属性的重要信息，并且对本地重建有用。在本文中，我们提出了一种针对MR图像重建（FEDMRI）的特异性保存流算法。核心思想是将MR重建模型划分为两个部分：全局共享编码器，以在全局级别获取概括的表示，以及客户特定的解码器，以保留每个客户端的特定于域的属性，这对于协作很重要当客户具有独特的分发时重建。此外，为了进一步提高全局共享编码器的收敛，当存在域移位时，引入加权对比正规化以在优化期间直接校正客户端和服务器之间的任何偏差。广泛的实验表明，我们的Fedmri的重建结果是最接近多机构数据的地面真理，并且它优于最先进的FL方法。

translated by 谷歌翻译

A Strong Baseline for Semi-Supervised Incremental Few-Shot Learning

Linlan Zhao , Dashan Guo , Yunlu Xu , Liang Qiao , Zhanzhan Cheng , Shiliang Pu , Yi Niu , Xiangzhong Fang

分类：计算机视觉

2021-10-21

少量学习（FSL）旨在学习概括到具有有限培训样本的小型课程的模型。最近的作品将FSL推进一个场景，其中还提供了未标记的例子并提出半监督FSL方法。另一种方法还关心基类的性能，除了新颖的外，还建立了增量FSL方案。在本文中，我们在更现实但复杂的环境下概括了上述两个，通过半监督增量少量学习（S2 I-FSL）命名。为了解决任务，我们提出了一种包含两部分的新型范例：（1）一种精心设计的元训练算法，用于减轻由不可靠的伪标签和（2）模型适应机制来减轻基础和新颖类之间的模糊性，以学习歧视特征对于小说类，同时使用少数标记和所有未标记的数据保留基本知识。对标准FSL，半监控FSL，增量FSL的广泛实验，以及第一个构建的S2 I-FSL基准测试证明了我们提出的方法的有效性。

translated by 谷歌翻译

Exploring Separable Attention for Multi-Contrast MR Image Super-Resolution

Chun-Mei Feng , Yunlu Yan , Kai Yu , Yong Xu , Ling Shao , Huazhu Fu

分类：计算机视觉

2021-09-03

在相应的辅助对比的指导下，目标对比度的超级分辨磁共振（MR）图像（提供了其他解剖信息）是快速MR成像的新解决方案。但是，当前的多对比超分辨率（SR）方法倾向于直接连接不同的对比度，从而忽略了它们在不同的线索中的关系，例如在高强度和低强度区域中。在这项研究中，我们提出了一个可分离的注意网络（包括高强度的优先注意力和低强度分离注意力），名为SANET。我们的卫生网可以借助辅助对比度探索“正向”和“反向”方向中高强度和低强度区域的区域，同时学习目标对比MR的SR的更清晰的解剖结构和边缘信息图片。 SANET提供了三个吸引人的好处：（1）这是第一个探索可分离的注意机制的模型，该机制使用辅助对比来预测高强度和低强度区域，将更多的注意力转移到精炼这些区域和这些区域之间的任何不确定细节和纠正重建结果中的细小区域。（2）提出了一个多阶段集成模块，以学习多个阶段的多对比度融合的响应，获得融合表示之间的依赖性，并提高其表示能力。（3）在FastMRI和Clinical \ textit {in Vivo}数据集上进行了各种最先进的多对比度SR方法的广泛实验，证明了我们模型的优势。

translated by 谷歌翻译

Task Transformer Network for Joint MRI Reconstruction and Super-Resolution

Chun-Mei Feng , Yunlu Yan , Huazhu Fu , Li Chen , Yong Xu

分类：计算机视觉

2021-06-12

磁共振成像（MRI）的核心问题是加速度和图像质量之间的折衷。图像重建和超分辨率是磁共振成像（MRI）中的两个重要技术。目前的方法旨在单独执行这些任务，忽略它们之间的相关性。在这项工作中，我们为联合MRI重建和超分辨率提出了一个端到端的任务变压器网络（T $ ^ 2 $ net），它允许在多项任务之间共享表示和特征传输以实现更高质量的，来自高度遮盖率和退化的MRI数据的无序和运动伪影的图像。我们的框架与重建和超分辨率相结合，分为两个子分支，其功能表示为查询和键。具体地，我们鼓励两个任务之间的联合特征学习，从而传输准确的任务信息。我们首先使用两个单独的CNN分支来提取特定于任务的功能。然后，任务变压器模块旨在嵌入和综合两个任务之间的相关性。实验结果表明，我们的多任务模型显着优于高级顺序方法，包括定量和定性。

translated by 谷歌翻译

Shuffle Instances-based Vision Transformer for Pancreatic Cancer ROSE Image Classification

Tianyi Zhang , Youdan Feng , Yunlu Feng , Yu Zhao , Yanli Lei , Nan Ying , Zhiling Yan , Yufang He , Guanglei Zhang

分类：计算机视觉

2022-08-14

快速的现场评估（ROSE）技术可以通过适当地分析快速染色的细胞病理学图像来显着加速胰腺癌的诊断。计算机辅助诊断（CAD）可以潜在地解决玫瑰病中病理学家的短缺。但是，不同样品之间的癌性模式差异很大，这使CAD任务极具挑战性。此外，由于不同的染色质量和各种采集装置类型，玫瑰图像在颜色分布，亮度和对比度方面具有复杂的扰动。为了应对这些挑战，我们提出了一种基于随机实例的视觉变压器（SI-VIT）方法，该方法可以减少扰动并增强实例之间的建模。借助重新组装的洗牌实例及其行李级软标签，该方法利用回归头将模型集中在细胞上，而不是各种扰动。同时，该模型与分类头结合在一起，可以有效地识别不同实例之间的一般分布模式。结果表明，分类准确性有了更准确的注意区域的显着提高，表明玫瑰图像的多种模式有效地提取了，并且复杂的扰动大大降低。这也表明SI-VIT在分析细胞病理学图像方面具有巨大的潜力。代码和实验结果可在https://github.com/sagizty/mil-si上获得。

translated by 谷歌翻译

MSHT: Multi-stage Hybrid Transformer for the ROSE Image Analysis of Pancreatic Cancer

Tianyi Zhang , Yunlu Feng , Yu Zhao , Guangda Fan , Aiming Yang , Shangqin Lyu , Peng Zhang , Fan Song , Chenbin Ma , Yangyang Sun

分类：计算机视觉 | 机器学习

2021-12-27

胰腺癌是世界上最严重恶性的癌症之一，这种癌症迅速迅速，具有很高的死亡率。快速的现场评估（玫瑰）技术通过立即分析与现场病理学家的快速染色的细胞影析学形象来创新工作流程，这使得在这种紧压的过程中能够更快的诊断。然而，由于缺乏经验丰富的病理学家，玫瑰诊断的更广泛的扩张已经受到阻碍。为了克服这个问题，我们提出了一个混合高性能深度学习模型，以实现自动化工作流程，从而释放占据病理学家的宝贵时间。通过使用我们特定的多级混合设计将变压器块引入该字段，由卷积神经网络（CNN）产生的空间特征显着增强了变压器全球建模。转向多级空间特征作为全球关注指导，这种设计将鲁棒性与CNN的感应偏差与变压器的复杂全球建模功能相结合。收集4240朵Rose图像的数据集以评估此未开发领域的方法。所提出的多级混合变压器（MSHT）在分类精度下实现95.68％，其鲜明地高于最先进的模型。面对对可解释性的需求，MSHT以更准确的关注区域表达其对应物。结果表明，MSHT可以以前所未有的图像规模精确地区分癌症样本，奠定了部署自动决策系统的基础，并在临床实践中扩大玫瑰。代码和记录可在：https://github.com/sagizty/multi-stage-ybrid-transformer。

translated by 谷歌翻译