智能论文笔记

Universal Learned Image Compression With Low Computational Cost

Bowen Li , Yao Xin , Youneng Bao , Fanyang Meng , Yongsheng Liang , Wen Tan

分类：计算机视觉

2022-06-23

最近，与传统标准（例如JPEG，JPEG2000和BPG）相比，学到的图像压缩方法已经迅速发展，并表现出出色的速率延伸性能。但是，基于学习的方法遭受了高计算成本的损失，这对在资源有限的设备上部署无济于事。为此，我们提出了换档 - 附加并行模块（SAPMS），包括用于编码器的SAPM-E和解码器的SAPM-D，以大大减少能源消耗。具体而言，可以将它们视为插入式播放组件，以升级现有的基于CNN的体系结构，与加法分支相比，Shift分支用于提取大颗粒功能。此外，我们彻底分析了潜图的概率分布，并建议使用拉普拉斯混合物的可能性以进行更准确的熵估计。实验结果表明，所提出的方法可以在PSNR和MS-SSSIM指标上与卷积对应物的相当甚至更好的性能，并减少2倍的能量。

translated by 谷歌翻译

Distribution-aware Margin Calibration for Semantic Segmentation in Images

Litao Yu , Zhibin Li , Min Xu , Yongsheng Gao , Jiebo Luo , Jian Zhang

分类：计算机视觉

2021-12-21

Jaccard索引，也称为交叉联盟（iou），是图像语义分段中最关键的评估度量之一。然而，由于学习目的既不可分解也不是可分解的，则iou得分的直接优化是非常困难的。虽然已经提出了一些算法来优化其代理，但没有提供泛化能力的保证。在本文中，我们提出了一种边缘校准方法，可以直接用作学习目标，在数据分布上改善IOO的推广，通过刚性下限为基础。本方案理论上，根据IOU分数来确保更好的分割性能。我们评估了在七个图像数据集中所提出的边缘校准方法的有效性，显示使用深度分割模型的其他学习目标的IOU分数大量改进。

translated by 谷歌翻译

The Influence of Data Pre-processing and Post-processing on Long Document Summarization

Xinwei Du , Kailun Dong , Yuchen Zhang , Yongsheng Li , Ruei-Yu Tsay

分类：自然语言处理 | 人工智能

2021-12-03

长文件摘要是自然语言处理领域的重要且艰巨的任务。良好的长文件摘要表现揭示了模型对人类语言的理解。目前，大多数研究侧重于如何修改变压器的注意机制，实现更高的胭脂分数。数据预处理和后处理的研究相对较少。在本文中，我们使用两个预处理方法和后处理方法，并分析了这些方法对各种长文件摘要模型的影响。

translated by 谷歌翻译

A Hybrid Cable-Driven Robot for Non-Destructive Leafy Plant Monitoring and Mass Estimation using Structure from Motion

Gerry Chen , Harsh Muriki , Cédric Pradalier , Yongsheng Chen , Frank Dellaert

分类：机器人

2022-09-19

我们提出了一种新型混合电缆的机器人，并使用操纵器和摄像头，用于在垂直水培农场中进行高临界性，中等通量的植物监测，并以示例应用显示出无损的植物质量估计。具有高时空和空间分辨率的植物监测对农民和研究人员都很重要，以检测异常和开发植物生长的预测模型。高质量，现成的结构（SFM）和摄影测量包的可用性使一个充满活力的机器人社区能够将计算机视觉应用于非破坏性植物监测。尽管现有的方法倾向于集中于高通量（例如卫星，无人机（UAV），车辆安装，输送带图像）或对闭塞的高临界/鲁棒性（例如，转弯台式扫描仪或机器人组），，机器人臂），，，，机器人组合我们提出了一个中间地面，该地面可以通过中等通知，高度自动化的机器人获得高精度。我们的设计配对了电缆驱动的平行机器人（CDPR）的工作空间可伸缩性与4度（DOF）机器人臂的敏捷性，以自主对许多植物进行自主对许多植物的想象。我们描述了我们的机器人设计，并通过从64个观点中收集54种植物的每日照片来实验证明它。我们表明，我们的方法可以产生科学有用的测量结果，在初始校准后完全自主运行，并产生更好的重建和植物特性估计值（例如无用的方法）。作为应用程序，我们表明，我们的系统可以成功估计植物质量，平均绝对误差（MAE）为0.586g，并且当用于对质量与年龄之间的关系进行假设测试时，会产生与地面真相相当的P值数据（分别为p = 0.0020和p = 0.0016）。

translated by 谷歌翻译

SongDriver: Real-time Music Accompaniment Generation without Logical Latency nor Exposure Bias

Zihao Wang , Kejun Zhang , Yuxing Wang , Chen Zhang , Qihao Liang , Pengfei Yu , Yongsheng Feng , Wenbo Liu , Yikai Wang , Yuntai Bao

分类：机器学习

2022-09-13

实时音乐伴奏的生成在音乐行业（例如音乐教育和现场表演）中具有广泛的应用。但是，自动实时音乐伴奏的产生仍在研究中，并且经常在逻辑延迟和暴露偏见之间取决于权衡。在本文中，我们提出了Song Driver，这是一种无逻辑延迟或暴露偏见的实时音乐伴奏系统。具体而言，Songdriver将一个伴奏的生成任务分为两个阶段：1）安排阶段，其中变压器模型首先安排了和弦，以实时进行输入旋律，并在下一阶段加速了和弦，而不是播放它们。 2）预测阶段，其中CRF模型基于先前缓存的和弦生成了即将到来的旋律的可播放的多轨伴奏。通过这种两相策略，歌手直接生成即将到来的旋律的伴奏，从而达到了零逻辑延迟。此外，在预测时间步的和弦时，歌手是指第一阶段的缓存和弦，而不是其先前的预测，这避免了暴露偏见问题。由于输入长度通常在实时条件下受到限制，因此另一个潜在的问题是长期顺序信息的丢失。为了弥补这一缺点，我们在当前时间步骤作为全球信息之前从长期音乐作品中提取了四个音乐功能。在实验中，我们在一些开源数据集上训练歌手，以及由中国风格的现代流行音乐得分构建的原始\```````'''aisong数据集。结果表明，歌手在客观和主观指标上均优于现有的SOTA（最先进）模型，同时大大降低了物理潜伏期。

translated by 谷歌翻译

High-Fidelity Image Inpainting with GAN Inversion

Yongsheng Yu , Libo Zhang , Heng Fan , Tiejian Luo

分类：计算机视觉

2022-08-25

图像介入寻求一种语义一致的方法，以根据其未掩盖的内容来恢复损坏的图像。以前的方法通常将训练有素的甘恩重复使用，然后在产生逼真的斑块中用于缺少GAN反转的孔。然而，在这些算法中对硬约束的无知可能会产生gan倒置和图像插入之间的差距。在解决这个问题的情况下，我们在本文中设计了一个新颖的GAN反转模型，用于图像插入，称为Interverfill，主要由带有预调制模块的编码器和具有F＆W+潜在空间的GAN生成器组成。在编码器中，预调制网络利用多尺度结构将更多的歧视语义编码为样式向量。为了弥合GAN倒置和图像插入之间的缝隙，提出了F＆W+潜在空间以消除巨大的颜色差异和语义不一致。为了重建忠实和逼真的图像，一个简单而有效的软上升平均潜在模块旨在捕获更多样化的内域模式，以合成大型腐败的高保真质地。在包括Ploce2，Celeba-HQ，Metfaces和Scenery在内的四个具有挑战性的数据集上进行的全面实验表明，我们的Intervill效果优于定性和定量的高级方法，并支持室外图像的完成。

translated by 谷歌翻译

Unbiased Multi-Modality Guidance for Image Inpainting

Yongsheng Yu , Dawei Du , Libo Zhang , Tiejian Luo

分类：计算机视觉

2022-08-25

图像介入是一个不适的问题，可以基于带有遮罩的不完整图像来恢复缺失或损坏的图像内容。以前的作品通常可以预测辅助结构（例如边缘，分割和轮廓），以帮助以多阶段的方式填充视觉逼真的斑块。但是，不精确的辅助先验可能会产生有偏见的成分结果。此外，对于复杂的神经网络的多个阶段来实现的某些方法是耗时的。为了解决此问题，我们开发了一个端到端的多模式引导的变压器网络，包括一个镶嵌分支和两个用于语义分割和边缘纹理的辅助分支。在每个变压器块中，提出的多尺度空间感知注意模块可以通过辅助构成规范有效地学习多模式结构特征。与以前依赖于偏见先验的直接指导的方法不同，我们的方法基于来自多种模式的判别性相互作用信息，在图像中具有语义一致的上下文。关于几个具有挑战性的图像镶嵌数据集的全面实验表明，我们的方法实现了最先进的性能，以有效地处理各种常规/不规则面具。

translated by 谷歌翻译

HTML版本

Region Aware Video Object Segmentation with Deep Motion Modeling

Bo Miao , Mohammed Bennamoun , Yongsheng Gao , Ajmal Mian

分类：计算机视觉

2022-07-21

当前的半监督视频对象分割（VOS）方法通常利用一个框架的整个功能来预测对象掩码和更新内存。这引入了重要的冗余计算。为了减少冗余，我们提出了一种区域意识到的视频对象细分（RAVOS）方法，该方法可预测感兴趣的区域（ROI），以进行有效的对象细分和内存存储。 Ravos包括一个快速对象运动跟踪器，可以在下一个帧中预测其ROI。为了有效的分割，根据ROI提取对象特征，并且对象解码器设计用于对象级分割。为了有效的内存存储，我们建议运动路径内存来通过记住两个帧之间对象的运动路径中的特征来滤除冗余上下文。除了Ravos，我们还提出了一个称为OVO的大型数据集，以基准在遮挡下基准VOS模型的性能。对戴维斯和YouTube-VOS基准和我们的新OVOS数据集的评估表明，我们的方法以更快的推理时间来实现最先进的性能，例如，戴维斯的42 fps的86.1 J＆F在YouTube-in YouTube-in YouTube-in YouTube-in YouTube-23 fps上达到42 fps- VOS。

translated by 谷歌翻译

A Novel Unified Conditional Score-based Generative Framework for Multi-modal Medical Image Completion

Xiangxi Meng , Yuning Gu , Yongsheng Pan , Nizhuan Wang , Peng Xue , Mengkang Lu , Xuming He , Yiqiang Zhan , Dinggang Shen

分类：计算机视觉

2022-07-07

多模式的医学图像完成已广泛应用，以减轻许多多模式诊断任务中缺失的模式问题。但是，对于大多数现有的合成方法，它们缺失模式的推断可能会崩溃为确定性映射，从而忽略了跨模式关系中固有的不确定性。在这里，我们提出了统一的多模式条件分数的生成模型（UMM-CSGM），以利用基于得分的生成模型（SGM）在建模和随机采样目标概率分布中，并进一步将SGM扩展到交叉模式统一框架中各种缺失模式配置的条件合成。具体而言，UMM-CSGM采用一种新型的多中心条件分数网络（MM-CSN），通过在完整的模态空间中的条件扩散和反向产生来学习一组综合的跨模式条件分布。通过这种方式，可以通过所有可用信息来准确地制定生成过程，并可以符合单个网络中缺少模式的所有可能配置。 BRATS19数据集的实验表明，UMM-CSGM可以更可靠地合成肿瘤诱导的任何缺失方式的肿瘤诱导病变中的异质增强和不规则面积。

translated by 谷歌翻译

Learning towards Synchronous Network Memorizability and Generalizability for Continual Segmentation across Multiple Sites

Jingyang Zhang , Peng Xue , Ran Gu , Yuning Gu , Mianxin Liu , Yongsheng Pan , Zhiming Cui , Jiawei Huang , Lei Ma , Dinggang Shen

分类：计算机视觉 | 机器学习

2022-06-14

在临床实践中，由于存储成本和隐私限制，通常需要进行分割网络在多个站点而不是合并集的顺序数据流上不断学习。但是，在持续学习过程中，现有方法通常在以前的网站上的网络记忆性或看不见的站点上的概括性中受到限制。本文旨在解决同步记忆性和概括性（SMG）的挑战性问题，并使用新颖的SMG学习框架同时提高以前和看不见的地点的性能。首先，我们提出一个同步梯度对准（SGA）目标，\ emph {不仅}通过对先前站点（称为重播缓冲区）的小型示例进行协调优化，从而促进网络的记忆力，\ emph {but emph {又增强了}的增强。通过促进模拟域移位下的现场不变性来概括。其次，为了简化SGA目标的优化，我们设计了一种双META算法，该算法将SGA目标近似为双元目标，以优化，而无需昂贵的计算开销。第三，为了有效的排练，我们全面考虑了重播缓冲区，以考虑额外的地点多样性以降低冗余。从六个机构中依次获得的前列腺MRI数据实验表明，我们的方法可以同时获得更高的记忆性和对最先进方法的可推广性。代码可在https://github.com/jingyzhang/smg-learning上找到。

translated by 谷歌翻译