智能论文笔记

ObPose: Leveraging Canonical Pose for Object-Centric Scene Inference in 3D

Yizhe Wu , Oiwi Parker Jones , Ingmar Posner

分类：计算机视觉 | 人工智能

2022-06-07

我们提出了一个无监督的中心生成模型，该模型以无监督的方式从RGB-D视频中学习3D对象。受到2D表示学习的先前艺术的启发，Obpose认为是分解的潜在空间，分别编码对象的位置（其中）和外观（什么）信息。尤其是，Obpose利用对象的规范姿势，通过最小体积原理定义为一种新的感应偏见，用于学习其中的分量。为了实现这一目标，我们提出了一种有效的，体素化的近似方法，直接从神经辐射场（NERF）恢复对象形状。结果，无声的场景将场景作为代表各个对象的NERF的组成。当在YCB数据集上评估无监督场景细分时，Obpose的表现优于3D场景推理中最新的最新艺术（痴迷）在视频输入以及多视频静态静态静态静态质量方面的细分质量方面有很大的差距场景。此外，在Obpose编码器中做出的设计选择通过相关消融验证。

translated by 谷歌翻译

EndoBoost: a plug-and-play module for false positive suppression during computer-aided polyp detection in real-world colonoscopy (with dataset)

Haoran Wang , Yan Zhu , Wenzheng Qin , Yizhe Zhang , Pinghong Zhou , Quanlin Li , Shuo Wang , Zhijian Song

分类：计算机视觉 | 人工智能

2022-12-23

The advance of computer-aided detection systems using deep learning opened a new scope in endoscopic image analysis. However, the learning-based models developed on closed datasets are susceptible to unknown anomalies in complex clinical environments. In particular, the high false positive rate of polyp detection remains a major challenge in clinical practice. In this work, we release the FPPD-13 dataset, which provides a taxonomy and real-world cases of typical false positives during computer-aided polyp detection in real-world colonoscopy. We further propose a post-hoc module EndoBoost, which can be plugged into generic polyp detection models to filter out false positive predictions. This is realized by generative learning of the polyp manifold with normalizing flows and rejecting false positives through density estimation. Compared to supervised classification, this anomaly detection paradigm achieves better data efficiency and robustness in open-world settings. Extensive experiments demonstrate a promising false positive suppression in both retrospective and prospective validation. In addition, the released dataset can be used to perform 'stress' tests on established detection systems and encourages further research toward robust and reliable computer-aided endoscopic image analysis. The dataset and code will be publicly available at http://endoboost.miccai.cloud.

translated by 谷歌翻译

Overparameterized random feature regression with nearly orthogonal data

Zhichao Wang , Yizhe Zhu

分类：机器学习 | (统计)机器学习

2022-11-11

We consider the random feature ridge regression (RFRR) given by a two-layer neural network at random initialization. We study the non-asymptotic behaviors of the training error, cross-validations, and generalization error of RFRR with nearly orthogonal deterministic input data in the overparameterized regime, where the number of parameters $N$ is much larger than the sample size $n$. We respectively establish the concentrations of the training errors, cross-validations, and generalization errors of RFRR around their corresponding errors of kernel ridge regression (KRR). This KRR is defined by an expected kernel from a random feature map. We then approximate the performances of the KRR by a polynomial kernel matrix, whose degree only depends on the orthogonality among different input vectors. The degree of this polynomial kernel essentially determines the asymptotic behavior of RFRR and KRR. Our results hold for a general class of target functions and input data with weak approximate orthonormal properties among different data points. Based on these approximations and nearly orthogonality, we obtain a lower bound for the generalization error of RFRR.

translated by 谷歌翻译

Data-Driven Deep Supervision for Skin Lesion Classification

Suraj Mishra , Yizhe Zhang , Li Zhang , Tianyu Zhang , X. Sharon Hu , Danny Z. Chen

分类：计算机视觉

2022-09-04

近年来，自动对色素，非色素和脱发的非胸膜皮肤病变的分类引起了很多关注。但是，皮肤纹理，病变形状，脱位对比度，照明条件等的成像变化。阻碍了鲁棒的特征提取，从而影响分类精度。在本文中，我们提出了一个新的深神经网络，该网络利用输入数据进行鲁棒特征提取。具体而言，我们分析了卷积网络的行为（视野），以找到深度监督的位置，以改善特征提取。为了实现这一目标，首先，我们执行激活映射以生成对象掩码，突出显示对分类输出生成最重要的输入区域。然后，选择层的有效接收场的网络层与对象掩模中的近似对象形状相匹配，以作为我们进行深度监督的焦点。利用三个黑色素瘤检测数据集和两个白癜风检测数据集上的不同类型的卷积特征提取器和分类器，我们验证了新方法的有效性。

translated by 谷歌翻译

Usable Region Estimate for Assessing Practical Usability of Medical Image Segmentation Models

Yizhe Zhang , Suraj Mishra , Peixian Liang , Hao Zheng , Danny Z. Chen

分类：计算机视觉 | 机器学习

2022-07-01

我们旨在定量衡量医学图像分割模型的实际可用性：可以使用/信任模型的预测在多大程度上，多久和在哪些样品上进行样本。我们首先提出了一个度量，正确的信心等级相关性（CCRC），以捕获预测的置信度估计如何与其正确性分数相关。具有高价值CCRC的模型意味着其预测信心可靠地表明，哪些样本的预测更可能是正确的。由于CCRC没有捕获实际的预测正确性，因此仅仅指示预测模型是否既准确又可靠地用于实践中。因此，我们进一步提出了另一种可用区域估计（URE）的方法，同时量化了预测在一个估计中的置信度评估的正确性和可靠性。 URE提供了有关模型的预测在多大程度上可用的具体信息。此外，可以利用可用区域（UR）的大小来比较模型：具有较大UR的模型可以作为更可用的模型，因此可以将其视为更好的模型。六个数据集的实验验证了所提出的评估方法表现良好，为医学图像分割模型的实际可用性提供了具体和简洁的措施。代码可在https://github.com/yizhezhang2000/ure上提供。

translated by 谷歌翻译

Sparse random hypergraphs: Non-backtracking spectra and community detection

Ludovic Stephan , Yizhe Zhu

分类： (统计)机器学习

2022-03-14

假设$ g $是根据所谓的HyperGraph随机块模型（HSBM）产生的，我们考虑了稀疏$ Q $均匀的HyperGraph $ G $中的社区检测问题。我们证明，基于非折线操作员的光谱方法具有很高的概率，可以降低到Angelini等人猜想的广义kesten-Stigum检测阈值。我们表征了稀疏HSBM的非背带操作员的频谱，并使用Ihara-Bass公式为超图提供有效的尺寸降低程序。结果，可以将稀疏HSBM的社区检测减少为$ 2N \ times 2n $非正态矩阵的特征向量问题，该矩阵从邻接矩阵和超级格雷普的学位矩阵中构建。据我们所知，这是第一种可证明，有效的光谱算法，它可以根据一般对称概率张量生成$ K $块的HSBMS阈值。

translated by 谷歌翻译

Partial recovery and weak consistency in the non-uniform hypergraph Stochastic Block Model

Ioana Dumitriu , Haixiao Wang , Yizhe Zhu

分类： (统计)机器学习

2021-12-22

我们在非均匀超图随机块模型（HSBM）下的稀疏随机超图中的社区检测问题，是社区结构的随机网络的一般模型和高阶交互。当随机超图具有界定的预期度时，我们提供了一种频谱算法，该频谱算法输出分区，其中至少有$ \ gamma $分数正确分类，其中$ \ gamma \ in（0.5,1）$取决于信号 - 模型的噪声比（SNR）。当SNR随着顶点的数量转到无限的时，SNR慢慢地增长，我们的算法达到了弱的一致性，这改善了Ghoshdastidar和Dukkipati（2017）的上一个结果，用于非均匀的HSBMS。我们的谱算法由三个主要步骤组成：（1）HIFFEGE选择：选择某些尺寸的超高率，为诱导的子图像提供最大信噪比; （2）光谱分区：构造正则化邻接矩阵，并基于奇异向量获得近似分区; （3）纠正和合并：将超代表信息从邻接张于升级升级错误率保证。我们的算法的理论分析依赖于稀疏非均匀随机超图的邻接矩阵的浓度和正则化，这可以是独立的兴趣。

translated by 谷歌翻译

Towards More Efficient Insertion Transformer with Fractional Positional Encoding

Zhisong Zhang , Yizhe Zhang , Bill Dolan

分类：自然语言处理

2021-12-12

已显示自动回归神经序列模型在文本生成任务中有效。然而，它们的左右解码顺序可防止产生并行化。插入变压器（Stern等，2019）是一种有吸引力的替代方案，允许在单一代币上输出多个令牌。然而，由于绝对位置编码和基于插入的生成方案的不兼容，需要刷新每个步骤的所生成的部分假设中的每个令牌的编码，这可能是昂贵的。我们设计一种用于分数位置编码（FPE）的插入变压器的新型增量位置编码方案，其允许重用在先前步骤中计算的表示。关于各种语言生成任务的实证研究证明了FPE的有效性，这导致批量解码减少浮点操作和潜伏期改善。

translated by 谷歌翻译

HS3: Learning with Proper Task Complexity in Hierarchically Supervised Semantic Segmentation

Shubhankar Borse , Hong Cai , Yizhe Zhang , Fatih Porikli

分类：计算机视觉

2021-11-03

虽然深度监督网络在最近的文献中是常见的，但它们通常在所有转型层上强加相同的学习目标，尽管它们不同的代表权力。在本文中，我们提出了分层监督的语义分割（HS3），一种培训方案，该训练方案在分割网络中监督中间层以通过不同的任务复杂性来学习有意义的表示。为了在整个网络中强制执行一致的性能与复杂性权衡，我们导出了各种类群集，以监督网络的每个过渡层。此外，我们设计了一个融合框架HS3-Fuse，以聚合这些层产生的分层特征，可以提供丰富的语义上下文并进一步增强最终分割。广泛的实验表明，我们提出的HS3方案大得多优于Vanilla深度监督，没有增加推理成本。我们提出的HS3-FUSE框架进一步改善了分割预测，并实现了两种大分段基准的最新结果：Nyud-V2和城市景观。

translated by 谷歌翻译

RetGen: A Joint framework for Retrieval and Grounded Text Generation Modeling

Yizhe Zhang , Siqi Sun , Xiang Gao , Yuwei Fang , Chris Brockett , Michel Galley , Jianfeng Gao , Bill Dolan

分类：自然语言处理 | 人工智能

2021-05-14

最近的大规模预训练的进步，例如GPT-3允许从给定提示生成看似高质量的文本。然而，这种一代系统经常遭受幻觉的事实问题，并且本身并不是旨在包含有用的外部信息。接地的代表似乎提供了补救措施，但他们的培训通常依赖于提供信息相关文件的很少可用的并行数据。我们提出了一个框架，通过在语言模型信号上共同训练接地的发生器和文档检索来缓解这种数据约束。该模型学会奖励具有生成中最高效用的文档的检索，并用专家混合（MOE）合并来术语术，以产生后续文本。我们证明，发电机和猎犬都可以利用这种联合培训，协同作用，以生产散文和对话一代中的更多信息和相关文本。

translated by 谷歌翻译