智能论文笔记

Light-weight spatio-temporal graphs for segmentation and ejection fraction prediction in cardiac ultrasound

Sarina Thomas , Andrew Gilbert , Guy Ben-Yosef

分类：计算机视觉

2022-07-06

超声心动图参数的准确和一致的预测对于心血管诊断和治疗至关重要。特别是，左心室的分割可用于得出心室体积，射血分数（EF）和其他相关测量值。在本文中，我们提出了一种新的自动化方法，称为地位谱图，用于通过检测解剖关键来预测射血分数和分割左心室。基于图形卷积网络（GCN）的直接坐标回归模型用于检测关键点。 GCN可以学会根据每个关键点的局部外观以及所有关键点的全局空间和时间结构来表示心脏形状。我们在echonet基准数据集上评估了我们的电子位计模型。与语义分割相比，GCN显示出准确的分割和鲁棒性和推理运行时的改进。 EF是同时计算的与分割的，我们的方法还获得了最新的射血分数估计。源代码可在线获得：https：//github.com/guybenyosef/echographs。

translated by 谷歌翻译

EchoGNN: Explainable Ejection Fraction Estimation with Graph Neural Networks

Masoud Mokhtari , Teresa Tsang , Purang Abolmaesumi , Renjie Liao

分类：机器学习

2022-08-30

射血分数（EF）是心脏功能的关键指标，可以鉴定患有心脏失败等心脏功能障碍的患者。通过手动追踪左心室并估算其在某些帧上的体积，可以从被称为超声心动图（ECHO）的心脏超声视频估计。由于手动过程和视频质量的变化，这些估计表现出很高的观察者间变异性。这种不准确的来源和对快速评估的需求需要可靠且可解释的机器学习技术。在这项工作中，我们介绍了基于图神经网络（GNN）的模型Echognn，以从Echo视频中估算EF。我们的模型首先从一个或多个Echo Cine系列的框架中输入潜在的回声图。然后，它估计了该图的节点和边缘的权重，表明各个框架的重要性有助于EF估计。 GNN回归器使用此加权图来预测EF。我们在定性和定量上表明，学到的图形权重通过识别临界帧进行EF估计提供了解释性，可用于确定何时需要人类干预。在Echonet-Dynamic公共EF数据集上，ECHOGNN实现了与最新状态相当的EF预测性能，并提供了解释性，鉴于此任务中固有的高观察者可变异性至关重要。

translated by 谷歌翻译

HTML版本

EchoCoTr: Estimation of the Left Ventricular Ejection Fraction from Spatiotemporal Echocardiography

Rand Muhtaseb , Mohammad Yaqub

分类：计算机视觉

2022-09-09

学习时空特征是有效的视频理解的重要任务，尤其是在超声心动图等医学图像中。卷积神经网络（CNN）和最新的视觉变压器（VIT）是最常用的方法，每个方法都有局限性。 CNN擅长捕获本地环境，但无法在视频帧中学习全局信息。另一方面，视觉变压器可以结合全球细节和长序列，但在计算上却很昂贵，通常需要更多的数据进行训练。在本文中，我们提出了一种方法，该方法可以解决我们通常在医学视频数据（例如超声心动图扫描）培训时面临的局限性。我们提出的算法（echocotr）利用视觉变压器和CNN的强度来解决超声视频上估算左心室射血分数（LVEF）的问题。我们演示了所提出的方法在Echonet-Dynamic数据集上的表现如何以3.95和$ r^2 $为0.82。与所有已发表的研究相比，这些结果显示出明显的改善。此外，我们与包括VIT和BERT在内的多种算法显示了广泛的消融和比较。该代码可在https://github.com/biomedia-mbzuai/echocotr上找到。

translated by 谷歌翻译

Cyclical Self-Supervision for Semi-Supervised Ejection Fraction Prediction from Echocardiogram Videos

Weihang Dai , Xiaomeng Li , Xinpeng Ding , Kwang-Ting Cheng

分类：计算机视觉

2022-10-20

Left-ventricular ejection fraction (LVEF) is an important indicator of heart failure. Existing methods for LVEF estimation from video require large amounts of annotated data to achieve high performance, e.g. using 10,030 labeled echocardiogram videos to achieve mean absolute error (MAE) of 4.10. Labeling these videos is time-consuming however and limits potential downstream applications to other heart diseases. This paper presents the first semi-supervised approach for LVEF prediction. Unlike general video prediction tasks, LVEF prediction is specifically related to changes in the left ventricle (LV) in echocardiogram videos. By incorporating knowledge learned from predicting LV segmentations into LVEF regression, we can provide additional context to the model for better predictions. To this end, we propose a novel Cyclical Self-Supervision (CSS) method for learning video-based LV segmentation, which is motivated by the observation that the heartbeat is a cyclical process with temporal repetition. Prediction masks from our segmentation model can then be used as additional input for LVEF regression to provide spatial context for the LV region. We also introduce teacher-student distillation to distill the information from LV segmentation masks into an end-to-end LVEF regression model that only requires video inputs. Results show our method outperforms alternative semi-supervised methods and can achieve MAE of 4.17, which is competitive with state-of-the-art supervised performance, using half the number of labels. Validation on an external dataset also shows improved generalization ability from using our method. Our code is available at https://github.com/xmed-lab/CSS-SemiVideo.

translated by 谷歌翻译

Left Ventricle Contouring of Apical Three-Chamber Views on 2D Echocardiography

Alberto Gomez , Mihaela Porumb , Angela Mumith , Thierry Judge , Shan Gao , Woo-Jin Cho Kim , Jorge Oliveira , Agis Chartsias

分类：计算机视觉

2022-07-13

我们提出了一种新方法，可以在2D超声心动图图像上自动轮廓左心室。与大多数基于预测细分面罩的现有分割方法不同，我们重点是预测该轮廓内（基础和顶点）中的心内膜轮廓和关键地标点。这提供了一种更接近专家如何执行手动注释的表示，因此产生了在生理上更合理的结果。我们提出的方法使用基于U-NET体系结构的两头网络。一个头预测了7个轮廓点，另一个头部预测了轮廓的距离图。将这种方法与U-NET和基于点的方法进行了比较，在具有里程碑意义的定位（<4.5mm）和与地面真相轮廓（<3.5mm）的距离方面，达到30 \％的性能增长。

translated by 谷歌翻译

AI-enabled Assessment of Cardiac Systolic and Diastolic Function from Echocardiography

Esther Puyol-Antón , Bram Ruijsink , Baldeep S. Sidhu , Justin Gould , Bradley Porter , Mark K. Elliott , Vishal Mehta , Haotian Gu , Miguel Xochicale , Alberto Gomez

分类：计算机视觉

2022-03-21

左心室（LV）功能是心脏病患者的患者管理，结局和长期存活方面的重要因素。最近发表的心力衰竭临床指南认识到，仅依赖一种心脏功能（LV射血分数）作为诊断和治疗分层生物标志物的依赖是次优。基于AI的超声心动图分析的最新进展已在LV体积和LV射血分数的自动估计上显示出良好的结果。但是，从随时间变化的2D超声心动图摄取，可以通过从完整的心脏周期中估算功能性生物标志物来获得对心脏功能的更丰富的描述。在这项工作中，我们首次提出了一种基于全心脏周期分割的2D超声心动图的AI方法，用于从2D超声心动图中得出高级生物标志物。这些生物标志物将允许临床医生获得健康和疾病中心脏的丰富图片。 AI模型基于“ NN-UNET”框架，并使用四个不同的数据库进行了训练和测试。结果表明，手动分析和自动分析之间的一致性很高，并展示了晚期收缩期和舒张期生物标志物在患者分层中的潜力。最后，对于50例病例的子集，我们在超声心动图和CMR的临床生物标志物之间进行了相关分析，我们在两种方式之间表现出了极好的一致性。

translated by 谷歌翻译

MulViMotion: Shape-aware 3D Myocardial Motion Tracking from Multi-View Cardiac MRI

Qingjie Meng , Chen Qin , Wenjia Bai , Tianrui Liu , Antonio de Marvao , Declan P O'Regan , Daniel Rueckert

分类：计算机视觉 | 机器学习

2022-07-29

从电影心脏磁共振（CMR）成像中恢复心脏的3D运动可以评估区域心肌功能，对于理解和分析心血管疾病很重要。但是，3D心脏运动估计是具有挑战性的，因为获得的Cine CMR图像通常是2D切片，它限制了对整个平面运动的准确估计。为了解决这个问题，我们提出了一个新颖的多视图运动估计网络（Mulvimotion），该网络集成了以短轴和长轴平面获取的2D Cine CMR图像，以学习心脏的一致性3D运动场。在提出的方法中，构建了一个混合2D/3D网络，以通过从多视图图像中学习融合表示形式来生成密集的3D运动场。为了确保运动估计在3D中保持一致，在训练过程中引入了形状正则化模块，其中利用了来自多视图图像的形状信息，以提供3D运动估计的弱监督。我们对来自英国生物银行研究的580名受试者的2D Cine CMR图像进行了广泛评估，用于左心室心肌的3D运动跟踪。实验结果表明，该方法在定量和定性上优于竞争方法。

translated by 谷歌翻译

Robust Landmark-based Stent Tracking in X-ray Fluoroscopy

Luojie Huang , Yikang Liu , Li Chen , Eric Z Chen , Xiao Chen , Shanhui Sun

分类：计算机视觉 | 机器学习

2022-07-20

在血管成形术的临床程序中（即开放式堵塞冠状动脉），在X射线荧光镜检查的指导下，需要将气球和支架等装置（例如气球和支架）放置在动脉中。由于X射线剂量的局限性，所得图像通常是嘈杂的。为了检查这些设备的正确放置，平均进行了多个运动补偿帧以增强视图。因此，设备跟踪是为此目的的必要过程。即使设计为具有易于跟踪的放射性标记的血管成形术设备，但由于标记尺寸较小和血管成形术中的复杂场景，当前的方法难以提供令人满意的结果。在本文中，我们提出了一个用于单个支架跟踪的端到端深度学习框架，该框架由三个层次模块组成：基于U-NET的Landmark检测，基于重新连接的支架提案和功能提取，以及图形卷积神经网络（GCN）基于暂时聚集空间信息和外观特征的支架跟踪。实验表明，与基于点的跟踪模型相比，我们的方法在检测中的性能明显更好。此外，其快速推理速度满足临床要求。

translated by 谷歌翻译

Deep learning techniques for automatic MRI cardiac multi-structures segmentation and diagnosis: is the problem solved?

分类：

Delineation of the left ventricular cavity, myocardium and right ventricle from cardiac magnetic resonance images (multi-slice 2D cine MRI) is a common clinical task to establish diagnosis. The automation of the corresponding tasks has thus been the subject of intense research over the past decades. In this paper, we introduce the "Automatic Cardiac Diagnosis Challenge" dataset (ACDC), the largest publicly-available and fully-annotated dataset for the purpose of Cardiac MRI (CMR) assessment. The dataset contains data from 150 multi-equipments CMRI recordings with reference measurements and classification O. Bernard and F. Cervenansky are with the

translated by 谷歌翻译

Unsupervised Landmark Detection Based Spatiotemporal Motion Estimation for 4D Dynamic Medical Images

Yuyu Guo , Lei Bi , Dongming Wei , Liyun Chen , Zhengbin Zhu , Dagan Feng , Ruiyan Zhang , Qian Wang , Jinman Kim

分类：计算机视觉

2021-09-30

运动估计是用于评估目标器官解剖学和功能的动态医学图像处理的基本步骤。然而，通过评估局部图像相似性通过评估局部图像相似性优化运动场的基于图像的运动估计方法，易于产生令人难以置信的估计，尤其是在大运动的情况下。在这项研究中，我们提供了一种新颖的稀疏密度（DSD）的运动估计框架，其包括两个阶段。在第一阶段，我们处理原始密集图像以提取稀疏地标以表示目标器官解剖拓扑，并丢弃对运动估计不必要的冗余信息。为此目的，我们介绍一个无监督的3D地标检测网络，以提取用于目标器官运动估计的空间稀疏但代表性的地标。在第二阶段，我们从两个不同时间点的两个图像的提取稀疏地标的稀疏运动位移得出。然后，我们通过将稀疏地标位移突出回致密图像域，呈现运动重建网络来构造运动场。此外，我们从我们的两级DSD框架中使用估计的运动场作为初始化，并提高轻量级且有效的迭代优化中的运动估计质量。我们分别评估了两种动态医学成像任务的方法，分别为模型心脏运动和肺呼吸运动。与现有的比较方法相比，我们的方法产生了出色的运动估计精度。此外，广泛的实验结果表明，我们的解决方案可以提取良好代表性解剖标志，而无需手动注释。我们的代码在线公开提供。

translated by 谷歌翻译

OpenPose: Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields

Zhe Cao , Gines Hidalgo , Tomas Simon , Shih-En Wei , Yaser Sheikh

分类：

2018-12-18

Realtime multi-person 2D pose estimation is a key component in enabling machines to have an understanding of people in images and videos. In this work, we present a realtime approach to detect the 2D pose of multiple people in an image. The proposed method uses a nonparametric representation, which we refer to as Part Affinity Fields (PAFs), to learn to associate body parts with individuals in the image. This bottom-up system achieves high accuracy and realtime performance, regardless of the number of people in the image. In previous work, PAFs and body part location estimation were refined simultaneously across training stages. We demonstrate that a PAF-only refinement rather than both PAF and body part location refinement results in a substantial increase in both runtime performance and accuracy. We also present the first combined body and foot keypoint detector, based on an internal annotated foot dataset that we have publicly released. We show that the combined detector not only reduces the inference time compared to running them sequentially, but also maintains the accuracy of each component individually. This work has culminated in the release of OpenPose, the first open-source realtime system for multi-person 2D pose detection, including body, foot, hand, and facial keypoints.

translated by 谷歌翻译

Convolutional Mesh Regression for Single-Image Human Shape Reconstruction

Nikos Kolotouros , Georgios Pavlakos , Kostas Daniilidis

分类：

2019-05-08

This paper addresses the problem of 3D human pose and shape estimation from a single image. Previous approaches consider a parametric model of the human body, SMPL, and attempt to regress the model parameters that give rise to a mesh consistent with image evidence. This parameter regression has been a very challenging task, with modelbased approaches underperforming compared to nonparametric solutions in terms of pose estimation. In our work, we propose to relax this heavy reliance on the model's parameter space. We still retain the topology of the SMPL template mesh, but instead of predicting model parameters, we directly regress the 3D location of the mesh vertices. This is a heavy task for a typical network, but our key insight is that the regression becomes significantly easier using a Graph-CNN. This architecture allows us to explicitly encode the template mesh structure within the network and leverage the spatial locality the mesh has to offer. Image-based features are attached to the mesh vertices and the Graph-CNN is responsible to process them on the mesh structure, while the regression target for each vertex is its 3D location. Having recovered the complete 3D geometry of the mesh, if we still require a specific model parametrization, this can be reliably regressed from the vertices locations. We demonstrate the flexibility and the effectiveness of our proposed graphbased mesh regression by attaching different types of features on the mesh vertices. In all cases, we outperform the comparable baselines relying on model parameter regression, while we also achieve state-of-the-art results among model-based pose estimation approaches. 1

translated by 谷歌翻译

Self-supervised motion descriptor for cardiac phase detection in 4D CMR based on discrete vector field estimations

Sven Koehler , Tarique Hussain , Hamza Hussain , Daniel Young , Samir Sarikouch , Thomas Pickhardt , Gerald Greil , Sandy Engelhardt

分类：计算机视觉 | 人工智能

2022-09-13

心脏磁共振（CMR）序列随着时间的推移可视化心脏功能的体素。同时，基于深度学习的可变形图像注册能够估计离散的向量字段，这些矢量字段将CMR序列的一个时间步骤扭曲为以下方式，以一种自我监督的方式。但是，尽管这些3D+T向量领域中包含的信息来源丰富，但标准化的解释具有挑战性，到目前为止，临床应用仍然有限。在这项工作中，我们展示了如何有效使用可变形的矢量场来描述心脏周期的基本动态过程，形式是派生的1D运动描述符。此外，基于收缩或放松心室的预期心血管生理特性，我们定义了一组规则，可以鉴定五个心血管阶段，包括末端 - 末端（ES）和末端diastole（ED），而无需使用标签的使用情况。我们评估了运动描述符在两个具有挑战性的多疾病， - 中心， - 扫描式短轴CMR数据集上的合理性。首先，通过报告定量措施，例如提取相的周期性框架差异。其次，通过定性地比较一般模式，当我们时间重新样本和对齐两个数据集的所有实例的运动描述符时。我们方法的ED，ES密钥阶段的平均周期框架差为0.80 \ pm {0.85} $，$ 0.69 \ pm {0.79} $，比观察者间的可变性略好（$ 1.07 \ pm {0.86} $， $ 0.91 \ pm {1.6} $）和监督基线方法（$ 1.18 \ pm {1.91} $，$ 1.21 \ pm {1.78} $）。代码和标签将在我们的GitHub存储库中提供。 https://github.com/cardio-ai/cmr-phase-detection

translated by 谷歌翻译

Contrastive Pretraining for Echocardiography Segmentation with Limited Data

Mohamed Saeed , Rand Muhtaseb , Mohammad Yaqub

分类：计算机视觉 | 机器学习

2022-01-16

对比度学习已在许多应用程序中有限的许多应用中有用。缺乏注释数据在医学图像分割中尤其有问题，因为很难让临床专家手动注释大量数据，例如心脏超声图像中的心脏结构。在本文中，我们认为对比训练是否有助于超声心动图图像中左心室的分割。此外，我们研究了对比预处理对两个众所周知的分割网络UNET和DEEPLABV3的影响。我们的结果表明，对比预处理有助于改善左心室分割的性能，尤其是当带注释的数据稀缺时。我们展示了如何以自我监督的方式训练模型时，与最先进的完全监督算法获得可比的结果，然后仅对5％的数据进行微调。我们表明，我们的解决方案优于当前在大型公共数据集（Echonet-Dynemic）上达到的骰子分数为0.9211的内容。我们还将解决方案在另一个较小的数据集（CAMUS）上的性能进行比较，以证明我们提出的解决方案的普遍性。该代码可在（https://github.com/biomedia-mbzuai/contrastive-echo）上获得。

translated by 谷歌翻译

Echocardiography Segmentation with Enforced Temporal Consistency

Nathan Painchaud , Nicolas Duchateau , Olivier Bernard , Pierre-Marc Jodoin

分类：计算机视觉 | 机器学习

2021-12-03

卷积神经网络（CNN）已经证明了它们对2D心脏超声图像进行分割的能力。然而，尽管近期取得了成功的成功，但是已经达到了端舒张和终结图像的观测器内变异性，CNNS仍然难以利用时间信息来在整个周期中提供准确和时间一致的分割图。需要这种持续性来准确描述心功能，这是诊断许多心血管疾病的必要步骤。在本文中，我们提出了一种学习2D +时间长轴心形形状的框架，使得分段序列可以受益于时间和解剖的一致性约束。我们的方法是一种后处理，其作为输入分段的超声心动图序列，其由任何最先进的方法产生，并以两个步骤来处理（i）根据心脏序列的整体动态识别时空不一致。（ii）纠正不一致。心脏不一致的识别和纠正依赖于受约束的AutoEncoder培训，以学习生理学上可解释的心形状嵌入，在那里我们都可以检测和修复异常。我们在98个来自Camus DataSet的全循环序列上测试了我们的框架，这将与本文一起播放。我们的时间正则化方法不仅可以提高整个序列的分割的准确性，而且还强制执行时间和解剖常量。

translated by 谷歌翻译

Fully Automated 2D and 3D Convolutional Neural Networks Pipeline for Video Segmentation and Myocardial Infarction Detection in Echocardiography

Oumaima Hamila , Sheela Ramanna , Christopher J. Henry , Serkan Kiranyaz , Ridha Hamila , Rashid Mazhar , Tahir Hamid

分类：计算机视觉 | 机器学习

2021-03-26

被称为超声心动图的心脏成像是一种非侵入性工具，用于生成包括图像和视频的数据，心脏病专家用来诊断心脏异常，尤其是心肌梗死（MI）。超声心动图机可以提供大量数据，需要由心脏病专家快速分析，以帮助他们做出诊断和治疗心脏病。但是，获得的数据质量取决于购置条件以及患者对设置说明的响应能力。这些限制对医生的挑战尤其是当患者面对MI并且他们的生命受到威胁时。在本文中，我们提出了一种基于卷积神经网络（CNN）的创新实时端到端全自动模型，以根据由左心室（LV）的区域壁运动异常（RWMA）检测到MI，该模型是由左心室（LV）的视频中的。超声心动图。我们的模型是由2D CNN组成的管道实现Mi。我们在由165个超声心动图视频组成的数据集上培训了两个CNN，每个CNN从一个独特的患者中获得。 2D CNN在数据分割方面达到了97.18％的精度，而3D CNN获得了90.9％的精度，100％的精度和95％的召回率。我们的结果表明，创建一个完全自动化的MI检测系统是可行且有利的。

translated by 谷歌翻译

Coarse-to-fine Animal Pose and Shape Estimation

Chen Li , Gim Hee Lee

分类：计算机视觉 | 机器学习

2021-11-16

大多数现有的动物姿势和形状估计方法用参数模型重建动物网格。这是因为Smal模型的低维姿势和形状参数使得深网络更容易学习高维动物网。然而，Smal模型从具有限制和形状变化的玩具动物的扫描学习，因此可能无法良好地代表高度不同的真实动物。这可能导致估计网格的差，例如2D证据的差。 2d关键点或剪影。为了缓解此问题，我们提出了一种从单个图像重建3D动物网格的粗细方法。粗略估计阶段首先估计Smal模型的姿势，形状和翻译参数。然后将估计的网格用作图表卷积网络（GCN）的起点，以预测细化阶段的每顶顶点变形。基于SMAL和基于顶点的表示的这种组合来自参数和非参数表示。我们将网眼细化GCN（MRGCN）设计为具有分层特征表示的编码器解码器结构，以克服传统GCN的有限接收领域。此外，我们观察到，现有动物网格重建工作所使用的全局图像特征无法捕获用于网格细化的详细形状信息。因此，我们引入了本地特征提取器来检索顶点级别功能，并将其与全局功能一起用作MRGCN的输入。我们在Stanfordextra DataSet上测试我们的方法，实现最先进的结果。此外，我们在动物姿势和BADJA数据集中测试我们方法的泛化能力。我们的代码可在项目网站上获得。

translated by 谷歌翻译

T-LEAP: Occlusion-robust pose estimation of walking cows using temporal information

Helena Russello , Rik van der Tol , Gert Kootstra

分类：计算机视觉

2021-04-16

随着牛奶厂的畜群大小继续增加，奶牛的自动健康监测是兴趣的。通过分析奶牛的步态，通常检测到乳制品奶牛中普遍存在的健康障碍。可以使用姿势估计模型在视频中追踪牛的步态，因为模型学会自动本地化图像和视频的解剖标志。大多数动物姿势估计模型是静态的，也就是说，视频是通过帧进行处理的帧，并且不使用任何时间信息。在这项工作中，用于动物姿态估计的静态深度学习模型扩展到包括来自过去框架的信息的时间模型。我们比较了静态和时间姿势估计模型的性能。这些数据由来自通过室外通道的30个不同乳制品牛的视频（30 fps）提取的459个三个连续帧。随着农场环境易于闭塞，我们通过向视频添加人工闭塞来测试静态和时间模型的稳健性。实验表明，在非闭塞数据中，静态和时间方法都达到了正确关键点的百分比（PCKH @ 0.2）99％。在遮挡数据上，我们的时间方法优于静态，高达32.9％，表明使用时间数据有利于易于闭塞的环境中的姿势估计，例如乳制品农场。通过在包含未知奶牛的数据（培训集中不存在的奶牛）上测试了时间模型的泛化能力。结果表明，普通PCKH@0.2在已知的奶牛上为93.8％，在未知的奶牛上为87.6％，表明该模型能够概括为新奶牛，并且它们可以很容易地微调到新牛群。最后，我们展示了更难的任务，例如遮挡和未知的奶牛，更深层次的建筑更有益。

translated by 谷歌翻译

Vertebrae localization, segmentation and identification using a graph optimization and an anatomic consistency cycle

Di Meng , Edmond Boyer , Sergi Pujades

分类：计算机视觉

2021-10-23

CT图像中的椎骨定位，分割和识别是众多临床应用的关键。尽管近年来，深度学习策略已为该领域带来了重大改进，但由于其在培训数据集中的代表性不佳，过渡性和病理椎骨仍在困扰大多数现有方法。另外，提出的基于非学习的方法可以利用先验知识来处理这种特定情况。在这项工作中，我们建议将这两种策略结合起来。为此，我们引入了一个迭代循环，在该循环中，单个椎骨被递归地定位，分割和使用深网鉴定，而使用统计先验则实施解剖一致性。在此策略中，通过在图形模型中编码其配置来处理过渡性椎骨识别，该模型将局部深网预测汇总为解剖上一致的最终结果。我们的方法在Verse20挑战基准上取得了最新的结果，并且优于过渡性椎骨的所有方法以及对Verse19挑战基准的概括。此外，我们的方法可以检测和报告不满足解剖学一致性先验的不一致的脊柱区域。我们的代码和模型公开用于研究目的。

translated by 谷歌翻译

A lightweight Transformer-based model for fish landmark detection

Alzayat Saleh , David Jones , Dean Jerry , Mostafa Rahimi Azghadi

分类：计算机视觉

2022-09-13

当有足够的训练数据时，在某些视力任务中，基于变压器的模型（例如Vision Transformer（VIT））可以超越跨趋化神经网络（CNN）。然而，（CNN）对视力任务（即翻译均衡和局部性）具有强大而有用的归纳偏见。在这项工作中，我们开发了一种新颖的模型架构，我们称之为移动鱼类地标检测网络（MFLD-NET）。我们已经使用基于VIT的卷积操作（即斑块嵌入，多层感知器）制作了该模型。 MFLD-NET可以在轻巧的同时获得竞争性或更好的结果，同时轻巧，因此适用于嵌入式和移动设备。此外，我们表明MFLD-NET可以在PAR上获得关键点（地标）估计精度，甚至比FISH图像数据集上的某些最先进的（CNN）更好。此外，与VIT不同，MFLD-NET不需要预训练的模型，并且在小型数据集中训练时可以很好地概括。我们提供定量和定性的结果，以证明该模型的概括能力。这项工作将为未来开发移动但高效的鱼类监测系统和设备的努力奠定基础。

translated by 谷歌翻译