光学相干断层扫描(OCT)对指纹成像的技术为捕获皮肤层深度信息的能力而为指纹识别开辟了新的研究潜力。如果可以充分利用深度信息,则可以开发健壮和高安全性自动指纹识别系统(AFRSS)。然而,在现有的研究中,基于深度信息的表现攻击检测(PAD)和地下指纹重建被视为两个独立的分支,从而导致AFRS构建的高计算和复杂性。因此,本文提出了一个基于OCT的统一表示模型指纹垫和地下指纹重建。首先,我们设计了一个新型的语义分割网络,该网络仅通过基于OCT的指纹的真实手指切片训练,以从这些切片(也称为B扫描)中提取多个地下结构。从网络中得出的潜在代码直接用于有效检测PA,因为它们包含丰富的地下生物学信息,该信息与PA材料独立,并且对未知PA具有强大的鲁棒性。同时,采用了分段的地下结构来重建多个地下2D指纹。通过使用基于传统2D指纹的现有成熟技术,可以轻松实现识别。广泛的实验是在我们自己已建立的数据库上进行的,该数据库是最大的基于OCT的指纹数据库,具有2449卷。在PAD任务中,我们的方法可以从最先进的方法中提高0.33%的ACC。对于重建性能,我们的方法以0.834 miou和0.937 pa的形式达到了最佳性能。通过与表面2D指纹的识别性能进行比较,我们提出的方法对高质量地下指纹重建的有效性得到了进一步证明。
translated by 谷歌翻译
视频脱毛方法的关键成功因素是用相邻视频帧的尖锐像素来补偿中框的模糊像素。因此,主流方法根据估计的光流对齐相邻帧并融合对齐帧进行恢复。但是,这些方法有时会产生不令人满意的结果,因为它们很少考虑像素的模糊水平,这可能会引入视频帧中的模糊像素。实际上,并非视频框架中的所有像素都对脱毛都是敏锐的和有益的。为了解决这个问题,我们提出了用于视频Delurring的时空变形注意网络(STDANET),该网络通过考虑视频帧的像素模糊级别来提取尖锐像素的信息。具体而言,stdanet是一个编码器 - 码头网络,结合了运动估计器和时空变形注意(STDA)模块,其中运动估计器预测了粗略光流,这些流量被用作基本偏移,以在STDA模块中找到相应的尖锐像素。实验结果表明,所提出的Stdanet对GOPRO,DVD和BSD数据集的最新方法表现出色。
translated by 谷歌翻译
视频显着对象检测模型在像素密集注释上训练有素的训练有素,已经达到了出色的性能,但获得像素逐像素注释的数据集很费力。尚未探索几项作品,试图使用涂鸦注释来缓解这个问题,但是尚未探讨点监督作为一种更节省劳动的注释方法(即使是对密集预测的手动注释方法中最多的劳动方法)。在本文中,我们提出了一个基于点监督的强基线模型。为了使用时间信息来推断显着性图,我们分别从短期和长期角度挖掘了框架间的互补信息。具体而言,我们提出了一个混合令牌注意模块,该模块将光流和图像信息从正交方向混合在一起,自适应地突出了关键的光流信息(通道维度)和关键令牌信息(空间维度)。为了利用长期提示,我们开发了长期的跨框架注意模块(LCFA),该模块有助于当前框架基于多框架代币推断出显着对象。此外,我们通过重新标记Davis和DavSod数据集来标记两个分配的数据集P-Davis和P-Davsod。六个基准数据集的实验说明了我们的方法优于先前的最先进的弱监督方法,甚至与某些完全监督的方法相当。源代码和数据集可用。
translated by 谷歌翻译
姿势注册在视觉和机器人技术中至关重要。本文重点介绍了无初始化姿势注册的挑战性任务,最高为7DOF,用于均质和异质测量。虽然最近基于学习的方法显示了使用可区分求解器的希望,但它们要么依赖于启发式定义的对应关系,要么易于局部最小值。我们提出了一个可区分的相关(DPC)求解器,该求解器是全球收敛性且无对应的。当与简单的特征提取网络结合使用时,我们的一般框架DPCN ++允许使用任意初始化的多功能姿势注册。具体而言,特征提取网络首先从一对均质/异质测量值中学习致密特征网格。然后将这些特征网格转换为基于傅立叶变换和球形径向聚集的翻译和比例不变频谱表示形式,将翻译转换和从旋转中脱钩。接下来,使用DPC求解器在频谱中独立有效地估计旋转,比例和翻译。整个管道都是可区分和训练的端到端。我们评估了DCPN ++在多种注册任务上,以不同的输入方式,包括2D Bird的视图图像,3D对象和场景测量以及医疗图像。实验结果表明,DCPN ++的表现优于经典和基于学习的基础线,尤其是在部分观察到的异质测量方面。
translated by 谷歌翻译
呈现攻击检测(PAD)方法的稳健性和泛化能力至关重要,以确保面部识别系统(FRSS)的安全性。但是,在真实的场景中,呈现攻击(PAS)是各种各样的且难以收集的。现有焊盘方法高度依赖于有限的训练集,并且不能概括到未知的PAS。与PAD任务不同,可以有效地采用其他与真实面(例如面部识别和属性编辑)训练的其他与面部识别和属性编辑)培训的其他相关任务。灵感来自于此,我们建议从其他与面部相关的任务应用任务(任务分类)来解决面板,以改善检测PAS的泛化能力。所提出的方法,首先从其他面部相关任务引入任务特定功能,然后,我们使用曲线图注意网络(GAT)来设计跨模型适配器来重新绘制此类功能以适应焊盘任务。最后,通过使用基于CNN的PA检测器和重新映射特征的分层特征来实现面板。实验结果表明,与最先进的方法相比,该方法可以在复杂和混合数据集中实现显着的改进。特别是,当使用Oulu-NPU,Casia-Fasd和IDIAP重放攻击训练时,我们在MSU-MFSD中获得了5.48%的HTET(半总错误率),优于基准7.39%。代码将公开可用。
translated by 谷歌翻译
由于攻击材料的多样性,指纹识别系统(AFRSS)容易受到恶意攻击的影响。为AFRSS的安全性和可靠性提出有效的指纹介绍攻击检测(PAD)方法是非常重要的。然而,当前焊盘方法通常在新攻击材料或传感器设置下具有差的鲁棒性。因此,本文通过考虑处理先前作品中忽略的冗余“噪声”信息,提出了一种新的通道 - 方向特征去噪焊盘(CFD-PAD)方法。所提出的方法通过加权每个信道的重要性并找到这些鉴别性信道和“噪声”通道来学习指纹图像的重要特征。然后,在特征图中抑制了“噪声”通道的传播以减少干扰。具体地,设计了PA-Adaption损耗来限制特征分布,以使实时指纹的特征分布更具聚合和欺骗指纹更多的分散。我们在Livdet 2017上评估的实验结果表明,当假检出率等于1.0%(TDR @FDR = 1%)时,我们所提出的CFD-PAD可以达到2.53%的ace和93.83%的真实检测率,并且优于基于最佳的单一模型在ACE(2.53%与4.56%)和TDR @FDR方面的方法明显显着(93.83%,93.83%\%),这证明了该方法的有效性。虽然我们已经实现了与最先进的基于多模型的方法相比的可比结果,但是通过我们的方法仍然可以实现TDR @ FDR增加到91.19%的1%至93.83%。此外,与基于多模型的多模型的方法相比,我们的模型更简单,更轻,更高效,更高效地实现了74.76%的耗时减少。代码将公开。
translated by 谷歌翻译
如今,随着越来越多的系统在传统的语音转换(VC)任务中实现了良好的性能,人们的注意力在极端条件下逐渐转向VC任务。在本文中,我们提出了一种零射声语音转换的新方法。我们的目标是获取讲话者内容解剖的中间陈述,以更好地删除发言者信息并获得纯净的内容信息。因此,我们所提出的框架包含一种模块,该模块从源扬声器的声学特征中移除扬声器信息。此外,扬声器信息控制被添加到我们的系统中以维持语音克隆性能。所提出的系统由主观和客观度量评估。结果表明,我们提出的系统显着降低了零射声语音转换中的权衡问题,而且还可以对扬声器验证系统进行高欺骗功率。
translated by 谷歌翻译
在离线强化学习(离线RL)中,主要挑战之一是处理学习策略与给定数据集之间的分布转变。为了解决这个问题,最近的离线RL方法试图引入保守主义偏见,以鼓励在高信心地区学习。无模型方法使用保守的正常化或特殊网络结构直接对策略或价值函数学习进行这样的偏见,但它们约束的策略搜索限制了脱机数据集之外的泛化。基于模型的方法使用保守量量化学习前瞻性动态模型,然后生成虚构的轨迹以扩展脱机数据集。然而,由于离线数据集中的有限样本,保守率量化通常在支撑区域内遭受全面化。不可靠的保守措施将误导基于模型的想象力,以不受欢迎的地区,导致过多的行为。为了鼓励更多的保守主义,我们提出了一种基于模型的离线RL框架,称为反向离线模型的想象(ROMI)。我们与新颖的反向策略结合使用逆向动力学模型,该模型可以生成导致脱机数据集中的目标目标状态的卷展栏。这些反向的想象力提供了无通知的数据增强,以便无模型策略学习,并使远程数据集的保守概括。 ROMI可以有效地与现成的无模型算法组合,以实现基于模型的概括,具有适当的保守主义。经验结果表明,我们的方法可以在离线RL基准任务中产生更保守的行为并实现最先进的性能。
translated by 谷歌翻译
One challenge for self-driving cars is their interactions not only with other vehicles but also with pedestrians in urban environments. The unpredictability of pedestrian behaviors at intersections can lead to a high rate of accidents. The first pedestrian fatality caused by autonomous vehicles was reported in 2018 when a self-driving Uber vehicle struck a woman crossing an intersection in Tempe, Arizona in the nighttime. There is a need for creating machine intelligence that allows autonomous vehicles to control the car and adapt to different pedestrian behaviors to prevent accidents. In this work, (a) We develop a Level-$k$ Meta Reinforcement Learning model for the vehicle-human interactions and define its solution concept; (b) We test our LK-MRL structure in level-$0$ pedestrians interacting with level-$1$ car scenario, compare the trained policy with multiple baseline methods, and demonstrate its advantage in road safety; (c) Furthermore, based on the properties of level-$k$ thinking, we test our LK-MRL structure in level-$1$ pedestrians interacting with level-$2$ car scenario and verify by experimental results that LK-MRL maintains its advantageous with the using of reinforcement learning of producing different level of agents with strategies of the best response of their lower level thinkers, which provides us possible to create higher level scenarios.
translated by 谷歌翻译
胸部X射线(CXR)中准确的异常定位可以使各种胸部疾病的临床诊断受益。但是,病变水平的注释只能由经验丰富的放射科医生进行,这是乏味且耗时的,因此很难获得。这种情况导致难以开发CXR的完全监督异常定位系统。在这方面,我们建议通过一个弱半监督的策略来训练CXR异常本地化框架,称为“超越阶级”(PBC),该策略(PBC)使用了少数带有病变级别边界框的完全注释的CXR,并通过广泛的弱化的样品和大量的带有注释的样品。点。这样的点注释设置可以通过边缘注释成本提供弱实例级信息,以实现异常定位。尤其是,我们的PBC背后的核心思想是学习从点注释到边界框的强大而准确的映射,以根据注释点的差异。为此,提出了一个正则化项,即多点的一致性,它驱动模型从相同异常内的不同点注释中生成一致的边界框。此外,还提出了一种被称为对称的一致性的自学,也提出了从弱注释的数据中深入利用有用的信息来实现异常定位。 RSNA和VINDR-CXR数据集的实验结果证明了该方法的有效性。当使用少于20%的盒子级标签进行训练时,与当前的最新方法相比,我们的PBC可以在MAP中提高〜5的改进(即点DETR)。代码可从https://github.com/haozheliu-st/point-beyond-class获得。
translated by 谷歌翻译