该研究使用数学建模和人类对象实验,探讨了新兴网络摄像头可能在多大程度上泄漏了可识别的文本和图形信息,从网络摄像头捕获的眼镜反射中闪闪发光。我们工作的主要目标是衡量,计算和预测随着网络摄像头技术在未来发展的可识别性因素,限制和阈值。我们的工作探索并表征了基于光学攻击的可行威胁模型,该模型使用视频帧序列上的多帧超级分辨率技术。我们在受控实验室设置中的模型和实验结果表明,可以重建和识别超过75%的屏幕文本,其高度高达10毫米,并使用720p网络摄像头进行重建和识别。我们进一步将此威胁模型应用于具有不同攻击者功能的Web文本内容,以找到可以识别文本的阈值。我们与20名参与者的用户研究表明,当今的720p网络摄像头足以让对手在大芬特网站上重建文本内容。我们的模型进一步表明,向4K摄像机的演变将使文本泄漏的阈值倾斜到流行网站上大多数标题文本的重建。除文本目标外,还针对具有720p网络摄像头的Alexa前100个网站的封闭世界数据集的案例研究显示,即使没有使用机器学习模型,也没有10个参与者的最高识别精度为94%。我们的研究提出了近期缓解,包括用户可以用来模糊视频流的眼镜区域的软件原型。对于可能的长期防御,我们主张采用个人反思测试程序来评估各种环境下的威胁,并证明遵循最少特权原则对隐私敏感的情况的重要性。
translated by 谷歌翻译
对医疗保健监控的远程工具的需求从未如此明显。摄像机测量生命体征利用成像装置通过分析人体的图像来计算生理变化。建立光学,机器学习,计算机视觉和医学的进步这些技术以来的数码相机的发明以来已经显着进展。本文介绍了对生理生命体征的相机测量综合调查,描述了它们可以测量的重要标志和实现所做的计算技术。我涵盖了临床和非临床应用以及这些应用需要克服的挑战,以便从概念上推进。最后,我描述了对研究社区可用的当前资源(数据集和代码),并提供了一个全面的网页(https://cameravitals.github.io/),其中包含这些资源的链接以及其中引用的所有文件的分类列表文章。
translated by 谷歌翻译
自动柜员机(ATM)代表最常用的撤销现金系统。欧洲中央银行于2019年报告了110亿美元的现金提取和在欧洲ATM上装载/卸载交易。虽然ATM经历了各种技术演变,但个人识别号码(PIN)仍然是这些设备的最常见的认证方法。不幸的是,PIN机构容易通过安装在ATM附近的隐藏照相机进行的肩部冲浪攻击来捕获针脚垫。为了克服这个问题,人们习惯于另一方面覆盖打字。虽然这些用户可能相信这种行为足够安全,但无法防范提到的攻击,但对科学文献中的这种对策没有明确评估。本文提出了一种新的攻击,以重建被另一方面覆盖着键入的受害者进入的别针。我们考虑攻击者可以访问与目标相同品牌/型号的ATM引脚垫的设置。之后,攻击者使用该模型推断受害者在进入PIN的同时按下的数字。我们的攻击归功于精心选择的深度学习架构,可以从打字的手势和运动中推断出别针。我们运行详细的实验分析,包括58个用户。通过我们的方法,我们可以猜出三次尝试中的5位点引脚的30% - 在阻塞卡之前通常允许的那些。我们还对78名用户进行了一项调查,该调查设法达到了相同的设置平均仅为7.92%的准确性。最后,除非整个键盘被屏蔽,否则我们评估了被证明的屏蔽反应。
translated by 谷歌翻译
在本文中,我们描述了如何利用明亮的调制光源(例如,廉价,离心激光器)来利用CMOS图像传感器中的电子滚动快门。我们展示了七种不同CMOS相机的攻击,从IoT廉价到半专业监控摄像机,以突出滚动快门攻击的广泛适用性。我们模拟了影响不受控制的设置中滚动快门攻击的基本因素。然后,我们对对象检测任务的攻击作用进行了详尽的评估,研究了攻击参数的效果。我们验证了我们对两个独立相机收集的经验数据的模型,表明通过简单地使用来自相机数据表的信息,对手可以准确地预测注入的失真大小并相应地优化它们的攻击。我们发现,通过选择适当的攻击参数,对手可以通过最先进的探测器隐藏高达75%的物体。我们还调查了与NA \“{i} vers致盲攻击相比攻击的隐秘,表明常见的图像失真度量无法检测到攻击存在。因此,我们向骨干展示了一种新的,准确和轻巧的增强对象检测器的网络识别滚动快门攻击。总体而言,我们的结果表明,滚动快门攻击可以大大降低基于视觉智能系统的性能和可靠性。
translated by 谷歌翻译
由于相机已成为许多安全关键系统和应用中的关键部分,例如自主车辆和监视,因此大量的学术和非学术作品已经表现出对其主要成分的攻击 - 图像传感器。然而,这些攻击仅限于粗粒,并且通常是可疑的注射,因为光被用作攻击载体。此外,由于光学攻击的性质,它们需要对手和目标相机之间的视线。在本文中,我们提出了一种对CCD图像传感器的新型传感器信号注入攻击,因为它们用于专业,科学,甚至军事环境。我们展示了如何使用电磁散发来操纵CCD图像传感器捕获的图像信息,该图像信息具有粒度下降到各个像素的亮度。我们研究了我们攻击的可行性,然后展示其在自动条码扫描场景中的影响。我们的结果表明,注入的失真可以扰乱自动化视觉的智能系统。
translated by 谷歌翻译
折射率是最常见的眼睛障碍,是可更正视觉障碍的关键原因,造成了美国近80%的视觉障碍。可以使用多种方法诊断折射误差,包括主观折射,视网膜镜检查和自动磨蚀器。尽管主观折射是黄金标准,但它需要患者的合作,因此不适合婴儿,幼儿和发育迟缓的成年人。视网膜镜检查是一种客观折射方法,不需要患者的任何输入。但是,视网膜镜检查需要镜头套件和训练有素的检查员,这限制了其用于大规模筛查的使用。在这项工作中,我们通过将智能手机连接到视网膜镜和录制视网膜镜视频与患者戴着定制的纸框架来自动化自动化。我们开发了一个视频处理管道,该管道将视网膜视频视为输入,并根据我们提出的视网膜镜检查数学模型的扩展来估算净屈光度错误。我们的系统减轻了对镜头套件的需求,可以由未经培训的检查员进行。在一项185只眼睛的临床试验中,我们的灵敏度为91.0%,特异性为74.0%。此外,与主观折射测量相比,我们方法的平均绝对误差为0.75 $ \ pm $ 0.67D。我们的结果表明,我们的方法有可能用作现实世界中医疗设置中的基于视网膜镜检查的折射率筛选工具。
translated by 谷歌翻译
自动化驾驶系统(广告)开辟了汽车行业的新领域,为未来的运输提供了更高的效率和舒适体验的新可能性。然而,在恶劣天气条件下的自主驾驶已经存在,使自动车辆(AVS)长时间保持自主车辆(AVS)或更高的自主权。本文评估了天气在分析和统计方式中为广告传感器带来的影响和挑战,并对恶劣天气条件进行了解决方案。彻底报道了关于对每种天气的感知增强的最先进技术。外部辅助解决方案如V2X技术,当前可用的数据集,模拟器和天气腔室的实验设施中的天气条件覆盖范围明显。通过指出各种主要天气问题,自主驾驶场目前正在面临,近年来审查硬件和计算机科学解决方案,这项调查概述了在不利的天气驾驶条件方面的障碍和方向的障碍和方向。
translated by 谷歌翻译
基于相机的非接触式光电子溶血性描绘是指一组流行的非接触生理测量技术。目前的最先进的神经模型通常以伴随金标准生理测量的视频以监督方式培训。但是,它们通常概括域名差别示例(即,与培训集中的视频不同)。个性化模型可以帮助提高型号的概括性,但许多个性化技术仍然需要一些金标准数据。为了帮助缓解这一依赖性,在本文中,我们展示了一种名为Mobilememon的新型移动感应系统,该系统是第一个移动个性化远程生理传感系统,它利用智能手机上的前后相机,为培训产生高质量的自我监督标签个性化非接触式相机的PPG模型。为了评估MobilemeLephys的稳健性,我们使用39名参与者进行了一个用户学习,他们在不同的移动设备下完成了一组任务,照明条件/强度,运动任务和皮肤类型。我们的研究结果表明,Mobilephys显着优于最先进的设备监督培训和几次拍摄适应方法。通过广泛的用户研究,我们进一步检查了Mobilephys如何在复杂的真实环境中执行。我们设想,从我们所提出的双摄像机移动传感系统产生的校准或基于相机的非接触式PPG模型将为智能镜,健身和移动健康应用等许多未来应用打开门。
translated by 谷歌翻译
信号处理是几乎任何传感器系统的基本组件,具有不同科学学科的广泛应用。时间序列数据,图像和视频序列包括可以增强和分析信息提取和量化的代表性形式的信号。人工智能和机器学习的最近进步正在转向智能,数据驱动,信号处理的研究。该路线图呈现了最先进的方法和应用程序的关键概述,旨在突出未来的挑战和对下一代测量系统的研究机会。它涵盖了广泛的主题,从基础到工业研究,以简明的主题部分组织,反映了每个研究领域的当前和未来发展的趋势和影响。此外,它为研究人员和资助机构提供了识别新前景的指导。
translated by 谷歌翻译
视觉的触觉传感器由于经济实惠的高分辨率摄像机和成功的计算机视觉技术而被出现为机器人触摸的有希望的方法。但是,它们的物理设计和他们提供的信息尚不符合真实应用的要求。我们提供了一种名为Insight的强大,柔软,低成本,视觉拇指大小的3D触觉传感器:它不断在其整个圆锥形感测表面上提供定向力分布图。围绕内部单眼相机构造,传感器仅在刚性框架上仅成型一层弹性体,以保证灵敏度,鲁棒性和软接触。此外,Insight是第一个使用准直器将光度立体声和结构光混合的系统来检测其易于更换柔性外壳的3D变形。通过将图像映射到3D接触力的空间分布(正常和剪切)的深神经网络推断力信息。洞察力在0.4毫米的总空间分辨率,力量幅度精度约为0.03 n,并且对于具有不同接触面积的多个不同触点,在0.03-2 n的范围内的5度大约5度的力方向精度。呈现的硬件和软件设计概念可以转移到各种机器人部件。
translated by 谷歌翻译
Recent work pre-training Transformers with self-supervised objectives on large text corpora has shown great success when fine-tuned on downstream NLP tasks including text summarization. However, pre-training objectives tailored for abstractive text summarization have not been explored. Furthermore there is a lack of systematic evaluation across diverse domains. In this work, we propose pre-training large Transformer-based encoder-decoder models on massive text corpora with a new selfsupervised objective. In PEGASUS, important sentences are removed/masked from an input document and are generated together as one output sequence from the remaining sentences, similar to an extractive summary. We evaluated our best PEGASUS model on 12 downstream summarization tasks spanning news, science, stories, instructions, emails, patents, and legislative bills. Experiments demonstrate it achieves state-of-the-art performance on all 12 downstream datasets measured by ROUGE scores. Our model also shows surprising performance on low-resource summarization, surpassing previous state-of-the-art results on 6 datasets with only 1000 examples. Finally we validated our results using human evaluation and show that our model summaries achieve human performance on multiple datasets.
translated by 谷歌翻译
MetaVerse,巨大的虚拟物理网络空间,为艺术家带来了前所未有的机会,将我们的身体环境的每个角落与数字创造力混合。本文对计算艺术进行了全面的调查,其中七个关键主题与成权相关,描述了混合虚拟物理现实中的新颖艺术品。主题首先涵盖了MetaVerse的建筑元素,例如虚拟场景和字符,听觉,文本元素。接下来,已经反映了诸如沉浸式艺术,机器人艺术和其他用户以其他用户的方法提供了沉浸式艺术,机器人艺术和其他用户中心的若干非凡类型的新颖创作。最后,我们提出了几项研究议程:民主化的计算艺术,数字隐私和搬迁艺术家的安全性,为数字艺术品,技术挑战等等的所有权认可。该调查还担任艺术家和搬迁技术人员的介绍材料,以开始在超现实主义网络空间领域创造。
translated by 谷歌翻译
培训和测试监督对象检测模型需要大量带有地面真相标签的图像。标签定义图像中的对象类及其位置,形状以及可能的其他信息,例如姿势。即使存在人力,标签过程也非常耗时。我们引入了一个新的标签工具,用于2D图像以及3D三角网格:3D标记工具(3DLT)。这是一个独立的,功能丰富和跨平台软件,不需要安装,并且可以在Windows,MacOS和基于Linux的发行版上运行。我们不再像当前工具那样在每个图像上分别标记相同的对象,而是使用深度信息从上述图像重建三角形网格,并仅在上述网格上标记一次对象。我们使用注册来简化3D标记,离群值检测来改进2D边界框的计算和表面重建,以将标记可能性扩展到大点云。我们的工具经过最先进的方法测试,并且在保持准确性和易用性的同时,它极大地超过了它们。
translated by 谷歌翻译
我们提出了一种新的四管齐下的方法,在文献中首次建立消防员的情境意识。我们构建了一系列深度学习框架,彼此之叠,以提高消防员在紧急首次响应设置中进行的救援任务的安全性,效率和成功完成。首先,我们使用深度卷积神经网络(CNN)系统,以实时地分类和识别来自热图像的感兴趣对象。接下来,我们将此CNN框架扩展了对象检测,跟踪,分割与掩码RCNN框架,以及具有多模级自然语言处理(NLP)框架的场景描述。第三,我们建立了一个深入的Q学习的代理,免受压力引起的迷失方向和焦虑,能够根据现场消防环境中观察和存储的事实来制定明确的导航决策。最后,我们使用了一种低计算无监督的学习技术,称为张量分解,在实时对异常检测进行有意义的特征提取。通过这些临时深度学习结构,我们建立了人工智能系统的骨干,用于消防员的情境意识。要将设计的系统带入消防员的使用,我们设计了一种物理结构,其中处理后的结果被用作创建增强现实的投入,这是一个能够建议他们所在地的消防员和周围的关键特征,这对救援操作至关重要在手头,以及路径规划功能,充当虚拟指南,以帮助迷彩的第一个响应者恢复安全。当组合时,这四种方法呈现了一种新颖的信息理解,转移和综合方法,这可能会大大提高消防员响应和功效,并降低寿命损失。
translated by 谷歌翻译
本文审查了视觉隐私保护技术中最先进的技术,特别注意适用于主动和辅助生活领域的技术(aal)。介绍了一种新的分类,可以归类最先进的视觉隐私保护方法。突出显示了传教性的感知混淆方法,是分类学中的一个类别。这些是一类视觉隐私保存技术,特别是在考虑基于视频的AAL监控的情况时特别相关。还探讨了对机器学习模型的混淆。设计的不同隐私层面的高级分类方案与视觉隐私保存技术的拟议分类有关。最后,我们注意到现场存在的开放问题,并将读者介绍给一些令人兴奋的途径,以便在视觉隐私区域的未来研究。
translated by 谷歌翻译
低成本毫米波(MMWAVE)通信和雷达设备的商业可用性开始提高消费市场中这种技术的渗透,为第五代(5G)的大规模和致密的部署铺平了道路(5G) - 而且以及6G网络。同时,普遍存在MMWAVE访问将使设备定位和无设备的感测,以前所未有的精度,特别是对于Sub-6 GHz商业级设备。本文使用MMWAVE通信和雷达设备在基于设备的定位和无设备感应中进行了现有技术的调查,重点是室内部署。我们首先概述关于MMWAVE信号传播和系统设计的关键概念。然后,我们提供了MMWaves启用的本地化和感应方法和算法的详细说明。我们考虑了在我们的分析中的几个方面,包括每个工作的主要目标,技术和性能,每个研究是否达到了一定程度的实现,并且该硬件平台用于此目的。我们通过讨论消费者级设备的更好算法,密集部署的数据融合方法以及机器学习方法的受过教育应用是有前途,相关和及时的研究方向的结论。
translated by 谷歌翻译
The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 3rd International Workshop on Reading Music Systems, held in Alicante on the 23rd of July 2021.
translated by 谷歌翻译
Lensless cameras are a class of imaging devices that shrink the physical dimensions to the very close vicinity of the image sensor by replacing conventional compound lenses with integrated flat optics and computational algorithms. Here we report a diffractive lensless camera with spatially-coded Voronoi-Fresnel phase to achieve superior image quality. We propose a design principle of maximizing the acquired information in optics to facilitate the computational reconstruction. By introducing an easy-to-optimize Fourier domain metric, Modulation Transfer Function volume (MTFv), which is related to the Strehl ratio, we devise an optimization framework to guide the optimization of the diffractive optical element. The resulting Voronoi-Fresnel phase features an irregular array of quasi-Centroidal Voronoi cells containing a base first-order Fresnel phase function. We demonstrate and verify the imaging performance for photography applications with a prototype Voronoi-Fresnel lensless camera on a 1.6-megapixel image sensor in various illumination conditions. Results show that the proposed design outperforms existing lensless cameras, and could benefit the development of compact imaging systems that work in extreme physical conditions.
translated by 谷歌翻译
很少有研究重点是研究人们如何识别变形攻击,即使有一些出版物已经检查了自动化FRS的敏感性并提供了变形攻击检测(MAD)方法。 MAD接近他们的决策要么基于单个图像,因此没有参考以比较(S-MAD)或使用参考图像(D-MAD)。一个普遍的误解是,审查员或观察者的面部变体检测能力取决于他们的主题专业知识,经验和对这个问题的熟悉程度,并且没有任何作品报告了定期验证身份(ID)文档的观察者的具体结果。当人类观察者参与检查具有面部图像的ID文件时,其能力的失误可能会面临重大的社会挑战。为了评估观察者的熟练程度,这项工作首先构建了来自48位不同受试者的现实变形攻击的新基准数据库,从而产生了400个变形图像。我们还捕获了从自动边界控制(ABC)门的图像,以模仿D-MAD设置中现实的边界横断场景,并使用400个探针图像研究人类观察者检测变形图像的能力。还生产了一个新的180个变形图像的数据集,以研究S-MAD环境中的人类能力。除了创建一个新的评估平台来进行S-MAD和D-MAD分析外,该研究还雇用了469位D-MAD的观察员,S-MAD的410位观察员和410位观察员,他们主要是来自40多个国家 /地区的政府雇员,以及103个科目谁不是考官。该分析提供了有趣的见解,并突出了缺乏专业知识和未能认识到专家大量变形攻击的缺乏。这项研究的结果旨在帮助制定培训计划,以防止安全失败,同时确定图像是真正的还是改变了图像。
translated by 谷歌翻译
远程光插图学(RPPG)是一种快速,有效,廉价和方便的方法,用于收集生物识别数据,因为它可以使用面部视频来估算生命体征。事实证明,远程非接触式医疗服务供应在COVID-19大流行期间是可怕的必要性。我们提出了一个端到端框架,以根据用户的视频中的RPPG方法来衡量人们的生命体征,包括心率(HR),心率变异性(HRV),氧饱和度(SPO2)和血压(BP)(BP)(BP)用智能手机相机捕获的脸。我们以实时的基于深度学习的神经网络模型来提取面部标志。通过使用预测的面部标志来提取多个称为利益区域(ROI)的面部斑块(ROI)。应用了几个过滤器,以减少称为血量脉冲(BVP)信号的提取的心脏信号中ROI的噪声。我们使用两个公共RPPG数据集培训和验证了机器学习模型,即Tokyotech RPPG和脉搏率检测(PURE)数据集,我们的模型在其上实现了以下平均绝对错误(MAE):a),HR,1.73和3.95 BEATS- beats-beats-beats-beats-beats-beats-beats-beats-beats-beats-beats-beats-beats-beats-beats-beats-s-s-s-s-s-y-peats-beats-beats-beats-ship-s-s-s-in-chin-p-in-in-in-in-in-c--in-in-c-le-in-in- -t一下制。每分钟(bpm),b)分别为HRV,分别为18.55和25.03 ms,c)对于SPO2,纯数据集上的MAE为1.64。我们在现实生活环境中验证了端到端的RPPG框架,修订,从而创建了视频HR数据集。我们的人力资源估计模型在此数据集上达到了2.49 bpm的MAE。由于没有面对视频的BP测量不存在公开可用的RPPG数据集,因此我们使用了带有指标传感器信号的数据集来训练我们的模型,还创建了我们自己的视频数据集Video-BP。在我们的视频BP数据集中,我们的BP估计模型的收缩压(SBP)达到6.7 mmHg,舒张压(DBP)的MAE为9.6 mmHg。
translated by 谷歌翻译