视力障碍者的日常运动有重大问题。因此,我们以前的一些工作涉及计算机愿景来开发援助系统,以指导在关键情况下视力障碍。其中一些情况包括在室内和室外环境中的道路交叉路口和楼梯上的人行横道。本文为在此类关键情况下基于计算机视觉障碍的人提供了一个评估框架。提出的框架包括用于标记和存储指导方向的参考人类决策的接口,并将其与基于计算机视觉的决策进行比较。由于该研究领域中的严格评估方法并未明确定义,并且由于信息转移到视障人士的细节,因此提出了针对特定简化指导指令的评估标准。
translated by 谷歌翻译
在本文中,我们解决了一个问题,即视障人士在跨越交叉点时通常面部的障碍,并提出了将形式作为移动应用程序形式的解决方案。该应用程序利用深度学习卷积神经网络模型lytnetv2来输出视力障碍的必要信息,而当没有人类伴侣或指导狗的情况下,可能会缺少视力障碍。应用程序的原型在版本11或更高版本的iOS设备上运行。它是为实时越过道路所需的两种最重要的信息,即行人交通灯和方向而设计的,可实现全面,简洁,准确性和计算效率。此外,由于解决方案采用免费的移动应用程序的形式,它专门旨在支持面临财务负担的人。通过修改和利用MobileNetV3中的关键原理,例如深度偏差和挤压式层层,深度神经网络模型的分类精度为96%,平均角度误差为6.15度,而以16.34帧的帧速率运行每秒。此外,该模型被训练为图像分类器,允许更快,更准确的模型。该网络能够以准确性和彻底性优于其他方法,例如对象检测和非深度学习算法。该信息是通过听觉信号和振动传递的,并且已经对七个视觉障碍进行了测试,并且已收到以上令人满意的响应。
translated by 谷歌翻译
由于Pandemics和远程工作环境的优势,远程审查和求职面试获得了普及,并变得不可或缺。大多数公司和学术机构利用这些系统为他们的招聘流程以及在线考试。然而,远程检查系统的一个关键问题是在可靠的环境中进行考试。在这项工作中,我们展示了一个作弊分析管道,用于在线访谈和考试。该系统仅需要候选人的视频,在考试期间记录。然后采用作弊检测管道来检测另一个人,电子设备使用和候选缺席状态。管道由面部检测,面部识别,对象检测和面部跟踪算法组成。为了评估管道的性能,我们收集了私人视频数据集。视频数据集包括作弊活动和清洁视频。最终,我们的管道提供了一种有效和快速的指导,可以在在线面试和考试视频中检测和分析作弊活动。
translated by 谷歌翻译
根据世界卫生组织的数据,估计视觉障碍会影响全球约22亿人。目前,视力障碍必须依靠导航辅助工具来替代其视觉感,例如基于白色的甘蔗或GPS(全球定位系统)导航,两者都无法在室内工作。白色的甘蔗不能用于确定用户在房间内的位置,而GPS通常可以在室内失去连接,并且不提供方向信息,这两种方法都不适合室内使用。因此,这项研究试图开发3D成像解决方案,该解决方案能够通过复杂的室内环境实现非接触式导航。与以前的方法相比,该设备可以查明用户的位置和方向,同时仅需要53.1%的内存,并且处理速度更快125%。该设备还可以比以前的最新模型检测到60.2%的障碍,同时仅需要41%的内存和处理速度260%。在与人类参与者进行测试时,该设备允许与环境障碍物的碰撞减少94.5%,并允许步行速度提高48.3%,这表明我的设备可以使视力受损更安全,更快地导航。总而言之,这项研究表明了一个基于3D的导航系统,用于视力障碍。该方法可以由多种移动低功率设备(例如手机)使用,以确保所有人都可以使用这项研究。
translated by 谷歌翻译
由于意识的提高,人体工程学的风险评估现在比过去更频繁地进行。基于对工作场所的专家辅助观察和手动填写评分表的常规风险评估评估仍然是主要的。数据分析通常是在关注关键时刻的重点,尽管不支持上下文信息和随时间变化。在本文中,我们介绍了ErgoExplorer,这是一种用于风险评估数据的交互式视觉分析的系统。与当前的实践相反,我们专注于跨越多个动作和多个工人的数据,同时保留所有上下文信息。数据自动从视频流中提取。基于经过仔细研究的分析任务,我们介绍了新的观点及其相应的交互。这些观点还结合了特定领域的分数表,以确保域专家轻松采用。所有视图都集成到ErgoExplorer中,该视图依赖于协调的多个视图来通过互动来促进分析。 ErgoExplorer使得首次可以在长期播放多个操作的长时间内检查各个身体部位的风险评估之间的复杂关系。新介绍的方法支持几个详细层面的分析和探索,从一般概述到如有必要的话,请直到检查视频流中的单个帧。我们说明了将其应用于几个数据集的新提出的方法的有用性。
translated by 谷歌翻译
失明和低视力(PBLV)的人在定位最终目的地或针对陌生环境中的特定物体时面临重大挑战。此外,除了最初定位和定位目标对象外,从目前的立场接近最终目标通常是令人沮丧和挑战,尤其是当人们摆脱最初的计划途径以避免障碍时。在本文中,我们开发了一种新颖的可穿戴导航解决方案,以为用户提供实时指导,以便在不熟悉的环境中有效地接近感兴趣的目标对象。我们的系统包含两个关键的视觉计算函数:在3D中以3D为中的初始目标对象定位以及对用户轨迹的连续估计,这既基于由用户胸部前面安装在用户胸前的低成本单眼相机捕获的2D视频。这些功能使系统能够提出初始导航路径,在用户移动时不断更新路径,并及时提供有关用户路径校正的建议。我们的实验表明,我们的系统能够以室外和室内的误差小于0.5米的误差操作。该系统完全基于视觉,并且不需要其他传感器进行导航,并且可以使用可穿戴系统中的Jetson处理器进行计算以促进实时导航辅助。
translated by 谷歌翻译
公路障碍检测是一个重要的研究领域,属于智能运输基础设施系统的范围。基于视觉的方法的使用为此类系统提供了准确且具有成本效益的解决方案。在这篇研究论文中,我们提出了一种使用仪表板视频的自动驾驶自动驾驶汽车的威胁检测机制,以确保在其视觉范围内的道路上存在任何不必要的障碍物。此信息可以帮助车辆的计划安全。有四个主要组件,即Yolo来识别对象,高级车道检测算法,多回归模型,用于测量对象与摄像机的距离,测量安全速度的两秒钟规则和限制速度。此外,我们已经使用了车祸数据集(CCD)来计算模型的准确性。Yolo算法的精度约为93%。我们提出的威胁检测模型(TDM)的最终准确性为82.65%。
translated by 谷歌翻译
在农业环境中的现代除草剂应用通常依赖于将除草剂分配给作物和杂草相似的或便携式喷雾器的大型喷雾器,这些喷雾器需要劳动密集型手动操作。前一种方法导致过度使用除草剂并减少作物产量,而后者在大规模操作中经常站立。本文介绍了能够基于计算机视觉的导航,杂草检测,完整的现场覆盖以及\ $ 400下的计算机视觉的行作物的杂草管理的第一个完全自主机器人。目标应用程序是在裁剪领域中的自主行行杂草控制,例如,亚麻和油菜,在农作物之间的间距像一只脚一样小。所提出的机器人足够小,可以在植物生长的所有阶段之间通过植物生长的阶段,同时检测杂草和喷洒除草剂。充电系统包括新设计的机器人硬件,斜坡,机器人充电臂和移动充电站。采用集成视觉算法,有效地帮助充电器对齐。结合,它们使机器人能够在现场中连续工作而不获得电力。此外,将与预处理技术相结合的基于颜色的轮廓算法用于依赖于从车载单手套摄像机的输入上的鲁棒导航。将这种紧凑的机器人纳入农场可以帮助自动化杂草控制,即使在增长的后期阶段,并通过精确定位杂草减少除草剂。机器人平台在北达科他州的亚麻籽领域进行了现场测试。
translated by 谷歌翻译
从多个相机角度捕获事件可以为观众提供该事件最完整,最有趣的图片。为了适合广播,人类导演需要决定在每个时间点显示什么。随着摄像头的数量,这可能会变得笨拙。全向或广角摄像机的引入使事件更加完整地捕获,这使导演更加困难。在本文中,提出了一个系统,即鉴于事件的多个超高分辨率视频流,可以生成视觉上令人愉悦的镜头序列,以遵循事件的相关动作。由于算法是通用的,因此可以应用于以人类为特征的大多数情况。当需要实时广播时,提出的方法允许在线处理,以及当优先级的相机操作质量时,离线处理。对象检测用于检测输入流中人类和其他感兴趣的对象。检测到的感兴趣的人以及基于电影惯例的一组规则,用于确定要显示哪个视频流以及该流的哪一部分实际上是构造的。用户可以提供许多确定这些规则如何解释的设置。该系统能够通过消除镜头扭曲来处理不同广角视频流的输入。对于多种不同的情况,使用用户研究表明,提议的自动导演能够以美学上令人愉悦的视频构图和类似人类的镜头切换行为来捕获事件。
translated by 谷歌翻译
Visual object analysis researchers are increasingly experimenting with video, because it is expected that motion cues should help with detection, recognition, and other analysis tasks. This paper presents the Cambridge-driving Labeled Video Database (CamVid) as the first collection of videos with object class semantic labels, complete with metadata. The database provides ground truth labels that associate each pixel with one of 32 semantic classes. The database addresses the need for experimental data to quantitatively evaluate emerging algorithms. While most videos are filmed with fixed-position CCTV-style cameras, our data was captured from the perspective of a driving automobile. The driving scenario increases the number and heterogeneity of the observed object classes. Over 10 min of high quality 30 Hz footage is being provided, with corresponding semantically labeled images at 1 Hz and in part, 15 Hz. The CamVid Database offers four contributions that are relevant to object analysis researchers. First, the per-pixel semantic segmentation of over 700 images was specified manually, and was then inspected and confirmed by a second person for accuracy. Second, the high-quality and large resolution color video images in the database represent valuable extended duration digitized footage to those interested in driving scenarios or ego-motion. Third, we filmed calibration sequences for the camera color response and intrinsics, and computed a 3D camera pose for each frame in the sequences. Finally, in support of expanding this or other databases, we present custom-made labeling software for assisting users who wish to paint precise class-labels for other images and videos. We evaluate the relevance of the database by measuring the performance of an algorithm from each of three distinct domains: multi-class object recognition, pedestrian detection, and label propagation.
translated by 谷歌翻译
计算机视觉在智能运输系统(ITS)和交通监视中发挥了重要作用。除了快速增长的自动化车辆和拥挤的城市外,通过实施深层神经网络的实施,可以使用视频监视基础架构进行自动和高级交通管理系统(ATM)。在这项研究中,我们为实时交通监控提供了一个实用的平台,包括3D车辆/行人检测,速度检测,轨迹估算,拥塞检测以及监视车辆和行人的相互作用,都使用单个CCTV交通摄像头。我们适应了定制的Yolov5深神经网络模型,用于车辆/行人检测和增强的排序跟踪算法。还开发了基于混合卫星的基于混合卫星的逆透视图(SG-IPM)方法,用于摄像机自动校准,从而导致准确的3D对象检测和可视化。我们还根据短期和长期的时间视频数据流开发了层次结构的交通建模解决方案,以了解脆弱道路使用者的交通流量,瓶颈和危险景点。关于现实世界情景和与最先进的比较的几项实验是使用各种交通监控数据集进行的,包括从高速公路,交叉路口和城市地区收集的MIO-TCD,UA-DETRAC和GRAM-RTM,在不同的照明和城市地区天气状况。
translated by 谷歌翻译
自主场景的曝光和探索,尤其是在本地化或沟通有限的区域,对于在未知场景中寻找目标有用,仍然是计算机导航中的一个具有挑战性的问题。在这项工作中,我们提出了一种用于实时环境探索的新方法,其唯一的要求是一个视觉上相似的数据集,用于预训练,场景中足够的照明以及用于环境感应的机上前瞻性RGB摄像机。与现有方法相反,我们的方法只需要一个外观(图像)才能做出一个良好的战术决定,因此在非成长,恒定的时间内起作用。两个方向的预测以像素为特征,称为goto和lookat像素,包括我们方法的核心。这些像素通过以下方式编码建议的飞行指令:goto像素定义了代理应以一个距离单位移动的方向,而Lookat像素定义了相机应在下一步中指向的方向。这些飞行的指导像素经过优化,以揭示当前未开发的区域的最多数量。我们的方法提出了一种新型的基于深度学习的导航方法,能够解决此问题并在更复杂的设置中证明其能力,即计算能力有限。此外,我们提出了一种生成面向导航数据集的方法,从而可以使用RGB和深度图像对我们的方法有效培训。在模拟器中进行的测试,评估了稀疏像素的推断过程的协调,以及旨在揭示区域并降低目标距离的2D和3D测试飞行取得了令人鼓舞的结果。与最先进的算法的比较表明,我们的方法能够表现出色,在测量每个相机姿势的新体素,最小距离目标距离,所见表面素的百分比和计算时间指标。
translated by 谷歌翻译
远程光插图学(RPPG)是一种快速,有效,廉价和方便的方法,用于收集生物识别数据,因为它可以使用面部视频来估算生命体征。事实证明,远程非接触式医疗服务供应在COVID-19大流行期间是可怕的必要性。我们提出了一个端到端框架,以根据用户的视频中的RPPG方法来衡量人们的生命体征,包括心率(HR),心率变异性(HRV),氧饱和度(SPO2)和血压(BP)(BP)(BP)用智能手机相机捕获的脸。我们以实时的基于深度学习的神经网络模型来提取面部标志。通过使用预测的面部标志来提取多个称为利益区域(ROI)的面部斑块(ROI)。应用了几个过滤器,以减少称为血量脉冲(BVP)信号的提取的心脏信号中ROI的噪声。我们使用两个公共RPPG数据集培训和验证了机器学习模型,即Tokyotech RPPG和脉搏率检测(PURE)数据集,我们的模型在其上实现了以下平均绝对错误(MAE):a),HR,1.73和3.95 BEATS- beats-beats-beats-beats-beats-beats-beats-beats-beats-beats-beats-beats-beats-beats-beats-beats-s-s-s-s-s-y-peats-beats-beats-beats-ship-s-s-s-in-chin-p-in-in-in-in-in-c--in-in-c-le-in-in- -t一下制。每分钟(bpm),b)分别为HRV,分别为18.55和25.03 ms,c)对于SPO2,纯数据集上的MAE为1.64。我们在现实生活环境中验证了端到端的RPPG框架,修订,从而创建了视频HR数据集。我们的人力资源估计模型在此数据集上达到了2.49 bpm的MAE。由于没有面对视频的BP测量不存在公开可用的RPPG数据集,因此我们使用了带有指标传感器信号的数据集来训练我们的模型,还创建了我们自己的视频数据集Video-BP。在我们的视频BP数据集中,我们的BP估计模型的收缩压(SBP)达到6.7 mmHg,舒张压(DBP)的MAE为9.6 mmHg。
translated by 谷歌翻译
许多钥匙孔干预依赖于双手动处理外科手术器械,强迫主要外科医生依靠第二个外科医生作为相机助理。除了过度涉及手术人员的负担外,这可能导致图像稳定性降低,增加任务完成时间,有时由于任务的单调而有时会出现错误。由一组基本说明控制的机器人内窥镜持有者已被提出作为替代方案,但它们的不自然处理可能会增加(SOLO)外科医生的认知负荷,这阻碍了它们的临床验收。如果机器人内窥镜持有者通过语义上丰富的指令与操作外科医生合作的机器人内窥镜持有者,则可以实现手术工作流程的更无缝集成。作为概念证明,本文介绍了一种新颖的系统,为外科医生和机器人内窥镜支架之间的协同相互作用铺平了道路。该拟议的平台允许外科医生执行生理协调和导航任务,而机器人臂自动执行内窥镜定位任务。在我们的系统中,我们提出了一种基于外科刀具分割的新型工具提示定位方法和一种新型的视觉伺服方法,可确保内窥镜摄像机的平滑和适当的运动。我们验证了我们的视觉管道并运行了对该系统的用户学习。通过使用欧洲妇科手术课程验证的腹腔镜运动来确保研究的临床相关性,涉及双部手动协调和导航。我们拟议的系统的成功应用提供了更广泛的临床采用机器人内窥镜架的有希望的起点。
translated by 谷歌翻译
更换具有智能电表的模拟仪表昂贵,艰巨,远非完全在发展中国家。ParaNa(Copel)(巴西)的能源公司每月执行超过400万米的读数(几乎完全是非智能设备),我们估计其中850万人来自拨号米。因此,基于图像的自动读取系统可以减少人类错误,创建读取证明,并使客户能够通过移动应用程序执行读取本身。我们提出了用于自动拨号抄表(ADMR)的新方法,并在不约束场景中引入ADMR的新数据集,称为UFPR-ADMR-V2。我们的最佳方法将YOLOV4与新的回归方法(ANGREG)结合起来,探讨了几种后处理技术。与以前的作品相比,它降低了1,343至129的平均绝对误差(MAE),并实现了98.90%的仪表识别率(MRR) - 误差容差为1千瓦时(千瓦时)。
translated by 谷歌翻译
本文介绍了多传感器用户界面的开发,以促进电弧焊接任务的指导。获得手眼协调能力的传统方法通常是通过一对一的指导来进行的,学员必须戴着保护头盔并进行多项测试。这种方法效率低下,因为电弧从电弧发出的有害光阻止了对过程的密切监测。从业者只能观察到一个小的亮点。为了解决这些问题,最近的培训方法利用虚拟现实来安全地模拟该过程并可视化工件的几何形状。但是,这些类型的仿真平台的合成性质降低了它们的有效性,因为它们无法构成与环境的实际焊接相互作用,从而阻碍了受训者的学习过程。为了为用户提供真正的焊接体验,我们开发了一个新的多传感器扩展现实平台,用于弧焊接训练。我们的系统由:(1)HDR摄像头,实时监视真实的焊接位; (2)深度传感器,捕获场景的3D几何形状; (3)头部安装的VR显示屏,可以安全地可视化过程。我们的创新平台为用户提供了“机器人培训师”,接缝几何形状的虚拟提示,自动点跟踪和性能得分。为了验证平台的可行性,我们通过几项焊接培训任务进行了广泛的实验。我们表明,与传统的培训实践和最近的虚拟现实方法相比,我们的自动多传感器方法在准确性,学习曲线和有效性方面取得了更好的性能。
translated by 谷歌翻译
Covid-19大流行导致了前所未有的全球公共卫生危机。鉴于其固有的性质,建议社会疏散措施作为遏制这种大流行传播的主要策略。因此,识别违反这些协议的情况,对削减疾病的传播并促进可持续生活方式具有影响。本文提出了一种基于电脑视觉的基于计算机视觉的系统,分析了CCTV镜头,为Covid-19传播提供了威胁水平评估。该系统努力捕获跨越多个帧的CCTV镜头的信息内容,以识别各个帧的各种违反社会偏移协议的实例,以及跨空间的识别,以及组行为的识别。该功能主要是通过利用基于时间图的基础结构来实现CCTV镜头的信息和对全能解释图的策略并量化给定场景的威胁级别的策略。在一系列场景中测试并验证各个组件,并针对人类专家意见进行了完整的系统。结果反映了威胁水平对人,其物理接近,相互作用,防护服和群体动力学的依赖。系统性能的准确性为76%,从而在城市进行了可部署的威胁监控系统,以允许社会中的正常和可持续性。
translated by 谷歌翻译
延时摄影是在电影和宣传电影中使用的,因为它可以在短时间内反映时间的流逝并增强视觉吸引力。但是,由于需要很长时间才需要稳定的射击,因此对摄影师来说是一个巨大的挑战。在本文中,我们提出了一个带有虚拟和真实机器人的延时摄影系统。为了帮助用户有效拍摄延时视频,我们首先参数化延时摄影并提出参数优化方法。对于不同的参数,使用不同的美学模型,包括图像和视频美学质量评估网络,用于生成最佳参数。然后,我们提出了一个延时摄影界面,以促进用户查看和调整参数,并使用虚拟机器人在三维场景中进行虚拟摄影。该系统还可以导出参数并将其提供给真实的机器人,以便可以在现实世界中拍摄延时视频。此外,我们提出了一种延时摄影美学评估方法,该方法可以自动评估及时视频的美学质量。实验结果表明,我们的方法可以有效地获得延时视频。我们还进行了用户研究。结果表明,我们的系统具有与专业摄影师相似的效果,并且更有效。
translated by 谷歌翻译
由于通用的非语言自然交流方法可以在人类之间进行有效的沟通,因此在过去的几十年中,手势识别技术一直在稳步发展。基于手势识别的研究文章中已经提出了许多不同的策略,以尝试创建一个有效的系统,以使用物理传感器和计算机视觉将非语言自然通信信息发送给计算机。另一方面,超准确的实时系统直到最近才开始占据研究领域,每种系统都由于过去的限制(例如可用性,成本,速度和准确性)而采用了一系列方法。提出了一种基于计算机视觉的人类计算机交互工具,用于充当自然用户界面的手势识别应用程序。用户手上的虚拟手套标记将被创建并用作深度学习模型的输入,以实时识别手势。获得的结果表明,拟议的系统将在实时应用中有效,包括通过远程依恋和康复进行社交互动。
translated by 谷歌翻译
现在,基于视觉的本地化方法为来自机器人技术到辅助技术的无数用例提供了新出现的导航管道。与基于传感器的解决方案相比,基于视觉的定位不需要预安装的传感器基础架构,这是昂贵,耗时和/或通常不可行的。本文中,我们为特定用例提出了一个基于视觉的本地化管道:针对失明和低视力的最终用户的导航支持。给定最终用户在移动应用程序上拍摄的查询图像,该管道利用视觉位置识别(VPR)算法在目标空间的参考图像数据库中找到相似的图像。这些相似图像的地理位置用于采用加权平均方法来估计最终用户的位置和透视N点(PNP)算法的下游任务中,以估计最终用户的方向。此外,该系统实现了Dijkstra的算法,以根据包括Trip Origin和目的地的可通航地图计算最短路径。用于本地化和导航的层压映射是使用定制的图形用户界面构建的,该图形用户界面投影了3D重建的稀疏映射,从一系列图像构建到相应的先验2D楼平面图。用于地图构造的顺序图像可以在预映射步骤中收集,也可以通过公共数据库/公民科学清除。端到端系统可以使用带有自定义移动应用程序的相机安装在任何可互联网的设备上。出于评估目的,在复杂的医院环境中测试了映射和定位。评估结果表明,我们的系统可以以少于1米的平均误差来实现本地化,而无需了解摄像机的固有参数,例如焦距。
translated by 谷歌翻译