智能论文笔记

Fall Detection from Audios with Audio Transformers

Prabhjot Kaur , Qifan Wang , Weisong Shi

分类：机器学习 | 机器人

2022-08-23

老年人的跌倒检测是一些经过深入研究的问题，其中包括多种拟议的解决方案，包括可穿戴和不可磨损的技术。尽管现有技术的检测率很高，但由于需要佩戴设备和用户隐私问题，因此缺乏目标人群的采用。我们的论文提供了一种新颖的，不可磨损的，不受欢迎的和可扩展的解决方案，用于秋季检测，该解决方案部署在配备麦克风的自主移动机器人上。所提出的方法使用人们在房屋中记录的环境声音输入。我们专门针对浴室环境，因为它很容易跌落，并且在不危害用户隐私的情况下无法部署现有技术。目前的工作开发了一种基于变压器体系结构的解决方案，该解决方案从浴室中获取嘈杂的声音输入，并将其分为秋季/禁止类别，准确性为0.8673。此外，提出的方法可扩展到其他室内环境，除了浴室外，还适合在老年家庭，医院和康复设施中部署，而无需用户佩戴任何设备或不断受到传感器的“观察”。

translated by 谷歌翻译

A Novel IoT-based Framework for Non-Invasive Human Hygiene Monitoring using Machine Learning Techniques

Md Jobair Hossain Faruk , Shashank Trivedi , Mohammad Masum , Maria Valero , Hossain Shahriar , Sheikh Iqbal Ahamed

分类：机器学习

2022-07-07

人们的个人卫生习惯在每日生活方式中照顾身体和健康的状况。保持良好的卫生习惯不仅减少了患疾病的机会，而且还可以降低社区中传播疾病的风险。鉴于目前的大流行，每天的习惯，例如洗手或定期淋浴，在人们中至关重要，尤其是对于单独生活在家里或辅助生活设施中的老年人。本文提出了一个新颖的非侵入性框架，用于使用我们采用机器学习技术的振动传感器监测人卫生。该方法基于地球通传感器，数字化器和实用外壳中具有成本效益的计算机板的组合。监测日常卫生常规可能有助于医疗保健专业人员积极主动，而不是反应性，以识别和控制社区内潜在暴发的传播。实验结果表明，将支持向量机（SVM）用于二元分类，在不同卫生习惯的分类中表现出约95％的有希望的准确性。此外，基于树的分类器（随机福雷斯特和决策树）通过实现最高精度（100％）优于其他模型，这意味着可以使用振动和非侵入性传感器对卫生事件进行分类，以监测卫生活动。

translated by 谷歌翻译

Using Deep Learning with Large Aggregated Datasets for COVID-19 Classification from Cough

Esin Darici , Nicholas Rasmussen , Jennifer Ranjani J. , Jaclyn Xiao , Gunvant Chaudhari , Akanksha Rajput , Praveen Govindan , Minami Yamaura , Laura Gomezjurado , Amil Khanzada

分类：机器学习

2022-01-05

Covid-19大流行是人类的祸害，宣称全世界超过500万人的生活。虽然疫苗正在全世界分布，但表观需要实惠的筛选技术，以便为无法获得传统医学的世界服务。人工智能可以提供利用咳嗽声音作为主要筛选模式的解决方案。本文介绍了多种模型，这些模型在学术文献目前呈现的最大评估数据集上取得了相对尊敬的性能。此外，我们还显示性能随着培训数据规模而增加，表明世界各地的数据收集，以帮助使用非传统方式对抗Covid-19大流行。

translated by 谷歌翻译

Vision-based Human Fall Detection Systems using Deep Learning: A Review

Ekram Alam , Abu Sufian , Paramartha Dutta , Marco Leo

分类：计算机视觉 | 人工智能

2022-07-22

人类堕落是非常关键的健康问题之一，尤其是对于长老和残疾人而言。在全球范围内，老年人口的数量正在稳步增加。因此，人类的跌倒发现已成为为这些人辅助生活的有效技术。为了辅助生活，大量使用了深度学习和计算机视觉。在这篇评论文章中，我们讨论了基于深度学习（DL）的最先进的非侵入性（基于视觉的）秋季检测技术。我们还提出了有关秋季检测基准数据集的调查。为了清楚理解，我们简要讨论用于评估秋季检测系统性能的不同指标。本文还为基于视觉的人类跌落检测技术提供了未来的指导。

translated by 谷歌翻译

Lightweight Transformer in Federated Setting for Human Activity Recognition

Ali Raza , Kim Phuc Tran , Ludovic Koehl , Shujun Li , Xianyi Zeng , Khaled Benzaidi

分类：计算机视觉 | 人工智能

2021-10-01

人类活动识别（HAR）是一项机器学习任务，在包括医疗保健在内的许多领域中进行了应用，但事实证明这是一个具有挑战性的研究问题。在医疗保健中，它主要用作老年护理的辅助技术，通常与其他相关技术（例如物联网）一起使用，因为可以在智能手机，可穿戴设备，环境环境等物联网设备的帮助下实现HAR和体内传感器。在集中式和联合环境中，已将卷积神经网络（CNN）和经常性神经网络（RNN）等深神网络技术（CNN）和复发性神经网络（RNN）用于HAR。但是，这些技术有一定的局限性：RNN不能轻易平行，CNN具有序列长度的限制，并且两者在计算上都很昂贵。此外，在面对诸如医疗保健等敏感应用程序时，集中式方法存在隐私问题。在本文中，为了解决HAR面临的一些现有挑战，我们根据惯性传感器提出了一种新颖的单块变压器，可以将RNN和CNN的优势结合在一起而无需其主要限制。我们设计了一个测试床来收集实时人类活动数据，并使用数据来训练和测试拟议的基于变压器的HAR分类器。我们还建议转移：使用拟议的变压器解决隐私问题的基于联合学习的HAR分类器。实验结果表明，在联合和集中设置中，该提出的解决方案优于基于CNN和RNN的最先进的HAR分类器。此外，拟议的HAR分类器在计算上是便宜的，因为它使用的参数少于现有的CNN/RNN分类器。

translated by 谷歌翻译

Smart Application for Fall Detection Using Wearable ECG & Accelerometer Sensors

Harry Wixley

分类：人工智能 | 机器学习

2022-06-28

由于照顾不断增长的老年人口的医疗和财务需求，对跌倒的及时可靠发现是一个大型且快速增长的研究领域。在过去的20年中，高质量硬件（高质量传感器和AI微芯片）和软件（机器学习算法）技术的可用性通过为开发人员提供开发此类系统的功能，从而成为这项研究的催化剂。这项研究开发了多个应用组件，以研究秋季检测系统的发展挑战和选择，并为未来的研究提供材料。使用此方法开发的智能应用程序通过秋季检测模型实验和模型移动部署的结果验证。总体上表现最好的模型是标准化的RESNET152，并带有2S窗口尺寸的调整数据集，可实现92.8％的AUC，7.28％的灵敏度和98.33％的特异性。鉴于这些结果很明显，加速度计和心电图传感器对秋季检测有益，并允许跌倒和其他活动之间的歧视。由于所得数据集中确定的弱点，这项研究为改进的空间留下了很大的改进空间。这些改进包括在跌落的临界阶段使用标签协议，增加数据集样品的数量，改善测试主题表示形式，并通过频域预处理进行实验。

translated by 谷歌翻译

Integrating Deep Learning and Augmented Reality to Enhance Situational Awareness in Firefighting Environments

Manish Bhattarai

分类：计算机视觉

2021-07-23

我们提出了一种新的四管齐下的方法，在文献中首次建立消防员的情境意识。我们构建了一系列深度学习框架，彼此之叠，以提高消防员在紧急首次响应设置中进行的救援任务的安全性，效率和成功完成。首先，我们使用深度卷积神经网络（CNN）系统，以实时地分类和识别来自热图像的感兴趣对象。接下来，我们将此CNN框架扩展了对象检测，跟踪，分割与掩码RCNN框架，以及具有多模级自然语言处理（NLP）框架的场景描述。第三，我们建立了一个深入的Q学习的代理，免受压力引起的迷失方向和焦虑，能够根据现场消防环境中观察和存储的事实来制定明确的导航决策。最后，我们使用了一种低计算无监督的学习技术，称为张量分解，在实时对异常检测进行有意义的特征提取。通过这些临时深度学习结构，我们建立了人工智能系统的骨干，用于消防员的情境意识。要将设计的系统带入消防员的使用，我们设计了一种物理结构，其中处理后的结果被用作创建增强现实的投入，这是一个能够建议他们所在地的消防员和周围的关键特征，这对救援操作至关重要在手头，以及路径规划功能，充当虚拟指南，以帮助迷彩的第一个响应者恢复安全。当组合时，这四种方法呈现了一种新颖的信息理解，转移和综合方法，这可能会大大提高消防员响应和功效，并降低寿命损失。

translated by 谷歌翻译

Machine Learning for Stuttering Identification: Review, Challenges and Future Directions

Shakeel Ahmad Sheikh , Md Sahidullah , Fabrice Hirsch , Slim Ouni

分类：机器学习

2021-07-08

口吃是一种言语障碍，在此期间，语音流被非自愿停顿和声音重复打断。口吃识别是一个有趣的跨学科研究问题，涉及病理学，心理学，声学和信号处理，使检测很难且复杂。机器和深度学习的最新发展已经彻底彻底改变了语音领域，但是对口吃的识别受到了最小的关注。这项工作通过试图将研究人员从跨学科领域聚集在一起来填补空白。在本文中，我们回顾了全面的声学特征，基于统计和深度学习的口吃/不足分类方法。我们还提出了一些挑战和未来的指示。

translated by 谷歌翻译

Audio Denoising for Robust Audio Fingerprinting

Kamil Akesbi

分类：机器学习

2022-12-21

Music discovery services let users identify songs from short mobile recordings. These solutions are often based on Audio Fingerprinting, and rely more specifically on the extraction of spectral peaks in order to be robust to a number of distortions. Few works have been done to study the robustness of these algorithms to background noise captured in real environments. In particular, AFP systems still struggle when the signal to noise ratio is low, i.e when the background noise is strong. In this project, we tackle this problematic with Deep Learning. We test a new hybrid strategy which consists of inserting a denoising DL model in front of a peak-based AFP algorithm. We simulate noisy music recordings using a realistic data augmentation pipeline, and train a DL model to denoise them. The denoising model limits the impact of background noise on the AFP system's extracted peaks, improving its robustness to noise. We further propose a novel loss function to adapt the DL model to the considered AFP system, increasing its precision in terms of retrieved spectral peaks. To the best of our knowledge, this hybrid strategy has not been tested before.

translated by 谷歌翻译

PTSD in the Wild: A Video Database for Studying Post-Traumatic Stress Disorder Recognition in Unconstrained Environments

Moctar Abdoul Latif Sawadogo , Furkan Pala , Gurkirat Singh , Imen Selmi , Pauline Puteaux , Alice Othmani

分类：计算机视觉 | 机器学习

2022-09-28

创伤后应激障碍（PTSD）是一种长期衰弱的精神状况，是针对灾难性生活事件（例如军事战斗，性侵犯和自然灾害）而发展的。 PTSD的特征是过去的创伤事件，侵入性思想，噩梦，过度维护和睡眠障碍的闪回，所有这些都会影响一个人的生活，并导致相当大的社会，职业和人际关系障碍。 PTSD的诊断是由医学专业人员使用精神障碍诊断和统计手册（DSM）中定义的PTSD症状的自我评估问卷进行的。在本文中，这是我们第一次收集，注释并为公共发行准备了一个新的视频数据库，用于自动PTSD诊断，在野生数据集中称为PTSD。该数据库在采集条件下表现出“自然”和巨大的差异，面部表达，照明，聚焦，分辨率，年龄，性别，种族，遮挡和背景。除了描述数据集集合的详细信息外，我们还提供了评估野生数据集中PTSD的基于计算机视觉和机器学习方法的基准。此外，我们建议并评估基于深度学习的PTSD检测方法。提出的方法显示出非常有希望的结果。有兴趣的研究人员可以从：http：//www.lissi.fr/ptsd-dataset/下载PTSD-in-wild数据集的副本

translated by 谷歌翻译

A Comprehensive Survey on Radio Frequency (RF) Fingerprinting: Traditional Approaches, Deep Learning, and Open Challenges

Anu Jagannath , Jithin Jagannath , Prem Sagar Pattanshetty Vasanth Kumar

分类：机器学习 | 人工智能

2022-01-03

第五代（5G）网络和超越设想巨大的东西互联网（物联网）推出，以支持延长现实（XR），增强/虚拟现实（AR / VR），工业自动化，自主驾驶和智能所有带来的破坏性应用一起占用射频（RF）频谱的大规模和多样化的IOT设备。随着频谱嘎嘎和吞吐量挑战，这种大规模的无线设备暴露了前所未有的威胁表面。 RF指纹识别是预约的作为候选技术，可以与加密和零信任安全措施相结合，以确保无线网络中的数据隐私，机密性和完整性。在未来的通信网络中，在这项工作中，在未来的通信网络中的相关性，我们对RF指纹识别方法进行了全面的调查，从传统观点到最近的基于深度学习（DL）的算法。现有的调查大多专注于无线指纹方法的受限制呈现，然而，许多方面仍然是不可能的。然而，在这项工作中，我们通过解决信号智能（SIGINT），应用程序，相关DL算法，RF指纹技术的系统文献综述来缓解这一点，跨越过去二十年的RF指纹技术的系统文献综述，对数据集和潜在研究途径的讨论 - 必须以百科全书的方式阐明读者的必要条件。

translated by 谷歌翻译

Automatic COVID-19 disease diagnosis using 1D convolutional neural network and augmentation with human respiratory sound based on parameters: cough, breath, and voice

Kranthi Kumar Lella , Alphonse Pja

分类：机器学习

2021-12-14

呼吸声分类中的问题已在去年的临床科学家和医学研究员团体中获得了良好的关注，以诊断Covid-19疾病。迄今为止，各种模型的人工智能（AI）进入了现实世界，从人类生成的声音等人生成的声音中检测了Covid-19疾病，例如语音/言语，咳嗽和呼吸。实现卷积神经网络（CNN）模型，用于解决基于人工智能（AI）的机器上的许多真实世界问题。在这种情况下，建议并实施一个维度（1D）CNN，以诊断Covid-19的呼吸系统疾病，例如语音，咳嗽和呼吸。应用基于增强的机制来改善Covid-19声音数据集的预处理性能，并使用1D卷积网络自动化Covid-19疾病诊断。此外，使用DDAE（数据去噪自动编码器）技术来产生诸如输入功能的深声特征，而不是采用MFCC（MEL频率跳跃系数）的标准输入，并且它更好地执行比以前的型号的准确性和性能。

translated by 谷歌翻译

Proceedings of the 3rd International Workshop on Reading Music Systems

Jorge Calvo-Zaragoza , Alexander Pacha

分类：计算机视觉 | 机器学习

2022-12-01

The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 3rd International Workshop on Reading Music Systems, held in Alicante on the 23rd of July 2021.

translated by 谷歌翻译

Eat-Radar: Continuous Fine-Grained Eating Gesture Detection Using FMCW Radar and 3D Temporal Convolutional Network

Chunzhuo Wang , T. Sunil Kumar , Walter De Raedt , Guido Camps , Hans Hallez , Bart Vanrumste

分类：计算机视觉

2022-11-08

Unhealthy dietary habits are considered as the primary cause of multiple chronic diseases such as obesity and diabetes. The automatic food intake monitoring system has the potential to improve the quality of life (QoF) of people with dietary related diseases through dietary assessment. In this work, we propose a novel contact-less radar-based food intake monitoring approach. Specifically, a Frequency Modulated Continuous Wave (FMCW) radar sensor is employed to recognize fine-grained eating and drinking gestures. The fine-grained eating/drinking gesture contains a series of movement from raising the hand to the mouth until putting away the hand from the mouth. A 3D temporal convolutional network (3D-TCN) is developed to detect and segment eating and drinking gestures in meal sessions by processing the Range-Doppler Cube (RD Cube). Unlike previous radar-based research, this work collects data in continuous meal sessions. We create a public dataset that contains 48 meal sessions (3121 eating gestures and 608 drinking gestures) from 48 participants with a total duration of 783 minutes. Four eating styles (fork & knife, chopsticks, spoon, hand) are included in this dataset. To validate the performance of the proposed approach, 8-fold cross validation method is applied. Experimental results show that our proposed 3D-TCN outperforms the model that combines a convolutional neural network and a long-short-term-memory network (CNN-LSTM), and also the CNN-Bidirectional LSTM model (CNN-BiLSTM) in eating and drinking gesture detection. The 3D-TCN model achieves a segmental F1-score of 0.887 and 0.844 for eating and drinking gestures, respectively. The results of the proposed approach indicate the feasibility of using radar for fine-grained eating and drinking gesture detection and segmentation in meal sessions.

translated by 谷歌翻译

Project Achoo: A Practical Model and Application for COVID-19 Detection from Recordings of Breath, Voice, and Cough

Alexander Ponomarchuk , Ilya Burenko , Elian Malkin , Ivan Nazarov , Vladimir Kokh , Manvel Avetisian , Leonid Zhukov

分类：机器学习

2021-07-12

Covid-19大流行为感染检测和监测解决方案产生了重大的兴趣和需求。在本文中，我们提出了一种机器学习方法，可以使用在消费者设备上进行的录音来快速分离Covid-19。该方法将信号处理方法与微调深层学习网络相结合，提供了信号去噪，咳嗽检测和分类的方法。我们还开发并部署了一个移动应用程序，使用症状检查器与语音，呼吸和咳嗽信号一起使用，以检测Covid-19感染。该应用程序对两个开放的数据集和最终用户在测试版测试期间收集的嘈杂数据显示了鲁棒性能。

translated by 谷歌翻译

Western Mediterranean wetlands bird species classification: evaluating small-footprint deep learning approaches on a new annotated dataset

Juan Gómez-Gómez , Ester Vidaña-Vila , Xavier Sevillano

分类：人工智能

2022-07-12

由生物声监测设备组成的无线声传感器网络运行的专家系统的部署，从声音中识别鸟类物种将使许多生态价值任务自动化，包括对鸟类种群组成的分析或濒危物种的检测在环境感兴趣的地区。由于人工智能的最新进展，可以将这些设备具有准确的音频分类功能，其中深度学习技术出色。但是，使生物声音设备负担得起的一个关键问题是使用小脚印深神经网络，这些神经网络可以嵌入资源和电池约束硬件平台中。因此，这项工作提供了两个重型和大脚印深神经网络（VGG16和RESNET50）和轻量级替代方案MobilenetV2之间的批判性比较分析。我们的实验结果表明，MobileNetV2的平均F1得分低于RESNET50（0.789 vs. 0.834）的5 \％，其性能优于VGG16，其足迹大小近40倍。此外，为了比较模型，我们创建并公开了西部地中海湿地鸟类数据集，其中包括201.6分钟和5,795个音频摘录，摘录了20种特有鸟类的aiguamolls de l'empord \ e empord \`一个自然公园。

translated by 谷歌翻译

Evaluating robustness of You Only Hear Once(YOHO) Algorithm on noisy audios in the VOICe Dataset

Soham Tiwari , Kshitiz Lakhotia , Manjunath Mulimani

分类：自然语言处理

2021-11-01

机器侦听中的声音事件检测（SED）需要识别音频文件中的不同声音，并识别音频中特定声音事件的开始和结束时间。 SED在多媒体数据库中发现了在各种应用中的应用，例如音频监控，语音识别和基于上下文的索引和检索数据。然而，在现实生活场景中，来自各种来源的声音很少没有任何干扰噪音或干扰。在本文中，我们在嘈杂的音频数据上测试您只听到一次（Yoho）算法的性能。由您的灵感仅仅看一次（YOLO）算法在计算机视觉中，yoho算法可以匹配数据集上各种最先进的算法的性能，如音乐语音检测数据集，TUT声音事件和城市 - SED数据集，但在较低的推理时间。在本文中，我们探讨了Yoho算法在包含不同声音噪声比（SNR）的噪声的音频文件的语音数据集的性能。 Yoho可以胜过或至少匹配语音数据集纸中的最佳性能SED算法，并在更短的时间内进行推断。

translated by 谷歌翻译

MT3: Multi-Task Multitrack Music Transcription

Josh Gardner , Ian Simon , Ethan Manilow , Curtis Hawthorne , Jesse Engel

分类：机器学习

2021-11-04

自动音乐转录（AMT），从原始音频推断出音符，是音乐理解核心的具有挑战性的任务。与通常专注于单个扬声器的单词的自动语音识别（ASR）不同，AMT通常需要同时转换多个仪器，同时保留微量间距和定时信息。此外，许多AMT数据集是“低资源”，甚至甚至专家音乐家发现音乐转录困难和耗时。因此，事先工作专注于任务特定的架构，对每个任务的个体仪器量身定制。在这项工作中，通过对低资源自然语言处理（NLP）的序列到序列转移学习的有前途的结果，我们证明了通用变压器模型可以执行多任务AMT，共同转录音乐的任意组合跨几个转录数据集的仪器。我们展示了统一培训框架在一系列数据集中实现了高质量的转录结果，大大提高了低资源仪器（如吉他）的性能，同时为丰富的仪器（如钢琴）保持了强大的性能。最后，通过扩大AMT的范围，我们揭示了更加一致的评估指标和更好的数据集对齐，并为这个新的多任务AMT的新方向提供了强的基线。

translated by 谷歌翻译

The CORSMAL benchmark for the prediction of the properties of containers

Alessio Xompero , Santiago Donaher , Vladimir Iashin , Francesca Palermo , Gökhan Solak , Claudio Coppola , Reina Ishikawa , Yuichi Nagao , Ryo Hachiuma , Qi Liu

分类：计算机视觉

2021-07-27

声学和视觉感测可以在人操纵时支持容器重量和其内容量的非接触式估计。但是，Opaquent和透明度（包括容器和内容的透明度）以及材料，形状和尺寸的可变性都会使这个问题具有挑战性。在本文中，我们向基准方法提出了一个开放框架，用于估计容器的容量，以及其内容的类型，质量和量。该框架包括数据集，明确定义的任务和性能测量，基线和最先进的方法，以及对这些方法的深入比较分析。使用单独的音频或音频和视觉数据的组合使用具有音频的神经网络的深度学习，用于分类内容的类型和数量，无论是独立的还是共同。具有视觉数据的回归和几何方法是优选的，以确定容器的容量。结果表明，使用仅使用Audio作为输入模块的方法对内容类型和级别进行分类，可分别获得加权平均F1-得分高达81％和97％。估计仅具有视觉视觉的近似接近和填充质量的容器容量，具有视听，多级算法达到65％的加权平均容量和质量分数。

translated by 谷歌翻译

Lightweight Transformers for Human Activity Recognition on Mobile Devices

Sannara EK , François Portet , Philippe Lalanda

分类：计算机视觉 | 人工智能 | 机器学习

2022-09-22

移动设备上的人类活动识别（HAR）已证明可以通过从用户的惯性测量单元（IMU）生成的数据中学到的轻量级神经模型来实现。基于Instanced HAR的大多数方法都使用卷积神经网络（CNN），长期记忆（LSTMS）或两者组合以实现实时性能来实现最新结果。最近，在语言处理域中，然后在视觉域中的变形金刚体系结构进一步推动了对古典体系结构的最先进。但是，这种变形金刚在计算资源中是重量级的，它不适合在Pervasive Computing域中找到HAR的嵌入式应用程序。在这项研究中，我们提出了人类活动识别变压器（HART），这是一种轻巧的，传感器的变压器结构，已专门适用于嵌入移动设备上的IMU的域。我们对HAR任务的实验具有几个公开可用的数据集，表明HART使用较少的每秒浮点操作（FLOPS）和参数，同时超过了当前的最新结果。此外，我们在各种体系结构中对它们在异质环境中的性能进行了评估，并表明我们的模型可以更好地推广到不同的感应设备或体内位置。

translated by 谷歌翻译