智能论文笔记

Automated Systems For Diagnosis of Dysgraphia in Children: A Survey and Novel Framework

Jayakanth Kunhoth , Somaya Al-Maadeed , Suchithra Kunhoth , Younus Akbari

分类：机器学习 | 人工智能 | 计算机视觉

2022-06-27

众所周知，学习障碍主要干扰阅读，写作和数学等基本学习技能，会影响世界上约10％的儿童。作为神经发育障碍的一部分的运动技能和运动协调不足可能成为学习写作困难（障碍）的原因因素，从而阻碍了个人的学术轨道。障碍症的体征和症状包括但不限于不规则的笔迹，不正确的写作媒介处理，缓慢或劳力的写作，不寻常的手部位等。所有类型的学习障碍的评估标准是由医学医学进行的检查专家。少数可用的人工智能筛查系统用于障碍症，依赖于相应图像中手写的独特特征。这项工作对文献中儿童的现有自动化障碍诊断系统进行了综述。这项工作的主要重点是审查基于人工智能的儿童诊断的基于人工智能的系统。这项工作讨论了数据收集方法，重要的手写功能，用于诊断障碍症的文献中使用的机器学习算法。除此之外，本文还讨论了一些基于非人工智能的自动化系统。此外，本文讨论了现有系统的缺点，并提出了一个新颖的障碍诊断框架。

translated by 谷歌翻译

Russia-Ukraine war: Modeling and Clustering the Sentiments Trends of Various Countries

Hamed Vahdat-Nejad , Mohammad Ghasem Akbari , Fatemeh Salmani , Faezeh Azizi , Hamid-Reza Nili-Sani

分类：自然语言处理

2023-01-02

With Twitter's growth and popularity, a huge number of views are shared by users on various topics, making this platform a valuable information source on various political, social, and economic issues. This paper investigates English tweets on the Russia-Ukraine war to analyze trends reflecting users' opinions and sentiments regarding the conflict. The tweets' positive and negative sentiments are analyzed using a BERT-based model, and the time series associated with the frequency of positive and negative tweets for various countries is calculated. Then, we propose a method based on the neighborhood average for modeling and clustering the time series of countries. The clustering results provide valuable insight into public opinion regarding this conflict. Among other things, we can mention the similar thoughts of users from the United States, Canada, the United Kingdom, and most Western European countries versus the shared views of Eastern European, Scandinavian, Asian, and South American nations toward the conflict.

translated by 谷歌翻译

Scaling Multimodal Pre-Training via Cross-Modality Gradient Harmonization

Junru Wu , Yi Liang , Feng Han , Hassan Akbari , Zhangyang Wang , Cong Yu

分类：计算机视觉 | 人工智能 | 机器学习

2022-11-03

Self-supervised pre-training recently demonstrates success on large-scale multimodal data, and state-of-the-art contrastive learning methods often enforce the feature consistency from cross-modality inputs, such as video/audio or video/text pairs. Despite its convenience to formulate and leverage in practice, such cross-modality alignment (CMA) is only a weak and noisy supervision, since two modalities can be semantically misaligned even they are temporally aligned. For example, even in the commonly adopted instructional videos, a speaker can sometimes refer to something that is not visually present in the current frame; and the semantic misalignment would only be more unpredictable for the raw videos from the internet. We conjecture that might cause conflicts and biases among modalities, and may hence prohibit CMA from scaling up to training with larger and more heterogeneous data. This paper first verifies our conjecture by observing that, even in the latest VATT pre-training using only instructional videos, there exist strong gradient conflicts between different CMA losses within the same video, audio, text triplet, indicating them as the noisy source of supervision. We then propose to harmonize such gradients, via two techniques: (i) cross-modality gradient realignment: modifying different CMA loss gradients for each sample triplet, so that their gradient directions are more aligned; and (ii) gradient-based curriculum learning: leveraging the gradient conflict information on an indicator of sample noisiness, to develop a curriculum learning strategy to prioritize training on less noisy sample triplets. Applying those techniques to pre-training VATT on the HowTo100M dataset, we consistently improve its performance on different downstream tasks. Moreover, we are able to scale VATT pre-training to more complicated non-narrative Youtube8M dataset to further improve the state-of-the-arts.

translated by 谷歌翻译

Image Quality Assessment for Foliar Disease Identification (AgroPath)

Nisar Ahmed , Hafiz Muhammad Shahzad Asif , Gulshan Saleem , Muhammad Usman Younus

分类：计算机视觉

2022-09-26

作物疾病是对粮食安全的主要威胁，其快速识别对于防止产量损失很重要。由于缺乏必要的基础设施，因此很难迅速识别这些疾病。计算机视觉的最新进展和智能手机渗透的渗透为智能手机辅助疾病识别铺平了道路。大多数植物疾病在植物的叶面结构上留下了特定的文物。这项研究于2020年在巴基斯坦拉合尔工程技术大学计算机科学与工程系进行，以检查基于叶片的植物疾病识别。这项研究为叶面疾病鉴定提供了基于神经网络的深度解决方案，并纳入了图像质量评估，以选择执行识别所需质量的图像，并将其命名为农业病理学家（AGRO PATH）。新手摄影师的捕获图像可能包含噪音，缺乏结构和模糊，从而导致诊断失败或不准确。此外，Agropath模型具有99.42％的叶面疾病鉴定精度。拟议的添加对于在农业领域的叶面疾病鉴定的应用特别有用。

translated by 谷歌翻译

PaLI: A Jointly-Scaled Multilingual Language-Image Model

Xi Chen , Xiao Wang , Soravit Changpinyo , AJ Piergiovanni , Piotr Padlewski , Daniel Salz , Sebastian Goodman , Adam Grycner , Basil Mustafa , Lucas Beyer

分类：计算机视觉 | 自然语言处理

2022-09-14

有效的缩放和灵活的任务接口使大型语言模型能够在许多任务中表现出色。帕利（Pali）根据视觉和文本输入生成文本，并使用该界面以许多语言执行许多视觉，语言和多模式任务。为了训练帕利，我们利用了大型的编码器语言模型和视觉变压器（VITS）。这使我们能够利用其现有能力，并利用培训它们的大量成本。我们发现，视觉和语言组成部分的联合缩放很重要。由于现有的语言变压器比其视觉对应物要大得多，因此我们训练迄今为止最大的VIT（VIT-E），以量化甚至大容量视觉模型的好处。为了训练Pali，我们基于一个新的图像文本训练集，其中包含10B图像和文本，以100多种语言来创建大型的多语言组合。帕利（Pali）在多个视觉和语言任务（例如字幕，视觉问题，索方式，场景文本理解）中实现了最新的，同时保留了简单，模块化和可扩展的设计。

translated by 谷歌翻译

Artificial intelligence-based locoregional markers of brain peritumoral microenvironment

Zahra Riahi Samani , Drew Parker , Hamed Akbari , Spyridon Bakas , Ronald L. Wolf , Steven Brem , Ragini Verma

分类：计算机视觉

2022-08-29

在恶性原发性脑肿瘤中，癌细胞浸润到周围的脑结构中，导致不可避免的复发。对周围区域的浸润性异质性（活检或切除可能是危险的区域）的定量评估对于临床决策很重要。以前关于表征周围区域浸润性异质性的工作使用了各种成像方式，但是已经探索了细胞外无水运动限制的信息。在这里，我们通过使用基于扩散的张量成像（DTI）的自由水量分数图来表征一组独特的人工智能（AI）标记，从而捕获肿瘤浸润的异质性，从而捕获肿瘤的异质性。首先通过利用胶质母细胞瘤和脑转移的广泛不同的水扩散性能作为在周围肿瘤组织中有和没有浸润的区域的区域，首先提取了一种新型的基于体素的深度学习周围微环境指数（PMI）。均匀高PMI值的局部枢纽的描述性特征被提取为基于AI的标记，以捕获渗透性异质性的不同方面。提出的标记物应用于两个临床用例，对275个成人型弥漫性神经胶质瘤的独立人群（4级）分析，分析异氯酸盐 - 脱水酶1（IDH1） - wildtypes之间的生存持续时间以及带有IDH1-杀剂的差异。我们的发现提供了一系列标记物作为浸润的替代物，可捕获有关周围微观结构异质性生物学潜在生物学的独特见解，使其成为与生存和分子分层有关的预后生物标志物，并具有潜在的适用性在临床决策中。

translated by 谷歌翻译

Causal Discovery in Probabilistic Networks with an Identifiable Causal Effect

Sina Akbari , Fateme Jamshidi , Ehsan Mokhtarian , Matthew J. Vowels , Jalal Etesami , Negar Kiyavash

分类：机器学习

2022-08-09

因果鉴定是因果推理文献的核心，在该文献中提出了完整的算法来识别感兴趣的因果问题。这些算法的有效性取决于访问正确指定的因果结构的限制性假设。在这项工作中，我们研究了可获得因果结构概率模型的环境。具体而言，因果图中的边缘是分配的概率，例如，可能代表来自领域专家的信念程度。另外，关于边缘的不确定的可能反映了特定统计检验的置信度。在这种情况下自然出现的问题是：给定这样的概率图和感兴趣的特定因果效应，哪些具有最高合理性的子图是什么？我们表明回答这个问题减少了解决NP-HARD组合优化问题，我们称之为边缘ID问题。我们提出有效的算法来近似此问题，并评估我们针对现实世界网络和随机生成图的算法。

translated by 谷歌翻译

Surrogate Modeling of Melt Pool Thermal Field using Deep Learning

AmirPouya Hemmasian , Francis Ogoke , Parand Akbari , Jonathan Malen , Jack Beuth , Amir Barati Farimani

分类：机器学习

2022-07-25

在过去的十年中，基于粉末的添加剂制造业改变了制造业。在激光粉床的融合中，特定部分以迭代方式建造，其中通过融化并融合粉末床的合适区域，在彼此之间形成二维横截面。在此过程中，熔体池及其热场的行为在预测制成部分的质量及其可能的缺陷方面具有非常重要的作用。但是，这种复杂现象的模拟通常非常耗时，需要大量的计算资源。 Flow-3D是能够使用迭代数值求解器执行此类仿真的软件包之一。在这项工作中，我们使用Flow-3D创建了三个单程过程的数据集，并使用它们来训练卷积神经网络，能够仅通过将三个参数作为输入来预测熔体池的三维热场的行为：激光功率，激光速度和时间步长。 CNN在预测熔体池面积的情况下，温度场的相对根平方误差为2％至3％，平均相交的联合分数为80％至90％。此外，由于将时间作为模型的输入之一包括在内，因此可以在任何任意时间步中立即获得热场，而无需迭代并计算所有步骤

translated by 谷歌翻译

Backbones-Review: Feature Extraction Networks for Deep Learning and Deep Reinforcement Learning Approaches

Omar Elharroussad , Younes Akbari , Noor Almaadeed , Somaya Al-Maadeed

分类：计算机视觉

2022-06-16

为了使用各种类型的数据理解现实世界，人工智能（AI）是当今最常用的技术。在分析数据中找到模式的同时表示主要任务。这是通过提取代表性特征步骤来执行的，该步骤是使用统计算法或使用某些特定过滤器进行的。但是，从大规模数据中选择有用的功能代表了至关重要的挑战。现在，随着卷积神经网络（CNN）的发展，功能提取操作变得更加自动和更容易。 CNN允许处理大规模的数据，并涵盖特定任务的不同方案。对于计算机视觉任务，卷积网络也用于为深度学习模型的其他部分提取功能。选择合适的网络用于特征提取或DL模型的其他部分不是随机工作。因此，这种模型的实现可能与目标任务以及其计算复杂性有关。已经提出了许多网络，并成为任何AI任务中任何DL模型的著名网络。这些网络被利用用于特征提取或在任何名为骨架的DL模型的开头。骨干是以前在许多其他任务中训练并证明其有效性的已知网络。在本文中，现有骨干的概述，例如详细说明给出了VGG，Resnets，Densenet等。此外，通过对所使用的骨干进行审查，讨论了几个计算机视觉任务。此外，还基于每个任务的骨干，还提供了性能的比较。

translated by 谷歌翻译

Minimum Cost Intervention Design for Causal Effect Identification

Sina Akbari , Jalal Etesami , Negar Kiyavash

分类：机器学习 | 人工智能

2022-05-04

Pearl's Do Colculus是一种完整的公理方法，可以从观察数据中学习可识别的因果效应。如果无法识别这种效果，则有必要在系统中执行经常昂贵的干预措施以学习因果效应。在这项工作中，我们考虑了设计干预措施以最低成本来确定所需效果的问题。首先，我们证明了这个问题是NP-HARD，随后提出了一种可以找到最佳解或对数因子近似值的算法。这是通过在我们的问题和最小击球设置问题之间建立联系来完成的。此外，我们提出了几种多项式启发式算法来解决问题的计算复杂性。尽管这些算法可能会偶然发现亚最佳解决方案，但我们的模拟表明它们在随机图上产生了小的遗憾。

translated by 谷歌翻译