本文介绍了一位深钢筋学习代理(AI),它使用声音作为IEEE COG 2022的DareFightingings竞赛中Darefightingings平台上的输入。尽管最新的AI主要依赖于其环境提供的视觉或结构化观察结果,但学会从Sound玩游戏仍然是新的,因此具有挑战性。我们建议使用不同的方法来处理音频数据,并为盲人AI使用近端策略优化算法。我们还建议利用盲人AI评估提交竞争的声音设计,并为此任务定义两个指标。实验结果不仅显示了我们的盲人AI,而且还提出了两个指标的有效性。
translated by 谷歌翻译
Air pollution is an emerging problem that needs to be solved especially in developed and developing countries. In Vietnam, air pollution is also a concerning issue in big cities such as Hanoi and Ho Chi Minh cities where air pollution comes mostly from vehicles such as cars and motorbikes. In order to tackle the problem, the paper focuses on developing a solution that can estimate the emitted PM2.5 pollutants by counting the number of vehicles in the traffic. We first investigated among the recent object detection models and developed our own traffic surveillance system. The observed traffic density showed a similar trend to the measured PM2.5 with a certain lagging in time, suggesting a relation between traffic density and PM2.5. We further express this relationship with a mathematical model which can estimate the PM2.5 value based on the observed traffic density. The estimated result showed a great correlation with the measured PM2.5 plots in the urban area context.
translated by 谷歌翻译
Despite their popularity in deep learning and machine learning in general, the theoretical properties of adaptive optimizers such as Adagrad, RMSProp, Adam or AdamW are not yet fully understood. In this paper, we develop a novel framework to study the stability and generalization of these optimization methods. Based on this framework, we show provable guarantees about such properties that depend heavily on a single parameter $\beta_2$. Our empirical experiments support our claims and provide practical insights into the stability and generalization properties of adaptive optimization methods.
translated by 谷歌翻译
我们提出了一个数据收集和注释管道,该数据从越南放射学报告中提取信息,以提供胸部X射线(CXR)图像的准确标签。这可以通过注释与其特有诊断类别的数据相匹配,这些数据可能因国家而异。为了评估所提出的标签技术的功效,我们构建了一个包含9,752项研究的CXR数据集,并使用该数据集的子集评估了我们的管道。以F1得分为至少0.9923,评估表明,我们的标签工具在所有类别中都精确而始终如一。构建数据集后,我们训练深度学习模型,以利用从大型公共CXR数据集传输的知识。我们采用各种损失功能来克服不平衡的多标签数据集的诅咒,并使用各种模型体系结构进行实验,以选择提供最佳性能的诅咒。我们的最佳模型(CHEXPERT-FRECTER EDIDENENET-B2)的F1得分为0.6989(95%CI 0.6740,0.7240),AUC为0.7912,敏感性为0.7064,特异性为0.8760,普遍诊断为0.8760。最后,我们证明了我们的粗分类(基于五个特定的异常位置)在基准CHEXPERT数据集上获得了可比的结果(十二个病理),以进行一般异常检测,同时在所有类别的平均表现方面提供更好的性能。
translated by 谷歌翻译
这项研究介绍了我们对越南语言和语音处理任务(VLSP)挑战2021的文本处理任务的医疗保健领域的自动越南图像字幕的方法作为编码器的体系结构和长期的短期内存(LSTM)作为解码器生成句子。这些模型在不同的数据集中表现出色。我们提出的模型还具有编码器和一个解码器,但是我们在编码器中使用了SWIN变压器,LSTM与解码器中的注意模块结合在一起。该研究介绍了我们在比赛期间使用的培训实验和技术。我们的模型在vietcap4h数据集上达到了0.293的BLEU4分数,并且该分数在私人排行榜上排名3 $^{rd} $。我们的代码可以在\ url {https://git.io/jddjm}上找到。
translated by 谷歌翻译
尽管在文档理解方面取得了成功,但由于计算中的几个挑战以及如何有效吸收长期多模式输入,因此长期文档理解的实际任务在很大程度上尚未探索。大多数基于变压器的方法仅处理简短的文档,并且由于其过度的计算和内存限制,因此仅使用文本信息来引起注意。为了解决长期文档理解中的这些问题,我们探索了处理1D和新的2D位置引人入胜的不同方法,并以本质上的背景缩短了。实验结果表明,我们提出的模型基于各种评估指标具有此任务的优势。此外,我们的模型仅对注意力进行更改,因此很容易适应任何基于变压器的体系结构。
translated by 谷歌翻译
当代人工神经网络(ANN)是经过训练的端到端,共同学习功能和分类器以完成感兴趣的任务。尽管非常有效,但这种范式在组装带注释的特定任务数据集和培训大规模网络方面施加了巨大的成本。我们建议通过引入视觉生物标志物分类的辅助预任务来将特征从下游肺超声任务中学习。我们证明,通过培训模型来预测生物标记标签,可以从超声视频中学习一个内容丰富,简洁和可解释的功能空间。值得注意的是,可以从弱视频尺度监督注释的数据中培训生物标志物功能提取器。这些功能可以由针对各种临床任务的各种下游专家模型(诊断,肺严重程度,S/F比)使用。至关重要的是,特定于任务的专家模型的准确性与直接训练此类目标任务的端到端模型相当,同时训练成本大大降低。
translated by 谷歌翻译
基于硬件的加速度是促进许多计算密集型数学操作的广泛尝试。本文提出了一个基于FPGA的体系结构来加速卷积操作 - 在许多卷积神经网络模型中出现的复杂且昂贵的计算步骤。我们将设计定为标准卷积操作,打算以边缘-AI解决方案启动产品。该项目的目的是产生一个可以一次处理卷积层的FPGA IP核心。系统开发人员可以使用Verilog HDL作为体系结构的主要设计语言来部署IP核心。实验结果表明,我们在简单的边缘计算FPGA板上合成的单个计算核心可以提供0.224 GOPS。当董事会充分利用时,可以实现4.48 GOP。
translated by 谷歌翻译
建筑聊天禁令的最大挑战是培训数据。所需的数据必须逼真,足以训练聊天禁止。我们创建一个工具,用于从Facebook页面的Facebook Messenger获取实际培训数据。在文本预处理步骤之后,新获得的数据集生成FVNC和示例数据集。我们使用返回越南(Phobert)的伯特来提取文本数据的功能。 K-means和DBSCAN聚类算法用于基于Phobert $ _ {Base} $的输出嵌入式群集任务。我们应用V测量分数和轮廓分数来评估聚类算法的性能。我们还展示了Phobert的效率与样本数据集和Wiki DataSet上的特征提取中的其他模型相比。还提出了一种结合聚类评估的GridSearch算法来找到最佳参数。由于群集如此多的对话,我们节省了大量的时间和精力来构建培训Chatbot的数据和故事情节。
translated by 谷歌翻译
我们提出了一种称为基本的组合缩放方法,可在ImageNet ILSVRC-2012验证集上实现85.7%的前1个零点精度,超越了最佳发布的零拍模型 - 剪辑并对齐 - 达9.3%。我们的基本模式还显示出鲁棒性基准的显着改进。例如,在5个测试集中,具有自然分布换档,如想象的 - {A,R,V2,素描}和ObjectNet,我们的车型实现了83.7%的前1个平均精度,只有一个小幅度从其原始的想象精度下降。为实现这些结果,我们扩大了剪辑的对比学习框架,并在三个方面对齐:数据大小,型号大小和批量大小。我们的数据集具有6.6B噪声图像文本对,比对齐的4倍,比夹子大16倍。我们最大的型号具有3B重量,参数比为3.75倍,拖鞋比对齐和夹子更大。我们的批量尺寸为65536,比剪辑的2倍,4倍超过对齐。缩放的主要挑战是我们的加速器的内存有限,如GPU和TPU。因此,我们提出了一种在线渐变缓存的简单方法来克服这个限制。
translated by 谷歌翻译