智能论文笔记

iGibson 2.0: Object-Centric Simulation for Robot Learning of Everyday Household Tasks

Chengshu Li , Fei Xia , Roberto Martín-Martín , Michael Lingelbach , Sanjana Srivastava , Bokui Shen , Kent Vainio , Cem Gokmen , Gokul Dharan , Tanish Jain

分类：机器人 | 人工智能 | 计算机视觉 | 机器学习

2021-08-06

最近在体现AI中的研究已经通过使用模拟环境来开发和培训机器人学习方法。然而，使用模拟已经引起了只需要机器人模拟器可以模拟的任务：运动和物理接触的任务。我们呈现IGIBSON 2.0，一个开源仿真环境，通过三个关键创新支持模拟更多样化的家庭任务。首先，IGIBSON 2.0支持对象状态，包括温度，湿度水平，清洁度和切割和切片状态，以涵盖更广泛的任务。其次，IGIBSON 2.0实现了一组谓词逻辑函数，该逻辑函数将模拟器状态映射到烹饪或浸泡等逻辑状态。另外，给定逻辑状态，IGIBSON 2.0可以对满足它的有效物理状态进行示例。此功能可以以最少的努力从用户生成潜在的无限实例。采样机制允许我们的场景在语义有意义的位置中的小对象更密集地填充。第三，IGIBSON 2.0包括虚拟现实（VR）界面，以将人类浸入其场景以收集示威操作。因此，我们可以从这些新型任务中收集人类的示威活动，并使用它们进行模仿学习。我们评估了IGIBSON 2.0的新功能，以实现新的任务的机器人学习，希望能够展示这一新模拟器的潜力来支持体现AI的新研究。 IGIBSON 2.0及其新数据集可在http://svl.stanford.edu/igibson/上公开提供。

translated by 谷歌翻译

EDICT: Exact Diffusion Inversion via Coupled Transformations

Bram Wallace , Akash Gokul , Nikhil Naik

分类：计算机视觉 | 人工智能 | 机器学习

2022-11-22

Finding an initial noise vector that produces an input image when fed into the diffusion process (known as inversion) is an important problem in denoising diffusion models (DDMs), with applications for real image editing. The state-of-the-art approach for real image editing with inversion uses denoising diffusion implicit models (DDIMs) to deterministically noise the image to the intermediate state along the path that the denoising would follow given the original conditioning. However, DDIM inversion for real images is unstable as it relies on local linearization assumptions, which result in the propagation of errors, leading to incorrect image reconstruction and loss of content. To alleviate these problems, we propose Exact Diffusion Inversion via Coupled Transformations (EDICT), an inversion method that draws inspiration from affine coupling layers. EDICT enables mathematically exact inversion of real and model-generated images by maintaining two coupled noise vectors which are used to invert each other in an alternating fashion. Using Stable Diffusion, a state-of-the-art latent diffusion model, we demonstrate that EDICT successfully reconstructs real images with high fidelity. On complex image datasets like MS-COCO, EDICT reconstruction significantly outperforms DDIM, improving the mean square error of reconstruction by a factor of two. Using noise vectors inverted from real images, EDICT enables a wide range of image edits--from local and global semantic edits to image stylization--while maintaining fidelity to the original image structure. EDICT requires no model training/finetuning, prompt tuning, or extra data and can be combined with any pretrained DDM. Code is available at https://github.com/salesforce/EDICT.

translated by 谷歌翻译

Towards Building Text-To-Speech Systems for the Next Billion Users

Gokul Karthik Kumar , Praveen S V , Pratyush Kumar , Mitesh M. Khapra , Karthik Nandakumar

分类：自然语言处理 | 机器学习

2022-11-17

Deep learning based text-to-speech (TTS) systems have been evolving rapidly with advances in model architectures, training methodologies, and generalization across speakers and languages. However, these advances have not been thoroughly investigated for Indian language speech synthesis. Such investigation is computationally expensive given the number and diversity of Indian languages, relatively lower resource availability, and the diverse set of advances in neural TTS that remain untested. In this paper, we evaluate the choice of acoustic models, vocoders, supplementary loss functions, training schedules, and speaker and language diversity for Dravidian and Indo-Aryan languages. Based on this, we identify monolingual models with FastPitch and HiFi-GAN V1, trained jointly on male and female speakers to perform the best. With this setup, we train and evaluate TTS models for 13 languages and find our models to significantly improve upon existing models in all languages as measured by mean opinion scores. We open-source all models on the Bhashini platform.

translated by 谷歌翻译

A Systematic Literature Review of Soft Computing Techniques for Software Maintainability Prediction: State-of-the-Art, Challenges and Future Directions

Gokul Yenduri , Thippa Reddy Gadekallu

分类：人工智能

2022-09-21

该软件随着先进技术和方法论的发明而迅速变化。响应不断变化的业务需求而快速，成功升级软件的能力比以往任何时候都重要。对于软件产品的长期管理，测量软件可维护性至关重要。通过提供软件可维护性的准确预测，将软计算技术用于软件可维护性预测，在软件维护过程中表现出了巨大的希望。为了更好地了解软计算技术在软件可维护性预测中的作用，我们旨在为软件可维护性预测提供对软计算技术的系统文献综述。首先，我们提供了软件可维护性的详细概述。之后，我们探讨了软件可维护性的基本原理以及采用软计算方法来预测软件可维护性的原因。后来，我们检查了软件可维护预测过程中采用的软计算方法。此外，我们讨论了与使用软计算技术预测软件可维护性相关的困难和潜在解决方案。最后，我们以一些有希望的未来方向来结束审查，以推动这一有前途的领域的进一步研究创新和发展。

translated by 谷歌翻译

Metaverse for Healthcare: A Survey on Potential Applications, Challenges and Future Directions

Rajeswari Chengoden , Nancy Victor , Thien Huynh-The , Gokul Yenduri , Rutvij H. Jhaveri , Mamoun Alazab , Sweta Bhattacharya , Pawan Hegde , Praveen Kumar Reddy Maddikunta , Thippa Reddy Gadekallu

分类：人工智能

2022-09-09

数字化和自动化方面的快速进步导致医疗保健的加速增长，从而产生了新型模型，这些模型正在创造新的渠道，以降低成本。 Metaverse是一项在数字空间中的新兴技术，在医疗保健方面具有巨大的潜力，为患者和医生带来了现实的经验。荟萃分析是多种促成技术的汇合，例如人工智能，虚拟现实，增强现实，医疗设备，机器人技术，量子计算等。通过哪些方向可以探索提供优质医疗保健治疗和服务的新方向。这些技术的合并确保了身临其境，亲密和个性化的患者护理。它还提供自适应智能解决方案，以消除医疗保健提供者和接收器之间的障碍。本文对医疗保健的荟萃分析提供了全面的综述，强调了最新技术的状态，即采用医疗保健元元的能力技术，潜在的应用程序和相关项目。还确定了用于医疗保健应用的元元改编的问题，并强调了合理的解决方案作为未来研究方向的一部分。

translated by 谷歌翻译

Prior Knowledge-Guided Attention in Self-Supervised Vision Transformers

Kevin Miao , Akash Gokul , Raghav Singh , Suzanne Petryk , Joseph Gonzalez , Kurt Keutzer , Trevor Darrell , Colorado Reed

分类：计算机视觉

2022-09-07

自我监督的表示学习的最新趋势集中在消除训练管道中的归纳偏见。但是，当可用数据有限时，归纳偏差在设置中可能很有用，或者提供对基础数据分布的更多见解。我们提出了空间注意（SPAN），该框架利用未标记的图像数据集中使用一致的空间和语义结构来指导视觉变压器的注意。 SPAN通过将注意力面罩从单独的变压器头正规化，以跟随语义区域的各个先验。这些先验可以从数据统计数据或域专家提供的单个标记样本中得出。我们研究了几种详细的现实情况，包括医学图像分析和视觉质量保证。我们发现，所产生的注意力面膜比从域 - 不合义预审进的掩码更容易解释。 SPAN可为肺和心脏分割产生58.7的地图改进。我们还发现，与结构域 - 不合稳定的预处理相比，我们的方法在将验证的模型转移到下游胸部疾病分类任务时会产生2.2个MAUC的改善。最后，我们表明，与域 - 不可屈服的预处理相比，跨越预处理会导致低数据表格中的下游分类性能更高。

translated by 谷歌翻译

Refine and Represent: Region-to-Object Representation Learning

Akash Gokul , Konstantinos Kallidromitis , Shufan Li , Yusuke Kato , Kazuki Kozuka , Trevor Darrell , Colorado J Reed

分类：计算机视觉

2022-08-25

自我监督学习中的最新作品通过以对象为中心或基于区域的对应目标进行预处理，在场景级密集的预测任务上表现出了强劲的表现。在本文中，我们介绍了区域对象表示学习（R2O），该学习统一了基于区域的和以对象为中心的预处理。 R2O通过训练编码器以动态完善基于区域的段为中心的蒙版，然后共同学习掩模中内容的表示形式。 R2O使用“区域改进模块”将使用区域级先验生成的小图像区域分组为较大的区域，这些区域倾向于通过聚类区域级特征对应对应对象。随着训练的进展，R2O遵循了一个区域到对象的课程，该课程鼓励学习区域级的早期特征并逐渐进步以训练以对象为中心的表示。使用R2O的表示形式导致了Pascal VOC（+0.7 MIOU）和CityScapes（+0.4 MIOU）的语义细分表现最先进的表现，并在MS Coco（+0.3 Mask AP）上进行了实例细分。此外，在对Imagenet进行了预审进之后，R2O预处理的模型能够超过Caltech-UCSD Birds 200-2011数据集（+2.9 MIOU）的无监督物体细分中现有的最新对象细分。我们在https://github.com/kkallidromitis/r2o上提供了这项工作的代码/模型。

translated by 谷歌翻译

Game-Theoretic Algorithms for Conditional Moment Matching

Gokul Swamy , Sanjiban Choudhury , J. Andrew Bagnell , Zhiwei Steven Wu

分类：机器学习

2022-08-19

计量经济学和机器学习中的各种问题，包括仪器变量回归和钟声残留最小化，可以表达为满足一组条件矩限制（CMR）。我们得出了满足CMR的一般游戏理论策略，该策略可扩展到非线性问题，可与基于梯度的优化相提并论，并且能够考虑有限的样本不确定性。我们恢复了Dikkala等人的方法。和Dai等。作为我们一般框架的特殊情况，请先详细介绍各种扩展，以及如何有效地解决CMR定义的游戏。

translated by 谷歌翻译

Sequence Model Imitation Learning with Unobserved Contexts

Gokul Swamy , Sanjiban Choudhury , J. Andrew Bagnell , Zhiwei Steven Wu

分类：机器学习

2022-08-03

我们考虑模仿学习问题，在这些问题中，专家可以在演示时间和测试时间内访问学习者隐藏的每个集合上下文。尽管学习者可能无法通过考虑整个国家和行动的历史来早期在情节中准确地重现专家行为，但他们可能最终能够识别上下文并像专家一样行事。我们证明，与非政策的方法相比，在政策模仿学习算法（有或不访问可查询的专家）都可以更好地处理这些渐近性问题，并且能够避免闩锁行为（对过去的动作的天真重复）这困扰着后者。我们在玩具匪徒域中进行实验，该实验表明，与统一的policy方法的均匀性能相比，非政策方法是否能够渐近地匹配专家的性能。我们证明，在几个连续的控制任务上，政策方法能够使用历史记录来识别上下文，而在访问历史记录时，违反政策方法实际上表现较差。

translated by 谷歌翻译

Minimax Optimal Online Imitation Learning via Replay Estimation

Gokul Swamy , Nived Rajaraman , Matthew Peng , Sanjiban Choudhury , J. Andrew Bagnell , Zhiwei Steven Wu , Jiantao Jiao , Kannan Ramchandran

分类：机器学习 | (统计)机器学习

2022-05-30

在线模仿学习是如何最好地访问环境或准确的模拟器的问题的问题。先前的工作表明，在无限的样本制度中，匹配的确切力矩达到了与专家政策的价值等效性。但是，在有限的样本制度中，即使没有优化错误，经验差异也会导致性能差距，该差距以$ h^2 / n $的行为克隆缩放，在线时刻$ h / \ sqrt {n} $匹配，其中$ h $是地平线，$ n $是专家数据集的大小。我们介绍了重播估算的技术以减少这种经验差异：通过反复在随机模拟器中执行缓存的专家动作，我们计算了一个更平滑的专家访问分布估算以匹配的。在存在一般函数近似的情况下，我们证明了一个元定理，可以减少离线分类参数估计误差的方法差距（即学习专家策略）。在表格设置或使用线性函数近似中，我们的元定理表明，我们方法产生的性能差距达到了最佳$ \ widetilde {o} \ left（\ min（\ min（{h^h^{3/2}}}} / {n} ，{h} / {\ sqrt {n}} \ right）$依赖关系，在与先前的工作相比明显弱的假设下。我们在多个连续的控制任务上实施了多个方法的多次实例化，并发现我们能够显着提高策略绩效跨各种数据集尺寸。

translated by 谷歌翻译