智能论文笔记

RealityTalk: Real-Time Speech-Driven Augmented Presentation for AR Live Storytelling

Jian Liao , Adnan Karim , Shivesh Jadon , Rubaiat Habib Kazi , Ryo Suzuki

分类：自然语言处理

2022-08-12

我们介绍RealityTalk，该系统通过语音驱动的互动虚拟元素来增强实时实时演示。增强演示文稿利用嵌入式视觉效果和动画来吸引和表现力。但是，现有的实时演示工具通常缺乏互动性和即兴创作，同时在视频编辑工具中产生这种效果需要大量的时间和专业知识。RealityTalk使用户能够通过实时语音驱动的交互创建实时增强演示文稿。用户可以通过实时语音和支持方式进行交互提示，移动和操纵图形元素。根据我们对177个现有视频编辑的增强演示文稿的分析，我们提出了一套新颖的互动技术，然后将它们纳入真人秀。我们从主持人的角度评估我们的工具，以证明系统的有效性。

translated by 谷歌翻译

Sketched Reality: Sketching Bi-Directional Interactions Between Virtual and Physical Worlds with AR and Actuated Tangible UI

Hiroki Kaimoto , Kyzyl Monteiro , Mehrad Faridan , Jiatong Li , Samin Farajian , Yasuaki Kakehi , Ken Nakagaki , Ryo Suzuki

分类：机器人

2022-08-12

本文介绍了素描的现实，这种方法结合了AR素描和驱动的有形用户界面（TUI），用于双向素描交互。双向草图使虚拟草图和物理对象通过物理驱动和数字计算相互影响。在现有的AR素描中，虚拟世界和物理世界之间的关系只是一个方向 - 虽然物理互动会影响虚拟草图，但虚拟草图对物理对象或环境没有返回效果。相反，双向素描相互作用允许草图和驱动的tuis之间的无缝耦合。在本文中，我们采用桌面大小的小型机器人（Sony Toio）和基于iPad的AR素描工具来演示该概念。在我们的系统中，在iPad上绘制和模拟的虚拟草图（例如，线，墙壁，摆和弹簧）可以移动，动画，碰撞和约束物理Toio机器人，就像虚拟草图和物理对象存在于同一空间中一样通过AR和机器人运动之间的无缝耦合。本文贡献了一组新型的互动和双向AR素描的设计空间。我们展示了一系列潜在的应用，例如有形的物理教育，可探索的机制，儿童有形游戏以及通过素描的原位机器人编程。

translated by 谷歌翻译

EDAssistant: Supporting Exploratory Data Analysis in Computational Notebooks with In-Situ Code Search and Recommendation

Xingjun Li , Yizhi Zhang , Justin Leung , Chengnian Sun , Jian Zhao

分类：机器学习

2021-12-15

使用计算笔记本（例如，Jupyter Notebook），数据科学家根据他们的先前经验和外部知识（如在线示例）合理化他们的探索性数据分析（EDA）。对于缺乏关于数据集或问题的具体了解的新手或数据科学家，有效地获得和理解外部信息对于执行EDA至关重要。本文介绍了eDassistant，一个jupyterlab扩展，支持EDA的原位搜索示例笔记本电脑和有用的API的推荐，由搜索结果的新颖交互式可视化供电。代码搜索和推荐是由最先进的机器学习模型启用的，培训在线收集的EDA笔记本电脑的大型语料库。进行用户学习，以调查埃迪卡斯特和数据科学家的当前实践（即，使用外部搜索引擎）。结果证明了埃迪斯坦特的有效性和有用性，与会者赞赏其对EDA的顺利和环境支持。我们还报告了有关代码推荐工具的几种设计意义。

translated by 谷歌翻译

When Creators Meet the Metaverse: A Survey on Computational Arts

Lik-Hang Lee , Zijun Lin , Rui Hu , Zhengya Gong , Abhishek Kumar , Tangyao Li , Sijia Li , Pan Hui

分类：人工智能 | 机器学习

2021-11-26

MetaVerse，巨大的虚拟物理网络空间，为艺术家带来了前所未有的机会，将我们的身体环境的每个角落与数字创造力混合。本文对计算艺术进行了全面的调查，其中七个关键主题与成权相关，描述了混合虚拟物理现实中的新颖艺术品。主题首先涵盖了MetaVerse的建筑元素，例如虚拟场景和字符，听觉，文本元素。接下来，已经反映了诸如沉浸式艺术，机器人艺术和其他用户以其他用户的方法提供了沉浸式艺术，机器人艺术和其他用户中心的若干非凡类型的新颖创作。最后，我们提出了几项研究议程：民主化的计算艺术，数字隐私和搬迁艺术家的安全性，为数字艺术品，技术挑战等等的所有权认可。该调查还担任艺术家和搬迁技术人员的介绍材料，以开始在超现实主义网络空间领域创造。

translated by 谷歌翻译

NarrationBot and InfoBot: A Hybrid System for Automated Video Description

Shasta Ihorn , Yue-Ting Siu , Aditya Bodi , Lothar Narins , Jose M. Castanon , Yash Kant , Abhishek Das , Ilmi Yoon , Pooyan Fazli

分类：计算机视觉 | 机器学习

2021-11-07

视频可访问性对于盲人和低愿景用户来说至关重要，以获得教育，就业和娱乐的公平参与。尽管有专业和业余服务和工具，但大多数人类生成的描述都很昂贵且耗时。此外，人生成的描述的速率不能匹配视频产生的速度。为了克服视频可访问性的越来越多的空白，我们开发了两个工具的混合系统到1）自动生成视频的描述，2）提供响应于视频上的用户查询的答案或附加描述。与26例盲和低视力下的混合方法研究结果表明，当两种工具在串联中使用时，我们的系统会显着提高用户理解和享受所选视频的理解和享受。此外，参与者报告说，在呈现自生物的描述与人类修订的自动化描述相关时，没有显着差异。我们的结果表明了对发达系统的热情及其承诺提供对视频的定制访问。我们讨论了当前工作的局限性，并为自动视频描述工具的未来发展提供了建议。

translated by 谷歌翻译

Beyond Text Generation: Supporting Writers with Continuous Automatic Text Summaries

Hai Dang , Karim Benharrak , Florian Lehmann , Daniel Buschek

分类：自然语言处理

2022-08-19

我们提出了一个文本编辑器，以帮助用户计划，结构并反思其写作过程。它使用自动文本摘要提供了不断更新的段落摘要作为边缘注释。摘要级别范围从全文到选定的（中央）句子，一直到关键字的集合。为了了解用户在写作过程中如何与该系统进行交互，我们进行了两项用户研究（n = 4和n = 8），人们在其中写了有关给定主题和文章的分析文章。作为关键发现，这些摘要使用户对他们的写作有了外部视角，并帮助他们修改了草稿段落的内容和范围。人们进一步使用该工具快速获得文本概述，并制定了整合自动摘要中见解的策略。从更广泛的角度来看，这项工作探索并突出了为作家设计AI工具的价值，其自然语言处理（NLP）功能超出了直接文本生成和更正。

translated by 谷歌翻译

AI in HCI Design and User Experience

Wei Xu

分类：人工智能

2023-01-03

In this chapter, we review and discuss the transformation of AI technology in HCI/UX work and assess how AI technology will change how we do the work. We first discuss how AI can be used to enhance the result of user research and design evaluation. We then discuss how AI technology can be used to enhance HCI/UX design. Finally, we discuss how AI-enabled capabilities can improve UX when users interact with computing systems, applications, and services.

translated by 谷歌翻译

Towards Better User Studies in Computer Graphics and Vision

Zoya Bylinskii , Laura Herman , Aaron Hertzmann , Stefanie Hutka , Yile Zhang

分类：计算机视觉

2022-06-23

在线众包平台使对算法输出进行评估变得容易，并提出诸如“哪个图像更好，A或B？”之类的问题的调查，在视觉和图形研究论文中的这些“用户研究”的扩散导致了增加匆忙进行的研究充其量是草率且无知的，并且可能有害和误导。我们认为，在计算机视觉和图形论文中的用户研究的设计和报告需要更多关注。为了提高从业者的知识并提高用户研究的可信度和可复制性，我们提供了用户体验研究（UXR），人类计算机互动（HCI）和相关领域的方法论的概述。我们讨论了目前在计算机视觉和图形研究中未利用的基础用户研究方法（例如，需要调查），但可以为研究项目提供宝贵的指导。我们为有兴趣探索其他UXR方法的读者提供了进一步的指导。最后，我们描述了研究界的更广泛的开放问题和建议。我们鼓励作者和审稿人都认识到，并非每项研究贡献都需要用户研究，而且根本没有研究比不小心进行的研究更好。

translated by 谷歌翻译

Interactive Question Answering Systems: Literature Review

Giovanni Maria Biancofiore , Yashar Deldjoo , Tommaso Di Noia , Eugenio Di Sciascio , Fedelucio Narducci

分类：自然语言处理 | 人工智能

2022-09-04

问答系统被认为是流行且经常有效的信息在网络上寻求信息的手段。在这样的系统中，寻求信息者可以通过自然语言提出问题来获得对他们的查询的简短回应。交互式问题回答是一种最近提出且日益流行的解决方案，它位于问答和对话系统的交集。一方面，用户可以以普通语言提出问题，并找到对她的询问的实际回答；另一方面，如果在初始请求中有多个可能的答复，很少或歧义，则系统可以将问题交通会话延长到对话中。通过允许用户提出更多问题，交互式问题回答使用户能够与系统动态互动并获得更精确的结果。这项调查提供了有关当前文献中普遍存在的交互式提问方法的详细概述。它首先要解释提问系统的基本原理，从而定义新的符号和分类法，以将所有已确定的作品结合在统一框架内。然后，根据提出的方法，评估方法和数据集/应用程序域来介绍和检查有关交互式问题解答系统的审查已发表的工作。我们还描述了围绕社区提出的特定任务和问题的趋势，从而阐明了学者的未来利益。 GitHub页面的综合综合了本文献研究中涵盖的所有主要主题，我们的工作得到了进一步的支持。 https://sisinflab.github.io/interactive-question-answering-systems-survey/

translated by 谷歌翻译

TOKCS: Tool for Organizing Key Characteristics of VAM-HRI Systems

Thomas R. Groechel , Michael E. Walker , Christine T. Chang , Eric Rosen , Jessica Zosa Forde

分类：机器人

2021-08-07

框架已开始出现，以对提供沉浸式，直观的接口提供沉浸式，直观的界面的虚拟，增强和混合现实（VAM）技术来促进人机互动。然而，这些框架未能捕获VAM-HRI的生长子场的关键特性，并且由于连续尺度而难以持续应用。这项工作通过创建用于组织VAM-HRI系统（TOKC）的关键特征来构建这些先前的框架。 Tokcs离散地分离出现在先前作品中使用的连续尺度，以获得更一致的分类，并增加与机器人的内部模型，锚点位置，可操纵性和系统的软件相关的额外特征。为了展示工具的能力，TOKCS应用于来自第四届VAM-HRI车间的十篇论文，并检查了关键趋势和外卖。这些趋势突出了TOKCS的表现能力，同时还帮助框架更新的趋势和VAM-HRI研究的未来工作建议。

translated by 谷歌翻译

Cine-AI: Generating Video Game Cutscenes in the Style of Human Directors

Inan Evin , Perttu Hämäläinen , Christian Guckelsberger

分类：人工智能

2022-08-11

过场动物是许多视频游戏不可或缺的一部分，但是它们的创作既昂贵又耗时，并且需要许多游戏开发人员缺乏的技能。尽管AI已被利用为半自动过场动画的生产，但结果通常缺乏专业人类董事特征的样式的内部一致性和统一性。我们用Cine-AI克服了这一缺点，Cine-AI是一种开源程序性摄影工具集，能够以杰出的人类导演的风格生成游戏中过场动画。 Cine-AI在流行的游戏引擎团结中实现，具有新颖的时间轴和情节板界面，用于设计时间操纵，并结合运行时摄影自动化。通过两项使用定量和定性措施的用户研究，我们证明了Cine-AI产生过过过场动物，这些过场动物与目标主管正确关联，同时提供高于平均水平的可用性。我们的导演模仿数据集可公开使用，可以由用户和电影爱好者扩展。

translated by 谷歌翻译

Intent Recognition in Conversational Recommender Systems

Sahar Moradizeyveh

分类：自然语言处理 | 机器学习

2022-12-06

Any organization needs to improve their products, services, and processes. In this context, engaging with customers and understanding their journey is essential. Organizations have leveraged various techniques and technologies to support customer engagement, from call centres to chatbots and virtual agents. Recently, these systems have used Machine Learning (ML) and Natural Language Processing (NLP) to analyze large volumes of customer feedback and engagement data. The goal is to understand customers in context and provide meaningful answers across various channels. Despite multiple advances in Conversational Artificial Intelligence (AI) and Recommender Systems (RS), it is still challenging to understand the intent behind customer questions during the customer journey. To address this challenge, in this paper, we study and analyze the recent work in Conversational Recommender Systems (CRS) in general and, more specifically, in chatbot-based CRS. We introduce a pipeline to contextualize the input utterances in conversations. We then take the next step towards leveraging reverse feature engineering to link the contextualized input and learning model to support intent recognition. Since performance evaluation is achieved based on different ML models, we use transformer base models to evaluate the proposed approach using a labelled dialogue dataset (MSDialogue) of question-answering interactions between information seekers and answer providers.

translated by 谷歌翻译

Blind Users Accessing Their Training Images in Teachable Object Recognizers

Jonggi Hong , Jaina Gandhi , Ernest Essuah Mensah , Ebrima H Jarjue , Kyungjun Lee , Hernisa Kacorri

分类：计算机视觉

2022-08-16

培训和评估机器学习模型的迭代是提高其性能的重要过程。但是，尽管可教学的接口使盲人用户能够在其独特的环境中拍摄的照片训练和测试对象识别器，但训练迭代和评估步骤的可访问性很少受到关注。迭代假设训练照片的目视检查，对于盲人用户来说是无法访问的。我们通过MyCam探索了这一挑战，Mycam是一个移动应用程序，该应用程序合并了自动估计的描述符，以在用户培训集中对照片进行非视觉访问。我们探索盲人参与者（n = 12）如何通过他们的家中的评估研究与mycam和描述符相互作用。我们证明，实时照片级描述符使盲人用户能够用裁剪的对象减少照片，并且参与者可以通过迭代并访问其训练集的质量来增加更多的变化。此外，参与者发现该应用程序易于使用，表明他们可以有效地训练它，并且描述符很有用。但是，主观反应并未反映在其模型的性能中，部分原因是训练和混乱背景的变化很小。

translated by 谷歌翻译

The Gesture Authoring Space: Authoring Customised Hand Gestures for Grasping Virtual Objects in Immersive Virtual Environments

Alexander Schäfer , Gerd Reis , Didier Stricker

分类：计算机视觉

2022-07-03

天然用户界面正在上升。用于增强，虚拟和混合现实头架显示器的制造商正在越来越多地将新传感器整合到消费级产品中，从而允许没有其他硬件的手势识别。这为虚拟环境中的裸互动提供了新的可能性。这项工作提出了一种手势创作工具，用于特定对象的抓取手势，允许在现实世界中抓取虚拟对象。提出的解决方案使用模板匹配以进行手势识别，并且不需要技术知识来设计和创建定制的手势。在用户研究中，将提出的方法与捏合手势和控制虚拟对象的控制器进行了比较。根据准确性，任务完成时间，可用性和自然性比较不同的抓握技术。该研究表明，用所提出的方法创建的手势被用户视为比其他方法更自然的输入方式。

translated by 谷歌翻译

Calico: Relocatable On-cloth Wearables with Fast, Reliable, and Precise Locomotion

Anup Sathya , Jiasheng Li , Tauhidur Rahman , Ge Gao , Huaishu Peng

分类：机器人

2022-08-17

我们探索Calico是一种微型可重新定位的可穿戴系统，具有快速，精确的运动，用于体内相互作用，驱动和感应。印花布由两轮机器人和一条轨道机制或“铁路”组成，机器人在其上行驶。机器人具有独立的，尺寸很小，并且具有其他传感器扩展选项。轨道系统允许机器人沿着用户的身体移动并到达任何预定位置。它还包括旋转开关以启用复杂的路由选项，当提出发散轨道时。我们报告了印花布的设计和实施，并通过一系列的系统性能评估。然后，我们介绍一些应用程序方案和用户研究，以了解印花布作为舞蹈教练的潜力，并探索对我们情景的定性感知，以告知该领域未来的研究。

translated by 谷歌翻译

Gaze-Vergence-Controlled See-Through Vision in Augmented Reality

Zhimin Wang , Yuxin Zhao , Feng Lu

分类：计算机视觉

2022-07-06

增强现实（AR）透明视觉是一个有趣的研究主题，因为它使用户能够通过墙壁看到并查看被遮挡的对象。大多数现有研究的重点是透明视觉的视觉效果，而相互作用方法的研究较少。但是，我们认为，使用常见的互动方式，例如，空中点击和语音，可能不是控制透明视觉的最佳方法。这是因为当我们想浏览某些东西时，它与我们的目光深度/狂热有关，因此应由眼睛自然控制。遵循这个想法，本文提出了一种新颖的目光控制（GVC）AR中的透明视觉技术。由于需要凝视深度，因此我们使用两个红外摄像机和相应的算法构建了一个凝视跟踪模块，然后将其组装到Microsoft Hololens 2中，以实现凝视深度估计。然后，我们提出了两种不同的GVC模式，以供透明视觉拟合不同的情况。广泛的实验结果表明，我们的凝视深度估计是有效而准确的。通过与常规互动方式进行比较，我们的GVC技术在效率方面也很出色，用户更喜欢。最后，我们提出了凝视控制的透明视觉的四个示例应用。

translated by 谷歌翻译

Integrating Deep Learning and Augmented Reality to Enhance Situational Awareness in Firefighting Environments

Manish Bhattarai

分类：计算机视觉

2021-07-23

我们提出了一种新的四管齐下的方法，在文献中首次建立消防员的情境意识。我们构建了一系列深度学习框架，彼此之叠，以提高消防员在紧急首次响应设置中进行的救援任务的安全性，效率和成功完成。首先，我们使用深度卷积神经网络（CNN）系统，以实时地分类和识别来自热图像的感兴趣对象。接下来，我们将此CNN框架扩展了对象检测，跟踪，分割与掩码RCNN框架，以及具有多模级自然语言处理（NLP）框架的场景描述。第三，我们建立了一个深入的Q学习的代理，免受压力引起的迷失方向和焦虑，能够根据现场消防环境中观察和存储的事实来制定明确的导航决策。最后，我们使用了一种低计算无监督的学习技术，称为张量分解，在实时对异常检测进行有意义的特征提取。通过这些临时深度学习结构，我们建立了人工智能系统的骨干，用于消防员的情境意识。要将设计的系统带入消防员的使用，我们设计了一种物理结构，其中处理后的结果被用作创建增强现实的投入，这是一个能够建议他们所在地的消防员和周围的关键特征，这对救援操作至关重要在手头，以及路径规划功能，充当虚拟指南，以帮助迷彩的第一个响应者恢复安全。当组合时，这四种方法呈现了一种新颖的信息理解，转移和综合方法，这可能会大大提高消防员响应和功效，并降低寿命损失。

translated by 谷歌翻译

Digital Twinning Remote Laboratories for Online Practical Learning

Claire Palmer , Ben Roullier , Mohammed Aamir , Frank McQuade , Leonardo Stella , Ashiq Anjum

分类：人工智能

2021-12-01

Covid19 Pandemary已经证明了需要远程学习和虚拟学习应用，如虚拟现实（VR）和基于平板电脑的解决方案。开发人员创建复杂的学习情景是非常耗时的，可能需要一年多。使用系统分析师，开发人员和3D艺术家的团队也是昂贵的。有要求提供简单的方法，使讲师能够为其实验室教程创建自己的内容。已经开发了开发通用模型的研究，以便为需要与实验室资源进行实际交互的科目的半自动创建虚拟学习工具。除了用于创建数字双胞胎的系统之外，还提出了一种描述为电动实验室教程创建虚拟学习应用程序的案例研究。

translated by 谷歌翻译

Steps towards prompt-based creation of virtual worlds

Jasmine Roberts , Andrzej Banburski-Fahey , Jaron Lanier

分类：人工智能 | 机器学习

2022-11-10

Large language models trained for code generation can be applied to speaking virtual worlds into existence (creating virtual worlds). In this work we show that prompt-based methods can both accelerate in-VR level editing, as well as can become part of gameplay rather than just part of game development. As an example, we present Codex VR Pong which shows non-deterministic game mechanics using generative processes to not only create static content but also non-trivial interactions between 3D objects. This demonstration naturally leads to an integral discussion on how one would evaluate and benchmark experiences created by generative models - as there are no qualitative or quantitative metrics that apply in these scenarios. We conclude by discussing impending challenges of AI-assisted co-creation in VR.

translated by 谷歌翻译

Robots as Mental Well-being Coaches: Design and Ethical Recommendations

Minja Axelsson , Micol Spitale , Hatice Gunes

分类：机器人

2022-08-31

最近十年表明，人们对机器人作为福祉教练的兴趣越来越大。但是，尚未提出针对机器人设计作为促进心理健康的教练的凝聚力和全面的准则。本文详细介绍了基于基于扎根理论方法的定性荟萃分析的设计和道德建议，该方法是通过三项以用户为中心的涉及机器人福祉教练的三个不同的以用户为中心进行的，即：（1）与参与性设计研究一起进行的。 11名参与者由两位潜在用户组成，他们与人类教练一起参加了简短的专注于解决方案的实践研究，以及不同学科的教练，（2）半结构化的个人访谈数据，这些数据来自20名参加积极心理学干预研究的参与者借助机器人福祉教练胡椒，（3）与3名积极心理学研究的参与者以及2名相关的福祉教练进行了一项参与式设计研究。在进行主题分析和定性荟萃分析之后，我们将收集到收敛性和不同主题的数据整理在一起，并从这些结果中提炼了一套设计准则和道德考虑。我们的发现可以在设计机器人心理福祉教练时考虑到关键方面的关键方面。

translated by 谷歌翻译