We present a novel camera path optimization framework for the task of online video stabilization. Typically, a stabilization pipeline consists of three steps: motion estimating, path smoothing, and novel view rendering. Most previous methods concentrate on motion estimation, proposing various global or local motion models. In contrast, path optimization receives relatively less attention, especially in the important online setting, where no future frames are available. In this work, we adopt recent off-the-shelf high-quality deep motion models for the motion estimation to recover the camera trajectory and focus on the latter two steps. Our network takes a short 2D camera path in a sliding window as input and outputs the stabilizing warp field of the last frame in the window, which warps the coming frame to its stabilized position. A hybrid loss is well-defined to constrain the spatial and temporal consistency. In addition, we build a motion dataset that contains stable and unstable motion pairs for the training. Extensive experiments demonstrate that our approach significantly outperforms state-of-the-art online methods both qualitatively and quantitatively and achieves comparable performance to offline methods.
translated by 谷歌翻译
高动态范围(HDR)DEGHOSTING算法旨在生成具有现实细节的无幽灵HDR图像。受到接收场的局部性的限制,现有的基于CNN的方法通常容易产生大型运动和严重饱和的情况下产生鬼影和强度扭曲。在本文中,我们提出了一种新颖的背景感知视觉变压器(CA-VIT),用于无幽灵的高动态范围成像。 CA-VIT被设计为双分支结构,可以共同捕获全球和本地依赖性。具体而言,全球分支采用基于窗口的变压器编码器来建模远程对象运动和强度变化以解决hosting。对于本地分支,我们设计了局部上下文提取器(LCE)来捕获短范围的图像特征,并使用频道注意机制在提取的功能上选择信息丰富的本地详细信息,以补充全局分支。通过将CA-VIT作为基本组件纳入基本组件,我们进一步构建了HDR-Transformer,这是一个分层网络,以重建高质量的无幽灵HDR图像。在三个基准数据集上进行的广泛实验表明,我们的方法在定性和定量上优于最先进的方法,而计算预算大大降低。代码可从https://github.com/megvii-research/hdr-transformer获得
translated by 谷歌翻译
非平行的多与众不同的语音转换仍然是一项有趣但具有挑战性的语音处理任务。最近,基于有条件的自动编码器的方法AutoVC通过使用信息限制的瓶颈来删除说话者身份和语音内容,从而实现了出色的转换结果。但是,由于纯粹的自动编码器训练方法,很难评估内容和说话者身份的分离效果。在本文中,一个新颖的语音转换框架,名为$ \ boldsymbol t $ ext $ \ boldsymbol g $ uided $ \ boldsymbol a $ utovc(tgavc),提议更有效地将内容和音色与语音分开,其中预期的内容嵌入其中根据文本转录生产的旨在指导语音内容的提取。此外,对对抗性训练将用于消除从语音中提取的估计内容中的说话者身份信息。在预期内容嵌入和对抗培训的指导下,对内容编码器进行了培训,以从语音中提取嵌入说话者的内容。 Aishell-3数据集的实验表明,所提出的模型在自然性和转换语音的相似性方面优于AUTOVC。
translated by 谷歌翻译
实施深层神经网络来学习参数部分微分方程(PDE)的解决方案图比使用许多常规数值方法更有效。但是,对这种方法进行了有限的理论分析。在这项研究中,我们研究了深层二次单元(requ)神经网络的表达能力,以近似参数PDE的溶液图。拟议的方法是由G. Kutyniok,P。Petersen,M。Raslan和R. Schneider(Gitta Kutyniok,Philipp Petersen,Mones Raslan和Reinhold Schneider。深层神经网络和参数PDES的理论分析)的最新重要工作激励的。 。建设性近似,第1-53、2021页,该第1-53、2021页,它使用深层的线性单元(relu)神经网络来求解参数PDE。与先前建立的复杂性$ \ MATHCAL {O} \ left(d^3 \ log_ {2}}^{q}(1/ \ epsilon)\ right)$用于relu神经网络,我们得出了上限的上限$ \ MATHCAL {o} \ left(d^3 \ log_ {2}^{q} \ log_ {2}(1/ \ epsilon)\ right)$)$ right Requ Neural网络的大小,以实现精度$ \ epsilon> 0 $,其中$ d $是代表解决方案的减少基础的维度。我们的方法充分利用了解决方案歧管的固有低维度和深层reque neural网络的更好近似性能。进行数值实验以验证我们的理论结果。
translated by 谷歌翻译
自动视觉解对我们多样化和开放的世界需要计算机视觉模型,以概括为特定任务的最小定制,类似于人类视力。计算机视觉基础型号培训,培训多样化,大型数据集,可以适应各种下游任务,对该任务来解决现实世界计算机视觉应用而言至关重要。虽然现有的视觉基础模型如剪辑,对齐和吴道2.0主要集中在映射图像和文本表示到跨模型共享表示,我们介绍了一台新的计算机视觉基础模型,佛罗伦萨,扩大粗糙的表示(现场)到精细(对象),从静态(图像)到动态(视频),以及从RGB到多个模态(标题,深度)。通过从Web级图像文本数据中纳入通用视觉语言表示,我们的佛罗伦萨模型可以很容易地适应各种计算机视觉任务,例如分类,检索,对象检测,VQA,图像标题,视频检索和动作识别。此外,佛罗伦萨在许多类型的转移学习中表现出出色的表现:全面采样的微调,线性探测,几次射击传输和用于新颖图像和物体的零拍摄传输。所有这些属性对于我们的视觉基础模型至关重要,以提供通用视觉任务。佛罗伦萨实现了新的最先进的导致44个代表性基准,例如Imagenet-1K零射击分类,最高1精度为83.74,最高5个精度为97.18,62.4地图上的Coco微调, 80.36在VQA上,动力学-600上的87.8。
translated by 谷歌翻译
人工智能(AI)为简化Covid-19诊断提供了有前景的替代。然而,涉及周围的安全和可信度的担忧阻碍了大规模代表性的医学数据,对临床实践中训练广泛的模型造成了相当大的挑战。为了解决这个问题,我们启动了统一的CT-Covid AI诊断计划(UCADI),其中AI模型可以在没有数据共享的联合学习框架(FL)下在每个主机机构下分发和独立地在没有数据共享的情况下在每个主机机构上执行。在这里,我们认为我们的FL模型通过大的产量(中国测试敏感性/特异性:0.973 / 0.951,英国:0.730 / 0.942),与专业放射科医师的面板实现可比性表现。我们进一步评估了持有的模型(从另外两家医院收集,留出FL)和异构(用造影材料获取)数据,提供了模型所做的决策的视觉解释,并分析了模型之间的权衡联邦培训过程中的性能和沟通成本。我们的研究基于来自位于中国和英国的23家医院的3,336名患者的9,573次胸部计算断层扫描扫描(CTS)。统称,我们的工作提出了利用联邦学习的潜在保留了数字健康的前景。
translated by 谷歌翻译
我们的目标是国内机器人进行长期室内服务。在日常人类活动引起的对象级场景的动态下,机器人需要在场景不确定性的情况下稳健地将自己定位于环境中。以前的工作已经解决了基于视觉的本地化在静态环境中的本地化,但是对象级场景动态挑战了机器人长期部署的现有方法。本文提出了一个语义理解网络(Seannet)体系结构,该体系结构可以通过耦合的视觉和语义输入来实现有效的学习过程。借助包含对象动态的数据集,我们提出了一个级联的对比度学习方案,以训练Seannet学习矢量场景嵌入。随后,我们可以测量当前观察到的场景和目标场景之间的相似性,从而在对象级动力学下实现强大的本地化。在我们的实验中,我们在场景相似性测量方面对抗最先进的图像编码网络(基线)进行基准测试。带有建议的训练方法的Seannet架构可以达到85.02 \%的准确性,该准确性高于基准。我们将Seannet和其他网络作为本地化进一步集成到Visual Navigation应用程序中。我们证明,与基准相比,Seannet取得了更高的成功率。
translated by 谷歌翻译
在这项工作中,我们将时间系列预测解决为计算机视觉任务。我们将输入数据捕获为图像并培训模型以产生后续图像。这种方法导致预测分布而不是点的值。为了评估我们方法的稳健性和质量,我们检查各种数据集和多个评估指标。我们的实验表明,我们的预测工具对循环数据有效,但对于股票价格的不规则数据有点少。重要的是,在使用基于图像的评估指标时,我们发现我们的方法以优于各种基线,包括Arima,以及我们的深度学习方法的数值变化。
translated by 谷歌翻译
时间序列预测对于许多领域的决策是必不可少的。在这项工作中,我们解决了在多个可能互动的金融资产中预测价格进化的挑战。对此问题的解决方案对各国政府,银行和投资者来说具有明显的重要性。统计方法如自动回归综合移动平均(Arima)被广泛应用于这些问题。在本文中,我们建议通过视频预测以新颖的方式接近多种金融资产的经济时序预测。鉴于经过多次潜在的互动金融资产价格,我们的目标是预测未来的价格进化。我们在每次作为向量中处理每次的价格的快照,而是在2D中将这些价格空间布局作为图像,使得我们可以利用CNNS学习这些金融资产的潜在代表的力量。因此,这些价格的历史成为一系列图像,我们的目标成为预测未来的图像。我们建立在最先进的视频预测方法中,用于预测未来图像。我们的实验涉及在美国股市交易的九个金融资产价格演变的预测任务。所提出的方法优于基准的基线,包括ARIMA,先知和所提出的方法的变化,展示了利用CNNS在经济时序预测问题中利用CNN的力量的好处。
translated by 谷歌翻译
在这项工作中,我们将时间系列预测解决为计算机视觉任务。我们将输入数据捕获为图像并培训模型以产生后续图像。这种方法导致预测分布而不是点的值。为了评估我们方法的稳健性和质量,我们检查各种数据集和多个评估指标。我们的实验表明,我们的预测工具对循环数据有效,但对于股票价格的不规则数据有点少。重要的是,在使用基于图像的评估指标时,我们发现我们的方法以优于各种基线,包括Arima,以及我们的深度学习方法的数值变化。
translated by 谷歌翻译