小麦是全球主要的主食之一。因此,必须衡量,维护和改善人类消费的小麦质量。传统的小麦质量测量方法主要具有侵入性,破坏性,并且仅限于小麦样本。在典型的小麦供应链中,有许多接收点,散装小麦到来,根据要求将其存储和转发。在此接受点,传统质量测量方法的应用非常困难,而且通常非常昂贵。因此,需要非侵入性,无损的实时方法来进行小麦质量评估。满足上述标准的一种这样的方法是用于食品质量测量的高光谱成像(HSI),也可以应用于批量样品。在本文中,我们研究了如何在文献中使用HSI来评估储存的小麦质量。因此,可以在单个紧凑的文档中提供所需的信息,以在澳大利亚供应链的不同阶段实施实时数字质量评估方法。
translated by 谷歌翻译
By utilizing only depth information, the paper introduces a novel but efficient local planning approach that enhances not only computational efficiency but also planning performances for memoryless local planners. The sampling is first proposed to be based on the depth data which can identify and eliminate a specific type of in-collision trajectories in the sampled motion primitive library. More specifically, all the obscured primitives' endpoints are found through querying the depth values and excluded from the sampled set, which can significantly reduce the computational workload required in collision checking. On the other hand, we furthermore propose a steering mechanism also based on the depth information to effectively prevent an autonomous vehicle from getting stuck when facing a large convex obstacle, providing a higher level of autonomy for a planning system. Our steering technique is theoretically proved to be complete in scenarios of convex obstacles. To evaluate effectiveness of the proposed DEpth based both Sampling and Steering (DESS) methods, we implemented them in the synthetic environments where a quadrotor was simulated flying through a cluttered region with multiple size-different obstacles. The obtained results demonstrate that the proposed approach can considerably decrease computing time in local planners, where more trajectories can be evaluated while the best path with much lower cost can be found. More importantly, the success rates calculated by the fact that the robot successfully navigated to the destinations in different testing scenarios are always higher than 99.6% on average.
translated by 谷歌翻译
具有基于块体系结构的运动建模已被广泛用于视频编码中,其中框架分为固定尺寸的块,这些块是独立补偿的。这通常会导致编码效率低下,因为固定尺寸的块几乎与对象边界不符。尽管已经引入了层次结构分区来解决这一问题,但运动矢量的增加限制了收益。最近,与立方体分配的图像的近似分割已经普及。可变大小的矩形片段(立方体)不仅容易适应基于块的图像/视频编码技术,而且还可以很好地与对象边界保持一致。这是因为立方分区基于同质性约束,从而最大程度地减少了平方误差的总和(SSE)。在本文中,我们研究了针对可扩展视频编码中使用的固定尺寸块的运动模型的潜力。具体而言,我们使用图片组(GOP)中的锚框的立方分区信息构建了运动补偿帧。然后,预测的当前帧已用作基础层,同时使用可扩展的HEVC编码器编码当前帧作为增强层。实验结果确认4K视频序列上节省了6.71%-10.90%的比特率。
translated by 谷歌翻译
为了利用同一场景的视频框架中的高时间相关性,使用基于块的运动估计和补偿技术从已经编码的参考帧中预测了当前帧。尽管这种方法可以有效利用移动对象的翻译运动,但它容易受到其他类型的仿射运动和对象遮挡/除含量的影响。最近,深度学习已被用来模拟人类姿势的高级结构,以从短视频中的特定动作中进行,然后通过使用生成的对抗网络(GAN)来预测姿势,从而在未来的时间内生成虚拟框架。因此,建模人姿势的高级结构能够通过预测人类的行为并确定其轨迹来利用语义相关性。视频监视应用程序将受益,因为可以通过估算人类姿势轨迹并通过语义相关性产生未来的框架来压缩存储的大监视数据。本文通过从已经编码的框架中对人姿势进行建模并在当前时间使用生成的框架来探讨一种新的视频编码方式。预计所提出的方法可以通过预测包含具有较低残差的移动对象的块来克服传统向后引用框架的局限性。实验结果表明,提出的方法平均可以实现高达2.83 dB PSNR增益和25.93 \%比特率的节省,用于高运动视频序列
translated by 谷歌翻译
我们人类正在进入虚拟时代,确实想将动物带到虚拟世界中。然而,计算机生成的(CGI)毛茸茸的动物受到乏味的离线渲染的限制,更不用说交互式运动控制了。在本文中,我们提出了Artemis,这是一种新型的神经建模和渲染管道,用于生成具有外观和运动合成的清晰神经宠物。我们的Artemis可以实现互动运动控制,实时动画和毛茸茸的动物的照片真实渲染。我们的Artemis的核心是神经生成的(NGI)动物引擎,该动物发动机采用了有效的基于OCTREE的动物动画和毛皮渲染的代表。然后,该动画等同于基于显式骨骼翘曲的体素级变形。我们进一步使用快速的OCTREE索引和有效的体积渲染方案来生成外观和密度特征地图。最后,我们提出了一个新颖的阴影网络,以在外观和密度特征图中生成外观和不透明度的高保真细节。对于Artemis中的运动控制模块,我们将最新动物运动捕获方法与最近的神经特征控制方案相结合。我们引入了一种有效的优化方案,以重建由多视图RGB和Vicon相机阵列捕获的真实动物的骨骼运动。我们将所有捕获的运动馈送到神经角色控制方案中,以生成具有运动样式的抽象控制信号。我们将Artemis进一步整合到支持VR耳机的现有引擎中,提供了前所未有的沉浸式体验,用户可以与各种具有生动动作和光真实外观的虚拟动物进行紧密互动。我们可以通过https://haiminluo.github.io/publication/artemis/提供我们的Artemis模型和动态毛茸茸的动物数据集。
translated by 谷歌翻译
迭代加权收缩阈值算法(IWSTA)已经显示出优于经典的未加权迭代收缩 - 阈值算法(ISTA),用于解决线性逆问题,其不同地解决属性。本文提出了一种新的熵正则化IWSTA(ERIWSTA),该IWSTA(ERIWSTA)为成本函数增加了成本函数以衡量权重的不确定性,以刺激参与问题解决的属性。然后,用拉格朗日乘法器方法解决权重,以获得简单的迭代更新。可以解释权重作为问题解决方案的贡献的概率。CT图像恢复的实验结果表明,该方法在收敛速度和恢复精度方面具有比现有方法更好的性能。
translated by 谷歌翻译
来自运动(SFM)的结构和地面相同估计对自动驾驶和其他机器人应用至关重要。最近,使用深神经网络分别用于SFM和同住估计的深度神经网络。然而,直接应用用于地面平面的现有方法可能会失败,因为道路通常是场景的一小部分。此外,深度SFM方法的性能仍然不如传统方法。在本文中,我们提出了一种方法,了解到以端到端的方式解决这两种问题,提高两者的性能。所提出的网络由深度CNN,姿势CNN和地面CNN组成。分别深度CNN和姿势 - CNN估计致密深度图和自我运动,求解SFM,而姿势 - CNN和地下CNN,接着是相同的相同层求解地面估计问题。通过强制SFM和同情侣估计结果之间的一致性,可以使用除了由搁板分段器提供的道路分割之外的光度损耗和单独的损耗来训练整个网络以结束到结束。综合实验是在基蒂基准上进行的,与各种最先进的方法相比,展示了有希望的结果。
translated by 谷歌翻译
非负矩阵分解(NMF)已被广泛用于学习数据的低维表示。但是,NMF对数据点的所有属性都同样关注,这不可避免地导致不准确的代表性。例如,在人面数据集中,如果图像在头上包含帽子,则应删除帽子,或者在矩阵分组期间应减少其对应属性的重要性。本文提出了一种名为熵权的NMF(EWNMF)的新型NMF,其为每个数据点的每个属性使用可优化的权重,以强调它们的重要性。通过向成本函数添加熵规范器来实现此过程,然后使用拉格朗日乘法器方法来解决问题。具有若干数据集的实验结果证明了该方法的可行性和有效性。我们在https://github.com/poisson-em/entropy-weighted-nmf提供我们的代码。
translated by 谷歌翻译
估计可驱动表面和周围环境的3D结构是辅助和自主驾驶的重要任务。通过使用昂贵的3D传感器(例如LIDAR)或通过深度学习预测点深度来常见的是。而不是遵循现有的方法,我们提出道路平面视差关注网络(RPANET),这是一种基于平面视差的单眼图像序列的新型神经网络,这是驾驶场景中常见的道路平面几何形状的充分优势。 RPANET需要一对图像由道路平面的定址为对齐的图像,作为输入,输出3D重建的$ \ Gamma $地图。除了估计深度或高度之外,$ \ Gamma $ MAP的可能性在两个连续帧之间构造二维变换,同时可以容易地导出深度或高度。通过使用道路平面作为参考的连续帧,可以从平面视差和残余图像位移估计3D结构。此外,为了使网络更好地了解由平面视差引起的位移,我们引入了一种新颖的跨关注模块。我们从Waymo Open DataSet中示机数据并构建与平面视差相关的数据。在采样的数据集上进行综合实验,以展示我们在具有挑战性的情况下的方法的三维重建准确性。
translated by 谷歌翻译
Masked image modeling (MIM) performs strongly in pre-training large vision Transformers (ViTs). However, small models that are critical for real-world applications cannot or only marginally benefit from this pre-training approach. In this paper, we explore distillation techniques to transfer the success of large MIM-based pre-trained models to smaller ones. We systematically study different options in the distillation framework, including distilling targets, losses, input, network regularization, sequential distillation, etc, revealing that: 1) Distilling token relations is more effective than CLS token- and feature-based distillation; 2) An intermediate layer of the teacher network as target perform better than that using the last layer when the depth of the student mismatches that of the teacher; 3) Weak regularization is preferred; etc. With these findings, we achieve significant fine-tuning accuracy improvements over the scratch MIM pre-training on ImageNet-1K classification, using all the ViT-Tiny, ViT-Small, and ViT-base models, with +4.2%/+2.4%/+1.4% gains, respectively. Our TinyMIM model of base size achieves 52.2 mIoU in AE20K semantic segmentation, which is +4.1 higher than the MAE baseline. Our TinyMIM model of tiny size achieves 79.6% top-1 accuracy on ImageNet-1K image classification, which sets a new record for small vision models of the same size and computation budget. This strong performance suggests an alternative way for developing small vision Transformer models, that is, by exploring better training methods rather than introducing inductive biases into architectures as in most previous works. Code is available at https://github.com/OliverRensu/TinyMIM.
translated by 谷歌翻译