增加片上光子神经网络(PNN)的层数对于改善其模型性能至关重要。但是,网络隐藏层的连续级联导致更大的集成光子芯片区域。为了解决此问题,我们提出了光学神经常规微分方程(ON-ON-ON-OD-ON-OD-ON-OD-ON-OD-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ODINE),该架构用光ODE求解器参数化了隐藏层的连续动力学。 On-Ode包括PNN,然后是光子积分器和光反馈回路,可以配置为代表残留的神经网络(RESNET)和复发性神经网络,并有效地降低了芯片面积占用率。对于基于干扰的光电非线性隐藏层,数值实验表明,单个隐藏层ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ONE表示与图像分类任务中的两层光学重新系统大致相同。此外,Onode提高了基于衍射的全光线性隐藏层的模型分类精度。 On-Eod的时间依赖性动力学属性进一步应用于高精度的轨迹预测。
translated by 谷歌翻译
显着对象检测(SOD)是一个流行而重要的主题,旨在精确检测和分割图像中有趣的区域。我们将语言信息集成到专为显着对象检测任务的基于视觉的U结构网络中。实验基于新创建的DUTS Cross Modal(DUTS-CM)数据集,该数据集包含视觉和语言标签。我们提出了一个称为高效跨模式自我注意力(ECMSA)的新模块,以结合视觉和语言特征并提高原始U结构网络的性能。同时,为了减轻标签的沉重负担,我们通过训练基于DUTS-CM数据集的图像标题模型来采用半监督的学习方法,该模型可以自动标记其他数据集(如Dut-omron和HKU-IS)。综合实验表明,通过自然语言输入可以提高SOD的性能,并且与其他SOD方法相比具有竞争力。
translated by 谷歌翻译
我们提出了一项针对一项名为DiChotomous Image Segmentation(DIS)的新任务的系统研究,该任务旨在从自然图像中划分高度准确的对象。为此,我们收集了第一个称为DIS5K的大规模DIS​​数据集,其中包含5,470个高分辨率(例如2K,4K或4K或更大的图像,涵盖了遮盖,明显或细致的物体,在各种背景中。 DIS带有非常细粒的标签注释。此外,我们使用功能级和面具级别的模型培训指南介绍了一个简单的中间监督基线(IS-NET)。 IS-NET在拟议的DIS5K上的表现优于各种尖端基线,使其成为一个普遍的自学监督网络,可以促进未来的DIS研究。此外,我们设计了一个称为人类纠正工作(HCE)的新指标,该指标近似于纠正误报和假否定的鼠标点击操作的数量。 HCE用于测量模型和现实世界应用之间的差距,因此可以补充现有指标。最后,我们进行了最大规模的基准测试,评估了16个代表性分割模型,提供了有关对象复杂性的更深入的讨论,并显示了几种潜在的应用(例如,背景删除,艺术设计,3D重建)。希望这些努力能为学术和行业开辟有希望的方向。项目页面:https://xuebinqin.github.io/dis/index.html。
translated by 谷歌翻译
图像回归任务,如骨矿物密度(BMD)估计和左心室喷射分数(LVEF)预测,在计算机辅助疾病评估中起重要作用。大多数深度回归方法用单一的回归损耗函数训练神经网络,如MSE或L1损耗。在本文中,我们提出了一种用于深度图像回归的第一个对比学习框架,即adacon,其包括通过新颖的自适应边缘对比损耗和回归预测分支的特征学习分支组成。我们的方法包含标签距离关系作为学习特征表示的一部分,这允许在下游回归任务中进行更好的性能。此外,它可以用作即插即用模块,以提高现有回归方法的性能。我们展示了adacon对来自X射线图像的骨矿物密度估计和来自超声心动图象的X射线图像和左心室喷射分数预测的骨矿物密度估计的有效性。 Adacon分别导致MAE在最先进的BMD估计和LVEF预测方法中相对提高3.3%和5.9%。
translated by 谷歌翻译
生成模型的培训尤其是生成的对抗网络可以在低数据设置中轻松分歧。为了减轻这个问题,我们提出了一种新颖的隐含数据增强方法,促进了稳定的培训和综合各种样品。具体地,我们将鉴别者视为真实数据歧管的度量嵌入,它在真实数据点之间提供适当的距离。然后,我们利用特征空间中的信息来开发数据驱动的增强方法。我们进一步提高了一个简单的指标来评估合成样本的多样性。少量发电任务的实验表明,与当前方法相比,我们的方法提高了结果的FID和多样性,并允许使用少于100个训练样本产生高质量和多样化的图像。
translated by 谷歌翻译
我们提出CPT:卷积点变压器 - 一种用于处理3D点云数据的非结构化性质的新型深度学习架构。 CPT是对现有关注的卷曲神经网络以及以前的3D点云处理变压器的改进。由于其在创建基于新颖的基于注意力的点集合嵌入通过制作用于处理动态局部点设定的邻域的卷积投影层的嵌入来实现这一壮举。结果点设置嵌入对输入点的排列是强大的。我们的小说CPT块在网络结构中通过动态图计算获得的本地邻居构建。它是完全可差异的,可以像卷积层一样堆叠,以学习点的全局属性。我们评估我们的模型在ModelNet40,ShapEnet​​部分分割和S3DIS 3D室内场景语义分割数据集等标准基准数据集上,以显示我们的模型可以用作各种点云处理任务的有效骨干,与现有状态相比 - 艺术方法。
translated by 谷歌翻译
神经结构搜索(NAS)已被广泛采用设计准确,高效的图像分类模型。但是,将NAS应用于新的计算机愿景任务仍然需要大量的努力。这是因为1)以前的NAS研究已经过度优先考虑图像分类,同时在很大程度上忽略了其他任务; 2)许多NAS工作侧重于优化特定于任务特定的组件,这些组件不能有利地转移到其他任务; 3)现有的NAS方法通常被设计为“Proxyless”,需要大量努力与每个新任务的培训管道集成。为了解决这些挑战,我们提出了FBNetv5,这是一个NAS框架,可以在各种视觉任务中寻找神经架构,以降低计算成本和人力努力。具体而言,我们设计1)一个简单但包容性和可转换的搜索空间; 2)用目标任务培训管道解开的多址搜索过程; 3)一种算法,用于同时搜索具有计算成本不可知的多个任务的架构到任务数。我们评估所提出的FBNetv5目标三个基本视觉任务 - 图像分类,对象检测和语义分割。 FBNETV5在单一搜索中搜索的模型在所有三个任务中都表现优于先前的议定书 - 现有技术:图像分类(例如,与FBNetv3相比,在与FBNetv3相比的同一拖鞋下的1 + 1.3%Imageet Top-1精度。 (例如,+ 1.8%较高的Ade20k Val。Miou比SegFormer为3.6倍的拖鞋),对象检测(例如,+ 1.1%Coco Val。与yolox相比,拖鞋的1.2倍的地图。
translated by 谷歌翻译
在本文中,我们利用了以前的预训练模型(PTM)的优势,并提出了一种新型的中国预训练的不平衡变压器(CPT)。与以前的中国PTM不同,CPT旨在利用自然语言理解(NLU)和自然语言生成(NLG)之间的共同知识来促进表现。 CPT包括三个部分:共享编码器,一个理解解码器和一代解码器。具有共享编码器的两个特定解码器分别通过蒙版语言建模(MLM)进行了预训练,并分别将自动编码(DAE)任务进行了验证。借助部分共享的体系结构和多任务预培训,CPT可以(1)使用两个解码器学习NLU或NLG任务的特定知识,并且(2)对模型的潜力充分利用了微调。此外,不平衡的变压器节省了计算和存储成本,这使CPT竞争激烈,并极大地加速了文本生成的推断。对各种中国NLU和NLG任务的实验结果显示了CPT的有效性。
translated by 谷歌翻译
文献中对生成对抗网络的多维歧视者(评论家)的研究未被充实。在本文中,我们概括了Wasserstein Gan框架以利用多维评论家的输出并探索其特性。我们还引入了平方根速度变换(SRVT)块,该块有利于多维环境中的训练。性质的证明是基于我们提出的最大P-端口差异的,该差异在上面由P-Wasserstein距离界定,并与Wasserstein Gan框架拟合了多维评论家的输出n。特别是当n = 1和p = 1时,提出的差异等于1-wasserstein距离。理论分析和经验证据表明,高维批评家的产出在区分真实和虚假分布以及结果更快的收敛性和结果多样性方面具有优势。
translated by 谷歌翻译
When using LiDAR semantic segmentation models for safety-critical applications such as autonomous driving, it is essential to understand and improve their robustness with respect to a large range of LiDAR corruptions. In this paper, we aim to comprehensively analyze the robustness of LiDAR semantic segmentation models under various corruptions. To rigorously evaluate the robustness and generalizability of current approaches, we propose a new benchmark called SemanticKITTI-C, which features 16 out-of-domain LiDAR corruptions in three groups, namely adverse weather, measurement noise and cross-device discrepancy. Then, we systematically investigate 11 LiDAR semantic segmentation models, especially spanning different input representations (e.g., point clouds, voxels, projected images, and etc.), network architectures and training schemes. Through this study, we obtain two insights: 1) We find out that the input representation plays a crucial role in robustness. Specifically, under specific corruptions, different representations perform variously. 2) Although state-of-the-art methods on LiDAR semantic segmentation achieve promising results on clean data, they are less robust when dealing with noisy data. Finally, based on the above observations, we design a robust LiDAR segmentation model (RLSeg) which greatly boosts the robustness with simple but effective modifications. It is promising that our benchmark, comprehensive analysis, and observations can boost future research in robust LiDAR semantic segmentation for safety-critical applications.
translated by 谷歌翻译