哪种卷积神经网络(CNN)结构表现良好的问题令人着迷。在这项工作中,我们通过连接零稳定性和模型性能,再通过一步向答案转向答案。具体而言,我们发现,如果普通微分方程的离散求解器为零稳定,则与该求解器相对应的CNN表现良好。我们首先在深度学习的背景下对零稳定性进行解释,然后在不同的零稳定情况下研究现有的一阶和二阶CNN的性能。基于初步观察,我们为构建CNN提供了高阶离散化,然后提出了一个零稳定的网络(ZeroSNET)。为了确保零稳定性的零稳定性,我们首先推断出满足一致性条件的结构,然后给出无训练参数的零稳定区域。通过分析特征方程的根,我们从理论上获得特征图的最佳系数。从经验上讲,我们从三个方面介绍了结果:我们提供了不同数据集上不同深度的广泛经验证据,以表明特征方程式的根源是需要历史特征的CNN表现的关键;我们的实验表明,零值优于基于高级离散化的现有CNN。零件在输入上显示出更好的鲁棒性。源代码可在\ url {https://github.com/longjin-lab/zerosnet}中获得。
translated by 谷歌翻译
顺序建议要求推荐人从已记录的用户行为数据中捕获不断发展的行为特征,以进行准确的建议。但是,用户行为序列被视为具有多个正在进行的线程交织在一起的脚本。我们发现,只有一小部分关键行为才能发展为用户的未来动作。结果,用户的未来行为很难预测。我们将每个用户作为行为途径的顺序行为的特征得出结论。不同的用户具有独特的行为途径。在现有的顺序模型中,变压器在捕获全球依赖性特征方面表现出很大的能力。但是,这些模型主要使用自我注意力的机制在所有先前的行为上提供了密集的分布,这使得最终预测被未调整给每个用户的微不足道行为所淹没。在本文中,我们使用新颖的途径注意机制构建了推荐变压器(RETR)。 REOR可以动态地计划为每个用户指定的行为途径,并通过此行为途径很少激活网络,以有效捕获对推荐有用的演变模式。关键设计是一种博学的二进制途径,以防止行为途径被微不足道的行为淹没。我们从经验上验证了RERO在七个现实世界数据集中的有效性,并产生了最先进的性能。
translated by 谷歌翻译
转移学习旨在利用预先培训模型的知识来受益。先前的转移学习工作主要是从单个模型转移。但是,随着从不同资源预先训练的深层模型的出现,由具有各种体系结构的各种模型组成的模型中心,预先训练的数据集和学习范式可用。直接将单模传输学习方法应用于每种模型,都会浪费对模型中心的丰富知识,并遭受高计算成本。在本文中,我们提出了一个枢纽 - 校园框架,以实现从模型中心的知识转移。该框架生成数据依赖性途径权重,基于我们在输入级别分配路径路由以确定激活哪些预训练模型并通过了哪些预训练的模型,然后在输出级别设置了途径聚集,以从不同做出预测的模型。可以通过针对特定于任务的损失端对端训练所提出的框架,在该损失中,它将学会探索更好的途径配置并利用每个目标基准的预训练模型中的知识。我们利用嘈杂的途径生成器并设计勘探损失,以进一步探索整个模型中心的不同途径。为了充分利用预训练模型中的知识,每个模型都会通过激活它的特定数据进一步培训,从而确保其性能并增强知识传递。计算机视觉和强化学习任务的实验结果表明,所提出的枢纽式框架实现了模型中心传输学习的最新性能。
translated by 谷歌翻译
深度神经网络在大规模标记的数据集的帮助下,在各种任务上取得了出色的表现。然而,这些数据集既耗时又竭尽全力来获得现实的任务。为了减轻对标记数据的需求,通过迭代分配伪标签将伪标签分配给未标记的样本,自我训练被广泛用于半监督学习中。尽管它很受欢迎,但自我训练还是不可靠的,通常会导致训练不稳定。我们的实验研究进一步表明,半监督学习的偏见既来自问题本身,也来自不适当的训练,并具有可能不正确的伪标签,这会在迭代自我训练过程中累积错误。为了减少上述偏见,我们提出了自我训练(DST)。首先,伪标签的生成和利用是由两个独立于参数的分类器头解耦,以避免直接误差积累。其次,我们估计自我训练偏差的最坏情况,其中伪标记函数在标记的样品上是准确的,但在未标记的样本上却尽可能多地犯错。然后,我们通过避免最坏的情况来优化表示形式,以提高伪标签的质量。广泛的实验证明,DST在标准的半监督学习基准数据集上的最先进方法中,平均提高了6.3%,而在13个不同任务上,FIXMATCH的平均水平为18.9%。此外,DST可以无缝地适应其他自我训练方法,并有助于稳定他们在从头开始的培训和预先训练模型的训练的情况下,在培训的情况下进行培训和平衡表现。
translated by 谷歌翻译
基于注意力机制的变压器在各个领域取得了令人印象深刻的成功。但是,注意机制具有二次复杂性,严重阻碍了变形金刚处理众多令牌并扩展到更大的模型。先前的方法主要利用矩阵乘法的相似性分解和关联性来设计线性时间注意机制。它们通过重新引入归纳偏见(例如位置)来避免关注对微不足道的分布,从而以模型的一般性和表达性为代价。在本文中,我们将基于流网络理论的特定电感偏差线性化。我们引起人们的注意,因为信息流从源(值)汇总到水槽(结果)通过学习的流动能力(结果)(注意)。在此框架内,我们将流量保护的特性应用于注意力,并提出线性复杂性的流意见机制。通过分别保留用于源竞争的水槽的传入流以及水槽分配的传出流,流动意见固有地产生了信息的关注,而无需使用特定的电感偏见。流动性授权,流动形式在线性时间内的范围内表现出色,包括长序列,时间序列,视觉,自然语言和强化学习。代码和设置可在此存储库中获得:https://github.com/thuml/flowformer。
translated by 谷歌翻译
具有许多预训练模型(PTM)的模型中心已经是深度学习的基石。尽管以高成本建造,但它们仍然保持\ emph {探索}:从业人员通常会通过普及从提供的模型中心中选择一个PTM,然后对PTM进行微调以解决目标任务。这种na \“我的但共同的实践构成了两个障碍,以充分利用预训练的模型中心:(1)通过受欢迎程度选择的PTM选择没有最佳保证;(2)仅使用一个PTM,而其余的PTM则被忽略。理想情况下。理想情况下。 ,为了最大程度地利用预训练的模型枢纽,需要尝试所有PTM的所有组合和广泛的微调每个PTM组合,这会产生指数组合和不可偿还的计算预算。在本文中,我们提出了一种新的范围排名和调整预训练的模型:(1)我们的会议论文〜\ citep {you_logme:_2021}提出的logMe,以估算预先训练模型提取的标签证据的最大值,该标签证据可以在模型中排名所有PTMS用于各种类型的PTM和任务的枢纽\ Emph {微调之前}。(2)如果我们不偏爱模型的体系结构,则可以对排名最佳的PTM进行微调和部署,或者可以通过TOPE调整目标PTM -k通过t排名PTM他提出了b-tuning算法。排名部分基于会议论文,我们在本文中完成了其理论分析,包括启发式证据最大化程序的收敛证明和特征维度的影响。调整零件引入了一种用于调整多个PTM的新型贝叶斯调整(B-Tuning)方法,该方法超过了专门的方法,该方法旨在调整均匀的PTMS,并为调整异质PTMS设置了一种新的技术。利用PTM枢纽的新范式对于整个机器学习社区的大量受众来说可能会很有趣。
translated by 谷歌翻译
Few-shot learning aims to fast adapt a deep model from a few examples. While pre-training and meta-training can create deep models powerful for few-shot generalization, we find that pre-training and meta-training focuses respectively on cross-domain transferability and cross-task transferability, which restricts their data efficiency in the entangled settings of domain shift and task shift. We thus propose the Omni-Training framework to seamlessly bridge pre-training and meta-training for data-efficient few-shot learning. Our first contribution is a tri-flow Omni-Net architecture. Besides the joint representation flow, Omni-Net introduces two parallel flows for pre-training and meta-training, responsible for improving domain transferability and task transferability respectively. Omni-Net further coordinates the parallel flows by routing their representations via the joint-flow, enabling knowledge transfer across flows. Our second contribution is the Omni-Loss, which introduces a self-distillation strategy separately on the pre-training and meta-training objectives for boosting knowledge transfer throughout different training stages. Omni-Training is a general framework to accommodate many existing algorithms. Evaluations justify that our single framework consistently and clearly outperforms the individual state-of-the-art methods on both cross-task and cross-domain settings in a variety of classification, regression and reinforcement learning problems.
translated by 谷歌翻译
时间序列的无监督检测是一个具有挑战性的问题,它要求该模型得出可区分的标准。以前的方法主要通过学习点表示或成对关联来解决问题,但是,这两个方法都不足以推理复杂的动态。最近,变形金刚在统​​一的指示和成对关联的统一建模中表现出了强大的力量,我们发现每个时间点的自我发项重量分布都可以与整个系列体现丰富的关联。我们的主要观察结果是,由于异常的罕见性,很难建立从异常点到整个系列的非平凡关联,因此,异常关联应主要集中在其相邻的时间点上。这种相邻的浓度偏见意味着基于关联的标准在正常点和异常点之间可固有地区分,我们通过\ emph {关联差异}突出显示。从技术上讲,我们使用新的\ emph {Anomaly-Interveention}机制提出\ emph {Anomaly Transformer}来计算关联差异。设计了一种最小值策略来扩大关联差异的正常明显区分性。异常变压器在六个无监督的时间序列检测基准三个应用的基准中实现了最先进的结果:服务监测,空间和地球勘探和水处理。
translated by 谷歌翻译
延长预测时间是对真实应用的危急需求,例如极端天气预警和长期能源消耗规划。本文研究了时间序列的长期预测问题。基于现有的变压器的模型采用各种自我关注机制来发现远程依赖性。然而,长期未来的复杂时间模式禁止模型找到可靠的依赖项。此外,变压器必须采用长期级效率的稀疏版本的点明显自我关注,从而导致信息利用瓶颈。超越变形金刚,我们将自动运气设计为具有自动相关机制的新型分解架构。我们突破了序列分解的预处理公约,并将其翻新为深层模型的基本内部。这种设计为复杂的时间序列具有渐进式分解容量的自动成形。此外,由随机过程理论的启发,我们基于串联周期性设计自相关机制,这在子系列级别进行了依赖关系发现和表示聚合。自动相关性效率和准确性的自我关注。在长期预测中,自动成形器产生最先进的准确性,六个基准测试中的相对改善38%,涵盖了五种实际应用:能源,交通,经济,天气和疾病。此存储库中可用的代码:\ url {https://github.com/thuml/autoformer}。
translated by 谷歌翻译
This paper addresses the problem of unsupervised domain adaption from theoretical and algorithmic perspectives. Existing domain adaptation theories naturally imply minimax optimization algorithms, which connect well with the domain adaptation methods based on adversarial learning. However, several disconnections still exist and form the gap between theory and algorithm. We extend previous theories (Mansour et al., 2009c;Ben-David et al., 2010) to multiclass classification in domain adaptation, where classifiers based on the scoring functions and margin loss are standard choices in algorithm design. We introduce Margin Disparity Discrepancy, a novel measurement with rigorous generalization bounds, tailored to the distribution comparison with the asymmetric margin loss, and to the minimax optimization for easier training. Our theory can be seamlessly transformed into an adversarial learning algorithm for domain adaptation, successfully bridging the gap between theory and algorithm. A series of empirical studies show that our algorithm achieves the state of the art accuracies on challenging domain adaptation tasks.
translated by 谷歌翻译