智能论文笔记

Interpreting BERT-based Text Similarity via Activation and Saliency Maps

Itzik Malkiel , Dvir Ginzburg , Oren Barkan , Avi Caciularu , Jonathan Weill , Noam Koenigstein

分类：自然语言处理

2022-08-13

最近，人们对基于变压器的模型产生有意义的文本嵌入的能力越来越兴趣，例如文本相似性。尽管该领域取得了重大进展，但相似性预测的解释仍然具有挑战性，尤其是在无监督的环境中。在这项工作中，我们提出了一种无监督的技术，用于解释预先训练的BERT模型推断出的段落相似性。通过查看一对段落，我们的技术确定了决定每个段落的语义的重要单词，在这两个段落中的单词之间匹配，并检索解释两者之间相似性的最重要对。该方法已通过广泛的人类评估进行了评估，并在包含长期复杂段落的数据集中证明了这一方法，已显示出巨大的希望，提供了与人类看法更好相关的准确解释。

translated by 谷歌翻译

MetricBERT: Text Representation Learning via Self-Supervised Triplet Training

Itzik Malkiel , Dvir Ginzburg , Oren Barkan , Avi Caciularu , Yoni Weill , Noam Koenigstein

分类：自然语言处理

2022-08-13

我们提出了Metricbert，这是一个基于BERT的模型，该模型学会了以明确的相似性度量嵌入文本，同时遵守``传统''蒙面语言任务。我们专注于学习相似之处的下游任务，以表明公制表现优于最先进的替代方案，有时要大幅度。我们对我们的方法及其不同的变体进行了广泛的评估，这表明我们的训练目标对传统的对比损失，标准余弦相似性目标和其他六个基线非常有益。作为另一个贡献，我们发布了视频游戏描述的数据集，以及由域专家制作的一系列相似性注释。

translated by 谷歌翻译

Unsupervised Scale-Invariant Multispectral Shape Matching

Idan Pazi , Dvir Ginzburg , Dan Raviv

分类：计算机视觉 | 机器学习

2020-12-19

非刚性可拉伸结构之间的一致性是计算机视觉中最具挑战性的任务之一，因为不变属性很难定义，并且没有针对真实数据集的标记数据。我们基于规模不变几何形状的光谱域提出了无监督的神经网络体系结构。我们在功能地图体系结构的基础上构建，但是表明，一旦等轴测假设破裂，学习本地功能，直到现在，就还不够。我们证明了使用多个量表不变的几何形状来解决此问题。我们的方法是局部规模变形的不可知论，与现有的光谱最新溶液相比，来自不同域的匹配形状的性能出色。

translated by 谷歌翻译

Open-Source Framework for Encrypted Internet and Malicious Traffic Classification

Ofek Bader , Adi Lichy , Amit Dvir , Ran Dubin , Chen Hajaj

分类：机器学习

2022-06-21

互联网流量分类在网络可见性，服务质量（QoS），入侵检测，经验质量（QOE）和交通趋势分析中起关键作用。为了提高隐私，完整性，机密性和协议混淆，当前的流量基于加密协议，例如SSL/TLS。随着文献中机器学习（ML）和深度学习（DL）模型的使用增加，由于缺乏标准化的框架，不同模型和方法之间的比较变得繁琐且困难。在本文中，我们提出了一个名为OSF-EIMTC的开源框架，该框架可以提供学习过程的完整管道。从著名的数据集到提取新的和知名的功能，它提供了著名的ML和DL模型（来自交通分类文献）的实现以及评估。这样的框架可以促进交通分类域的研究，从而使其更可重复，可重复，更易于执行，并可以更准确地比较知名和新颖的功能和新颖的功能和模型。作为框架评估的一部分，我们演示了可以使用多个数据集，模型和功能集的各种情况。我们展示了公开可用数据集的分析，并邀请社区使用OSF-EIMTC参与我们的公开挑战。

translated by 谷歌翻译

When a RF Beats a CNN and GRU, Together -- A Comparison of Deep Learning and Classical Machine Learning Approaches for Encrypted Malware Traffic Classification

Adi Lichy , Ofek Bader , Ran Dubin , Amit Dvir , Chen Hajaj

分类：机器学习

2022-06-16

互联网流量分类广泛用于促进网络管理。它在服务质量（QoS），经验质量（QOE），网络可见性，入侵检测和交通趋势分析中起着至关重要的作用。尽管没有理论上的保证，即基于深度学习的解决方案比经典的机器学习（ML）的解决方案更好，但基于DL的模型已成为常见默认值。本文比较了著名的基于DL和基于ML的模型，并表明，在恶意交通分类的情况下，最先进的基于DL的解决方案不一定优于基于经典的ML的解决方案。我们使用两个知名数据集来体现这一发现，用于各种任务，例如：恶意软件检测，恶意软件家庭分类，零日攻击的检测以及对迭代增长数据集的分类。请注意，评估所有可能的模型以做出具体陈述是不可行的，因此，上述发现不是避免基于DL的模型的建议，而是经验证明，在某些情况下，有更简单的解决方案，即更简单的解决方案，即可能表现更好。

translated by 谷歌翻译

Leveraging in-domain supervision for unsupervised image-to-image translation tasks via multi-stream generators

Dvir Yerushalmi , Dov Danon , Amit H. Bermano

分类：计算机视觉 | 人工智能 | 机器学习

2021-12-30

对图像到图像翻译的监督（I2I）任务很难通过，但对所产生的质量产生重大影响。在本文中，我们观察到，对于许多无人监督的I2I（UI2I）方案，一个域更熟悉另一个域，并且提供域的域名先前知识，例如语义分割。我们争辩说，对于复杂的场景，弄清楚域的语义结构很难，特别是没有监督，而是一个成功的I2i操作的重要组成部分。因此，我们介绍了两种技术，以便在翻译质量的好处结合这种无价值的域的现有知识：通过一种新的多流生成器架构，并通过基于语义分段的正则化损耗术语。从本质上讲，我们根据语义掩模提出分离输入数据，明确地将网络引导到图像的不同区域的不同行为。此外，我们提出培训语义分段网络以及翻译任务，并将其作为提高稳健性的损耗术语利用。我们验证了我们对城市数据的方法，展示了将Day Images转换为夜间图像的挑战UI2i任务的卓越品质。此外，我们还展示了如何使用我们的增强图像加强目标数据集，从而提高了诸如经典检测之类的下游任务的培训。

translated by 谷歌翻译