智能论文笔记

MICO: Selective Search with Mutual Information Co-training

Zhanyu Wang , Xiao Zhang , Hyokun Yun , Choon Hui Teo , Trishul Chilimbi

分类：自然语言处理 | 机器学习 | (统计)机器学习

2022-09-09

与传统的详尽搜索相反，选择性搜索第一群集文档将文档分为几个组，然后通过查询对所有文档进行详尽的搜索，以限制在一个组或仅几组中执行的搜索。选择性搜索旨在减少现代大规模搜索系统中的延迟和计算。在这项研究中，我们提出了MICO，这是一个使用搜索日志的最小监督，用于选择性搜索的相互信息共同培训框架。经过培训，MICO不仅会将文档聚集，还可以将看不见的查询路由到相关群集以进行有效检索。在我们的经验实验中，MICO显着提高了选择性搜索的多个指标的性能，并且超过了许多现有的竞争基线。

translated by 谷歌翻译

Re-thinking and Re-labeling LIDC-IDRI for Robust Pulmonary Cancer Prediction

Hanxiao Zhang , Xiao Gu , Minghui Zhang , Weihao Yu , Liang Chen , Zhexin Wang , Feng Yao , Yun Gu , Guang-Zhong Yang

分类：计算机视觉

2022-07-28

LIDC-IDRI数据库是肺癌预测的最流行的基准。但是，通过放射科医生的主观评估，LIDC中的结节可能与病理基础真理具有完全不同的恶性注释，从而引入了标签分配错误，并在培训期间引起了后续的监督偏见。因此，LIDC数据库需要更多的客观标签来基于学习的癌症预测。基于一个额外的小数据集，该数据集包含通过病理检查诊断的180个结节，我们建议重新标记LIDC数据，以减轻对此强大基准测试的原始注释偏差的影响。我们在本文中证明，基于度量学习的类似结节检索提供新标签将是一种有效的重新标记策略。对这些重新标记的LIDC结节进行的培训可改善模型性能，当添加不确定的结节的新标签时，这将增强。我们进一步推断出，重新标记的LIDC是最终的良好肺癌预测的方便方法，同时构建大型病理预处理的结节数据库提供了长期解决方案。

translated by 谷歌翻译

Automatic Generation of Product-Image Sequence in E-commerce

Xiaochuan Fan , Chi Zhang , Yong Yang , Yue Shang , Xueying Zhang , Zhen He , Yun Xiao , Bo Long , Lingfei Wu

分类：计算机视觉

2022-06-26

产品图像对于在电子商务平台中提供理想的用户体验至关重要。对于拥有数十亿种产品的平台，手动挑选和组织合格的图像非常耗时且耗尽劳动力。此外，要生成/选择的产品图像需要遵守众多且复杂的图像规则。为了解决这些挑战，在本文中，我们提出了一个新的学习框架，以便在电子商务中自动生成产品图像序列（AGPI）。为此，我们提出了一个多模式统一的图像序列分类器（MUISC），该分类器能够通过学习同时检测所有规则违规的类别。 MUISC利用文本审查反馈作为额外的培训目标，并利用产品文本描述提供额外的语义信息。根据离线评估，我们表明拟议的MUISC显着优于各种基线。除MUISC外，我们还将其他一些重要的模块集成在提出的框架中，例如主图像选择，不合格的内容检测和图像重复数据删除。借助所有这些模块，我们的框架在JD.com推荐平台中有效，有效地工作。到2021年12月，我们的AGPIS框架为约150万种产品生成了高标准图像，并获得了13.6％的拒绝率。

translated by 谷歌翻译

Adversarial Robustness of Deep Neural Networks: A Survey from a Formal Verification Perspective

Mark Huasong Meng , Guangdong Bai , Sin Gee Teo , Zhe Hou , Yan Xiao , Yun Lin , Jin Song Dong

分类：机器学习

2022-06-24

神经网络已广泛应用于垃圾邮件和网络钓鱼检测，入侵预防和恶意软件检测等安全应用程序。但是，这种黑盒方法通常在应用中具有不确定性和不良的解释性。此外，神经网络本身通常容易受到对抗攻击的影响。由于这些原因，人们对可信赖和严格的方法有很高的需求来验证神经网络模型的鲁棒性。对抗性的鲁棒性在处理恶意操纵输入时涉及神经网络的可靠性，是安全和机器学习中最热门的主题之一。在这项工作中，我们在神经网络的对抗性鲁棒性验证中调查了现有文献，并在机器学习，安全和软件工程领域收集了39项多元化研究工作。我们系统地分析了它们的方法，包括如何制定鲁棒性，使用哪种验证技术以及每种技术的优势和局限性。我们从正式验证的角度提供分类学，以全面理解该主题。我们根据财产规范，减少问题和推理策略对现有技术进行分类。我们还展示了使用样本模型在现有研究中应用的代表性技术。最后，我们讨论了未来研究的开放问题。

translated by 谷歌翻译

Automatic Controllable Product Copywriting for E-Commerce

Xiaojie Guo , Qingkai Zeng , Meng Jiang , Yun Xiao , Bo Long , Lingfei Wu

分类：人工智能 | 机器学习

2022-06-21

在过去的十年中，电子商务的自动产品描述生成已经取得了重大进步。产品文案旨在通过通过文本描述突出产品特征来吸引用户的兴趣并改善用户体验。随着电子商务平台提供的服务变得多样化，有必要动态地调整自动生成描述的模式。在本文中，我们将基于电子商务前缀的可控文案生成（EPCCG）系统部署到JD.com电子商务产品推荐平台中的经验。系统的开发包含两个主要组成部分：1）文案写作方面提取； 2）弱监督的方面标签； 3）具有基于前缀的语言模型的文本生成； 4）文案写作质量控制。我们进行实验以验证拟议的EPCCG的有效性。此外，我们将与EPCCG合作的已部署架构介绍到实时JD.com电子商务推荐平台以及部署以来的巨大回报。

translated by 谷歌翻译

TeKo: Text-Rich Graph Neural Networks with External Knowledge

Zhizhi Yu , Di Jin , Jianguo Wei , Ziyang Liu , Yue Shang , Yun Xiao , Jiawei Han , Lingfei Wu

分类：自然语言处理 | 机器学习

2022-06-15

图形神经网络（GNN）在解决图形结构数据（即网络）方面的各种分析任务方面已广受欢迎。典型的gnns及其变体遵循一种消息的方式，该方式通过网络拓扑沿网络拓扑的特征传播过程获得网络表示，然而，它们忽略了许多现实世界网络中存在的丰富文本语义（例如，局部单词序列）。现有的文本丰富网络方法通过主要利用内部信息（例如主题或短语/单词）来整合文本语义，这些信息通常无法全面地挖掘文本语义，从而限制了网络结构和文本语义之间的相互指导。为了解决这些问题，我们提出了一个具有外部知识（TEKO）的新型文本富裕的图形神经网络，以充分利用文本丰富的网络中的结构和文本信息。具体而言，我们首先提出一个灵活的异质语义网络，该网络结合了文档和实体之间的高质量实体和互动。然后，我们介绍两种类型的外部知识，即结构化的三胞胎和非结构化实体描述，以更深入地了解文本语义。我们进一步为构建的异质语义网络设计了互惠卷积机制，使网络结构和文本语义能够相互协作并学习高级网络表示。在四个公共文本丰富的网络以及一个大规模的电子商务搜索数据集上进行了广泛的实验结果，这说明了Teko优于最先进的基线。

translated by 谷歌翻译

Benchmarking of DL Libraries and Models on Mobile Devices

Qiyang Zhang , Xiang Li , Xiangying Che , Xiao Ma , Ao Zhou , Mengwei Xu , Shangguang Wang , Yun Ma , Xuanzhe Liu

分类：机器学习

2022-02-14

近年来，在移动设备上部署深度学习（DL）一直是一个显着的趋势。为了支持对开发DL的快速推断，DL库作为算法和硬件扮演着至关重要的角色。不幸的是，先前的工作从未深入现代DL Libs的生态系统，并为其性能提供定量结果。在本文中，我们首先建立了一个全面的基准，其中包括6个代表性DL LIB和15种多元化的DL模型。然后，我们在10个移动设备上进行了广泛的实验，这有助于揭示当前移动DL LIBS生态系统的完整景观。例如，我们发现表现最佳的DL LIB在不同的模型和硬件中严重碎片，这些DL Libs之间的差距可能相当巨大。实际上，DL LIB的影响会淹没算法或硬件的优化，例如模型量化和基于GPU/DSP的异质计算。最后，在观察结果上，我们总结了对DL Lib生态系统中不同角色的实际意义。

translated by 谷歌翻译

DSGPT: Domain-Specific Generative Pre-Training of Transformers for Text Generation in E-commerce Title and Review Summarization

Xueying Zhang , Yunjiang Jiang , Yue Shang , Zhaomeng Cheng , Chi Zhang , Xiaochuan Fan , Yun Xiao , Bo Long

分类：自然语言处理 | 人工智能

2021-12-15

我们提出了一种新的域特定的生成预训练（DS-GPT）方法，用于文本生成，并将其应用于电子商务移动显示器上的产品Titleand审查总结问题。首先，我们采用了仅限解码器的变压器体系结构，该架构Fitswell通过组合输入和输出全部携带的微调任务。其次，我们在相关域中仅使用少量预训练数据是强大的。预先训练从一般语料库中的矛盾，如维基百科或通用需要巨大的时间和资源承诺，如果下游任务有限。 OUDSGPT在Limble DataSet中预先培训，中文短篇演示数据集（LCSTS）。第三，我们的模型不要求相关的人类标记数据。对于标题摘要任务，艺术状态明确地使用额外的背景知识训练和预测阶段。相比之下，我们的模型暗示 - 在公共Taobao.comDataset上微调后，旨在捕获这种知识并实现了重要的改进其他方法。对于审查摘要任务，我们利用JD.com在-UteedAtaset上，并观察到缺乏微调灵活性的标准机械进程方法的类似改进。我们的工作可以简单地扩展到其他文本生成任务的域。

translated by 谷歌翻译

A Survey of Deep Active Learning

Pengzhen Ren , Yun Xiao , Xiaojun Chang , Po-Yao Huang , Zhihui Li , Brij B. Gupta , Xiaojiang Chen , Xin Wang

分类：机器学习 | (统计)机器学习

2020-08-30

主动学习（al）试图通过标记最少的样本来最大限度地提高模型的性能增益。深度学习（DL）是贪婪的数据，需要大量的数据电源来优化大量参数，因此模型了解如何提取高质量功能。近年来，由于互联网技术的快速发展，我们处于信息种类的时代，我们有大量的数据。通过这种方式，DL引起了研究人员的强烈兴趣，并已迅速发展。与DL相比，研究人员对Al的兴趣相对较低。这主要是因为在DL的崛起之前，传统的机器学习需要相对较少的标记样品。因此，早期的Al很难反映其应得的价值。虽然DL在各个领域取得了突破，但大多数这一成功都是由于大量现有注释数据集的宣传。然而，收购大量高质量的注释数据集消耗了很多人力，这在某些领域不允许在需要高专业知识，特别是在语音识别，信息提取，医学图像等领域中， al逐渐受到适当的关注。自然理念是AL是否可用于降低样本注释的成本，同时保留DL的强大学习能力。因此，已经出现了深度主动学习（DAL）。虽然相关的研究非常丰富，但它缺乏对DAL的综合调查。本文要填补这一差距，我们为现有工作提供了正式的分类方法，以及全面和系统的概述。此外，我们还通过申请的角度分析并总结了DAL的发展。最后，我们讨论了DAL中的混乱和问题，为DAL提供了一些可能的发展方向。

translated by 谷歌翻译

Backdoor Attacks Against Dataset Distillation

Yugeng Liu , Zheng Li , Michael Backes , Yun Shen , Yang Zhang

分类：机器学习

2023-01-03

Dataset distillation has emerged as a prominent technique to improve data efficiency when training machine learning models. It encapsulates the knowledge from a large dataset into a smaller synthetic dataset. A model trained on this smaller distilled dataset can attain comparable performance to a model trained on the original training dataset. However, the existing dataset distillation techniques mainly aim at achieving the best trade-off between resource usage efficiency and model utility. The security risks stemming from them have not been explored. This study performs the first backdoor attack against the models trained on the data distilled by dataset distillation models in the image domain. Concretely, we inject triggers into the synthetic data during the distillation procedure rather than during the model training stage, where all previous attacks are performed. We propose two types of backdoor attacks, namely NAIVEATTACK and DOORPING. NAIVEATTACK simply adds triggers to the raw data at the initial distillation phase, while DOORPING iteratively updates the triggers during the entire distillation procedure. We conduct extensive evaluations on multiple datasets, architectures, and dataset distillation techniques. Empirical evaluation shows that NAIVEATTACK achieves decent attack success rate (ASR) scores in some cases, while DOORPING reaches higher ASR scores (close to 1.0) in all cases. Furthermore, we conduct a comprehensive ablation study to analyze the factors that may affect the attack performance. Finally, we evaluate multiple defense mechanisms against our backdoor attacks and show that our attacks can practically circumvent these defense mechanisms.

translated by 谷歌翻译