Mixtures of regression are a powerful class of models for regression learning with respect to a highly uncertain and heterogeneous response variable of interest. In addition to being a rich predictive model for the response given some covariates, the parameters in this model class provide useful information about the heterogeneity in the data population, which is represented by the conditional distributions for the response given the covariates associated with a number of distinct but latent subpopulations. In this paper, we investigate conditions of strong identifiability, rates of convergence for conditional density and parameter estimation, and the Bayesian posterior contraction behavior arising in finite mixture of regression models, under exact-fitted and over-fitted settings and when the number of components is unknown. This theory is applicable to common choices of link functions and families of conditional distributions employed by practitioners. We provide simulation studies and data illustrations, which shed some light on the parameter learning behavior found in several popular regression mixture models reported in the literature.
translated by 谷歌翻译
The introduction of high-quality image generation models, particularly the StyleGAN family, provides a powerful tool to synthesize and manipulate images. However, existing models are built upon high-quality (HQ) data as desired outputs, making them unfit for in-the-wild low-quality (LQ) images, which are common inputs for manipulation. In this work, we bridge this gap by proposing a novel GAN structure that allows for generating images with controllable quality. The network can synthesize various image degradation and restore the sharp image via a quality control code. Our proposed QC-StyleGAN can directly edit LQ images without altering their quality by applying GAN inversion and manipulation techniques. It also provides for free an image restoration solution that can handle various degradations, including noise, blur, compression artifacts, and their mixtures. Finally, we demonstrate numerous other applications such as image degradation synthesis, transfer, and interpolation.
translated by 谷歌翻译
We introduce efficient deep learning-based methods for legal document processing including Legal Document Retrieval and Legal Question Answering tasks in the Automated Legal Question Answering Competition (ALQAC 2022). In this competition, we achieve 1\textsuperscript{st} place in the first task and 3\textsuperscript{rd} place in the second task. Our method is based on the XLM-RoBERTa model that is pre-trained from a large amount of unlabeled corpus before fine-tuning to the specific tasks. The experimental results showed that our method works well in legal retrieval information tasks with limited labeled data. Besides, this method can be applied to other information retrieval tasks in low-resource languages.
translated by 谷歌翻译
我们介绍了第一项经验研究,研究了突发性检测对意向检测和插槽填充的下游任务的影响。我们对越南人进行了这项研究,这是一种低资源语言,没有以前的研究,也没有公共数据集可用于探索。首先,我们通过手动添加上下文不满并注释它们来扩展流利的越南意图检测和插槽填充phoatis。然后,我们使用强基线进行实验进行实验,以基于预训练的语言模型,以检测和关节意图检测和插槽填充。我们发现:(i)爆发对下游意图检测和插槽填充任务的性能产生负面影响,并且(ii)在探索环境中,预先训练的多语言语言模型XLM-R有助于产生更好的意图检测和插槽比预先训练的单语言模型phobert填充表演,这与在流利性环境中通常发现的相反。
translated by 谷歌翻译
在本文中,我们介绍了一个高质量的大规模基准数据集,用于英语 - 越南语音翻译,其中有508音频小时,由331k的三胞胎组成(句子长度的音频,英语源笔录句,越南人目标subtitle句子)。我们还使用强基础进行了经验实验,发现传统的“级联”方法仍然优于现代“端到端”方法。据我们所知,这是第一个大规模的英语 - 越南语音翻译研究。我们希望我们的公开数据集和研究都可以作为未来研究和英语语音翻译应用的起点。我们的数据集可从https://github.com/vinairesearch/phost获得
translated by 谷歌翻译
表示技术的快速发展和大规模医学成像数据的可用性必须在3D医学图像分析中快速增加机器学习的使用。特别是,深度卷积神经网络(D-CNN)是关键参与者,并被医学成像界采用,以协助临床医生和医学专家进行疾病诊断。然而,培训深层神经网络,例如在高分辨率3D体积的计算机断层扫描(CT)扫描中进行诊断任务的D-CNN带来了强大的计算挑战。这提出了开发基于深度学习的方法,这些方法在2D图像中具有强大的学习表示形式,而是3D扫描。在本文中,我们提出了一种新的策略,以根据沿轴的相邻切片的描述来训练CT扫描上的\ emph {slice level}分类器。特别是,每一个都是通过卷积神经网络(CNN)提取的。该方法适用于具有每片标签的CT数据集,例如RSNA颅内出血(ICH)数据集,该数据集旨在预测ICH的存在并将其分类为5个不同的子类型。我们在RSNA ICH挑战的最佳4 \%最佳解决方案中获得了单个模型,其中允许模型集成。实验还表明,所提出的方法显着优于CQ500上的基线模型。所提出的方法是一般的,可以应用于其他3D医学诊断任务,例如MRI成像。为了鼓励该领域的新进步,我们将在接受论文后制定我们的代码和预培训模型。
translated by 谷歌翻译
我们表明,没有图形特异性修改的标准变压器可以在理论和实践中都带来图形学习的有希望的结果。鉴于图,我们只是将所有节点和边缘视为独立的令牌,用令牌嵌入增强它们,然后将它们馈入变压器。有了适当的令牌嵌入选择,我们证明这种方法在理论上至少与不变的图形网络(2-ign)一样表达,由等效线性层组成,它已经比所有消息传播的图形神经网络(GNN)更具表现力)。当在大规模图数据集(PCQM4MV2)上接受训练时,与具有精致的图形特异性电感偏置相比,与GNN基准相比,与GNN基准相比,与GNN基准相比,与GNN基准相比,我们创造的令牌化图形变压器(Tokengt)取得了明显更好的结果。我们的实施可从https://github.com/jw9730/tokengt获得。
translated by 谷歌翻译
我们为神经机翻译(NMT)提供了一个开源工具包。新工具包主要基于拱形变压器(Vaswani等,2017)以及下面详述的许多其他改进,以便创建一个独立的,易于使用,一致和全面的各个领域的机器翻译任务框架。它是为了支持双语和多语言翻译任务的工具,从构建各个语料库的模型开始推断新的预测或将模型打包给提供功能的JIT格式。
translated by 谷歌翻译
在本文中,我们介绍了一种新的基于GNN的知识图形嵌入模型,命名为WGE,以捕获聚焦的图形结构和关联的图形结构。特别是,鉴于知识图形,WGE构建一个无向实体的聚焦图,该图形将实体视为节点。此外,WGE还从关联的约束构造另一个无向图形,将实体和关系视为节点。然后,WGE提出了一种新的架构,即直接在这两个单个图表上使用两个vanilla GNNS,以更好地更新实体和关系的矢量表示,然后是加权得分函数来返回三重分数。实验结果表明,WGE在三个新的和具有挑战性的基准数据集Codex上获得最先进的表演,用于知识图形完成。
translated by 谷歌翻译
本文介绍了视听场景分类(SC)的任务,其中输入视频被分类为五个现实生活中拥挤的场景中的一个:'骚乱','噪音 - 街道','Firework-event','Music-event'和“运动氛围”。为此,我们首先从YouTube(野外场景中)收集这五个拥挤的上下文的音频视觉数据集(视频)。然后,建议广泛的深度学习框架独立地部署音频或视觉输入数据。最后,从高级深度学习框架获得的结果融合以实现最佳的准确度分数。我们的实验结果表明,音频和视觉输入因素独立贡献了SC任务的性能。值得注意的是,深入学习框架的集合探索音频或视觉输入数据的最佳精度为95.7%。
translated by 谷歌翻译