Single-cell sequencing assay for transposase-accessible chromatin (scATAC-seq) assesses genome-wide chromatin accessibility in thousands of cells to reveal regulatory landscapes in high resolutions. However, the analysis presents challenges due to the high dimensionality and sparsity of the data. Several methods have been developed, including transformation techniques of term-frequency inverse-document frequency (TF-IDF), dimension reduction methods such as singular value decomposition (SVD), factor analysis, and autoencoders. Yet, a comprehensive study on the mentioned methods has not been fully performed. It is not clear what is the best practice when analyzing scATAC-seq data. We compared several scenarios for transformation and dimension reduction as well as the SVD-based feature analysis to investigate potential enhancements in scATAC-seq information retrieval. Additionally, we investigate if autoencoders benefit from the TF-IDF transformation. Our results reveal that the TF-IDF transformation generally leads to improved clustering and biologically relevant feature extraction.
translated by 谷歌翻译
使用机器学习算法从未标记的文本中提取知识可能很复杂。文档分类和信息检索是两个应用程序,可以从无监督的学习(例如文本聚类和主题建模)中受益,包括探索性数据分析。但是,无监督的学习范式提出了可重复性问题。初始化可能会导致可变性,具体取决于机器学习算法。此外,关于群集几何形状,扭曲可能会产生误导。在原因中,异常值和异常的存在可能是决定因素。尽管初始化和异常问题与文本群集和主题建模相关,但作者并未找到对它们的深入分析。这项调查提供了这些亚地区的系统文献综述(2011-2022),并提出了共同的术语,因为类似的程序具有不同的术语。作者描述了研究机会,趋势和开放问题。附录总结了与审查的作品直接或间接相关的文本矢量化,分解和聚类算法的理论背景。
translated by 谷歌翻译
元素是单细胞曲线的不相交和均匀的组,代表离散和高度颗粒细胞状态。现有的元算法倾向于仅使用一种模态来推断元素,即使单细胞多摩变数据集谱图在同一细胞内多个分子模态。在这里,我们提出\ textbf {c} ross-m \ textbf {o} dal \ textbf {e} mbedding for \ textbf {m} etacell标识(coem),它利用嵌入式空间,利用scatac-seq和scatac-seq和scatac-seq和SCRNA-SEQ执行聚合,平衡精细分辨率和足够的测序覆盖范围之间的权衡。COEM通过有效识别具有连续和离散细胞类型的数据集的准确且分离良好的元素来优于最先进的方法海科。此外,COEM显着改善了峰到基因的关联分析,并促进了复杂的基因调节推理任务。
translated by 谷歌翻译
包括机器学习在内的计算分析方法对基因组学和医学领域具有重大影响。高通量基因表达分析方法,例如微阵列技术和RNA测序产生大量数据。传统上,统计方法用于基因表达数据的比较分析。但是,针对样品观察分类或发现特征基因的分类的更复杂的分析需要复杂的计算方法。在这篇综述中,我们编译了用于分析表达微阵列数据的各种统计和计算工具。即使在表达微阵列的背景下讨论了这些方法,也可以将它们应用于RNA测序和定量蛋白质组学数据集的分析。我们讨论缺失价值的类型以及其插补中通常采用的方法和方法。我们还讨论了数据归一化,特征选择和特征提取的方法。最后,详细描述了分类和类发现方法及其评估参数。我们认为,这项详细的审查将帮助用户根据预期结果选择适当的方法来预处理和分析其数据。
translated by 谷歌翻译
被动射频(RF)感测和对老年护理房屋的人类日常活动监测是一个新兴的话题。微多普勒雷达是一种吸引人的解决方案,考虑到它们的非侵入性,深渗透和高距离范围。尽管在真实情景中未标记或较差的活动的情况下,但是使用多普勒雷达数据的无监督活动识别尚未得到注意。本研究提出了使用多普勒流的人类活动监测的两个无监督特征提取方法。这些包括基于局部离散余弦变换(DCT)的特征提取方法和基于局部熵的特征提取方法。此外,对于多普勒雷达数据,首次采用了卷积变分性自动化器(CVAE)特征提取的新应用。将三种特征提取架构与先前使用的卷积AutoEncoder(CAE)和基于主成分分析(PCA)和2DPCA的线性特征提取进行比较。使用K-Means和K-METOIDS进行无监督的聚类。结果表明,与CAE,PCA和2DPCA相比,基于DCT的方法,基于熵的方法和CVAE特征的优越性,具有超过5 \%-20 \%的平均精度。关于计算时间,两个提出的方法明显比现有的CVAE快得多。此外,对于高维数据可视化,考虑了三种歧管学习技术。比较方法,以对原始数据的投影以及编码的CVAE特征进行比较。当应用于编码的CVAE特征时,所有三种方法都显示出改善的可视化能力。
translated by 谷歌翻译
潜在的语义分析(LSA)和对应分析(CA)是两种使用单数值分解(SVD)来降低维度的技术。 LSA已广泛用于获得低维表示,以捕获文档和术语之间的关系。在本文中,我们介绍了文档矩阵中两种技术的理论分析和比较。我们表明,与LSA相比,CA具有一些吸引人的特性,例如,有效消除了由于文档长度和期限频率而产生的边距的影响,因此CA解决方案非常适合于文档和条款之间的关系。提出了一个统一的框架,其中包括CA和LSA作为特殊情况。我们从经验上将CA与荷兰历史文本中的英语和作者身份归因的文本分类进行了与CA进行比较,并发现CA的性能明显更好。我们还将CA应用于一个关于荷兰国歌威廉斯(Wilhelmus)的作者身份的长期问题,并提供了进一步的支持,可以将其归因于作者,在几位竞争者中。
translated by 谷歌翻译
目前的工作旨在研究分层时间记忆(HTM)理论的性能,以便自动分类文本以及文档。HTM是一种基于人类新科的工作原理的生物启发理论。目前的研究打算在HTM理论中使用空间池学习算法提供文档分类的替代框架。由于HTM仅接受一个二进制数据流作为输入,所以潜在语义索引(LSI)技术用于从输入中提取顶部特征并将其转换为二进制格式。空间池算法将二进制输入转换为具有类似的输入文本的稀疏模式,其空间模式具有重叠的空间模式,使得将模式分类为类别。获得的结果证明了HTM理论虽然是其新生阶段,但与大多数基于流行的机器学习的分类器进行表现。
translated by 谷歌翻译
在处理小型数据集上的临床文本分类时,最近的研究证实,经过调整的多层感知器的表现优于其他生成分类器,包括深度学习。为了提高神经网络分类器的性能,可以有效地使用学习表示的功能选择。但是,大多数特征选择方法仅估计变量之间的线性依赖性程度,并根据单变量统计测试选择最佳特征。此外,学习表示所涉及的特征空间的稀疏性被忽略了。目标:因此,我们的目标是通过压缩临床代表性空间来访问一种替代方法来解决稀疏性,在这种情况下,法国临床笔记也可以有效地处理有限的法国临床笔记。方法:本研究提出了一种自动编码器学习算法来利用临床注释表示的稀疏性。动机是通过降低临床音符表示特征空间的维度来确定如何压缩稀疏的高维数据。然后在受过训练和压缩的特征空间中评估分类器的分类性能。结果:建议的方法为每种评估提供了高达3%的总体绩效增长。最后,分类器在检测患者病情时达到了92%的准确性,91%的召回,91%的精度和91%的F1得分。此外,通过应用理论信息瓶颈框架来证明压缩工作机制和自动编码器预测过程。
translated by 谷歌翻译
在这项工作中,我们提出了一种维度减少算法,即AKA。素描,用于分类数据集。我们提出的草图算法舱从高维分类向量构造低维二进制草图,我们的距离估计算法CHAM仅计算任何两个原始向量之间的汉明距离的近似近似。 Cham以确保良好估计的速度要求的最小尺寸理论上只取决于数据点的稀疏性 - 使其对涉及稀疏数据集的许多现实生活场景有用。我们对我们的方法提供了严格的理论分析,并在几个高维现实世界数据集上进行了广泛的实验,包括一个超过一百万维度的实验。我们表明,与使用完整数据集和其他维数减少技术相比,机舱和Cham Duo是一种明显的快速准确的任务和群集,如RMSE,全对相似性和聚类。
translated by 谷歌翻译
信息检索方法的主要焦点是提供准确有效的结果,这也具有成本效益。 Lingo(标签感应分组算法)是一种聚类算法,旨在为质量集群的形式提供搜索结果,但也有一些限制。在本文中,我们的重点是基于实现更有意义和提高算法的整体性能的结果。灵戈在两个主要步骤上工作;使用潜在语义索引技术(LSI)和群集内容发现通过使用矢量空间模型(VSM)来群集标签诱导。由于Lingo使用群集内容发现中的VSM,我们的任务是用LSI替换VSM以进行群集内容发现,并分析使用LSI与OTHAPI BM25的可行性。下一个任务是将修改方法的结果与Lingo原始方法进行比较。该研究应用于五种不同的基于文本的数据集,以获得每个方法的更可靠的结果。研究结果表明,当使用LSI进行内容发现时,Lingo产生40-50%的结果。从使用OKAPI BM25的理论证据进行评分方法在LSI(LSI + OKAPI BM25)中用于群集内容发现而不是VSM,也导致更好的群集在缩放性和性能方面产生,当比较VSM和LSI的结果时。
translated by 谷歌翻译
非线性维度降低可以通过\纺织{歧管学习}方法来执行,例如随机邻居嵌入(SNE),局部线性嵌入(LLE)和等距特征映射(ISOMAP)。这些方法旨在产生两个或三个潜在嵌入的嵌入,主要用于可视化可理解的表示数据。此稿件提出了学生的T分布式SNE(T-SNE),LLE和ISOMAP的扩展,以实现多维数量和多视图数据的可视化。多视图数据是指从相同样本生成的多种类型的数据。与通过单独可视化所获得的数据,所提出的多视图方法提供了比较通过可视化所获得的多个数据的更可理解的预测。通常可视化用于识别样本内的底层模式。通过将获得的低维嵌入从多视图歧管中的方法结合到K-Means聚类算法中,示出了准确地识别出样品的簇。通过对实际和合成数据的分析,发现所提出的多SNE方法具有最佳性能。我们进一步说明了多SNE方法对分析多OMICS单细胞数据的适用性,目的是在与健康和疾病相关的生物组织中可视化和识别细胞异质性和细胞类型。
translated by 谷歌翻译
一组广泛建立的无监督节点嵌入方法可以解释为由两个独特的步骤组成:i)基于兴趣图的相似性矩阵的定义,然后是II)ii)该矩阵的明确或隐式因素化。受这个观点的启发,我们提出了框架的两个步骤的改进。一方面,我们建议根据自由能距离编码节点相似性,该自由能距离在最短路径和通勤时间距离之间进行了插值,从而提供了额外的灵活性。另一方面,我们根据损耗函数提出了一种基质分解方法,该方法将Skip-Gram模型的损失函数推广到任意相似性矩阵。与基于广泛使用的$ \ ell_2 $损失的因素化相比,该方法可以更好地保留与较高相似性分数相关的节点对。此外,它可以使用高级自动分化工具包轻松实现,并通过利用GPU资源进行有效计算。在现实世界数据集上的节点聚类,节点分类和链接预测实验证明了与最先进的替代方案相比,合并基于自由能的相似性以及所提出的矩阵分解的有效性。
translated by 谷歌翻译
We analyze skip-gram with negative-sampling (SGNS), a word embedding method introduced by Mikolov et al., and show that it is implicitly factorizing a word-context matrix, whose cells are the pointwise mutual information (PMI) of the respective word and context pairs, shifted by a global constant. We find that another embedding method, NCE, is implicitly factorizing a similar matrix, where each cell is the (shifted) log conditional probability of a word given its context. We show that using a sparse Shifted Positive PMI word-context matrix to represent words improves results on two word similarity tasks and one of two analogy tasks. When dense low-dimensional vectors are preferred, exact factorization with SVD can achieve solutions that are at least as good as SGNS's solutions for word similarity tasks. On analogy questions SGNS remains superior to SVD. We conjecture that this stems from the weighted nature of SGNS's factorization.
translated by 谷歌翻译
多模式单细胞技术的最新进展已使从同一细胞中的多个OMICS数据同时采集,从而更深入地了解细胞状态和动力学。但是,从多模式数据,模拟模式之间的关系并更重要的是,将大量的单模式数据集纳入下游分析是一项挑战。为了应对这些挑战并相应地促进了多模式的单细胞数据分析,已经引入了三个关键任务:$ \ textit {模式预测} $,$ \ textit {modital {modital {modational conterative} $和$ \ textit {intimit {interion {intim interding} $。在这项工作中,我们提出了一个通用图形神经网络框架$ \ textit {scmognn} $来解决这三个任务,并表明$ \ textit {scmognn} $与最新的任务相比,在所有三个任务中都表现出了卓越的结果。艺术和传统方法。我们的方法是\ textit {模式预测}的整体排名的官方获奖者,来自神经2021竞赛\ footNote {\ url {https://openproblems.bio/neurips_2021/}},我们的所有方法都已整合到我们的所有实现中舞蹈软件包\ footNote {\ url {https://github.com/omicsml/dance}}}。
translated by 谷歌翻译
在矿业行业中,在项目管理过程中产生了许多报告。这些过去的文件是未来成功的知识资源。但是,如果文件未经组织和非结构化,则可以是一个繁琐而挑战的任务是检索必要的信息。文档聚类是一种强大的方法来应对问题,并且在过去的研究中介绍了许多方法。尽管如此,没有银弹可以对任何类型的文件表现最佳。因此,需要探索性研究来应用新数据集的聚类方法。在本研究中,我们将研究多个主题建模(TM)方法。目标是使用昆士兰,资源部,昆士兰州政府部的地质调查的数据集找到采矿项目报告的适当方法,并了解内容,以了解如何组织它们。三种TM方法,潜在的Dirichlet分配(LDA),非负矩阵分解(NMF)和非负张量分解(NTF)在统计和定性地比较。评估后,我们得出结论,LDA对数据集执行最佳;然而,可以通过一些改进来采用其他方法的可能性仍然存在。
translated by 谷歌翻译
高通量测序技术的最新进展使得可以提取多个特征,这些特征描绘了以不同和互补分子水平的患者样本。此类数据的产生导致了计算生物学方面的新挑战,这些挑战涉及捕获多个基因及其功能之间相互关系的高维和异质数据集的整合。由于它们的多功能性和学习复杂数据的合成潜在表示的能力,深度学习方法为整合多词数据提供了有希望的观点。这些方法导致了许多主要基于自动编码器模型的许多原始体系结构的概念。但是,由于任务的困难,集成策略是基本的,而不是失去全球趋势而充分利用来源的特殊性。本文提出了一种新型策略,以构建可自定义的自动编码器模型,该模型适应高维多源集成而言使用的数据集。我们将评估整合策略对潜在代表的影响,并结合提出一种新方法的最佳策略(https://github.com/hakimbenkirane/customics)。我们在这里关注来自多个OMIC来源的数据的集成,并证明了针对多个任务(例如分类和生存分析)的测试用例的拟议方法的性能。
translated by 谷歌翻译
The rapid advancement of AI technology has made text generation tools like GPT-3 and ChatGPT increasingly accessible, scalable, and effective. This can pose serious threat to the credibility of various forms of media if these technologies are used for plagiarism, including scientific literature and news sources. Despite the development of automated methods for paraphrase identification, detecting this type of plagiarism remains a challenge due to the disparate nature of the datasets on which these methods are trained. In this study, we review traditional and current approaches to paraphrase identification and propose a refined typology of paraphrases. We also investigate how this typology is represented in popular datasets and how under-representation of certain types of paraphrases impacts detection capabilities. Finally, we outline new directions for future research and datasets in the pursuit of more effective paraphrase detection using AI.
translated by 谷歌翻译
高通量药物筛查测定法的最新出现引发了机器学习方法的密集开发,包括预测癌细胞系对抗癌药物的敏感性的模型,以及用于生成潜在药物候选者的方法。然而,尚未全面探索具有特定特性的化合物产生具有特定特性和同时建模其功效的概念。为了满足这一需求,我们提出了Vadeers,这是一种基于各种自动编码器的药物功效估算推荐系统。化合物的产生是由具有半监视的高斯混合模型(GMM)的新型自动编码器进行的。先验定义了在潜在空间中的聚类,其中簇与特定的药物特性相关联。此外,Vadeers配备了单元线自动编码器和灵敏度预测网络。该模型结合了抗癌药物的微笑弦表示的数据,它们对蛋白激酶的抑制作用,细胞系生物学特征以及细胞系对药物的敏感性的测量。评估的Vadeers变体在真实和预测的药物敏感性估计之间达到了较高的R = 0.87 Pearson相关性。我们以一种方式训练GMM先验,使潜在空间中的簇通过其抑制作用对应于药物的预计聚类。我们表明,学到的潜在表示和新生成的数据点准确地反映了给定的聚类。总而言之,Vadeers提供了一种全面的药物和细胞系特性模型及其之间的关系,以及引导的新型化合物。
translated by 谷歌翻译
Practical applications of mechanical metamaterials often involve solving inverse problems where the objective is to find the (multiple) microarchitectures that give rise to a given set of properties. The limited resolution of additive manufacturing techniques often requires solving such inverse problems for specific sizes. One should, therefore, find multiple microarchitectural designs that exhibit the desired properties for a specimen with given dimensions. Moreover, the candidate microarchitectures should be resistant to fatigue and fracture, meaning that peak stresses should be minimized as well. Such a multi-objective inverse design problem is formidably difficult to solve but its solution is the key to real-world applications of mechanical metamaterials. Here, we propose a modular approach titled 'Deep-DRAM' that combines four decoupled models, including two deep learning models (DLM), a deep generative model (DGM) based on conditional variational autoencoders (CVAE), and direct finite element (FE) simulations. Deep-DRAM (deep learning for the design of random-network metamaterials) integrates these models into a unified framework capable of finding many solutions to the multi-objective inverse design problem posed here. The integrated framework first introduces the desired elastic properties to the DGM, which returns a set of candidate designs. The candidate designs, together with the target specimen dimensions are then passed to the DLM which predicts their actual elastic properties considering the specimen size. After a filtering step based on the closeness of the actual properties to the desired ones, the last step uses direct FE simulations to identify the designs with the minimum peak stresses.
translated by 谷歌翻译
自我监督的学习(SSL)已成为无需人类注释而产生不变表示的流行方法。但是,通过在输入数据上利用先前的在线转换功能来实现所需的不变表示。结果,每个SSL框架都是针对特定数据类型(例如,视觉数据)定制的,如果将其用于其他数据集类型,则需要进行进一步的修改。另一方面,是一个通用且广泛适用的框架的自动编码器(AE),主要集中于缩小尺寸,不适合学习不变表示。本文提出了一个基于阻止退化解决方案的受限自我标签分配过程的通用SSL框架。具体而言,先前的转换函数被用无监督的对抗训练的训练过程得出,以实现不变表示。通过自我转化机制,可以从相同的输入数据生成成对的增强实例。最后,基于对比度学习的培训目标是通过利用自我标签分配和自我转化机制来设计的。尽管自我转化过程非常通用,但拟议的培训策略的表现优于基于AE结构的大多数最先进的表示方法。为了验证我们的方法的性能,我们对四种类型的数据进行实验,即视觉,音频,文本和质谱数据,并用四个定量指标进行比较。我们的比较结果表明,所提出的方法证明了鲁棒性并成功识别数据集中的模式。
translated by 谷歌翻译