通常用于分析复杂数据集的维度减少和聚类技术,但它们的结果通常不容易解释。我们考虑如何支持用户在散点图上解释视表位结构,其中轴不直接解释,例如使用维度减少方法将数据投射到二维空间上。具体地,我们提出了一种新方法来自动计算可解释的聚类,其中说明在原始的高维空间中,并且群集在低维投影中相干。它通过使用信息理论提供复杂性和所提供信息量之间的可调平衡。我们研究了这个问题的计算复杂性,并对解决方案的搜索空间引入了高效,可调,贪婪优化算法的限制。此外,该算法还在称为excus的交互式工具中实现。几个数据集的实验突出显示,excrus可以提供信息丰富的和易于理解的模式,并且他们公开了算法有效的地方,并且考虑到可调性和可扩展性的余地有改进的空间。
translated by 谷歌翻译
The problem of learning threshold functions is a fundamental one in machine learning. Classical learning theory implies sample complexity of $O(\xi^{-1} \log(1/\beta))$ (for generalization error $\xi$ with confidence $1-\beta$). The private version of the problem, however, is more challenging and in particular, the sample complexity must depend on the size $|X|$ of the domain. Progress on quantifying this dependence, via lower and upper bounds, was made in a line of works over the past decade. In this paper, we finally close the gap for approximate-DP and provide a nearly tight upper bound of $\tilde{O}(\log^* |X|)$, which matches a lower bound by Alon et al (that applies even with improper learning) and improves over a prior upper bound of $\tilde{O}((\log^* |X|)^{1.5})$ by Kaplan et al. We also provide matching upper and lower bounds of $\tilde{\Theta}(2^{\log^*|X|})$ for the additive error of private quasi-concave optimization (a related and more general problem). Our improvement is achieved via the novel Reorder-Slice-Compute paradigm for private data analysis which we believe will have further applications.
translated by 谷歌翻译
Countsketch和功能哈希(“ Hashhing Track”)是流行的随机降低降低方法,支持$ \ ell_2 $ -heavy hters的恢复(键$ i $ where $ v_i^2> \ epsilon \ epsilon \ | \ boldsymbol {v} \ | _2^2 $)和近似内部产品。当输入为{\ em不自适应}(不依赖于先前的输出)时,应用于尺寸$ o(\ ell/\ epsilon)$的经典估计器对于许多在$ \ \ \ \ \ \ \ \ \ hig的尺寸的草图(\ ell/\ epsilon)$都是准确的。 Ell $。但是,当输入是自适应的时,可以在$ o(\ ell)$ QUERIES具有经典估算器和最知名的稳健估计器后构建对抗输入,并且仅支持$ \ tilde {o}(\ ell^2)$ queries。在这项工作中,我们表明,这种二次依赖性在某种意义上是固有的:我们设计了$ O(\ ell^2)$ QUERIES之后的攻击,该攻击会产生一个对抗性输入向量,其草图是高度偏见的。我们的攻击使用“天然”非自适应输入(仅选择最终的对抗输入),并普遍适用任何正确的估计器,包括攻击者未知的估计器。在此,我们暴露了这种基本方法的固有脆弱性。
translated by 谷歌翻译
帕金森氏病(PD)是一种神经系统疾病,具有各种可观察到的与运动相关的症状,例如运动缓慢,震颤,肌肉僵硬和姿势受损。 PD通常通过评估运动障碍系统(例如运动障碍协会统一帕金森氏病评级量表(MDS-UPDRS))的评分系统来诊断PD。使用个体视频记录的自动严重性预测为无侵入性监测运动障碍提供了有希望的途径。但是,PD步态数据的大小有限阻碍模型能力和临床潜力。由于这种临床数据的稀缺性,并受到自我监督的大规模语言模型(例如GPT-3)的最新进展的启发,我们将人类运动预测用作有效的自我监督预训练的任务来估计运动障碍的严重性。我们介绍步态预测和损伤估计变压器,该变压器首先在公共数据集中进行预测以预测步态运动,然后应用于临床数据以预测MDS-UPDRS步态障碍的严重性。我们的方法的表现优于以前的方法,这些方法仅依赖于临床数据,从而达到了0.76的F1得分,精度为0.79,召回率为0.75。使用GaitForemer,我们展示了公共人类运动数据存储库如何通过学习通用运动表示来帮助临床用例。该代码可从https://github.com/markendo/gaitforemer获得。
translated by 谷歌翻译
聚类是数据分析中的一个根本问题。在差别私有聚类中,目标是识别$ k $群集中心,而不披露各个数据点的信息。尽管研究进展显着,但问题抵制了实际解决方案。在这项工作中,我们的目的是提供简单的可实现的差异私有聚类算法,当数据“简单”时,提供实用程序,例如,当簇之间存在显着的分离时。我们提出了一个框架,允许我们将非私有聚类算法应用于简单的实例,并私下结合结果。在高斯混合的某些情况下,我们能够改善样本复杂性界限,并获得$ k $ -means。我们与合成数据的实证评估补充了我们的理论分析。
translated by 谷歌翻译
Differentially private algorithms for common metric aggregation tasks, such as clustering or averaging, often have limited practicality due to their complexity or to the large number of data points that is required for accurate results. We propose a simple and practical tool, $\mathsf{FriendlyCore}$, that takes a set of points ${\cal D}$ from an unrestricted (pseudo) metric space as input. When ${\cal D}$ has effective diameter $r$, $\mathsf{FriendlyCore}$ returns a "stable" subset ${\cal C} \subseteq {\cal D}$ that includes all points, except possibly few outliers, and is {\em certified} to have diameter $r$. $\mathsf{FriendlyCore}$ can be used to preprocess the input before privately aggregating it, potentially simplifying the aggregation or boosting its accuracy. Surprisingly, $\mathsf{FriendlyCore}$ is light-weight with no dependence on the dimension. We empirically demonstrate its advantages in boosting the accuracy of mean estimation and clustering tasks such as $k$-means and $k$-GMM, outperforming tailored methods.
translated by 谷歌翻译
经典流算法在(并非总是合理的)假设下运行的,即输入流已预先固定。最近,对于设计可靠的流算法,即使在执行过程中自适应地选择输入流也可以提供可证明的保证,越来越有兴趣。我们提出了一个新的框架,用于强大的流媒体,该框架结合了Hassidim等人最近建议的两个框架的技术。[神经2020]以及伍德拉夫和周[焦点2021]。这些最近建议的框架依赖于非常不同的想法,每个想法都具有自己的优势和劣势。我们将这两个框架组合到一个单一的混合框架中,该框架获得了``两全其美的'',从而解决了Woodruff和Zhou留下的问题。
translated by 谷歌翻译
近年来,基于生理信号的认证表现出伟大的承诺,因为其固有的对抗伪造的鲁棒性。心电图(ECG)信号是最广泛研究的生物关像,也在这方面获得了最高的关注。已经证明,许多研究通过分析来自不同人的ECG信号,可以识别它们,可接受的准确性。在这项工作中,我们展示了EDITH,EDITH是一种基于深入的ECG生物识别认证系统的框架。此外,我们假设并证明暹罗架构可以在典型的距离指标上使用,以提高性能。我们使用4个常用的数据集进行了评估了伊迪丝,并使用少量节拍表现优于先前的工作。 Edith使用仅单一的心跳(精度为96-99.75%)进行竞争性,并且可以通过融合多个节拍(从3到6个节拍的100%精度)进一步提高。此外,所提出的暹罗架构管理以将身份验证等错误率(eer)降低至1.29%。具有现实世界实验数据的Edith的有限案例研究还表明其作为实际认证系统的潜力。
translated by 谷歌翻译
联合学习通过与大量参与者启用学习统计模型的同时将其数据保留在本地客户中,从而提供了沟通效率和隐私的培训过程。但是,将平均损失函数天真地最小化的标准联合学习技术容易受到来自异常值,系统错误标签甚至对手的数据损坏。此外,由于对用户数据隐私的关注,服务提供商通常会禁止使用数据样本的质量。在本文中,我们通过提出自动加权的强大联合学习(ARFL)来应对这一挑战,这是一种新颖的方法,可以共同学习全球模型和本地更新的权重,以提供针对损坏的数据源的鲁棒性。我们证明了关于预测因素和客户权重的预期风险的学习,这指导着强大的联合学习目标的定义。通过将客户的经验损失与最佳P客户的平均损失进行比较,可以分配权重,因此我们可以减少损失较高的客户,从而降低对全球模型的贡献。我们表明,当损坏的客户的数据与良性不同时,这种方法可以实现鲁棒性。为了优化目标函数,我们根据基于块最小化范式提出了一种通信效率算法。我们考虑了不同的深层神经网络模型,在包括CIFAR-10,女权主义者和莎士比亚在内的多个基准数据集上进行实验。结果表明,我们的解决方案在不同的情况下具有鲁棒性,包括标签改组,标签翻转和嘈杂的功能,并且在大多数情况下都优于最先进的方法。
translated by 谷歌翻译
人体步态是指不仅代表活动能力的每日运动,而且还可以用人类观察者或计算机来识别步行者。最近的研究表明,步态甚至传达了有关沃克情绪的信息。不同情绪状态中的个体可能显示出不同的步态模式。各种情绪和步态模式之间的映射为自动情绪识别提供了新的来源。与传统的情绪检测生物识别技术(例如面部表达,言语和生理参数)相比,步态是可以观察到的,更难以模仿,并且需要从该主题中进行较少的合作。这些优势使步态成为情感检测的有前途的来源。本文回顾了有关基于步态的情绪检测的当前研究,尤其是关于步态参数如何受到不同情绪状态的影响以及如何通过不同的步态模式识别情绪状态的研究。我们专注于情感识别过程中应用的详细方法和技术:数据收集,预处理和分类。最后,我们讨论了使用智能计算和大数据的最先进技术的状态来讨论高效有效的基于步态的情感识别的可能发展。
translated by 谷歌翻译