由于其学习能力和模仿复杂的数据分布的能力,深层生成机器学习模型(DGM)在整个设计社区的流行一直在越来越受欢迎。 DGM经过常规培训,以最大程度地减少分布与生成数据的分布与对其训练的数据集的分布之间的统计差异。尽管足以生成“现实”的假数据的任务,但该目标通常不足以设计综合任务。相反,设计问题通常要求遵守设计要求,例如性能目标和约束。在工程设计中推进DGM需要新的培训目标,以促进工程设计目标。在本文中,我们介绍了第一个同时优化性能,可行性,多样性和目标成就的深层生成模型。我们在八个评估指标上针对几个深层生成模型的拟议方法的性能进行了基准性能,这些模型着重于设计性能目标的可行性,多样性和满意度。在具有挑战性的多目标自行车框架设计问题上测试了方法,并具有偏斜的不同数据类型的多模式数据。在八个指标中的六个指标中,提出的框架被发现胜过所有深层生成模型。
translated by 谷歌翻译
This paper demonstrates how Automated Machine Learning (AutoML) methods can be used as effective surrogate models in engineering design problems. To do so, we consider the challenging problem of structurally-performant bicycle frame design and demonstrate across-the-board dominance by AutoML in regression and classification surrogate modeling tasks. We also introduce FRAMED -- a parametric dataset of 4500 bicycle frames based on bicycles designed by practitioners and enthusiasts worldwide. Accompanying these frame designs, we provide ten structural performance values such as weight, displacements under load, and safety factors computed using finite element simulations for all the bicycle frame designs. We formulate two challenging test problems: a performance-prediction regression problem and a feasibility-prediction classification problem. We then systematically search for optimal surrogate models using Bayesian hyperparameter tuning and neural architecture search. Finally, we show how a state-of-the-art AutoML method can be effective for both regression and classification problems. We demonstrate that the proposed AutoML models outperform the strongest gradient boosting and neural network surrogates identified through Bayesian optimization by an improved F1 score of 24\% for classification and reduced mean absolute error by 12.5\% for regression. Our work introduces a dataset for bicycle design practitioners, provides two benchmark problems for surrogate modeling researchers, and demonstrates the advantages of AutoML in machine learning tasks. The dataset and code are provided at \url{http://decode.mit.edu/projects/framed/}.
translated by 谷歌翻译
在最近,对表现良好的神经体系结构(NAS)的高效,自动化的搜索引起了人们的关注。因此,主要的研究目标是减少对神经体系结构进行昂贵评估的必要性,同时有效地探索大型搜索空间。为此,替代模型将体系结构嵌入了潜在的空间并预测其性能,而神经体系结构的生成模型则可以在生成器借鉴的潜在空间内基于优化的搜索。替代模型和生成模型都具有促进结构良好的潜在空间中的查询搜索。在本文中,我们通过利用有效的替代模型和生成设计的优势来进一步提高查询效率和有前途的建筑生成之间的权衡。为此,我们提出了一个与替代预测指标配对的生成模型,该模型迭代地学会了从越来越有希望的潜在子空间中生成样品。这种方法可导致非常有效和高效的架构搜索,同时保持查询量较低。此外,我们的方法允许以一种直接的方式共同优化准确性和硬件延迟等多个目标。我们展示了这种方法的好处,不仅是W.R.T.优化体系结构以提高最高分类精度,但在硬件约束和在单个NAS基准测试中的最新方法和多个目标的最先进方法的优化。我们还可以在Imagenet上实现最先进的性能。该代码可在http://github.com/jovitalukasik/ag-net上找到。
translated by 谷歌翻译
深度生成模型在学习紧凑和表现力设计表示方面表现出了显着提高几何设计优化的有效性。然而,这些模型不考虑制造或制造引入的不确定性。定量这种不确定性的过去的工作经常对几何变化进行简化的假设,而“现实世界”的不确定性及其对设计性能的影响难以量化由于高维度。为了解决这个问题,我们提出了一种在不确定框架(GaN-DUF)下的生成的对抗基于网络的设计,该设计包含一个深入的生成模型,同时学习标称(理想)设计的紧凑型表示以及给出的制造设计的条件分布名义设计。我们展示了两个现实世界工程设计示例的框架,并显示了其在制造后找到具有更好性能的解决方案的能力。
translated by 谷歌翻译
基于分数的生成模型(SGM)是生成假图像的最新突破。已知SGM可以超越其他生成模型,例如生成对抗网络(GAN)和变异自动编码器(VAE)。在这项工作中,我们受到了他们的巨大成功的启发,我们将它们完全自定义以生成伪造的表格数据。特别是,我们对过度采样较小的课程感兴趣,因为不平衡的课程经常导致次优训练成果。据我们所知,我们是第一个提出基于得分的表格数据超采样方法的人。首先,我们必须重新设计自己的分数网络,因为我们必须处理表格数据。其次,我们为我们的生成方法提出了两个选项:前者等同于表格数据的样式传输,后者使用SGMS的标准生成策略。最后,我们定义了一种微调方法,该方法进一步提高了过度采样质量。在我们使用6个数据集和10个基线的实验中,我们的方法在所有情况下都优于其他过采样方法。
translated by 谷歌翻译
理想的合成人群,这是基于活动模型的关键输入,模仿了实际人群中个体和家庭水平属性的分布。由于整个人群的属性通常不可用,因此使用家庭旅行调查(HTS)样本进行人口综合。通过直接从HTS取样来合成种群,忽略了HTS样本中未观察到但存在于种群中的属性组合,称为“采样零”。深层生成模型(DGM)可以潜在地合成采样零,但要产生“结构零”(即,人口中不存在的属性组合)。这项研究提出了一种新的方法,可以在保留采样零的同时最小化结构零。设计了两个正规化,以自定义DGM的培训,并应用于生成的对抗网络(GAN)和变异自动编码器(VAE)。所采用的合成人群可行性和多样性的指标表明产生采样和结构零的能力 - 较低的结构零和较低的采样零表明可行性和较低的多样性。结果表明,所提出的正规化可实现与传统模型相比,合成人群的可行性和多样性的可观绩效。拟议的VAE还以79.2%的精度(即20.8%的结构零速率)产生了23.5%的人口,而拟议的GAN产生了18.3%的忽视人群,精度为89.0%。拟议的DGM改进会产生更可行和多样化的合成人群,这对于基于活动的模型的准确性至关重要。
translated by 谷歌翻译
For conceptual design, engineers rely on conventional iterative (often manual) techniques. Emerging parametric models facilitate design space exploration based on quantifiable performance metrics, yet remain time-consuming and computationally expensive. Pure optimisation methods, however, ignore qualitative aspects (e.g. aesthetics or construction methods). This paper provides a performance-driven design exploration framework to augment the human designer through a Conditional Variational Autoencoder (CVAE), which serves as forward performance predictor for given design features as well as an inverse design feature predictor conditioned on a set of performance requests. The CVAE is trained on 18'000 synthetically generated instances of a pedestrian bridge in Switzerland. Sensitivity analysis is employed for explainability and informing designers about (i) relations of the model between features and/or performances and (ii) structural improvements under user-defined objectives. A case study proved our framework's potential to serve as a future co-pilot for conceptual design studies of pedestrian bridges and beyond.
translated by 谷歌翻译
Generative Adversarial Networks (GANs) typically suffer from overfitting when limited training data is available. To facilitate GAN training, current methods propose to use data-specific augmentation techniques. Despite the effectiveness, it is difficult for these methods to scale to practical applications. In this work, we present ScoreMix, a novel and scalable data augmentation approach for various image synthesis tasks. We first produce augmented samples using the convex combinations of the real samples. Then, we optimize the augmented samples by minimizing the norms of the data scores, i.e., the gradients of the log-density functions. This procedure enforces the augmented samples close to the data manifold. To estimate the scores, we train a deep estimation network with multi-scale score matching. For different image synthesis tasks, we train the score estimation network using different data. We do not require the tuning of the hyperparameters or modifications to the network architecture. The ScoreMix method effectively increases the diversity of data and reduces the overfitting problem. Moreover, it can be easily incorporated into existing GAN models with minor modifications. Experimental results on numerous tasks demonstrate that GAN models equipped with the ScoreMix method achieve significant improvements.
translated by 谷歌翻译
许多现实世界的科学和工业应用都需要优化多个竞争的黑盒目标。当目标是昂贵的评估时,多目标贝叶斯优化(BO)是一种流行的方法,因为其样品效率很高。但是,即使有了最近的方法学进步,大多数现有的多目标BO方法在具有超过几十个参数的搜索空间上的表现较差,并且依赖于随着观测值数量进行立方体扩展的全局替代模型。在这项工作中,我们提出了Morbo,这是高维搜索空间上多目标BO的可扩展方法。 Morbo通过使用协调策略并行在设计空间的多个局部区域中执行BO来确定全球最佳解决方案。我们表明,Morbo在几种高维综合问题和现实世界应用中的样品效率中的最新效率显着提高,包括光学显示设计问题和146和222参数的车辆设计问题。在这些问题上,如果现有的BO算法无法扩展和表现良好,Morbo为从业者提供了刻度级别的效率,则在当前方法上可以提高样本效率。
translated by 谷歌翻译
有条件的生成对抗性网络(CGANS)是隐式生成模型,允许从类条件分布中进行采样。现有的CGANS基于各种不同的不同鉴别器设计和培训目标。早期作品中的一个流行的设计是在培训期间包括分类器,假设良好的分类器可以帮助消除使用错误类生成的样本。然而,包括CGANs的分类器通常具有仅产生易于分类的样本的副作用。最近,一些代表性的CGANS避免了缺点和达到最先进的表现而没有分类器。不知何故,它仍然未解决分类器是否可以复活以设计更好的CGANS。在这项工作中,我们证明可以正确利用分类器来改善CGANS。我们首先使用联合概率分布的分解来将CGANS的目标连接为统一框架。该框架以及经典能源模型与参数化分配,以原则方式为CGANS的分类器的使用证明了对标准的。它解释了几种流行的Cgan变体,例如acgan,projgan和contragan,作为具有不同近似水平的特殊情况,这提供了统一的观点,并为理解CGAN带来了新的见解。实验结果表明,由所提出的框架灵感的设计优于多个基准数据集上的最先进的CGAN,特别是在最具挑战性的想象中。该代码可在https://github.com/sian-chen/pytorch-ecgan获得。
translated by 谷歌翻译
Electronic Health Records (EHRs) are a valuable asset to facilitate clinical research and point of care applications; however, many challenges such as data privacy concerns impede its optimal utilization. Deep generative models, particularly, Generative Adversarial Networks (GANs) show great promise in generating synthetic EHR data by learning underlying data distributions while achieving excellent performance and addressing these challenges. This work aims to review the major developments in various applications of GANs for EHRs and provides an overview of the proposed methodologies. For this purpose, we combine perspectives from healthcare applications and machine learning techniques in terms of source datasets and the fidelity and privacy evaluation of the generated synthetic datasets. We also compile a list of the metrics and datasets used by the reviewed works, which can be utilized as benchmarks for future research in the field. We conclude by discussing challenges in GANs for EHRs development and proposing recommended practices. We hope that this work motivates novel research development directions in the intersection of healthcare and machine learning.
translated by 谷歌翻译
由于强烈的非线性系统行为和多个竞争目标,能源系统优化问题很复杂,例如,经济增益与环境影响。此外,大量输入变量和不同的变量类型,例如,连续和分类,是现实世界应用中常见的挑战。在某些情况下,提出的最佳解决方案需要遵守与物理性质或安全关键操作条件相关的显式输入限制。本文提出了一种新的数据驱动策略,使用树集合用于对黑匣子问题的约束多目标优化,与模型或未知的基础系统动态太复杂的异构变量空间。在由合成基准和相关能源应用组成的广泛案例研究中,我们展示了与其他最先进的工具相比,所提出的算法的竞争性能和采样效率,使其成为一个有用的全能解决方案 - 世界申请有限评价预算。
translated by 谷歌翻译
从工程角度来看,设计不仅应该在理想状态下表现良好,而且还应该抵抗噪音。这种设计方法,即稳健的设计,在工业中广泛实施了产品质量控制。但是,经典的强大设计需要对单个设计目标进行大量评估,而这些评估的结果无法为新目标重用。为实现数据有效的鲁棒设计,我们提出了噪声(RID噪声)下的强大逆设计,这可以利用现有的噪声数据来培训条件可逆的神经网络(CINN)。具体地,我们通过前向神经网络的预测误差来估计设计参数的鲁棒性。我们还定义了一种基于CINN的反向模型的最大加权似然估计的样本方面的权重。随着实验的视觉结果,我们明确证明如何通过从数据中学习分配和稳健性来证明如何如何运作。关于几个具有噪声的现实基准任务的进一步实验证实,我们的方法比其他最先进的逆设计方法更有效。代码和补充在https://github.com/thyrixyang/rid-noise-aaai22上公开提供
translated by 谷歌翻译
在本文中,我们提出了帕托 - 一种可生产性感知拓扑优化(至)框架,以帮助有效地探索使用金属添加剂制造(AM)制造的部件的设计空间,同时确保相对于裂化的可制造性。具体地,通过激光粉末融合制造的部件由于从构建过程中产生的陡峭热梯度产生的高残余应力值而易于诸如翘曲或裂缝的缺陷。为这些零件的设计成熟并规划其制作可能跨越几年,通常涉及设计和制造工程师之间的多种切换。帕托基于先验的无裂缝设计的发现,使得优化部分可以在一开始就自由缺陷。为确保设计在优化期间无裂缝,可以在使用裂缝指数的标准制剂中明确地编码生产性。探索多个裂缝指数并使用实验验证,最大剪切应变指数(MSSI)被显示为准确的裂缝指数。模拟构建过程是耦合的多物理计算,并将其结合在循环中可以计算上禁止。我们利用了深度卷积神经网络的当前进步,并基于基于关注的U-Net架构的高保真代理模型,以将MSSI值预测为部分域上的空间变化的字段。此外,我们采用自动差异来直接计算关于输入设计变量的最大MSSI的梯度,并使用基于性能的灵敏度字段增强,以优化设计,同时考虑重量,可制造性和功能之间的权衡。我们通过3D基准研究以及实验验证来证明所提出的方法的有效性。
translated by 谷歌翻译
In data-driven systems, data exploration is imperative for making real-time decisions. However, big data is stored in massive databases that are difficult to retrieve. Approximate Query Processing (AQP) is a technique for providing approximate answers to aggregate queries based on a summary of the data (synopsis) that closely replicates the behavior of the actual data, which can be useful where an approximate answer to the queries would be acceptable in a fraction of the real execution time. In this paper, we discuss the use of Generative Adversarial Networks (GANs) for generating tabular data that can be employed in AQP for synopsis construction. We first discuss the challenges associated with constructing synopses in relational databases and then introduce solutions to those challenges. Following that, we organized statistical metrics to evaluate the quality of the generated synopses. We conclude that tabular data complexity makes it difficult for algorithms to understand relational database semantics during training, and improved versions of tabular GANs are capable of constructing synopses to revolutionize data-driven decision-making systems.
translated by 谷歌翻译
与靶蛋白具有高结合亲和力的药物样分子的产生仍然是药物发现中的一项困难和资源密集型任务。现有的方法主要采用强化学习,马尔可夫采样或以高斯过程为指导的深层生成模型,在生成具有高结合亲和力的分子时,通过基于计算量的物理学方法计算出的高结合亲和力。我们提出了对分子(豪华轿车)的潜在构成主义,它通过类似于Inceptionism的技术显着加速了分子的产生。豪华轿车采用序列的两个神经网络采用变异自动编码器生成的潜在空间和性质预测,从而使基于梯度的分子特性更快地基于梯度的反相比。综合实验表明,豪华轿车在基准任务上具有竞争力,并且在产生具有高结合亲和力的类似药物的化合物的新任务上,其最先进的技术表现出了最先进的技术,可针对两个蛋白质靶标达到纳摩尔范围。我们通过对绝对结合能的基于更准确的基于分子动力学的计算来证实这些基于对接的结果,并表明我们生成的类似药物的化合物之一的预测$ k_d $(结合亲和力的量度)为$ 6 \ cdot 10^ {-14} $ m针对人类雌激素受体,远远超出了典型的早期药物候选物和大多数FDA批准的药物的亲和力。代码可从https://github.com/rose-stl-lab/limo获得。
translated by 谷歌翻译
本文介绍了一种用于合成包含连续,二进制和离散柱的表格数据集的双鉴别器GaN。我们所提出的方法采用适应的预处理方案和用于发电机网络的新型条件术语,以更有效地捕获输入样本分布。此外,我们为旨在向发电机提供更多辨别型梯度信息的鉴别器网络来实施直接但有效的架构。我们对四个基准测试公共数据集的实验结果证实了我们在可能性健身度量和机器学习效果方面的卓越性能。
translated by 谷歌翻译
生成对抗网络(GAN)具有许多潜在的医学成像应用,包括数据扩展,域适应和模型解释。由于图形处理单元(GPU)的记忆力有限,因此在低分辨率的医学图像上对当前的3D GAN模型进行了训练,因此这些模型要么无法扩展到高分辨率,要么容易出现斑驳的人工制品。在这项工作中,我们提出了一种新颖的端到端GAN体系结构,可以生成高分辨率3D图像。我们通过使用训练和推理之间的不同配置来实现这一目标。在训练过程中,我们采用了层次结构,该结构同时生成图像的低分辨率版本和高分辨率图像的随机选择子量。层次设计具有两个优点:首先,对高分辨率图像训练的记忆需求在子量之间摊销。此外,将高分辨率子体积固定在单个低分辨率图像上可确保子量化之间的解剖一致性。在推断期间,我们的模型可以直接生成完整的高分辨率图像。我们还将具有类似层次结构的编码器纳入模型中,以从图像中提取特征。 3D胸CT和脑MRI的实验表明,我们的方法在图像生成中的表现优于最新技术。我们还证明了所提出的模型在数据增强和临床相关特征提取中的临床应用。
translated by 谷歌翻译
数据通常以表格格式存储。几个研究领域(例如,生物医学,断层/欺诈检测),容易出现不平衡的表格数据。由于阶级失衡,对此类数据的监督机器学习通常很困难,从而进一步增加了挑战。合成数据生成,即过采样是一种用于提高分类器性能的常见补救措施。最先进的线性插值方法,例如洛拉斯和普罗拉斯,可用于从少数族裔类的凸空间中生成合成样本,以在这种情况下提高分类器的性能。生成的对抗网络(GAN)是合成样本生成的常见深度学习方法。尽管GAN被广泛用于合成图像生成,但在不平衡分类的情况下,它们在表格数据上的范围没有充分探索。在本文中,我们表明,与线性插值方法相比,现有的深层生成模型的性能较差,该方法从少数族裔类的凸空间中生成合成样本,对于小规模的表格数据集中的分类问题不平衡。我们提出了一个深厚的生成模型,将凸出空间学习和深层生成模型的思想结合在一起。 Convgen了解了少数族类样品的凸组合的系数,因此合成数据与多数类的不同。我们证明,与现有的深层生成模型相比,我们提出的模型Convgen在与现有的线性插值方法相当的同时,改善了此类小数据集的不平衡分类。此外,我们讨论了如何将模型用于一般的综合表格数据生成,甚至超出了数据不平衡的范围,从而提高了凸空间学习的整体适用性。
translated by 谷歌翻译
通过生成模型生成具有特定化学和生物学特性的新分子已成为药物发现的有希望的方向。但是,现有的方法需要大型数据集进行广泛的培训/微调,在现实世界中通常无法使用。在这项工作中,我们提出了一个新的基于检索的框架,用于可控分子生成。我们使用一系列的示例分子,即(部分)满足设计标准的分子,以引导预先训练的生成模型转向满足给定设计标准的合成分子。我们设计了一种检索机制,该机制将示例分子与输入分子融合在一起,该分子受到一个新的自我监督目标训练,该目标可以预测输入分子的最近邻居。我们还提出了一个迭代改进过程,以动态更新生成的分子和检索数据库,以更好地泛化。我们的方法不可知生成模型,不需要特定于任务的微调。关于从简单设计标准到设计与SARS-COV-2主蛋白酶结合的铅化合物的具有挑战性的现实世界情景的各种任务,我们证明了我们的方法外推出了远远超出检索数据库,并且比检索数据库更高,并且比更高的性能和更广泛的适用性以前的方法。
translated by 谷歌翻译