This paper proposes a novel sequence-to-sequence (seq2seq) model with a musical note position-aware attention mechanism for singing voice synthesis (SVS). A seq2seq modeling approach that can simultaneously perform acoustic and temporal modeling is attractive. However, due to the difficulty of the temporal modeling of singing voices, many recent SVS systems with an encoder-decoder-based model still rely on explicitly on duration information generated by additional modules. Although some studies perform simultaneous modeling using seq2seq models with an attention mechanism, they have insufficient robustness against temporal modeling. The proposed attention mechanism is designed to estimate the attention weights by considering the rhythm given by the musical score. Furthermore, several techniques are also introduced to improve the modeling performance of the singing voice. Experimental results indicated that the proposed model is effective in terms of both naturalness and robustness of timing.
translated by 谷歌翻译
最近的文本到语音(TTS)的质量与人类的质量相当。但是,其在口语对话中的应用尚未得到广泛研究。这项研究旨在实现与人类对话非常相似的TT。首先,我们记录并抄录实际自发对话。然后,提出的对话TTS分为两个阶段:第一阶段,各种自动编码器(VAE) - VITS或高斯混合物变化自动编码器(GMVAE) - 培训了训练,从端到端文本对语音(VIT),最近提出的端到端TTS模型。从语音中提取潜在的口语表示的样式编码器与TTS共同培训。在第二阶段,对风格预测指标进行了训练,以预测从对话历史中综合的说话风格。在推断期间,通过将样式预测器预测的语言样式表示为VAE/gmvae-vits,可以以适合对话背景的样式合成语音。主观评估结果表明,所提出的方法在对话级别的自然性方面优于原始VIT。
translated by 谷歌翻译
本文提出了一种具有多粒度潜变量的分层生成模型,以综合表达语音。近年来,将细粒度的潜在变量引入了文本到语音合成中,使得韵律和讲话方式的精细控制能够进行综合演讲。然而,当通过从标准高斯先前抽样获得这些潜变量时,言语的自然度降低。为了解决这个问题,我们提出了一种用于建模细粒度潜在变量的新框架,考虑到输入文本,分层语言结构和潜在变量的时间结构的依赖性。该框架包括多粒子变形AutoEncoder,条件先前和多级自回归潜伏转换器,以获得不同的时间分辨率潜变量,并通过拍摄来对较粗级别的潜入变量进行样本考虑到输入文本。实验结果表明,在合成阶段在没有参考信号的情况下采样细粒潜变量的适当方法。我们拟议的框架还提供了整个话语中说话风格的可控性。
translated by 谷歌翻译
The detection of earthquakes is a fundamental prerequisite for seismology and contributes to various research areas, such as forecasting earthquakes and understanding the crust/mantle structure. Recent advances in machine learning technologies have enabled the automatic detection of earthquakes from waveform data. In particular, various state-of-the-art deep-learning methods have been applied to this endeavour. In this study, we proposed and tested a novel phase detection method employing deep learning, which is based on a standard convolutional neural network in a new framework. The novelty of the proposed method is its separate explicit learning strategy for global and local representations of waveforms, which enhances its robustness and flexibility. Prior to modelling the proposed method, we identified local representations of the waveform by the multiple clustering of waveforms, in which the data points were optimally partitioned. Based on this result, we considered a global representation and two local representations of the waveform. Subsequently, different phase detection models were trained for each global and local representation. For a new waveform, the overall phase probability was evaluated as a product of the phase probabilities of each model. This additional information on local representations makes the proposed method robust to noise, which is demonstrated by its application to the test data. Furthermore, an application to seismic swarm data demonstrated the robust performance of the proposed method compared with those of other deep learning methods. Finally, in an application to low-frequency earthquakes, we demonstrated the flexibility of the proposed method, which is readily adaptable for the detection of low-frequency earthquakes by retraining only a local model.
translated by 谷歌翻译
使用三维(3D)图像传感器的智能监视一直在智能城市的背景下引起人们的注意。在智能监控中,实施了3D图像传感器获取的点云数据的对象检测,以检测移动物体(例如车辆和行人)以确保道路上的安全性。但是,由于光检测和范围(LIDAR)单元用作3D图像传感器或3D图像传感器的安装位置,因此点云数据的特征是多元化的。尽管迄今已研究了从点云数据进行对象检测的各种深度学习(DL)模型,但尚无研究考虑如何根据点云数据的功能使用多个DL模型。在这项工作中,我们提出了一个基于功能的模型选择框架,该框架通过使用多种DL方法并利用两种人工技术生成的伪不完整的训练数据来创建各种DL模型:采样和噪声添加。它根据在真实环境中获取的点云数据的功能,为对象检测任务选择最合适的DL模型。为了证明提出的框架的有效性,我们使用从KITTI数据集创建的基准数据集比较了多个DL模型的性能,并比较了通过真实室外实验获得的对象检测的示例结果。根据情况,DL模型之间的检测准确性高达32%,这证实了根据情况选择适当的DL模型的重要性。
translated by 谷歌翻译
控制鱼类进食机是具有挑战性的问题,因为经验丰富的渔民可以根据假设充分控制。为了构建合理应用的强大方法,我们分别使用回归和纹理特征分别使用计数营养和估算涟漪行为来根据计算机视觉进行自动控制鱼类进料机。为了计算营养数量,我们应用对象检测和跟踪方法来确认移动到海面的营养。最近,对象跟踪是计算机视觉中的积极研究和具有挑战性的问题。不幸的是,在具有更多外观生物的水产养殖场中,具有密度和复杂关系的多个小物体的强大跟踪方法是未解决的问题。根据营养和​​涟漪行为的数量,我们可以控制在实际环境中始终如一地表现良好的鱼类喂食机。提出的方法提出了通过激活图和连锁行为的质地特征自动控制鱼类进食的一致性。与其他方法相比,我们的跟踪方法可以精确跟踪下一帧的营养。基于计算时间,提出的方法达到3.86 fps,而其他方法的支出低于1.93 fps。定量评估可以承诺,提议的方法对于广泛适用于真实环境的水产养殖养鱼场很有价值。
translated by 谷歌翻译
对行人基础设施,特别是人行道的大规模分析对人类以人为本的城市规划和设计至关重要。受益于通过纽约市开放数据门户提供的Procepetric特征和高分辨率OrthoImages的丰富数据集,我们培养计算机视觉模型来检测遥感图像的人行道,道路和建筑物,达到83%的Miou持有-out测试集。我们应用形状分析技术来研究提取的人行道的不同属性。更具体地,我们对人行道的宽度,角度和曲率进行了瓷砖明智的分析,除了它们对城市地区的可行性和可达性的一般影响,众所周知,在轮椅用户的移动性中具有重要作用。初步结果是有前途的,瞥见了不同城市采用的拟议方法的潜力,使研究人员和从业者可以获得更生动的行人领域的画面。
translated by 谷歌翻译
在自然灾害期间迫切需要的疏散避难所旨在尽量减少对人类幸存者的疏散负担。然而,灾难的规模越大,操作避难所的成本越高。当疏散物的数量减少时,通过将剩余的疏散物移动到其他避难所和尽可能快地关闭挡板来减小操作成本。另一方面,庇护所之间的搬迁对疏散者造成了巨大的情感负担。在这项研究中,我们制定了“疏散避难所调度问题”,它以避难所分配避难所,以尽量减少避难所的运动成本和避难所的运营成本。由于很难直接解决这一二次编程问题,因此我们将其转换为0-1整数编程问题。此外,这种配方努力计算从历史数据中重新安置它们的负担,因为实际没有付款。为了解决这个问题,我们提出了一种方法,该方法根据实际灾难期间基于撤离者和庇护所的数量估算运动成本。仿真实验与神户地震(Great Hanshin-Awaji地震)的记录表明,我们的建议方法将运营成本减少3370万美元:32%。
translated by 谷歌翻译
保护用户免受访问恶意网站的是网络运营商的重要管理任务之一。有许多开源和商业产品来控制用户可以访问的网站。最传统的方法是基于黑名单的过滤。这种机制简单但不可扩展,尽管使用模糊匹配技术存在一些增强的方法。其他方法尝试通过从URL字符串中提取功能来使用机器学习(ML)技术。这种方法可以覆盖更广泛的互联网网站区域,但找到了良好的功能需要深入了解网站设计的趋势。最近,出现了使用深度学习(DL)的另一种方法。 DL方法将有助于通过调查大量现有的示例数据自动提取功能。使用此技术,我们可以通过继续教导近期趋势的神经网络模块来构建灵活的过滤决策模块,而没有URL域的任何特定专家知识。在本文中,我们应用了从URL字符串生成特征向量的机械方法。我们实施了我们的方法,并使用了从研究组织和来自着名的网络钓鱼网站信息信息,Phishtank.com获取的现实URL访问历史记录数据。与现有的基于DL的方法相比,我们的方法可以获得2〜3%的更好的准确性。
translated by 谷歌翻译
配置不正确的域名系统(DNS)服务器有时用作数据包反射器,作为DOS或DDOS攻击的一部分。通过监视DNS请求和响应流量,可以逻辑地逻辑地检测作为此活动的结果创建的分组。任何没有相应请求的响应都可以被视为反射消息;然而,检查和跟踪每个DNS数据包是非微不足道的操作。在本文中,我们提出了一种通过使用从少量数据包和机器学习算法构建的DNS服务器特征矩阵用作反射器的DNS服务器的检测机制。当在同一天生成测试和培训数据时,错误DNS服务器检测的F1评分大于0.9,并且对于不用于同一天的培训和测试阶段的数据,超过0.7。
translated by 谷歌翻译