在本文中,我们使用最初提出的可变长度infilling(VLI)模型进行调查,该模型最初提出缺失缺失段,以“延长”在音乐界限下的现有音乐群。具体而言,作为一个案例研究,我们将20个音乐段扩展到16个条形图到16个条形,并检查VLI模型在使用少数客观指标中保留扩展结果中的音乐界限的程度,包括我们新提出的寄存器直方图相似度。结果表明,VLI模型有可能解决扩展任务。
translated by 谷歌翻译
人通常通过按音乐形式组织元素来表达音乐思想来创作音乐。但是,对于基于神经网络的音乐生成,由于缺乏音乐形式的标签数据,很难这样做。在本文中,我们开发了Meloform,该系统是使用专家系统和神经网络以音乐形式生成旋律的系统。具体而言,1)我们设计了一个专家系统,可以通过开发从图案到短语的音乐元素到并根据预授予的音乐形式进行重复和变化的部分来生成旋律; 2)考虑到产生的旋律缺乏音乐丰富性,我们设计了一个基于变压器的改进模型,以改善旋律而不改变其音乐形式。 Meloform享有专家系统和通过神经模型的音乐丰富性学习的精确音乐形式控制的优势。主观和客观的实验评估都表明,MeloForm以97.79%的精度生成具有精确的音乐形式控制的旋律,并且在主观评估评分方面的表现优于基线系统0.75、0.50、0.50、0.86和0.89,其结构,主题,丰富性和整体质量和整体质量无需主观评估,而没有主观评估。任何标记的音乐形式数据。此外,Meloform可以支持各种形式,例如诗歌和合唱形式,隆多形式,变异形式,奏鸣曲形式,等等。
translated by 谷歌翻译
符号音乐分割是将符号旋律分为较小有意义的群体(例如旋律短语)的过程。我们提出了一种无监督的方法来分割符号音乐。提出的模型基于时间预测误差模型的合奏。在训练过程中,每个模型都预测了下一个令牌,以识别音乐短语变化。在测试时,我们执行峰值检测算法以选择候选段。最后,我们汇总了参与合奏的每个模型以预测最终分割的预测。结果表明,在考虑F-SCORE和R-VALUE时,建议的方法在无监督的设置下达到了Essen Folksong数据集的最先进性能。我们还提供消融研究,以更好地评估每个模型组件对最终结果的贡献。正如预期的那样,提出的方法不如监督环境,这为未来的研究提供了改善的空间,考虑到无监督和监督方法之间的差距。
translated by 谷歌翻译
即使具有像变形金刚这样的强序模型,使用远程音乐结构产生表现力的钢琴表演仍然具有挑战性。同时,构成结构良好的旋律或铅片(Melody + Chords)的方法,即更简单的音乐形式,获得了更大的成功。在观察上面的情况下,我们设计了一个基于两阶段变压器的框架,该框架首先构成铅片,然后用伴奏和表达触摸来修饰它。这种分解还可以预处理非钢琴数据。我们的客观和主观实验表明,构成和装饰会缩小当前最新状态和真实表演之间的结构性差异,并改善了其他音乐方面,例如丰富性和连贯性。
translated by 谷歌翻译
现有的使用变压器模型生成多功能音乐的方法仅限于一小部分乐器或简短的音乐片段。这部分是由于MultiTrack Music的现有表示形式所需的冗长输入序列的内存要求。在这项工作中,我们提出了一个紧凑的表示,该表示可以允许多种仪器,同时保持短序列长度。使用我们提出的表示形式,我们介绍了MultiTrack Music Transformer(MTMT),用于学习多领音乐中的长期依赖性。在主观的听力测试中,我们提出的模型针对两个基线模型实现了无条件生成的竞争质量。我们还表明,我们提出的模型可以生成样品,这些样品的长度是基线模型产生的样品,此外,可以在推理时间的一半中进行样本。此外,我们提出了一项新的措施,以分析音乐自我展示,并表明训练有素的模型学会更少注意与当前音符形成不和谐间隔的注释,但更多地却更多地掌握了与当前相距4N节奏的音符。最后,我们的发现为未来的工作提供了一个新颖的基础,探索了更长形式的多音阶音乐生成并改善音乐的自我吸引力。所有源代码和音频样本均可在https://salu133445.github.io/mtmt/上找到。
translated by 谷歌翻译
Transformers and variational autoencoders (VAE) have been extensively employed for symbolic (e.g., MIDI) domain music generation. While the former boast an impressive capability in modeling long sequences, the latter allow users to willingly exert control over different parts (e.g., bars) of the music to be generated. In this paper, we are interested in bringing the two together to construct a single model that exhibits both strengths. The task is split into two steps. First, we equip Transformer decoders with the ability to accept segment-level, time-varying conditions during sequence generation. Subsequently, we combine the developed and tested in-attention decoder with a Transformer encoder, and train the resulting MuseMorphose model with the VAE objective to achieve style transfer of long pop piano pieces, in which users can specify musical attributes including rhythmic intensity and polyphony (i.e., harmonic fullness) they desire, down to the bar level. Experiments show that MuseMorphose outperforms recurrent neural network (RNN) based baselines on numerous widely-used metrics for style transfer tasks.
translated by 谷歌翻译
近年来,对与音乐信息检索社区中的音频信号检测钢琴踏板有关的研究越来越兴趣。然而,为了我们最好的知识,象征音乐的最近生成模型很少考虑钢琴踏板。在这项工作中,我们采用了Kong等人提出的转录模型。要从AILABS1K7数据集中的钢琴性能的录音中获取踏板信息,然后修改Hsiao等人提出的复合字变压器。构建一个变压器解码器,与其他音乐币一起生成与踏板相关的令牌。虽然通过使用推断的维持踏板信息作为培训数据来完成工作,但结果表明希望进一步改进,维持踏板参与钢琴绩效代队任务的希望。
translated by 谷歌翻译
创造像音乐这样的复杂艺术作品需要深刻的创造力。随着深度学习和强大模型(例如变形金刚)的最新进展,自动音乐生成取得了巨大进展。在伴奏的生成环境中,在歌曲中的适当位置创建一个连贯的鼓模式,即使对于经验丰富的鼓手来说,在歌曲中的适当位置也是一项艰巨的任务。鼓节拍倾向于通过填充或即兴表演的节遵循重复的模式。在这项工作中,我们解决了鼓模式产生的任务,该任务是根据四种旋律乐器演奏的音乐来解决的:钢琴,吉他,贝斯和弦乐。我们将变压器序列用于序列模型来生成在旋律伴奏下进行的基本鼓模式,以发现即兴创作在很大程度上不存在,这可能归因于其在训练数据中的预期相对较低的表示。我们提出了一种新颖的功能,以捕获相对于其邻居的标准中即兴创作的程度。我们训练一个模型,以预测旋律伴奏曲目的即兴位置。最后,我们使用一种小说的伯特(Bert)启发的填充体系结构,以学习鼓和旋律的结构,以实现即兴音乐的填充元素。
translated by 谷歌翻译
在本文中,我们探讨了使用变压器模型自动生成音乐评分的音乐评分的令牌化表示。到目前为止,序列模型与音乐的音乐级(中等等效物)符号表示产生了富有成效的结果。尽管音符级别表示可以包括对验证的足够的信息来重现音乐,但是在符号方面,它们不能包含足够的信息来在视觉上用来代表音乐。音乐评分包含各种音乐符号(例如,谱号,关键签名和笔记),属性(例如,茎方向,光束和绑定),使我们能够视觉上识别音乐内容。但是,这些元素的自动估计尚未全面解决。在本文中,我们首先设计得分令牌表示对应于各种音乐元素。然后,我们训练变压器模型将Note-Level表示转换为适当的音乐表示法。流行钢琴评分的评估表明,该方法在调查的所有12个音乐问题上显着优于现有的方法。我们还探讨了有效的符号级标记表示,以便与模型一起使用,并确定我们所提出的代表产生最可证的结果。
translated by 谷歌翻译
我们提出了一种生成钢琴音乐的MIDI文件的方法。该方法使用两个网络绘制右手和左手,左手在右手上调节。这样,在和谐之前产生旋律。MIDI以不变量的方式表示,以乐谱,旋律表示,为了调节和谐,通过每个杆的内容被视为弦。最后,基于此和弦表示,随机添加了Notes,以丰富生成的音频。我们的实验表现出对本领域的培训技术的显着改进,用于培训此类数据集,并证明每个新型组件的贡献。
translated by 谷歌翻译
实时音乐伴奏的生成在音乐行业(例如音乐教育和现场表演)中具有广泛的应用。但是,自动实时音乐伴奏的产生仍在研究中,并且经常在逻辑延迟和暴露偏见之间取决于权衡。在本文中,我们提出了Song Driver,这是一种无逻辑延迟或暴露偏见的实时音乐伴奏系统。具体而言,Songdriver将一个伴奏的生成任务分为两个阶段:1)安排阶段,其中变压器模型首先安排了和弦,以实时进行输入旋律,并在下一阶段加速了和弦,而不是播放它们。 2)预测阶段,其中CRF模型基于先前缓存的和弦生成了即将到来的旋律的可播放的多轨伴奏。通过这种两相策略,歌手直接生成即将到来的旋律的伴奏,从而达到了零逻辑延迟。此外,在预测时间步的和弦时,歌手是指第一阶段的缓存和弦,而不是其先前的预测,这避免了暴露偏见问题。由于输入长度通常在实时条件下受到限制,因此另一个潜在的问题是长期顺序信息的丢失。为了弥补这一缺点,我们在当前时间步骤作为全球信息之前从长期音乐作品中提取了四个音乐功能。在实验中,我们在一些开源数据集上训练歌手,以及由中国风格的现代流行音乐得分构建的原始\```````'''aisong数据集。结果表明,歌手在客观和主观指标上均优于现有的SOTA(最先进)模型,同时大大降低了物理潜伏期。
translated by 谷歌翻译
音乐包含超出节拍和措施的层次结构。尽管层次结构注释有助于音乐信息检索和计算机音乐学,但在当前的数字音乐数据库中,这种注释很少。在本文中,我们探讨了一种数据驱动的方法,以自动从分数中提取分层的度量结构。我们提出了一个具有时间卷积网络条件随机字段(TCN-CRF)体系结构的新模型。给定符号音乐得分,我们的模型以良好的形式采用任意数量的声音,并预测了从偏低级别到截面级别的4级层次级别结构。我们还使用RWC-POP MIDI文件来注释数据集,以促进培​​训和评估。我们通过实验表明,在不同的编排设置下,提出的方法的性能优于基于规则的方法。我们还对模型预测进行了一些简单的音乐分析。所有演示,数据集和预培训模型均在GitHub上公开可用。
translated by 谷歌翻译
在这项工作中,我们提出了一个置换不变的语言模型Symphonynet,作为象征性交响音乐生成的解决方案。我们建议使用基于变压器的自动回归语言模型具有特定的3-D位置嵌入的新型多通道可重复的多磁场(MMR)表示,并模拟音乐序列。为了克服长度溢出在建模超长的交响令牌时,我们还提出了一对经过修改的字节对编码算法(音乐bpe)用于音乐令牌,并引入了一种新颖的线性变压器解码器架构作为骨干。同时,我们通过从输入中掩盖仪器信息来训练解码器将自动编排作为联合任务学习。我们还引入了一个大规模的符号交响数据集,以进行交响曲生成研究的发展。经验结果表明,所提出的方法可以产生连贯,新颖,复杂和和谐的交响曲,作为多轨多训练符号音乐生成的先驱解决方案。
translated by 谷歌翻译
Following the success of the transformer architecture in the natural language domain, transformer-like architectures have been widely applied to the domain of symbolic music recently. Symbolic music and text, however, are two different modalities. Symbolic music contains multiple attributes, both absolute attributes (e.g., pitch) and relative attributes (e.g., pitch interval). These relative attributes shape human perception of musical motifs. These important relative attributes, however, are mostly ignored in existing symbolic music modeling methods with the main reason being the lack of a musically-meaningful embedding space where both the absolute and relative embeddings of the symbolic music tokens can be efficiently represented. In this paper, we propose the Fundamental Music Embedding (FME) for symbolic music based on a bias-adjusted sinusoidal encoding within which both the absolute and the relative attributes can be embedded and the fundamental musical properties (e.g., translational invariance) are explicitly preserved. Taking advantage of the proposed FME, we further propose a novel attention mechanism based on the relative index, pitch and onset embeddings (RIPO attention) such that the musical domain knowledge can be fully utilized for symbolic music modeling. Experiment results show that our proposed model: RIPO transformer which utilizes FME and RIPO attention outperforms the state-of-the-art transformers (i.e., music transformer, linear transformer) in a melody completion task. Moreover, using the RIPO transformer in a downstream music generation task, we notice that the notorious degeneration phenomenon no longer exists and the music generated by the RIPO transformer outperforms the music generated by state-of-the-art transformer models in both subjective and objective evaluations.
translated by 谷歌翻译
长期以来,流行音乐的一代一直是音乐家和科学家的吸引力。但是,以令人满意的结构自动编写流行音乐仍然是一个具有挑战性的问题。在本文中,我们建议利用和谐学习的学习来获得结构增强的流行音乐。一方面,和谐,和弦的参与者之一代表了多个音符的谐波集,该音符与音乐的空间结构紧密整合在一起。另一方面,另一个和谐,和弦进步的参与者通常伴随音乐的发展,从而促进了音乐的时间结构。此外,当和弦演变成和弦发展时,质地和形式可以由和谐自然地桥接,这有助于两种结构的共同学习。此外,我们提出了和谐感知的等级音乐变压器(帽子),可以从音乐中适应结构,并使音乐令牌在层次上进行层次相互作用,以增强多层音乐元素的结构。实验结果表明,与现有方法相比,HAT对结构有更好的了解,并且还可以提高产生的音乐的质量,尤其是形式和质地。
translated by 谷歌翻译
Reading, much like music listening, is an immersive experience that transports readers while taking them on an emotional journey. Listening to complementary music has the potential to amplify the reading experience, especially when the music is stylistically cohesive and emotionally relevant. In this paper, we propose the first fully automatic method to build a dense soundtrack for books, which can play high-quality instrumental music for the entirety of the reading duration. Our work employs a unique text processing and music weaving pipeline that determines the context and emotional composition of scenes in a chapter. This allows our method to identify and play relevant excerpts from the soundtrack of the book's movie adaptation. By relying on the movie composer's craftsmanship, our book soundtracks include expert-made motifs and other scene-specific musical characteristics. We validate the design decisions of our approach through a perceptual study. Our readers note that the book soundtrack greatly enhanced their reading experience, due to high immersiveness granted via uninterrupted and style-consistent music, and a heightened emotional state attained via high precision emotion and scene context recognition.
translated by 谷歌翻译
歌词到融合的生成是歌曲创作的重要任务,并且由于其独特的特征也很具有挑战性:产生的旋律不仅应遵循良好的音乐模式,而且还应与节奏和结构等歌词中的功能保持一致。由于几个问题,这些特征无法通过以端到端学习抒情式映射的神经生成模型来很好地处理:(1)缺乏对齐的抒情式摩托律训练数据,以充分学习抒情液特征结盟; (2)发电中缺乏可控性,无法明确保证抒情特征对齐。在本文中,我们提出了ROC,这是一种新的抒情术的范式,该范式通过一代网络式管道解决了上述问题。具体而言,我们的范式有两个阶段:(1)创建阶段,其中大量音乐是由基于神经的旋律语言模型生成的,并通过几个关键功能(例如和弦,音调,节奏和节奏和节奏)在数据库中索引。结构信息,包括合唱或经文); (2)重新创建阶段,根据歌词的关键功能从数据库中检索音乐作品,并根据构图指南和旋律语言模型分数从数据库中检索音乐作品来重新创建旋律。我们的ROC范式具有多个优点:(1)它只需要未配对的旋律数据来训练旋律语言模型,而不是以前模型中配对的抒情数据。 (2)它在抒情循环的生成中实现了良好的抒情式特征对齐。关于英语和中文数据集的实验表明,ROC在客观和主观指标上都优于先前基于神经的抒情性循环模型。
translated by 谷歌翻译
本文提出了一种新的方法,可以通过蒙特卡洛树搜索来控制象征性音乐的情感。我们使用蒙特卡洛树搜索作为一种解码机制来指导语言模型学到的概率分布朝着给定的情感。在解码过程的每个步骤中,我们都会使用树木(Puct)的预测指标上的置信度来搜索分别由情绪分类器和歧视器给出的情感和质量平均值的序列。我们将语言模型用作管道的政策,并将情感分类器和歧视器的组合作为其价值功能。为了解码一段音乐中的下一个令牌,我们从搜索过程中创建的节点访问的分布中进行采样。我们使用直接从生成的样品计算的一组客观指标来评估生成样品相对于人类组成的碎片的质量。我们还进行了一项用户研究,以评估人类受试者如何看待生成的样品的质量和情感。我们将派斗与随机双目标梁搜索(SBB)和条件采样(CS)进行了比较。结果表明,在音乐质量和情感的几乎所有指标中,Puct的表现都优于SBB和CS。
translated by 谷歌翻译
The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 3rd International Workshop on Reading Music Systems, held in Alicante on the 23rd of July 2021.
translated by 谷歌翻译
许多社交媒体用户更喜欢以视频​​而不是文本的形式消耗内容。但是,为了使内容创建者以高点击率生成视频,需要许多编辑才能将素材与音乐匹配。这员发出了更多适合业余视频制造商的额外挑战。因此,我们提出了一种新的基于关注的VMT(视频音乐变压器),它自动生成来自视频帧的钢琴分数。使用模型生成的音乐还可以防止潜在的版权侵权,这些版权往复使用现有音乐。据我们所知,除了拟议的VMT之外,没有任何工作,旨在为视频撰写音乐。此外,还缺少具有对齐视频和符号音乐的数据集。我们释放了一个由7小时超过7小时的钢琴分数组成的新数据集,在流行音乐视频和MIDI文件之间进行精细对齐。我们对VMT,SEQSEQ模型(我们的基线)和原始钢琴版原声带进行人体评估进行实验。 VMT通过对音乐平滑度和视频相关性的基线实现一致的改进。特别是,通过相关性分数和我们的案例研究,我们的模型已经显示了多模对帧级演员的音乐生成运动的能力。我们的VMT模型以及新数据集具有有希望的研究方向,旨在为视频进行匹配的匹配原声。我们在https://github.com/linchintung/vmt发布了我们的代码
translated by 谷歌翻译