
6月16日,Tencent AI实验室推出了Songgeneration Music Generation Model,重点介绍了AIGC音乐中的三个常见问题:声音质量,音乐性和生产速度,并且是开放量的音乐生成生成模型。基于Fusion Architecture LLM-DIT,该模型在保持生产速度的同时显着提高了声音质量的性能。歌曲产生的准确性表明,与某些商业代码模型相比,歌曲的准确性是可比甚至更好的。同时,它超过了现有的开放性能模型,旋律,伴奏,声音质量和结构。此外,歌曲生成模型还与文本控制,乘数综合和样式监视特征兼容。它不仅符合C-End的创建者的可玩性,而且还具有B端的稳定性和扩展,并建立了未来的音乐生产力工具。图1业务模型的主观评估结果FI与基于规则的传统模型相比,开源模型的主观评估结果基于规则或基于大型模型的小型音乐生成模型,证明了旋律的较长范围一致性,潜在的样式传递能力以及音调模型的代表性维度的概括和产生。 AI的音乐创建已从“其他工具”转变为“智能共同创作”的新阶段,并且被广泛用于短视频乐队,游戏的声音效果,虚拟人类性能,商业广告和个人音乐创作。尽管当前的主要音乐生成模型最初达到了“从文本到音乐”的通用能力,但它仍然面临着一组重要的瓶颈。在这种背景下,腾讯AI实验室推出了Songgeneration音乐生成模型,重点介绍了三个常见问题:声音质量,音乐性和生产速度。预期的歌声目标分为两个级别:技术和应用。在技术层面上,我们在行业中取得了领先的声音质量表现,音乐性和发电速度以及多语言的抒情作品,风格和其他任务的产生,并完美地适应了各种音乐风格,例如中国流行音乐,嘻哈,古代风格,电子产品等。在应用程序级别上,我们为开源社区推出了友好版本,广泛加强了内容创建平台,虚拟人类项目,游戏创建者和音乐家创作过程,以及创造开放,灵活和可持续的音乐生态系统。 Songgeneration Music模型的推出不仅代表了技术能力的跃升,而且还代表着强烈的反应,也代表着对“任何人都可以创造”的未来愿景的强烈促进。 1。模型性能和效果,歌曲的产生允许许多中心功能,所有这些都在开源版本中很容易调用。这些特征不在LY提供了简单而直观的行为,但也提供了生成过程中高度的可控性,这使用户可以在“创建AI帮助”中具有真正的优势。以下是对其主要特征的一般描述。文本控制:用户只需输入带有关键字(例如“ Happy Pop”或“ Furious Rock”)的文本即可获得情感风格和控制。歌曲产生的高级音乐的完整音乐作品是根据条目文本生成的。以下内容:用户可以加载参考音频超过10秒。歌曲的一代会自动生成具有相同风格的新歌曲,完整的歌曲涵盖了各种流派,例如流行,摇滚,中国风格和“神圣歌曲”。它在保持风格的一致性并表现出色的音乐时产生歌曲。多银行一代:歌曲的产生可以自动产生单独的声音线索和同伴,从而确保高旋律,结构,节奏和编排。跟随音调:Songgeneration允许以下参考音频的功能,并在“牙齿克隆”级别上生成具有声音表演的歌曲。它具有自然的听觉体验和出色的音质,并且具有出色的情感表达。 2。技术人员解决方案训练架构解决方案包括两个部分:数据管和生成模型。首先,Songeneration创建了音乐数据组合,其中包括伴随声音分离,结构分析和字母识别等模块。通过管道,可以从原始音频,结构,音乐风格,声音质量等标签的数据中获得精确字母的数据,该标签被发送到生成模型进行训练。图3通过歌曲生成训练体系结构获得的歌曲生成参数总数约为3B,从那时起,它已在许多中文和英语歌曲中优先考虑。如图所示,它包含编解码器,LM,FM,VAE和其他部分,每个模块都会单独训练。其中,编解码器和LM在模型中起着重要作用。音乐编解码器大约有1B的模型参数,用于音乐和弦,以25Hz的离散特性压缩48 kHz双通道音乐,以实现高忠诚度的恢复。音乐LM用于使用大约2B模型参数根据用户说明来生成完整的歌曲(字母说明,音频指示)。根据这两个组成部分,歌曲的产生可以根据用户的说明有效地以48 kHz的采样频率生成音乐。图4歌曲生成模型3的体系结构。技术创新点本节主要介绍了四个关键领域的Soge实施和创新创新的详细信息:1。低 - 雄厚的音乐编解码器代币作为音乐生成系统中的中央桥梁,不仅假设了预测目标语言模型的,但也直接决定了香奈儿双音乐的恢复效果。由于语言模型在长序列预测和预测错误中易于随着序列长度的累积积累,因此编解码器的设计应保证重建高质量的音乐信息,从而减少预测语言模型和提高音乐恢复质量的难度。音乐发电的编解码器主要以下是:它一直在其方面所反映的行业认可。复杂组件的结构:与仅包含人类声音的声音不同,音乐将丰富的背景伴奏与人类的声音,复杂的互动以及两者之间的和谐关系结合在一起。与具有单个声学特征的音频和声学事件的关注相比,音乐的各个组成部分都大大增加了建模。大量DATA:高质量的音乐通常为44.1kHz或48 kHz双通道格式,而传统音频只有16 kHz,带有一个频道。以48 khz双通道音乐为例,以完整的4分钟歌曲为例,其数据量几乎是单个16 kHz频道音频的六倍。以典型的75Hz编码器为例,歌曲的总长度达到153,600,这大大增加了语言模型的压力,这直接影响了音乐产生的效果。声学和语义之间的双桥:与传统音频编解码器不同,音乐发电代码不仅应保留足够的声学能力来实现高质量的维修,而且还包括丰富的语义信息,以进行精确的语言模型预测。 pu的单一方法和语义功能很难满足音乐制作的复杂需求。为了应对以前的挑战,这首歌的歌曲创新提出了高级Qu在开源源模型中,Ality 48 kHz双通道编解码器具有最低和最低位速率。 Songgeneration Audio编解码器允许当前最佳的音乐重建效果,其速度为25Hz,位速率非常低0.35kbps,大大减少了语言模型的建模负载,并为高质量的音乐生成提供了坚实的基础。此外,为了建模声乐与伴奏之间的关系,歌曲设计了两种创新的编码模式:混合曲目和双轨道。混合轨道模式模型均匀地发出声音和伴奏,编码所有音乐信息,确保声音和伴奏之间的和谐和构成。双跟踪模式不管代码和背景音乐的模型和声音如何,但是两个Mascree精确和高质量的音乐细节。 2。在对跨国令牌的平行预测之前,主要的学术研究倾向于采用双轨预测策略来解决协作建模音乐元音和伴奏的问题,通过散布的预测模式来减轻两者之间的干扰。但是,声音和伴奏之间存在严重的差异,这严重影响了用户的听觉体验。由插入模式引起的序列长度的重复问题进一步限制了该方法的可扩展性。为了解决这个问题,歌曲是第一个提出一个平行的预测策略的综合策略,称为“混合动力,第二,双轨道第二。音乐知识,这使得很难满足观众的喜好对于产生的歌曲。另一方面,不可靠的注释对模型遵循用户说明的能力有严重影响。这不仅导致高音素错误率(PER),而且对控制快速驱动器的能力有严重影响。在自然语言处理和产生图像的领域中,这个问题是高质量数据的问题。或经常通过学习调整后的增强来解决。但是,由于对自动的权利限制,您无法获得高质量的音乐歌曲和音乐歌曲,并且预培训数据的数量远低于培训数据。音乐标签需要专业知识和背景,并且需求有多个方面,这使得很难将这两种方法直接应用于音乐制作领域。 Songgeneration是首个调节多维人类偏好的音乐一代模型,有效地解决音乐问题和TE由于低成本数据的短缺而酸痛。我们专注于音乐偏好,抒情的一致性偏好和对用户体验产生重大影响的快速一致性偏好。 Songgeneration首先设计了一种低成本的半自动数据构建方法,并根据上述三个首选世代生成相应的首选数据对。音乐偏好:通过少量的手动得分来区分胜利和歌词的一致性的偏好以及损失。 (DPO)解决了同时调整字母,快速一致性和音乐性等问题。此外,该方法还通过可控的插值系数来接受性能的软过渡,以满足特定需求。 4。新的三阶段训练范式。为了关注歌曲产生的复杂性和数据的稀有性,Songgeneration提出了一个新的三阶段训练范式,以进一步优化MU基于语言模型的一代。在训练之前:仅在一组大型音乐数据中训练语言模型,然后首先将不同的孔迪克分子与标志之间的音乐表保持一致。在此阶段,AR解码器被冷冻,因此语言模型着眼于令牌混合物,为创造声音和乐器的多样性和和谐奠定了基础。扩展的模块化训练:模型中的训练扩展模块(例如自动回归解码器)根据对混合令牌的预定音乐结构的了解,并平行地提高了声音建模双轨令牌的质量和音乐性。在培训阶段训练的所有模块(语言模型)均已冻结,以在培训前保留知识。多人LANZE对准直线:基于在扩展模块化训练阶段获得的模型,该模型根据其产生音乐的能力,基于基于音乐的能力发展按照人类的指示,它产生音乐的能力。考虑到不同的系数,您可以满足不同的需求,以平衡不同的偏好。 4。(不是真的,Ace Step,Songgen)。该评估涵盖了几个重要的维度,例如音乐性和声音质量,并且可以完全反映该模型在音乐制作中的组成性能。评估客观工具(开放第三方来源模型的评估):生产质量(PQ):它重点介绍音频的技术质量,而不是主观感觉。评估因素包括清晰度和忠诚度,动态范围,频率分布和空间性能。生产复杂性(PC):它集中于音频场景的复杂性,通常以音频组件数量来衡量。内容欣赏(CE):包括情感影响,艺术技能,艺术表达和音频体验。心理(CU)的效用:评估u的可能性或可能性将此音频作为内容创建材料唱歌。主观手动资格(常规用户 +专业音乐家的资格):旋律(MEL):旋律的舒适性,表现力的情感能力和音乐许可,并评估它是否与他们的一般风格和期望相吻合。伴奏(火腿):伴奏,编排的多样性和协调以及与主要旋律的融合程度。结构(SSC):如果短语的开头和结尾是自然而清晰,可识别的段落结构,合理地重复相似的段落和节奏稳定性。声音质量(aq):如果有噪音或地板,如果识别声音,并且如果对含义及其音调维修水平有意识,以及音频是否充满且清晰,则有几种乐器会妥协。抒情精确度(LYC):它们是多么偶然的字母和唱歌内容,或者有多个单词等问题,很少有问题音乐段落中的词语,抒情不一致以及是否存在反自然的重复或机械周期。一般表演(OVL):对音乐作品的一般热爱,包括多个要素,包括整体感知,伴奏,音乐结构,声音质量的代表和歌词的精确度。表1客观比较评估表2主观比较评估的一般结果表明,这首歌首先在开源模型中分类,并在业务模型的顶部分类,具有竞争优势。在对客观评估的水平比较中,歌曲的一代人首先分为三个维度:CE(内容显示),CU(内容实用性)和PQ(生产质量),并且在PC的维度(生产的复杂性)中也处于主要位置。这表明这首歌不仅具有很高的技术质量和音频的质量ON,但还展现了艺术表达,主观愉悦和应用程序的潜在价值的强大而全面的能力,这使您可以考虑自己的听觉体验和真正的创造性需求。在主观评估中,它超过了许多主要模型,包括SUNO,就字母的准确性而言。这反映了语音和文本一致性的重要好处,以及内容产生的详细处理的成熟度。在旋律,伴奏,声音质量和一般表演方面,歌曲的产生也处于关键位置,这阻碍了Suno最新V4.5版本的区别。这表明,不仅可以驱动精致和音乐表达,而且还显示了行业声音质量中最大的清晰度和层次,它展示了与传统商业模型详尽可比的能力。同时,第一个模型在音乐制作的结构方面实现了开源可以将其与业务模型进行比较。清晰和层次的结构不仅有助于发展旋律和伴奏,还可以提高音乐的一致性和情感表达,从而增加了观众的沉浸感和记忆点。 5。经验的方法和局。目前,歌曲生成模型已记录在脸上。在线体验!同时,所有型号的权重和代码都是完全开源的。我们真诚地邀请您下载,复制,调整和倡导有价值的意见。此外,AI实验室是开放的,可以参与大型多模式模型,Autoevol AgentSadaptive和Music Generation的算法位置。 huggingface:https:// huggingfaces