
公共使者为您分享以下优质知识
阿里音乐技术主要体现在其AI音乐生成模型“InspireMusic”上。该模型由阿里巴巴通义实验室开发,首次将超分辨率技术与大型语言模型结合,实现了高保真长时音乐生成,让AI作曲进入新纪元。
技术框架
音频标记化:使用wavtokenizer将24kHz音频以75Hz的采样率压缩成离散标记,包含丰富的语义信息。
自回归Transformer:基于qwen 2.5系列模型,根据前面的标记预测序列中的下一个音频标记,确保长序列连贯性。
超分辨率流匹配:通过学习分布之间的最优变换路径,将低分辨率的粗略音频标记增强为高分辨率的细粒度音频输出。
主要创新点
wavtokenizer:在75Hz采样率下提取语义信息,降低训练成本并提升效率。
自回归Transformer:基于qwen 2.5的自回归transformer预测音频标记序列,确保长序列连贯性。
超分辨率流匹配模型:通过HIFI-codec将低分辨率标记映射为高保真48kHz音频。
希望这些信息能帮助你更好地了解阿里音乐技术。