核心功能与创作支持
ACE-Step 是由阶跃星辰与 ACE Studio 联合开源的音乐生成基础模型,专注于为音乐创作提供高效、灵活且高质量的解决方案。其核心能力包括:
- 多语言与风格支持:支持中、英、日、西语等 19 种语言 的歌词输入,覆盖流行、放克、爵士等主流音乐风格,适配全球创作需求。
- 结构可控生成:通过
[verse]
、[chorus]
等标签划分段落,生成具备主歌、副歌层级结构的完整音乐,时长可精确设置为 10 秒至 4 分钟。 - 高速生成能力:在 NVIDIA A100 GPU 上仅需 20 秒 即可生成 4 分钟音乐,比传统方法快 15 倍,输出格式为可直接使用的 MP3 文件。
官网链接:
https://ai.gitee.com/serverless-api?model=ACE-Step-v1-3.5B
精细控制与编辑功能
模型提供多级编辑工具,满足创作微调需求:
- 局部优化:
- Retake:调整随机种子重新生成相似风格版本;
- Repaint:仅修改指定时间段的段落(如 15–30 秒);
- Edit:保留旋律替换歌词,或通过关键词调整风格。
- 智能扩展:
- Extend:在音乐开头或结尾追加新段落,支持自定义时长。
技术优势与创新设计
ACE-Step 通过融合 扩散生成、深度压缩自动编码器(DCAE) 和 轻量级线性变换器,突破现有模型的局限:
- 连贯性与可控性平衡:解决传统扩散模型的结构松散问题,实现长段落旋律自然衔接(如结尾复用开头主题)。
- 高保真声学细节:支持语音克隆、多轨混音等高级控制,精准还原乐器音色。
- 灵活输入兼容:支持短标签(如 “funk, 105 BPM”)、场景描述、结构化歌词组合输入。
应用场景实例
- 轻量内容创作:为短视频、广告片生成 60 秒精准时长 的配乐,例如输入标签 “pop, energetic” 和中文歌词快速输出。
- 人机协同创作:结合 LoRA 微调定制特定风格(如古风编曲),或通过 ControlNet 生成匹配人声的伴奏。
- 教育工具:用于音乐课堂中的风格实验,例如生成放克节奏片段教学。
开源资源与体验入口
- 在线体验:通过 Gitee 模力方舟平台直接生成音乐。
- 代码与模型:
- GitHub 仓库:https://github.com/ace-step/ACE-Step
- Hugging Face 模型:https://huggingface.co/ACE-Step/ACE-Step-v1-3.5B
- 部署教程:支持 PyTorch 镜像与 NVIDIA GPU 环境配置。