人工智能公司Stability AI日前发布了一款开源的音频生成模型Stable Audio Open,将部分音频生成能力开放给广大音频创作者和音乐爱好者。
Stable Audio Open专门用于根据文本提示生成长达47秒的高质量音频样本、音效以及音乐制作元素。用户可以利用它创作鼓点节奏、乐器曲段、环境音效、临场音频等,为音乐制作和声音设计提供多元化的素材。
不同于Stability AI已有的付费商业产品Stable Audio,后者主攻生成具有连贯结构的整首3分钟完整歌曲,还具备音频到音频生成、多音轨复合等高阶功能。而开源的Stable Audio Open则专注于生成更短小的音频片段素材,虽然也能创作简短音乐曲目,但并不太适合完整的人声歌曲创作。用户可以根据自己的自定义音频数据对模型进行微调,例如鼓手可以在自己的鼓声录音样本上进行微调,生成新的节拍
Stability AI强调,这款新模型的开放源代码形式发布,正是希望在负责任的开发道路上与广大创意社区携手同行,一同探索音频生成AI的未来前景。
Stable Audio Open的训练数据集来自FreeSound和Free Music Archive等公开音频数据库,使用了约486,000个样本进行训练,充分尊重创作者权利。
有兴趣的音频创作者和开发者,可在HuggingFace平台下载并试用这一模型。