Image to Music V2是一个基于人工智能的图片转音乐模型。它可以分析图片的视觉信息,转换为文字描述,就像给图片写一个简短的故事,再输入音乐生成模型,输出符合图片场景和氛围的背景音乐。
Image to Music结合了人工智能的多个领域,包括图像识别、自然语言处理和音乐生成。系统使用图像识别模型(如Microsoft的Kosmos-2-patch14-224)来分析用户提供的图片。并使用大语言模型将图像的字面描述转化为一个音乐创作的启发性提示,再基于这个提示生成匹配的音乐。
目前可在HuggingFace上免费体验Image to Music V2
我们只需要进行以下简单的三步,就可以实现图片转音乐:
第一步,上传要转换的图片。支持jpg、png等常见格式,大小不超过2MB。
上传后,在左下方选择喜欢的音乐生成模型,例如如MAGNet、MusicGen、AudioLDM-2、Riffusion或Mustango;
第二步,几秒后,页面会自动生成一段对图片内容的文本描述,例如“A gentle acoustic guitar melody with playful plucked notes, accompanied by the soft buzzing of synthetic grasshoppers, creates a peaceful and whimsical atmosphere perfect for a summer afternoon in the countryside"。如果你对生成的提示词有所补充,可以对该描述进行修改,以更准确表达图片中的场景、情感等。
第三步,音乐生成。选定的音乐模型会根据图片的提示词描述,合成一段时长约为12秒的音乐。
Image to Music V2利用了多种AI技术,实现了一种新颖的图片到音乐的转换,提供了一种有趣的音乐创作体验。快去试试吧!