你是否曾想象过,用文字或图片就能生成一段无限长的虚拟人物视频?一家名为TMElyralab的科技公司最新发布的MuseV技术,让这个想法成为了现实。
MuseV是一款基于人工智能的视频生成系统,它的独特之处在于能够生成任意长度的高清虚拟人物视频。之前的AI视频生成技术往往被限制在短视频范畍内,因为生成时间越长,画面就越容易出现失真和错误累积。
MuseV突破了这一限制,它采用了一种称为"视觉条件并行去噪"的新方法。简单来说,就是将整个长视频分成多个短片段,并行生成后再拼接起来。这样一来,即使是"无尽长"的视频也能保持高质量。
MuseV不仅支持纯文本生成视频,还能接受图片或视频作为参考进行进一步生成。兼容Stable Diffusion生态系统,包括基本模型、LoRA、ControlNet等。它还支持多参考图像技术,如IPAdapter、ReferenceOnly、ReferenceNet和IPAdapterFaceID。还提供了一些预训练的模型权重,例如用于文本到视频的motion模型、用于图像参考的musev_referencenet模型。
你可以输入一个文字提示,然后上传一张人物照片,MuseV就能生成这个人物的动态视频并能保持角色一致,后续还会发布MuseTalk来支持实时嘴型同步。
MuseV目前也还存在一些不足,如视频类型和动作范围有限、可能出现水印、泛化能力不佳等。TMElyralab透露,他们未来将发布训练代码,支持diffusion transformer架构,以进一步提高生成质量和多样性。
在线体验:https://huggingface.co/spaces/AnchorFake/MuseVDemo
Github:MuseV