字节跳动新AI，让静态照片“开口说话”

发表于 2025-01-06

标记狮私有云部署

一键部署标记狮至私有服务器，构建快速，安全，高效，私密的UI设计团队云协作

字节跳动新AI，让静态照片“开口说话”_3.jpg

大家有没有想过，我们手机里的静态照片，未来不仅能动起来，还能“开口说话”？日前字节跳动发布了一项名为 INFP 的AI系统，可以让静态照片变成“会说话”的视频，效果十分逼真。

简单来说，INFP 是一个可以让照片“动”起来的AI系统，不仅嘴巴会跟着声音动，连表情、头部动作都很自然。更特别的是，它还能自动模拟两个人的对话，不需要手动设置谁是“说话者”或“倾听者”，AI会根据语音内容自动生成相应的动作和角色。

INFP 的全称是 “Interactive, Natural, Flash and Person-generic”（交互式、自然、快速和通用）。简单理解，这套系统的特点是生成效果自然、生成速度快，并且适用于多个场景。

INFP的工作原理分为两步：

与市面上的其他工具相比，INFP 在以下几个方面表现突出：

为了提升系统的表现，字节跳动还专门开发了一个高质量的数据集 DyConv，包含超过200小时的真人对话视频。这个数据集覆盖了更多样化的情感表达和动作细节，为AI的训练提供了更丰富的素材。

目前，INFP 主要基于音频输入生成动态效果，但团队正在研究如何结合图像和文字输入，甚至探索生成全身动作的可能性未来或许只需一张静态照片，就可以生成一个完整的动态视频，用于聊天、录制短视频，甚至应用于虚拟形象的生成。

虽然目前这项技术还在研究阶段，但未来将会被应用到抖音等平台，为内容创作提供更多可能性。

https://grisoon.github.io/INFP/