中文多模态模型来了！VITA-1.5 开启实时语音视觉新体验

发表于 2025-01-06

标记狮私有云部署

一键部署标记狮至私有服务器，构建快速，安全，高效，私密的UI设计团队云协作

VITA-MLLM 团队正式发布了全新的开源多模态大语言模型 VITA-1.5。这款模型支持中文，能够处理语音、图片和视频数据，并以接近实时的响应速度提供描述和回答问题的能力，为多模态交互领域带来了新的突破。

1.5 秒延迟，接近实时的用户体验

相比上一代 VITA-1.0，VITA-1.5 在交互速度上实现了重大升级，语音交互延迟从 4 秒降至 1.5 秒。这一优化使交互更加流畅，适用于对响应速度要求较高的应用场景，比如实时语音助手和视频内容分析。

同时，VITA-1.5 还采用了端到端的 TTS（文本到语音转换）模块，语音生成更加高效自然。

作为一款多模态模型，VITA-1.5 不仅能听懂语音，还能“看懂”图片和视频内容，并在多模态性能上取得了显著提升：

语音识别更精准：自动语音识别（ASR）错误率从上一代的 18.4% 降低到 7.5%，显著提高了语音理解能力。
视觉任务性能稳定：在图像和视频处理任务中的表现几乎未受引入语音功能的影响，继续保持高水平。
多模态综合能力提升：在多模态基准测试（如 MME、MMBench、MathVista）中的得分从 59.8 提升至 70.8，展现了更强的跨模态理解能力。

VITA-1.5 支持中文语音和视觉处理能力，适合在教育、医疗、零售等领域落地应用，比如自动生成中文图片描述、实时语音问答等。

VITA-1.5 提供了简洁的部署方案，支持基于 Flask 和 WebSocket 的实时交互服务，让开发者可以快速搭建自己的多模态应用系统。

GitHub：VITA GitHub
技术报告：arXiv: 2501.01957