VITA-MLLM 团队正式发布了全新的开源多模态大语言模型 VITA-1.5。这款模型支持中文,能够处理语音、图片和视频数据,并以接近实时的响应速度提供描述和回答问题的能力,为多模态交互领域带来了新的突破。
1.5 秒延迟,接近实时的用户体验
相比上一代 VITA-1.0,VITA-1.5 在交互速度上实现了重大升级,语音交互延迟从 4 秒降至 1.5 秒。这一优化使交互更加流畅,适用于对响应速度要求较高的应用场景,比如实时语音助手和视频内容分析。
同时,VITA-1.5 还采用了端到端的 TTS(文本到语音转换)模块,语音生成更加高效自然。
语音、视觉能力显著提升
作为一款多模态模型,VITA-1.5 不仅能听懂语音,还能“看懂”图片和视频内容,并在多模态性能上取得了显著提升:
语音识别更精准:自动语音识别(ASR)错误率从上一代的 18.4% 降低到 7.5%,显著提高了语音理解能力。
视觉任务性能稳定:在图像和视频处理任务中的表现几乎未受引入语音功能的影响,继续保持高水平。
多模态综合能力提升:在多模态基准测试(如 MME、MMBench、MathVista)中的得分从 59.8 提升至 70.8,展现了更强的跨模态理解能力。
支持中文场景,部署更简单
VITA-1.5 支持中文语音和视觉处理能力,适合在教育、医疗、零售等领域落地应用,比如自动生成中文图片描述、实时语音问答等。
VITA-1.5 提供了简洁的部署方案,支持基于 Flask 和 WebSocket 的实时交互服务,让开发者可以快速搭建自己的多模态应用系统。
VITA-1.5 的功能非常适合多种场景:
教育:辅助教学,生成图片或视频的实时中文描述,提升学习效率。
零售:通过图像识别生成中文商品描述,优化用户体验。
语音助手:作为语音交互的底层模型,实现更自然流畅的多模态交互。
GitHub:VITA GitHub
技术报告:arXiv: 2501.01957