xAI 推出 Grok-1.5 Vision 多模态 AI 模型领先竞争对手

标记狮私有云部署
一键部署标记狮至私有服务器,构建快速,安全,高效,私密的UI设计团队云协作

xAI 推出 Grok-1.5 Vision 多模态 AI 模型1.jpg

对于AI模型能否真正理解现实世界,一直是行业内的一大痛点和难题。不过,埃隆·马斯克旗下的AI公司xAI可能要改变这一局面了。

他们最新推出的多模态大模型Grok-1.5 Vision,不仅能像GPT-4那样自如驾驭自然语言,还能理解文档、图表、图像等视觉信息。更猛的是,Grok在视觉理解能力上直接将GPT-4等对手虐惨了!

xAI公司声称,Grok-1.5V在理解复杂科学图表、工程流程图等方面的能力,要强于包括GPT-4、谷歌AI、OpenAI模型在内的主流对手。而且它作为一个专门为处理多模态输入而训练的统一大模型,在融合文字和图像信息时可能更具优势。

xAI 推出 Grok-1.5 Vision 多模态 AI 模型3.png

Grok-1.5V在理解现实物理世界的能力上的表现出色,xAI专门推出了RealWorldQA测试数据集,里面700多个场景图像对人类来说很直观,但对AI模型来说是大考验。

xAI 推出 Grok-1.5 Vision 多模态 AI 模型5.png

结果显示,在零示例提示的情况下,Grok-1.5V在这个测试中盖过了GPT-4、Claude等对手,成绩遥遥领先。它不仅能从流程图生成可执行代码,还能对现实生活中各种图像场景作出合理解释,展现出惊人的物理世界理解实力。

xAI 推出 Grok-1.5 Vision 多模态 AI 模型4.png

马斯克自诩推进科技进步的"文艺复兴人",毕竟对现实世界的理解,是未来AI真正为人类社会服务的基石。

xAI宣布,将很快向现有Grok用户和少量幸运儿开放Grok-1.5V的使用权限,但名额肯定是非常有限的。如果你手气不错被选中,就能先睹为快这款多模态怪兽级AI的真实实力了,看看它的视觉理解能力是否如宣传的那么逆天。

当然,要全面评测Grok-1.5V的表现还需等待更广泛公开上线。

标记狮私有云部署
一键部署标记狮至私有服务器,构建快速、安全、高效、私密的UI设计团队云协作
立即部署>>
标记狮私有云部署-一键部署标记狮至私有服务器,构建快速,安全,高效,私密的UI设计团队云协作