谷歌发布最强多模态AI Gemini丨挑战ChatGPT-4V

发表于 2023-12-07

标记狮私有云部署

一键部署标记狮至私有服务器，构建快速，安全，高效，私密的UI设计团队云协作

谷歌发布最强多模态AI Gemini丨挑战ChatGPT-4V5.jpg

长期以来,OpenAI的GPT系列模型一直站在AI模型的前列,但最新谷歌推出的新一代AI系统Gemini打破了局面。谷歌发布新一代AI机器人模型Gemini，从公布的多项能力对比测试已经证明,Gemini在许多方面能力远超ChatGPT-4V。

无论是图像理解,还是语音交互,还是跨模态的创造性输出,Gemini在各项测试中的表现都远远胜过ChatGPT-4V。尤其是在多模态任务的0-Shot测试中,Gemini的准确率领先非常显著。

更令人惊叹的是,Gemini可以根据简单的语音或图形输入,直接输出高质量的图像、视频甚至编程代码。

从发布会上看Gemini的多模态能力非常强大,主要体现在:

谷歌发布最强多模态AI Gemini丨挑战ChatGPT-4V1.png

Gemini可以对图像内容进行理解和描述,比如给它一张画就可以描述出画中的物体;给它一段视频就可以识别出视频中的动作。

谷歌发布最强多模态AI Gemini丨挑战ChatGPT-4V2.png

Gemini可以听懂语音中的描述,并作出回应。比如给它放一个橡皮鸭的视频,它就可以通过橡皮鸭的鸣叫声判断出这是橡皮制作的。

谷歌发布最强多模态AI Gemini丨挑战ChatGPT-4V3.png

Gemini可以根据不同的模态输入,生成相关的输出。比如给它画一个吉他,它就会放吉他音乐;给它一个视频片段,它可以判断出是哪部电影的哪个著名镜头。

谷歌发布最强多模态AI Gemini丨挑战ChatGPT-4V4.png

Gemini可以综合不同模态的信息进行推理。比如给它两张图片指出顺序错误,它就可以纠正;给它视频和配乐,它可以找出不匹配之处。

Gemini可以根据模糊的语音或图形输入,输出清晰的图像、视频或编程结果。设计师可以通过语音描绘想法,Gemini可以直接输出设计作品。

Gemini拥有强大的编程和编码能力,可以解决极难的编程问题。

Gemini一共包含了三个模型:Ultra模型带来了上述各项强大的多模态能力;Pro模型已经集成到Bard中,提供文本理解能力;Nano模型则适用于手机等终端设备。

谷歌发布最强多模态AI Gemini丨挑战ChatGPT-4V4.png

目前Bard聊天机器人已经升级使用了其中的Gemini Pro模型。用户现在可以通过bard.google.com访问Bard,体验升级后的Gemini Pro带来的更强大的语言理解和总结能力。

图像理解能力