长期以来,OpenAI的GPT系列模型一直站在AI模型的前列,但最新谷歌推出的新一代AI系统Gemini打破了局面。谷歌发布新一代AI机器人模型Gemini,从公布的多项能力对比测试已经证明,Gemini在许多方面能力远超ChatGPT-4V。
无论是图像理解,还是语音交互,还是跨模态的创造性输出,Gemini在各项测试中的表现都远远胜过ChatGPT-4V。尤其是在多模态任务的0-Shot测试中,Gemini的准确率领先非常显著。
更令人惊叹的是,Gemini可以根据简单的语音或图形输入,直接输出高质量的图像、视频甚至编程代码。
从发布会上看Gemini的多模态能力非常强大,主要体现在:
图像理解能力
Gemini可以对图像内容进行理解和描述,比如给它一张画就可以描述出画中的物体;给它一段视频就可以识别出视频中的动作。
语音交互能力
Gemini可以听懂语音中的描述,并作出回应。比如给它放一个橡皮鸭的视频,它就可以通过橡皮鸭的鸣叫声判断出这是橡皮制作的。
根据不同模态生成对应输出
Gemini可以根据不同的模态输入,生成相关的输出。比如给它画一个吉他,它就会放吉他音乐;给它一个视频片段,它可以判断出是哪部电影的哪个著名镜头。
跨模态推理能力
Gemini可以综合不同模态的信息进行推理。比如给它两张图片指出顺序错误,它就可以纠正;给它视频和配乐,它可以找出不匹配之处。
创造性输出能力
Gemini可以根据模糊的语音或图形输入,输出清晰的图像、视频或编程结果。设计师可以通过语音描绘想法,Gemini可以直接输出设计作品。
编码能力
Gemini拥有强大的编程和编码能力,可以解决极难的编程问题。
Gemini一共包含了三个模型:Ultra模型带来了上述各项强大的多模态能力;Pro模型已经集成到Bard中,提供文本理解能力;Nano模型则适用于手机等终端设备。
目前Bard聊天机器人已经升级使用了其中的Gemini Pro模型。用户现在可以通过bard.google.com访问Bard,体验升级后的Gemini Pro带来的更强大的语言理解和总结能力。