谷歌母公司Alphabet推出了迄今为止规模最大、功能最强的人工智能(AI)模型Gemini,以与OpenAI的GPT-4和meta的Llama 2等竞争对手展开竞争。谷歌首席执行官桑达尔·皮查伊在今年6月的年度谷歌I/O开发者大会上首次公开了这款AI模型,现在该模型正式向公众推出。Gemini AI模型将提供三种不同的尺寸:Ultra,专为高度复杂的任务量身定制,Pro,专为广泛任务的可扩展性而设计,Nano,专门用于设备上的任务。
Google的Gemini在基础上采用了“多模式”方法,使其能够同时理解和处理各种形式的信息,包括文本、代码、音频、图像和视频。目前仅支持英语,双子座有望很快支持其他语言。皮查伊设想,该模式将整合到谷歌的搜索引擎、广告产品、Chrome浏览器等全球业务中,预示着它将成为谷歌的未来,在需要的时候准确地出现。
“今天,我们向这一愿景迈进了一步,我们推出了Gemini,这是我们有史以来打造的最强大、最通用的模型。双子座是谷歌各个团队大规模合作的结果,包括我们在谷歌研究的同事。谷歌DeepMind的首席执行官兼联合创始人Demis Hassabis代表Gemini团队在一篇博客文章中写道:“它从头开始构建多模式,这意味着它可以概括、无缝理解、跨不同类型的信息(包括文本、代码、音频、图像和视频)进行操作和组合。”
谷歌正在通过各种渠道推出人工智能模型:Bard现在由Gemini Pro提供支持,谷歌Pixel 8 Pro用户将体验到Gemini Nano提供的新功能,而Gemini Ultra预计将于2024年发布。从12月13日开始,开发者和企业客户可以通过Google Generative AI Studio或Google Cloud中的Vertex AI访问Gemini Pro。
目前,Gemini的基本型号可以进行文本输入和输出,但Gemini Ultra等更高级的版本可以处理图像、视频和音频。
Gemini Ultra目前只面向有限的受众,包括选定的客户、开发人员、合作伙伴以及安全和责任专家,以进行初步实验和反馈。面向开发人员和企业客户的更广泛版本将于明年年初发布。
根据哈萨比斯的说法,它已经准备好超越这一点,包括动作和触摸等领域,更类似于机器人功能。他设想双子座随着时间的推移会获得更多的感官,在这个过程中增强意识、准确性和基础。虽然这些模型可能仍然会出现幻觉、偏见和其他问题,但哈萨比斯断言,它们的改进与它们对世界的知识的扩展有关,从而导致整体的增强。