AI资讯
掌握人工智能AI动态,领略未来风采!
去年 12 月,谷歌推出了首款原生多模态模型 Gemini 1.0,共有三种尺寸:Ultra、Pro 和 Nano。仅仅几个月后,谷歌发布新版本 1.5 Pro,其性能得到了增强,并且上下文窗口突破了 100 万 token。
现在,谷歌宣布在 Gemini 系列模型中引入了一系列更新,包括新的 Gemini 1.5 Flash(这是谷歌追求速度和效率的轻量级模型)以及 Project Astra(这是谷歌对人工智能助手未来的愿景)。
目前,1.5 Pro 和 1.5 Flash 均已提供公共预览版,并在 Google AI Studio 和 Vertex AI 中提供 100 万 token 上下文窗口。现在,1.5 Pro 还通过候补名单向使用 API 的开发人员和 Google Cloud 客户提供了 200 万 token 上下文窗口。
此外,Gemini Nano 也从纯文本输入扩展到可以图片输入。今年晚些时候,从 Pixel 开始,谷歌将推出多模态 Gemini Nano 。这意味着手机用户不仅能够处理文本输入,还能够理解更多上下文信息,例如视觉、声音和口语。
Gemini 家族迎来新成员:Gemini 1.5 Flash
新的 1.5 Flash 针对速度和效率进行了优化。
1.5 Flash 是 Gemini 模型系列的最新成员,也是 API 中速度最快的 Gemini 模型。它针对大规模、大批量、高频任务进行了优化,服务更具成本效益,并具有突破性的长上下文窗口(100 万 token )。
Gemini 1.5 Flash 具有很强的多模态推理能力,并具有突破性的长上下文窗口。
1.5 Flash 擅长摘要、聊天应用程序、图像和视频字幕、从长文档和表格中提取数据等。这是因为 1.5 Pro 通过一个名为「蒸馏」的过程对其进行了训练,将较大模型中最基本的知识和技能迁移到较小、更高效的模型中。
Gemini 1.5 Flash 性能表现。来源 deepmind.google/technologie…
改进的 Gemini 1.5 Pro
上下文窗口扩展到 200 万 token
谷歌提到,如今有超过 150 万的开发人员在使用 Gemini 模型,超过 20 亿的产品用户都用到了 Gemini。
在过去的几个月里,谷歌除了将 Gemini 1.5 Pro 上下文窗口扩展到 200 万 token 之外,谷歌还通过数据和算法的改进增强了其代码生成、逻辑推理和规划、多轮对话以及音频和图像理解能力。
1.5 Pro 现在可以遵循日益复杂和细致的指令,包括那些指定涉及角色,格式和风格的产品级行为的指令。此外,谷歌还让用户能够通过设置系统指令来引导模型行为。
现在,谷歌在 Gemini API 和 Google AI Studio 中添加了音频理解,因此 1.5 Pro 现在可以对 Google AI Studio 中上传的视频图像和音频进行推理。此外,谷歌还将 1.5 Pro 集成到 Google 产品中,包括 Gemini Advanced 和 Workspace 应用程序。
Gemini 1.5 Pro 的定价为每 100 万 token 3.5 美元。
其实,Gemini 最令人兴奋的转变之一是 Google 搜索。
在过去的一年里,作为搜索生成体验的一部分,Google 搜索回答了数十亿个查询。现在,人们可以使用它以全新的方式进行搜索,提出新类型的问题、更长、更复杂的查询,甚至使用照片进行搜索,并获得网络所提供的最佳信息。
谷歌即将推出 Ask Photos 功能。以 Google Photos 举例,该功能大约在九年前推出。如今,用户每天上传的照片和视频数量超过 60 亿张。人们喜欢使用照片来搜索他们的生活。Gemini 让这一切变得更加容易。
假设你正在停车场付款,但不记得自己的车牌号码。之前,你可以在照片中搜索关键字,然后滚动浏览多年的照片,寻找车牌。现在,你只需询问照片即可。
又比如,你回忆女儿露西娅的早期生活。现在,你可以问照片:露西亚什么时候学会游泳的?你还可以跟进一些更复杂的事情:告诉我露西娅的游泳进展如何。
在这里,Gemini 超越了简单的搜索,识别了不同的背景 —— 包括游泳池、大海等不同场景,照片将所有内容汇总在一起,以便用户查看。谷歌将于今年夏天推出 Ask Photos 功能,并且还将推出更多功能。