谷歌发布Gemini 1.5 Flash 具有突破性的长上下文100 万 token

去年 12 月，谷歌推出了首款原生多模态模型 Gemini 1.0，共有三种尺寸：Ultra、Pro 和 Nano。仅仅几个月后，谷歌发布新版本 1.5 Pro，其性能得到了增强，并且上下文窗口突破了 100 万 token。

现在，谷歌宣布在 Gemini 系列模型中引入了一系列更新，包括新的 Gemini 1.5 Flash（这是谷歌追求速度和效率的轻量级模型）以及 Project Astra（这是谷歌对人工智能助手未来的愿景）。

目前，1.5 Pro 和 1.5 Flash 均已提供公共预览版，并在 Google AI Studio 和 Vertex AI 中提供 100 万 token 上下文窗口。现在，1.5 Pro 还通过候补名单向使用 API 的开发人员和 Google Cloud 客户提供了 200 万 token 上下文窗口。

此外，Gemini Nano 也从纯文本输入扩展到可以图片输入。今年晚些时候，从 Pixel 开始，谷歌将推出多模态 Gemini Nano 。这意味着手机用户不仅能够处理文本输入，还能够理解更多上下文信息，例如视觉、声音和口语。

Gemini 家族迎来新成员：Gemini 1.5 Flash

新的 1.5 Flash 针对速度和效率进行了优化。

1.5 Flash 是 Gemini 模型系列的最新成员，也是 API 中速度最快的 Gemini 模型。它针对大规模、大批量、高频任务进行了优化，服务更具成本效益，并具有突破性的长上下文窗口（100 万 token ）。

Gemini 1.5 Flash 具有很强的多模态推理能力，并具有突破性的长上下文窗口。

1.5 Flash 擅长摘要、聊天应用程序、图像和视频字幕、从长文档和表格中提取数据等。这是因为 1.5 Pro 通过一个名为「蒸馏」的过程对其进行了训练，将较大模型中最基本的知识和技能迁移到较小、更高效的模型中。

Gemini 1.5 Flash 性能表现。来源 deepmind.google/technologie…

改进的 Gemini 1.5 Pro

上下文窗口扩展到 200 万 token

谷歌提到，如今有超过 150 万的开发人员在使用 Gemini 模型，超过 20 亿的产品用户都用到了 Gemini。

在过去的几个月里，谷歌除了将 Gemini 1.5 Pro 上下文窗口扩展到 200 万 token 之外，谷歌还通过数据和算法的改进增强了其代码生成、逻辑推理和规划、多轮对话以及音频和图像理解能力。

1.5 Pro 现在可以遵循日益复杂和细致的指令，包括那些指定涉及角色，格式和风格的产品级行为的指令。此外，谷歌还让用户能够通过设置系统指令来引导模型行为。

现在，谷歌在 Gemini API 和 Google AI Studio 中添加了音频理解，因此 1.5 Pro 现在可以对 Google AI Studio 中上传的视频图像和音频进行推理。此外，谷歌还将 1.5 Pro 集成到 Google 产品中，包括 Gemini Advanced 和 Workspace 应用程序。

Gemini 1.5 Pro 的定价为每 100 万 token 3.5 美元。

其实，Gemini 最令人兴奋的转变之一是 Google 搜索。

在过去的一年里，作为搜索生成体验的一部分，Google 搜索回答了数十亿个查询。现在，人们可以使用它以全新的方式进行搜索，提出新类型的问题、更长、更复杂的查询，甚至使用照片进行搜索，并获得网络所提供的最佳信息。

谷歌即将推出 Ask Photos 功能。以 Google Photos 举例，该功能大约在九年前推出。如今，用户每天上传的照片和视频数量超过 60 亿张。人们喜欢使用照片来搜索他们的生活。Gemini 让这一切变得更加容易。

假设你正在停车场付款，但不记得自己的车牌号码。之前，你可以在照片中搜索关键字，然后滚动浏览多年的照片，寻找车牌。现在，你只需询问照片即可。

又比如，你回忆女儿露西娅的早期生活。现在，你可以问照片：露西亚什么时候学会游泳的？你还可以跟进一些更复杂的事情：告诉我露西娅的游泳进展如何。

在这里，Gemini 超越了简单的搜索，识别了不同的背景 —— 包括游泳池、大海等不同场景，照片将所有内容汇总在一起，以便用户查看。谷歌将于今年夏天推出 Ask Photos 功能，并且还将推出更多功能。

分享一个国内免费使用GPT4.0的AI智能问答工具：智答专家。支持AI文本、作图、语音、Sora视频。无需魔法，亲测有效，点击访问

标签：Gemini
来源：智答专家
发布时间：2024-05-16 09:11