🏠

Google Takes No Prisoners Amid Torrent of AI Announcements

来源：AI Explained | 发布时间：2025-05-22 02:35

这篇新闻总结了 Google 最近发布的一系列 AI 相关的重大更新和产品。重点包括：

* **V3:** 新的视频生成模型，能够添加声音和对话，在多个测试中优于 V2、Cling 2.0 和 OpenAI 的 Sora，但目前仅限于美国地区 Google AI Ultra ($250) 用户。
* **Gemini 2.5 Flash:** 性能与 Deepseek R1 相当，但价格仅为四分之一，具备原生音频生成功能，可以控制说话者的口音和情绪，支持 24 种语言。
* **通用 AI 助手:** 类似 OpenAI 的 operator，能够代表用户拨打电话和购物（演示阶段）。
* **Gemini Live:** Android 用户可以通过 Gemini app 实时分享手机摄像头画面并进行对话。
* **Gemini 2.5 Pro Deepth thing:** 通过平行样本和模块化分析，性能超越 Gemini 2.5 Pro vanilla 和 OpenAI 的 03 和 04 Mini，尤其在编码、数学和多模态分析方面。
* **AI Overviews:** 将由定制的 Gemini 2.5 模型驱动，以提高准确性。
* **AI Mode:** 旨在取代传统搜索栏，具备预订、深度研究和数据分析等功能。
* **Google Deep Research:** 升级后与 canvas 功能集成，可以将研究报告转换为交互式网站或图表。
* **Jewels:** 免费的编码助手，可以导入 GitHub 仓库并进行验证。
* **Imagine 4:** 文本到图像模型，在细节和文本保真度方面有所改进，但在超高设置下仍不如 GPT image 1。
* **Gemini Diffusion:** 速度极快的图像生成模型，基于扩散模型而非自回归模型。
* **Try it on:** 允许用户上传照片并试穿时尚单品的定制图像生成模型。
* **Synth ID detector:** 供记者、学者和研究人员检测由 Gemini 或 Imagine 生成的内容是否带有水印。
* **Gemmaverse:** 开源模型生态系统，包括用于移动设备的 Gemma 3N 和用于医学问答的 Medgema，以及用于翻译手语的 SGemma。

此外，Google CEO 还表示 Gemini 的用户数量和使用量都在大幅增长，并暗示 Gemini 在避免 “sickantic” 方面优于 OpenAI。