来源:AI Explained | 发布时间:2025-05-22 02:35
这篇新闻总结了 Google 最近发布的一系列 AI 相关的重大更新和产品。重点包括:
* **V3:** 新的视频生成模型,能够添加声音和对话,在多个测试中优于 V2、Cling 2.0 和 OpenAI 的 Sora,但目前仅限于美国地区 Google AI Ultra ($250) 用户。
* **Gemini 2.5 Flash:** 性能与 Deepseek R1 相当,但价格仅为四分之一,具备原生音频生成功能,可以控制说话者的口音和情绪,支持 24 种语言。
* **通用 AI 助手:** 类似 OpenAI 的 operator,能够代表用户拨打电话和购物(演示阶段)。
* **Gemini Live:** Android 用户可以通过 Gemini app 实时分享手机摄像头画面并进行对话。
* **Gemini 2.5 Pro Deepth thing:** 通过平行样本和模块化分析,性能超越 Gemini 2.5 Pro vanilla 和 OpenAI 的 03 和 04 Mini,尤其在编码、数学和多模态分析方面。
* **AI Overviews:** 将由定制的 Gemini 2.5 模型驱动,以提高准确性。
* **AI Mode:** 旨在取代传统搜索栏,具备预订、深度研究和数据分析等功能。
* **Google Deep Research:** 升级后与 canvas 功能集成,可以将研究报告转换为交互式网站或图表。
* **Jewels:** 免费的编码助手,可以导入 GitHub 仓库并进行验证。
* **Imagine 4:** 文本到图像模型,在细节和文本保真度方面有所改进,但在超高设置下仍不如 GPT image 1。
* **Gemini Diffusion:** 速度极快的图像生成模型,基于扩散模型而非自回归模型。
* **Try it on:** 允许用户上传照片并试穿时尚单品的定制图像生成模型。
* **Synth ID detector:** 供记者、学者和研究人员检测由 Gemini 或 Imagine 生成的内容是否带有水印。
* **Gemmaverse:** 开源模型生态系统,包括用于移动设备的 Gemma 3N 和用于医学问答的 Medgema,以及用于翻译手语的 SGemma。
此外,Google CEO 还表示 Gemini 的用户数量和使用量都在大幅增长,并暗示 Gemini 在避免 “sickantic” 方面优于 OpenAI。