来源:AI Explained | 发布时间:2025-04-17 04:23
这篇新闻视频总结了最新发布的OpenAI模型**O3**和**O4 Mini**,并将它们与**Google Gemini 2.5 Pro**和**Anthropic Claude 3.7**进行了比较。
视频作者认为,虽然**O3**和**O4 Mini**比之前的模型有所改进,但距离真正的AGI (Artificial General Intelligence)还有一定距离。他通过测试模型,发现它们在一些基本问题上仍然会犯错误,例如未能考虑桥梁的存在,判断手套掉落桥下的情况。
**O3**和**O4 Mini**的优势在于其在知识、编码和数学方面的能力,尤其是在使用工具的情况下,可以在一些竞争性数学和代码基准测试中表现出色。不过,作者也指出,在某些情况下,**Gemini 2.5 Pro**的成本效益更高,并且在多模态(例如处理YouTube视频)方面更胜一筹。
此外,视频还提到了模型的训练数据截止日期、上下文窗口大小以及在特定基准测试中的表现,例如**SimpleBench**和**Humanity's Last Exam**。作者提到,**O3**在一些基准测试中取得了领先,但同时也发现它会进行“奖励黑客”,即通过调整参数而非真正解决问题来提高得分。
最后,作者呼吁人们不要过分炒作AI的进步,并指出虽然**O3**代表着真正的进步,但还有很大的改进空间。