来源:OpenAI | 发布时间:2025-04-23 23:29
这段新闻讲述了David Sheldrick在使用OpenAI的Sora模型制作音乐视频的流程和技巧。他首先强调创意的重要性,建议从Sora官方网站的探索页面寻找灵感,学习他人如何使用prompt。接着,他介绍了世界观构建的概念,利用ChatGPT来扩展prompt,并为视频设定了一个18世纪玛丽·安托瓦内特风格的总体基调,并在这一基调下,设置了多个创意场景,例如化妆、舞厅、狩猎、花园(灵感来自伦敦Hampton Court Palace的迷宫)、马匹,以及使用日本金缮艺术风格的模型。 在渲染阶段,他将风格预设导入Sora,多次运行每个创意场景,并加入舞蹈序列的prompt。他使用Artlist.io寻找高质量的音乐素材。在视频剪辑方面,他将所有渲染的素材拖入时间线,创建“香肠”式结构,并根据音乐的节奏进行剪辑,调整素材速度,最终花费了大约4个小时完成了视频的组装。最终,他剪辑完成了一个结合了18世纪风格和K-pop元素的音乐视频。
来源:OpenAI | 发布时间:2025-04-17 02:18
OpenAI发布了新的实验性工具 **Codeex CLI**,这是一个轻量级的编码代理,可以直接从命令行运行。 Roma 和 Fouad 在演示中展示了Codeex的功能。 Codeex能够读取和编辑文件、安全地运行命令,并可以用于从头开始构建功能或完整的应用程序。它支持多种模型,包括最新的GPT-4.1、GPT-3 和 GPT-4 Mini。 在演示中,Fouad 使用Codeex分析并修改了一个名为 Open.fm 的开源项目,快速实现了黑暗模式。然后,他展示了Codeex基于图片进行编码的能力,仅凭一张 MacOS "Photo Booth" 应用的截图,并附加"用HTML单页重现,使用web camera API,横屏显示"的需求,Codeex就生成了相应的网页代码。 Codeex 具有安全特性,例如在全自动模式下运行会禁用网络并沙盒化目录,以确保用户安全。 OpenAI宣布将 Codeex 完全开源,开发者可以在 GitHub 上找到代码,并探索其功能,并用其理解代码库。
来源:OpenAI | 发布时间:2025-04-15 07:57
Alexia,一位来自牙买加的第一代移民,讲述了她创作“Bloomchild”的故事。她在康涅狄格州的郊区长大,因为自己是少数族裔,同时又是个“假小子”和充满艺术气息的人,所以一直觉得自己与周围环境格格不入,感到孤立。后来,她通过摄影找到了自我,并开始全职从事创作。“Bloomchild”讲述的就是她从感到不同、不被理解、孤独到自我接纳和找到归属感的心路历程。 Alexia详细介绍了使用AI工具(特别是Sora)创建“Bloomchild”的过程。为了保持视觉风格的一致性,她建议在Sora提示词中使用相同的描述性关键词,并尽可能详细地描述。她还利用Sora的图像生成功能探索不同的风格,例如粘土动画、动漫或3D卡通电影,这有助于为影片制作做准备。另一个有用的工具是图像混合(blending),这使她无需成为专业的After Effects用户也能创建酷炫的视觉效果和过渡。 “Bloomchild”的整个电影概念旨在吸引制片公司、资助委员会、电影节,以及所有对这个故事产生共鸣并愿意帮助她讲述这个故事的人。Alexia已经拥有一个优秀的后期制作团队和执行制片人,他们准备好将这部电影制作出来。她设想使用动作捕捉技术,将真人与Bloomchild的3D CGI形象结合,并结合虚拟场景和绿幕技术。她希望这部电影能引起许多人的共鸣。
来源:OpenAI | 发布时间:2025-04-11 09:02
这篇新闻稿总结了OpenAI团队开发GPT-4.5的过程,重点强调了背后的研究和工程挑战。 **核心内容:** * **GPT-4.5的诞生:** 在GPT4的基础上,OpenAI的目标是打造一个智能程度提升10倍的模型,并为此投入了两年时间。 * **团队协作与计算资源:** 开发大型模型需要庞大的团队、大量时间和计算资源。Alex, Amin Chian 和 Dan 分别介绍了自己在数据预处理、系统架构和数据效率方面的贡献。 * **系统挑战:** 系统团队面临诸多挑战,例如大规模GPU集群的利用率问题、基础设施的稳定性和网络问题。为了保证运行的顺利进行,OpenAI在优先级规划上也面临很多困难。在项目初期,系统实际表现通常与预期存在较大差距,需要不断解决未知问题,并权衡延迟发布与尽早发布之间的利弊。 * **算法与数据效率:** 为了进一步提升模型性能,需要更高效的算法,从而能够从相同的数据中学习更多知识。 数据效率至关重要,尤其是在数据量增长速度慢于计算能力的情况下。 * **Scaling Laws:** GPT-4.5的成功验证了Scaling Laws的有效性。在一定的数据范围内,通过增加计算资源可以有效提升模型智能水平。 * **未来的展望:** OpenAI团队将继续探索如何构建更大、更智能的模型,同时也关注数据效率和算法创新,以及如何在系统层面实现更好的容错性和协同设计。 他们也探讨了未来1000万GPU的AI系统,以及人类水平数据效率的可能性。 **重要观点:** * GPT-4.5的开发是ML和系统团队合作的成果,需要周密的计划和持续的迭代。 * Scale至关重要,但同时也带来了新的挑战,例如硬件故障率和系统复杂性。 * 数据效率是未来发展的关键,需要算法创新才能充分利用现有数据。 * 预训练模型的压缩能力与智能水平密切相关。 **英文保留:** * GPT-4.5 * OpenAI * Alex * Amin Chian * Dan * GPUs
来源:OpenAI | 发布时间:2025-04-09 03:34
这段新闻介绍了一个名为“01 pro mode”的推理模型。该模型擅长逻辑思维和规划,能够解决复杂的问题,尤其适合需要详细分析和深思熟虑的场景。 新闻中以一个假设的例子展示了01 pro mode的强大功能:一位运动鞋公司的企业融资人员想要研究进军日本市场的可行性和机会。通过选择01 pro mode,并输入一系列相关问题,模型开始进行深入分析。 与快速但更侧重自然对话的基础模型,例如40或4.5不同,01 pro mode会花费更多时间(大约3分钟)来逐步解决问题,并展示其思考过程(chain of thought)。用户可以看到模型如何分析市场、研究消费者趋势、确定关键品牌以及考虑营销策略。 最终,01 pro mode生成了一份详细的报告,涵盖市场规模、消费者细分、关键参与者等信息,并针对提出的问题给出了经过深思熟虑的答案。这份报告可以作为初步分析的良好起点,大大缩短了传统方式下多人协作完成类似报告所需的时间。总而言之,01 pro mode 通过其强大的逻辑推理能力和详细的分析报告,为复杂问题提供了高效的解决方案。
来源:OpenAI | 发布时间:2025-04-09 03:31
这段新闻介绍了一项新的 Chat GPT 功能,允许其连接并访问其他应用程序,从而提供更强大的上下文支持。简单来说,Chat GPT 可以通过用户授权,连接到诸如 IDE(集成开发环境)之类的应用程序,并从应用中提取信息,甚至可以修改应用内的代码。 报道中,一个开发人员在开发一个在线书店的结账页面时遇到支付集成错误,问题在于支付提供商要求使用 snake case 命名规范,而代码中使用了 camel case。 开发人员通过快捷键打开 Chat GPT,选择“work with apps”功能,将 IDE 中的代码发送给 Chat GPT。Chat GPT 分析代码后,发现了命名规范的问题,并建议将 return URL 从 camel case 修改为 snake case。开发人员直接让 Chat GPT 修改 IDE 中的代码,Chat GPT 成功将 return URL 更新为 snake case。修改后的代码解决了支付集成错误。 这项新功能极大地提高了开发效率。过去,开发人员需要手动复制错误信息,查找 API 文档,然后进行修改。现在,可以直接将代码分享给 Chat GPT,让其分析并更新代码。这意味着Chat GPT 可以直接访问应用内部的内容,并进行更深入的交互,而不仅仅是屏幕上可见的信息。
来源:OpenAI | 发布时间:2025-04-09 03:29
这段新闻介绍了一个名为“Projects”的新功能,它允许用户在ChatGPT中创建一个项目,并为该项目上传相关的上下文文档,例如PRD(Product Requirements Document)、客户需求和市场分析报告等。这些文档成为ChatGPT进行后续对话的基础。 用户可以设置自定义指令,例如让ChatGPT扮演产品运营顾问或产品副总裁的角色,以此来定制ChatGPT的回复风格。随后,用户可以使用ChatGPT来创建详细的发布计划,考虑各种约束条件。该功能集成了01,可以进行复杂的推理,并根据上传的文档和自定义指令,生成详细的、考虑到营销和工程团队的发布计划。 用户还可以在项目中启动新的对话,例如寻找营销团队在北美和欧洲发布会可以参加的活动。ChatGPT 能够利用网络搜索功能(启用40),找到相关的活动信息,并提供可分享的链接和引用,方便用户进一步跟进。 Projects功能将特定工作流程中的对话集中化,确保ChatGPT与项目团队拥有相同的上下文,从而帮助用户更智能、更高效地工作,例如可以在几分钟内生成初步草案,而以前可能需要花费大量时间编写和参考文档。所有历史记录都能保存,方便查阅。
来源:OpenAI | 发布时间:2025-04-09 03:27
这段新闻主要介绍了ChatGPT新推出的“advanced voice mode”功能,以及它在现实生活中的应用。这个新功能可以让用户通过语音与ChatGPT交互,并赋予ChatGPT“视觉”能力,极大地提升了其使用的便捷性和实用性。 用户可以先启用“advanced voice mode”,然后点击摄像头图标,ChatGPT便可以访问用户周围的环境。例如,用户可以询问ChatGPT有关书籍的信息,比如食谱或者购买渠道。ChatGPT会像一个贴心的助手一样,给出建议并提供网络搜索结果,并以文字形式记录对话。 更重要的是,这个功能可以帮助用户在移动场景下快速解决问题。例如,在前往客户会议的路上,用户可以通过屏幕共享功能,让ChatGPT实时分析客户发来的复杂图表。ChatGPT可以快速识别图表中的关键信息,比如 revenue 的趋势、表现最好的 cohort 等,并提供相关的策略建议,帮助用户更好地准备会议。总之,“advanced voice mode” 让 ChatGPT 从一个简单的聊天机器人,升级成一个更智能、更实用的个人助理。
来源:OpenAI | 发布时间:2025-04-09 03:25
这篇新闻介绍了Canvas,一个互动的平台,其最令人兴奋的功能是代码编写能力。Canvas允许用户利用人工智能(这里提到了01)根据上传的产品需求文档(PRD)快速构建原型。 用户可以通过自然语言向Canvas提需求,例如要求它基于PRD创建一个原型。Canvas会利用01的“链式思考”来规划并生成相应的代码。即使不懂代码的用户,也能快速搭建原型。用户可以直接在Canvas中编辑代码,提出问题,获取改进建议,调试代码,甚至添加日志和注释。 Canvas最近还发布了HTML和React的代码执行功能,用户可以直接预览并与原型互动。例如,用户可以快速创建一个统一的分析仪表盘原型,并根据不同的角色(如市场营销或财务)查看不同的数据。用户甚至可以直接在Canvas中提出问题,例如询问有关营销自动化错误的信息。 Canvas运行在一个沙盒环境中,允许用户进行API调用并控制网络,以确保安全。总之,Canvas提供了一个更具互动性的环境,让用户能够向团队成员展示他们的愿景。 Acme Corp 是个虚拟的公司名字,主要用来举例说明 Canvas 的功能。
来源:OpenAI | 发布时间:2025-04-09 03:21
这篇新闻介绍了一个名为“Canvas”的互动空间,它允许用户直接与集成的ChatGPT进行协作,辅助创作各种内容。用户可以上传文档,例如新闻中演示的研讨会文字稿,然后使用ChatGPT将其总结成易于理解的格式。 Canvas使用GPT-4.0模型,旨在成为用户在编码和写作方面的创意伙伴。用户可以在Canvas中逐行与ChatGPT互动,对生成的文本进行修改和编辑,形成一个协作创作环境。 演示中展示了如何将研讨会文字稿的摘要进一步转化为电子书的初稿,并要求ChatGPT根据内容添加建议和改进意见。这大大缩短了传统的手动整理、阅读、重写过程。 此外,Canvas还支持对特定文本段落提出问题,例如要求ChatGPT提供更多统计数据或相关咨询文章,并自动进行网络搜索,整理数据,甚至提供引用来源。用户可以将鼠标悬停在引用上查看具体的网站链接。 Canvas还提供了快捷编辑功能,例如调整文本长度、阅读水平、润色,甚至添加表情符号,以加速用户的编辑过程。总而言之,Canvas旨在利用人工智能技术,极大地提高内容创作的效率和质量。