您现在的位置：新闻首页>聚焦 > 对人类的“阿谀奉承”减少了，GPT-5幻觉率也有所下降

对人类的“阿谀奉承”减少了，GPT-5幻觉率也有所下降

发布时间：2025-08-08 16:05编辑：admin已有：人阅读

　　当地时间8月7日，OpenAI终于推出了基础大模型更新，GPT-5面世了。

　　“这是我们迄今为止最智能、最快、最有用的模型，有内置思维能力，可以将专家及智能交到每个人手中。”OpenAI表示，这款模型在编程、数学、写作、健康、“感谢我们在微软、英伟达、甲骨文、谷歌和coreweave的合作伙伴。有大量的GPU加班工作，让这成为可能。”OpenAI CEO山姆·奥尔特曼表示。

　　在编码方面，用户只需要提示，GPT-5就能生成网站、应用程序和游戏。在OpenAI展示的案例中，要求创建一个滚球小游戏，在提示词中提到游戏的目的是让球越过障碍物、提高速度并提供有趣的声音、角色卡通等，就能生成一个简单的小游戏。

　　在写作方面，GPT-5可以用于起草和

　　从基准测试的表现可以看出GPT-5的实力。GPT-5和GPT-5 pro在AIME2025基准测试中的得分分别为94.6%、100%，o3得分98.4%。在FrontierMath1-3级基准测试中，GPT-5和GPT-5 pro得分分别为13.5%、32.1%，o4-mini得分为19.3%。在GPQA Diamond基准测试中，GPT-5和GPT-5 pro得分分别为85.7%、89.4%，超过o3的83.3%。在Humanity‘s Last Exam基准测试中，GPT-5和GPT-5 pro得分分别为24.8%、42%，超过o3的24.3%。

　　此外，GPT-5在SWE-bench、Alder Polyglot基准测试中的得分分别为74.9%、88%，超过o3在这两项测试中的得分69.1%、79.6%，显示GPT-5有更强的编码能力。在MMMU和VideoMMMU基准测试中，GPT-5得分分别为84.2%和84.6%，超过o3的82.9%和83.3%，显示GPT-5有更强的多模态能力。据OpenAI介绍，GPT-5在遵循指令、使用代理工具方面的能力也超过了o3，在使用GPT-5进行推理时，GPT-5在大约一半的情况下能表现得比专家更好。

　　此外，GPT-5不仅表现优于o3，在OpenAI还表示，GPT-5对人类的“阿谀奉承”减少了。此前OpenAI推出4o模型，发现该模型对人类太过“阿谀奉承”，研发团队通过改进训练等方式，使GPT-5在相关评估中“阿谀奉承”的概率从14.5%降至6%以下，让GPT-5在对话中的表现更像人类的“朋友”而不是一个“人工智能”。

　　定价方面，GPT-5、GPT-5-mini、GPT-5-nano三款模型提供API服务，GPT-5的输入、输出价格分别为每百万token 1.25美元、10美元，GPT-5 mini每百万token的输入、输出价格为0.25美元、2美元。低于GPT-4.1每百万token的输入、输出价格3美元、12美元，也低于o4-mini每百万token的输入、输出价格4美元、16美元。

　　从推出节奏看，2022年11月，OpenAI推出ChatGPT，2023年3月推出GPT-4，两者之间间隔只有数月时间。而从GPT-4推出到GPT-5面世，则有大约两年半的时间间隔。OpenAI在基础大模型方面的更新虽然有所放缓，但在GPT-4和GPT-5之间，OpenAI还推出了4o、o1、o3、o4系列，探索大模型在推理方面的能力。此次，OpenAI还透露，ChatGPT在全球已有超7亿用户。

　　不过，GPT-5在部分基准测试中的得分，与OpenAI前代模型的差距并没有很大。在直播演示时，GPT-5出现过一个图表错误，随后山姆·奥尔特曼在社交媒体上承认了这个错误。GPT-5的能力能否代表最先进的人工智能水平也受到马斯克的质疑。

　　GPT-5发布后，大模型公司xAI一名联合创始人在社交媒体上表示，看到GPT-5发布，他感到非常自豪，因为xAI团队规模小很多，但在很多方面都领先，Grok 4在ARC-AGI等基准测试中的表现超过GPT-5，xAI还将在接下来几周展示更多新进展。特斯拉CEO马斯克评论了这条帖子称“做得好”，并表示Grok 4在ARC-AGI中击败了GPT-5。

　　值班

上一篇：滚动更新丨A股三大指数集体低开；脑机接口板块表现活跃

下一篇：谋篇“十五五”，利率市场化改革如何续写新篇？

已推荐

对人类的“阿谀奉承”减少了，GPT-5幻觉率也有所下降

图说新闻