您现在的位置:新闻首页>聚焦 > 对人类的“阿谀奉承”减少了,GPT-5幻觉率也有所下降

对人类的“阿谀奉承”减少了,GPT-5幻觉率也有所下降

发布时间:2025-08-08 16:05编辑:admin已有: 人阅读


  当地时间8月7日,OpenAI终于推出了基础大模型更新,GPT-5面世了。

  “这是我们迄今为止最智能、最快、最有用的模型,有内置思维能力,可以将专家及智能交到每个人手中。”OpenAI表示,这款模型在编程、数学、写作、健康、“感谢我们在微软、英伟达、甲骨文、谷歌和coreweave的合作伙伴。有大量的GPU加班工作,让这成为可能。”OpenAI CEO山姆·奥尔特曼表示。

  在编码方面,用户只需要提示,GPT-5就能生成网站、应用程序和游戏。在OpenAI展示的案例中,要求创建一个滚球小游戏,在提示词中提到游戏的目的是让球越过障碍物、提高速度并提供有趣的声音、角色卡通等,就能生成一个简单的小游戏。

  在写作方面,GPT-5可以用于起草和
 

  从基准测试的表现可以看出GPT-5的实力。GPT-5和GPT-5 pro在AIME2025基准测试中的得分分别为94.6%、100%,o3得分98.4%。在FrontierMath1-3级基准测试中,GPT-5和GPT-5 pro得分分别为13.5%、32.1%,o4-mini得分为19.3%。在GPQA Diamond基准测试中,GPT-5和GPT-5 pro得分分别为85.7%、89.4%,超过o3的83.3%。在Humanity‘s Last Exam基准测试中,GPT-5和GPT-5 pro得分分别为24.8%、42%,超过o3的24.3%。

  此外,GPT-5在SWE-bench、Alder Polyglot基准测试中的得分分别为74.9%、88%,超过o3在这两项测试中的得分69.1%、79.6%,显示GPT-5有更强的编码能力。在MMMU和VideoMMMU基准测试中,GPT-5得分分别为84.2%和84.6%,超过o3的82.9%和83.3%,显示GPT-5有更强的多模态能力。据OpenAI介绍,GPT-5在遵循指令、使用代理工具方面的能力也超过了o3,在使用GPT-5进行推理时,GPT-5在大约一半的情况下能表现得比专家更好。

  此外,GPT-5不仅表现优于o3,在OpenAI还表示,GPT-5对人类的“阿谀奉承”减少了。此前OpenAI推出4o模型,发现该模型对人类太过“阿谀奉承”,研发团队通过改进训练等方式,使GPT-5在相关评估中“阿谀奉承”的概率从14.5%降至6%以下,让GPT-5在对话中的表现更像人类的“朋友”而不是一个“人工智能”。

  定价方面,GPT-5、GPT-5-mini、GPT-5-nano三款模型提供API服务,GPT-5的输入、输出价格分别为每百万token 1.25美元、10美元,GPT-5 mini每百万token的输入、输出价格为0.25美元、2美元。低于GPT-4.1每百万token的输入、输出价格3美元、12美元,也低于o4-mini每百万token的输入、输出价格4美元、16美元。

  从推出节奏看,2022年11月,OpenAI推出ChatGPT,2023年3月推出GPT-4,两者之间间隔只有数月时间。而从GPT-4推出到GPT-5面世,则有大约两年半的时间间隔。OpenAI在基础大模型方面的更新虽然有所放缓,但在GPT-4和GPT-5之间,OpenAI还推出了4o、o1、o3、o4系列,探索大模型在推理方面的能力。此次,OpenAI还透露,ChatGPT在全球已有超7亿用户。

  不过,GPT-5在部分基准测试中的得分,与OpenAI前代模型的差距并没有很大。在直播演示时,GPT-5出现过一个图表错误,随后山姆·奥尔特曼在社交媒体上承认了这个错误。GPT-5的能力能否代表最先进的人工智能水平也受到马斯克的质疑。

  GPT-5发布后,大模型公司xAI一名联合创始人在社交媒体上表示,看到GPT-5发布,他感到非常自豪,因为xAI团队规模小很多,但在很多方面都领先,Grok 4在ARC-AGI等基准测试中的表现超过GPT-5,xAI还将在接下来几周展示更多新进展。特斯拉CEO马斯克评论了这条帖子称“做得好”,并表示Grok 4在ARC-AGI中击败了GPT-5。

  值班


已推荐





图说新闻

更多>>
直流系统接地案例分析及风险防范,实用!

直流系统接地案例分析及风险防范,实用!