一分钟看完Open AI连续12天发布会 - Day 12
今天是Open AI连续12天发布会的最后一天,这里总结一下今天发布会的要点。
1.Open AI直接放出了全世界最聪明的模型 - o3。在编程、逻辑、数学、自然科学问题上都超过了人类顶尖的天才水平。
2.o3推理一次大概要花费20美元(大约是140元人民币),所以Open AI 推出了更便宜的o3 mini模型,o3 mini模型是o3的弱化版本,但能力全面超越o1系列,并且拥有低、中、高三种不同的推理水平,越高的推理水平推理越慢.
3.可能因为模型太聪明,目前o3系列的所有模型都在进行安全审查,到明年一月份才会和大家正式见面。
关于o3的一些细节:
如果说前几天放出的o1模型已经超过博士生水平,那o3的水平可以说是超越绝大多数人类天才了,这里总结一下o3模型的要点。
1.o3拥有超过人类天才的智力水平。
-编程:
日常编程:SWE 测试 71.7%正确率(图2)
竞赛编程:Codeforces测试 2727 Elo计分 (对比值:超过Open AI首席科学家,研发o3的工程师作为编程竞赛教练,得分大概是2500分)
-数学:
数学竞赛:美国数学邀请赛AIME 2024,准确率96.7%,只错一道(图3)。
-博士级数理化科学知识:GPQA diamond 准确率 87.7% (对比值:一般合格的专业博士准确率是70%,o1模型准确率是78%,o3是87.7%,智力水平:人类专业博士 < o1模型 < o3模型)
至此可以看到o3已经拉爆了人类各项极限智力测试,所以Open AI上了一个全球顶级难的测试:全球60位顶级数学家FrontierMath的顶级数学难题FrontierMath,一道题会需要数学家花费几小时,甚至几天来求解。
之前所有AI模型准确率2%,o3达到了25.2%(图4)
简评:o3很明显是Open AI探索AGI路径的一次尝试,o3的智力水平已经超过了人类天才,目前看起来强化学习+思维链的模型是有机会通向AGI的,虽然推理成本很高,但推理成本的下降速度是飞快的,这种级别的AI很快就能人人都用得起。相比较高昂的成本,我们更要关心模型本身的智能水平。
#openai[话题]# #openai发布会[话题]# #大模型[话题]# #ai[话题]#