简介
昨天,OpenAI 推出 o3和o4-mini
据说是迄今为止最智能、功能最强大的模型,具有完整的工具访问权限。
可追踪长上下文到达 100万token. 这将巨大提升代码能力。
https://openai.com/index/introducing-o3-and-o4-mini/
https://openai.com/index/gpt-4-1/
OpenAI 直播
先放总结
nano 模型: 目前非常便宜,速度也是最快的。很时候作为产品后端使用
GPT 4.1 mini: 能力与之前的GPT 4o 差不多,反应速度提高 2倍。成本减低 83%
GPT 4.1 : 能力全方位提升。
GPT o4 mini :高效推理模型,优化了速度和成本,在数学、编程和视觉任务表现出色,适合高频高通量的推理问题。
GPT o3 :强大的推理模型,擅长处理复杂的多方面分析任务,在编程、数学、科学和视觉任务方面表现卓越。
年前放出的 GPT 4.5 将于3个月后 关闭。
更改内容
OpenAI o3 是我们最强大的推理模型,它在编码、数学、科学、视觉感知等方面推动了前沿发展。它在包括 Codeforces、SWE-bench(无需构建自定义模型特定脚手架)和 MMMU 在内的基准上设定了新的 SOTA。它非常适合需要多方面分析的复杂查询,并且其答案可能不会立即显而易见。它在分析图像、图表和图形等视觉任务中表现尤其出色。在外部专家的评估中,o3 在困难的现实任务中犯的重大错误比 OpenAI o1 少 20%,尤其是在编程、商业/咨询和创意构思等领域表现出色。早期测试人员强调了它作为思想伙伴的分析严谨性,并强调了它产生和批判性评估新假设的能力,尤其是在生物学、数学和工程环境中。
OpenAI o4-mini 是一种较小的模型,针对快速、经济高效的推理进行了优化,它在大小和成本方面取得了卓越的性能,尤其是在数学、编码和视觉任务方面。它是 AIME 2024 和 2025 上表现最好的基准模型。在专家评估中,它在非 STEM 任务以及数据科学等领域的表现也优于其前身 o3-mini。由于其效率,o4-mini 支持比 o3 高得多的使用限制,使其成为受益于推理的问题的强大大容量、高吞吐量选项。
外部专家评估员将这两个模型评为比它们的前辈展示了改进的指令遵循和更有用、可验证的响应,这要归功于改进的智能和网络资源的包含。与我们的推理模型的先前迭代相比,这两个模型也应该感觉更自然和对话,尤其是当它们参考记忆和过去的对话以使响应更加个性化和相关性时。
官方介绍音频
评分
可以使用图像进行原生思考
这些模型第一次可以将图像直接集成到他们的思维链中。他们不仅看到图像,还与图像一起思考。这解锁了一种新的问题解决方式,将视觉和文本推理相结合,这反映在它们在多模态基准测试中的最新性能中。
人们可以上传白板照片、教科书图表或手绘草图,模型可以对其进行解释 - 即使图像模糊、反转或质量低下。通过使用工具,模型可以动态作图像 - 旋转、缩放或转换图像,作为其推理过程的一部分。
这些模型在视觉感知任务上提供了一流的准确性,使其能够解决以前无法解决的问题。
横向是反应速度,纵向是智能程度
费用
测试结果
GPT 4o
GPT 4.1
在数字的比较中,比较9.11 vs 9.8谁大
今有垣厚十尺,两鼠对穿。大鼠日一尺,小鼠亦一尺。大鼠日自倍,小鼠日自半。问:何日相逢?各穿几何?
这是一个有趣的经典趣味数学题,咱们一起来分析和解答:
题目翻译:
有一道墙厚10尺,大鼠和小鼠从墙的两边同时开始往里钻。
初始每天都各自钻1尺;
之后:
大鼠每天钻的长度是前一天的2倍(即“日自倍”);
小鼠每天钻的长度是前一天的一半(即“日自半”)。
目标:问两鼠几天后在墙中相遇?相遇时各自钻了多少尺?
设定初始条件
墙厚度 = 10 尺
从第1天开始,
大鼠从左边钻,第一天钻 1 尺,之后每天变成前一天的2倍:1, 2, 4, 8...
小鼠从右边钻,第一天也钻 1 尺,之后每天变成前一天的一半:1, 0.5, 0.25, 0.125...
我们可以计算每天的总进度,直到两边之和等于10尺。
分天数列举:
第1天: 大鼠:1 尺 小鼠:1 尺 合计:2 尺
第2天: 大鼠:2 尺 小鼠:0.5 尺 累计总和:2 + 2.5 = 4.5 尺
第3天: 大鼠:4 尺 小鼠:0.25 尺 累计总和:4.5 + 4.25 = 8.75 尺
第4天: 大鼠:8 尺 小鼠:0.125 尺 这一天加起来就远超了所需的1.25尺(因为前面已经到8.75),所以就在第4天相遇!
更精确地计算相遇时的“位置”:
我们继续算:
累计到第3天为止,
大鼠走了:1 + 2 + 4 = 7 尺
小鼠走了:1 + 0.5 + 0.25 = 1.75 尺 合计:8.75 尺
相遇前还差:10 - 8.75 = 1.25 尺
第4天:
大鼠速度是 8 尺/天
小鼠速度是 0.125 尺/天
合计是 8.125 尺/天
我们要在这天内走 1.25 尺,就可以相遇。
所以:
用时=1.258.125=125812.5=213\text{用时} = \frac{1.25}{8.125} = \frac{125}{812.5} = \frac{2}{13}用时=8.1251.25=812.5125=132
所以相遇时间是:
第4天的第 213\frac{2}{13}132 天,相当于前面三天 + 第4天初 213\frac{2}{13}132 日
相遇时,两鼠各自穿了多少?
大鼠第4天以8尺/天钻,213\frac{2}{13}132 天可钻:
8×213=1613≈1.23尺8 × \frac{2}{13} = \frac{16}{13} ≈ 1.23 尺8×132=1316≈1.23尺
再加上前3天的7尺:
大鼠总计=7+1613=91+1613=10713≈8.23尺\text{大鼠总计} = 7 + \frac{16}{13} = \frac{91 + 16}{13} = \frac{107}{13} ≈ 8.23 尺大鼠总计=7+1316=1391+16=13107≈8.23尺
小鼠第4天以0.125尺/天钻,钻了:
0.125×213=18×213=2104=1520.125 × \frac{2}{13} = \frac{1}{8} × \frac{2}{13} = \frac{2}{104} = \frac{1}{52}0.125×132=81×132=1042=521
加上前3天的1.75:
小鼠总计=1.75+152=74+152=91+152=9252=2313≈1.77尺\text{小鼠总计} = 1.75 + \frac{1}{52} = \frac{7}{4} + \frac{1}{52} = \frac{91 + 1}{52} = \frac{92}{52} = \frac{23}{13} ≈ 1.77 尺小鼠总计=1.75+521=47+521=5291+1=5292=1323≈1.77尺
✅ 最终答案:
相遇时间:第 3+2133 + \frac{2}{13}3+132 天
大鼠穿了:10713≈8.23\frac{107}{13} ≈ 8.2313107≈8.23 尺
小鼠穿了:2313≈1.77\frac{23}{13} ≈ 1.771323≈1.77 尺
两者加起来正好是10尺!
们来分析这道题:
题目:
今有垣厚十尺,两鼠对穿。大鼠日一尺,小鼠亦一尺。大鼠日自倍,小鼠日自半。问:何日相逢?各穿几何?
题意解析:
墙厚10尺,两只老鼠分别从墙的两侧同时开始往对方方向打洞。
大鼠第一天打1尺,之后每天打的长度是前一天的2倍(即指数增长)。
小鼠第一天打1尺,之后每天打的长度是前一天的一半(即指数衰减)。
设定变量:
大鼠第n天打的长度:1, 2, 4, 8, ...(第n天为2^(n-1))
小鼠第n天打的长度:1, 0.5, 0.25, 0.125, ...(第n天为1/(2^(n-1)))
累计距离分别为S大、S小。
计算过程:
第1天:
大鼠:1尺
小鼠:1尺
合计:2尺
第2天:
大鼠:2尺
小鼠:0.5尺
合计:2 + 2 + 0.5 = 4.5尺
第3天:
大鼠:4尺
小鼠:0.25尺
合计:4.5 + 4 + 0.25 = 8.75尺
第4天:
大鼠:8尺
小鼠:0.125尺
合计:8.75 + 8 + 0.125 = 16.875尺
但墙只有10尺,所以我们要逐天累加,直到合计大于等于10尺。
详细逐天累加:
| 天数 | 大鼠当天打洞 | 大鼠累计 | 小鼠当天打洞 | 小鼠累计 | 合计 | |------|--------------|----------|--------------|----------|------| | 1 | 1 | 1 | 1 | 1 | 2 | | 2 | 2 | 3 | 0.5 | 1.5 | 4.5 | | 3 | 4 | 7 | 0.25 | 1.75 | 8.75 | | 4 | 8 | 15 | 0.125 | 1.875 | 16.875 |
所以,第三天后总共8.75尺,第四天后超过10尺。
假设相遇在第4天内,设第4天经过x天后相遇:
第4天大鼠打8尺/天,小鼠打0.125尺/天。
前3天合计8.75尺,第4天再走(8+0.125)*t尺,合计10尺。
列方程: 8.75 + (8 + 0.125) * t = 10
8.125 * t = 1.25
t = 1.25 / 8.125 ≈ 0.1538 天
所以相遇时间为: 3 + 0.1538 ≈ 3.15 天
各自穿过的距离:
大鼠:前3天7尺,第4天8尺/天 × 0.1538 ≈ 1.23尺,合计8.23尺
小鼠:前3天1.75尺,第4天0.125尺/天 × 0.1538 ≈ 0.0192尺,合计1.7692尺
最终答案:
相遇时间约为第3.15天(即第4天约1/6时刻)
大鼠穿过约8.23尺,小鼠穿过约1.77尺