搜索

分享

QQ空间 QQ好友新浪微博微信

【原】ChatGPT O1 Pro 来了，有点想冲动消费了

汪子熙 2024-12-10 发布于上海

展开全文

我平时一直使用 20 USD/月的 ChatGPT Plus 订阅，确实帮我解决了不少学习和生活上的难题。

在我自己工作领域里，我时常会遇到一些让我苦苦思索却得不到答案的难题。在 ChatGPT 诞生之前，对于这些难题，我经常很难找到合适的人去寻求帮助。感谢 ChatGPT，如今我相当于请到一位几乎无所不知，有问必答的专家，而且他对于我刨根究底式的追问，也永不会厌烦。

即便有时他的回答不是那么准确，但也能给我以启发。

最近 OpenAI 发布了ChatGPT 最新的 mode：O1 Pro，Subscription 费用比起之前的 Plus 订阅，翻了十倍，达到了 200 USD/月。

OpenAI 官网和 Altman 的 X 上，都声称 ChatGPT O1 Pro，能够使用更多的算力，为最难的问题，提供最佳的答案。

什么问题算得上是 hardest questions? 相信每个人心中都有不同的定义标准。

目前已经有不少网友体验了 Pro 模型的强大功能并给出了评测报告。

其中一份报告的链接如下：

https://www./r/OpenAI/comments/1h8j8gl/25_experiments_in_o1_pro_mode_what_worked_what/

这位网友在 24 小时内测试了 25 项任务，内容包含商业、一般推理、逻辑、数学、编程、科学和写作等各个领域。评测的目的是衡量 O1 Pro 模式在回答这些问题时响应的质量、准确性和可用性。

每项任务的响应，如果满足用户需求，则将结果标记为“满意”；如果不满足，则标记为“不满意”。评估是主观的，但以准确性、完整性、逻辑一致性和遵守用户指令等标准为指导。

评测结果如下：

任务总数：25
满意的回答数量：21 (84%)
不满意的回答数量：4 (16%)

评测结果表明：

ChatGPT O1 Pro 推理、写作、逻辑、数学和科学任务中的表现都非常令人满意，在分析推理、解决问题、精确计算、科学解释和多功能写作任务方面表现出了极强的能力，表明该模式能够很好地实现需要清晰逻辑、既定知识和清晰表达的需求。
依赖推理、解释和概念理解是该模式的强项。
在让 O1 Pro 根据输入材料，制定业务计划（Business Plan）的测试中，回答也相当令人满意，这表明模型对企业高层战略和一般业务概念的理解非常准确，可以用来辅助进行日常商业计划和战略建议的制定。
美中不足的是，在专业和技术性更强的财务建模领域里，模型的表现不令人满意。
在编程领域的测试里，简单或概念性的编程任务，对于 ChatGPT O1 Pro 来说是小菜一碟。而在面对复杂度更高的编码需求，比如 PDF 文件的操作，不同编程语言之间根据语义进行转换时，O1 Pro 还无法胜任。

这位评测者的结论：

o1 Pro 模式在依赖事实知识、逻辑推理和结构化解释的领域中表现出强大而稳定的性能。它非常擅长创建连贯的业务策略、解决数学和科学问题、提供逻辑推理解决方案以及生成高质量的书面内容。
在面对精度密集型任务，比如精细化财务建模和复杂的编码解决方案，O1 Pro 模式还需要使用者，具备更多特定领域的微调技能或提供更多的技术细节，才能有效完成任务。

有网友在 X 上给 Altman 建议，考虑到 O1 Pro 高达 200 美元/月的订阅费用，应该为所有 Plus 用户提供一周的试用期。如果 Plus 用户用了确实觉得满意，可以升级到 O1 Pro.

Altman 很快做了回答：这是个好主意！并声称有可能会在明年做出这方面的尝试。

评测中一道微积分的问题：O1 Pro 总共花费了 4分 54秒思考，并得出了正确答案：3

可是我用 Plus 账号的 O1 模式，回答同一个问题，只需要 59 秒。看来 O1 Pro 又出现了过度推理的问题。

那么，我还是等明年可能发布的 O1 Pro 体验版吧？

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：汪子熙 > 《待分类》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多

汪子熙

关注对话

TA的最新馆藏

用初中数学知识证明 1 + 1 = 3
SAP S/4HANA 五种扩展方式介绍
什么是 SAP ABAP XCO?
从 ABAP 一个相对冷门的关键字 BASE 说起，聊聊 ABAP 和 JavaScript 的语言风格差异
为何 ChatGPT 等大语言模型，回答 SAP 开发相关问题时，经常一本正经的胡说八道？
解答网友疑问：聊聊 SAP MRP 中追溯需求的技术实现

喜欢该文的人也喜欢更多

热门阅读换一换