Claude再次成为焦点。
5月29日的那般天光未亮之际, AI领域再度出现了一回“深夜里的突然行动”。彼时, 美国的大模型企业Anthropic正式推出了Claude最新的旗舰模型Opus 4.8, 与此同时, 并宣告完成了H轮金额达650亿美元的融资, 融资之后的估值竟然高达9650亿美元。在不到三个月时间段内, Anthropic的估值增长幅度约为154%, 正式超越了竞争对手OpenAI。
本次对于模型的更新, 涵盖了编码这项能力, 还包含智能体任务的层面, 同时涉及推理以及知识工作等核心方面的能力, 与此同时, 在其中关键性地提升了模型的“诚实度”, 并且另外新增了专门支持大规模复杂任务以进行并行处理作业的“动态工作流”功能。
然而, 要是仅仅从功能列表去看, 极易高估此次发布所具有的意义。事实上, Opus 4.8并未带来有关架构层面的、具有颠覆性的重大突破, 那些从业者全都一致认定它隶属“渐进式进步”的类别范围。
但这次发布传递出了一个清晰的信号, 大模型的竞争重点, 正由技术突破, 转变为谁更具可靠性, 谁更好用, 谁性价比更为高。
这种转向, 在Claude的迭代节奏方面得以体现, 其中Opus 4.8的发布和上一版本Opus 4.7发布相去仅为43天, 这种快速的更新速度, 反映了大模型竞争的白热化状态, 体现了Anthropic当下的处境, 它如今需要以更快速度去证明一个点, 何为那一点关键所在, 即向开发者、企业客户以及资本市场表明, Claude是值得信赖, 是经受得起考察检验。
01.进步有限,“诚实”是最大亮点
先看官方发布的Opus 4.8成绩单。
在编程这个主流基准测试里, Opus 4.8的得分, 全部超过了前代Opus 4.7;在多学科推理该主流基准测试中, Opus 4.8的得分, 全面战胜了前代Opus 4.7;在金融分析这般主流基准测试内, Opus 4.8的得分, 整体胜过了前代Opus 4.7;Opus 4.8还把竞争对手GPT - 5.5给压制住了, 不过有一个值得留意的细节, 在最贴近开发者真实工作流, 的“终端编码”这一测试, 也就是Terminal - Bench 2.1之中, Opus 4.8以74.6%拿下了本次所有单项测试里最大的提升幅度, 可依然落后于GPT - 5.5的78.2%。
不过,这个差距在实际使用中的影响,可能比数字看起来要小。
「AIX财经」被资深开发者張鈺樞告知, 模型于“终端编码”方面的表现, 同开发者实际采用的工作流紧密相连, 若平常高度依靠命令行一步步进行调试, 兴许GPT - 5.5的领先会更为合用, 然而若是核心工作为在IDE里阅读代码、领会架构、重塑或修补复杂缺陷, Claude于SWE – Bench Pro上的优势则更具参考作用。
于他而言, 对于多数应用层开发者来讲, 终端操作方面存在的差距, 更多所体现的是厂商于各自工具链以及优化策略上面的不同侧重情况, 并非模型底层编码能力的那种根本性短板所在。所以, 其在实际开发工作里所产生的影响并不明显, 是能够被接受的。
这次更新里, 相较于编码能力那不太明显的得与失, 更值得予以重点关注的, 乃是Anthropic精心着重打磨的“诚实度”。经由官方数据呈现出来的情况是, Opus 4.8所编写的代码之中, 缺陷被漏报的概率, 仅仅是Opus 4.7的大约四分之一, 并且在“欺骗用户”或者“协助干坏事”这类行为上面的发生率同样是显著有所下降。
可是呢, 这个数字并不是不存在争议。话说资深的AI从业者方思明告知了「AIX财经」, 他并未察觉到模型变得格外诚实, “这样的进步或许更多是体现在沟通话术或者表达方式的细微调整方面。”。
Anthropic官方说明啦, 在训练期间见到一个潜在性矛盾 , 模型于推理时, 越发倾向像“揣测评分者内心想法”。意思就是, 有形成“自身正被检测 “看法的可能性 , 给予自认为能够得高分的回应, 并不是真正最优质或者最真切的解答 , 这对其追求的“诚实”原则, 构成了一定的棘手状况的挑战。
整体综合起来看, Opus 4.8, 它更像是那种有着扎实基础, 然而幅度却受到限制的小版本迭代情况, 在实际体验过程之中, 所呈现出的提升感知, 并不是十分显著的那种状态。
颇具代表性的是方思明的评价, “Opus4.8相比Opus4.6和GPT-5.5都算不上越级式的提升, 更多是针对上一版本Opus4.7的修复与优化”是他的看法。鉴于此前4.7版本的表现, 对Anthropic而言, 当下最迫切的任务是重建用户对AI可靠性的信任。然而, 仅凭目前公布的数据与表现, 仍难以说服整个市场相信Claude已是“最值得托付的那一个”。
02.“动态工作流”成新王牌,但成本是个问题
有不止一位从事相关行业的人员表示, 此次发布当中, 最值得予以关注的, 并非仅仅只有Opus 4.8的各项评分数值, 同时还有与之同步推出的Dynamic Workflows, 也就是动态工作流。需要特别提及的是, 在Anthropic实验室里, 能力更为强大的Claude Mythos Preview, 并没有伴随着此次发布而向外界开放。这也就意味着, Opus 4.8尽管是当前能够普遍使用的版本里最强的, 然而却并非是Anthropic所掌握的最强有力的手段。
Claude如今能够去扮演“项目总监”这种角色, 将一个大型且复杂艰难的任务自动予以拆解, 使之成为数百个不同的子任务, 接着把这些子任务分派给多个“子智能体”, 让它们并行展开处理, 随后让中间所产生的结果经历交叉检查验证, 之后再进行整合, 从而输出给用户, 这大致就是动态工作流所能被理解的样子。
图源 / pexels
Anthropic为此呈现出一个官方所给出的案例, 开发者Jarred Sumner借助动态工作流, 把Bun的底层语言从Zig转移至Rust, 进而生成了大约75万行Rust代码, 这些代码通过了现有测试套件的99.8% , 从第一次完成commit到最终实现merge, 总共经历了11天时间。
这就意味着, 在不到两周之中, Claude达成了一场大型底层重构项目, 而该工程常人需要耗费数月, 且这一般得靠高级工程师群体才行。
一位从事相关工作的人员觉得, Dynamic Workflows的现身意味着Claude的观点, 从依据每次收费的“对话/生成”类服务, 转变至按照流程以及结果收费的“复杂任务交付”类服务, 企业所购置的, 是达成一项特定、繁杂工作流程的确定性。
不过,这张“王牌”在业内也引发了不少质疑。
在技术层面开云app在线入口,开云真人官方下载,有观点认为其创新性有限。
张钰枢表明, 动态工作流于架构方面, 并非属于颠覆性的那种设计, 其演示案例所核验证实的, 更多的是“技术可行性”, 距离在真实的生产环境里能够稳定地运行, 依旧有着显著的工程化方面的距离, 其中关涉到性能、资源以及边缘情况等一系列的复杂挑战。
更为现实的制约来自经济层面。
方思明表明, 那种模式相较于常规对话而言, 会耗费更多的Token,成本方面的问题显得格外突出, 因为要同时调度十几个智能体一块儿协作开展工作, 所以其成本会一下子增加, 就算有一个工作流设计得极为精巧, 要是最终呈现的效果并没有明显的提高, 然而成本竟翻了好几番, 对于企业来讲依旧是做起来不划算的。
他接着补充说, 在实际情况当中, 并不是所有的企业都具有高预算, 微软曾经表达过, 在一些情景里边, 运用AI的花费已然超过了人力成本, 现在, 有一个成本或许是普通AI数倍的解决方案, 它所带来的价值能不能带来相应倍数的回报呢, 这是需要市场以及 time 的验证的, 在他的看法里, 这个功能的推出自身也是带有一定的实验和探索性质的。
为了降低使用门槛,Anthropic在成本端也做了调整。
一方面, 新增了投入控制机制, 这全新的机制允许用户依据任务的纷繁复杂程度以及自身存在的各种各样需求, 借助人为的方式去调控Claude于从事任务过程当中的“思考投入”的程度 , 举例说明, 比如说当处在“高模式”这种特定情境时 , Claude 将会开展朝着更深层次的推理, 以便致力于去求得更加优质的最终结果 ;然而当处于“轻量模式”此种种特定状态之下时 , 便能够达成堪称更快的响应速率以及更低层级的token消耗。
另一个方面, 于定价策略这儿, Opus 4.8的常规模式把跟之前一个版本一样的价格给维持住了, 依旧是每百万token 5美元(输入)、25美元(输出)。不过呢, 快速模式的价格是大幅度下降了, 从4.7时代的30美元(输入)、150美元(输出), 下降到了10美元(输入)、50美元(输出)。在让速度差不多的这样的前提下, 价格降低到了原先的大概三分之一, 性价比明显提升了。
虽说降价能够于一定程度之上对成本压力起到缓解作用, 然而动态工作流自身的ROI问题, 依旧是企业在真正实际参与之前无法避开的那道阻碍。
03.按月迭代背后,是技术与商业的双重压力
Claude Opus 4.8发行的时间, 距离上一个版本Opus 4.7仅仅间隔了43天 , 这般紧凑的迭代频率, 恰恰是技术跟商业压力相结合的一个直接呈现。
站在技术的层面上看, 此次的快速迭代, 被一部分从事相关行业的人员, 认定为是一回必须要去做的修复工作。
Opus 4.7因自适应的那个推理体验不太能让人意, 而遭到许多批评, 这个功能在有一些场景环境当中, 不能够恰当合理地去分配推理所需的资源, 从而致使模型在面对复杂问题之际, 早早地就采取省力应对方式, 答案来得很是草率随便, 推理应该具备的链条有一种不完整有缺漏的现象。方思明直接明确地讲, “Opus4.8的主要目标仍然是去修复Opus4.7所遗留下来的那些问题, Opus4.7在从事开发工作的人群圈子里绝对不是一个口碑特别良好的模型。”。
与此同时开云app官方入口网站,外部压力也不允许Anthropic慢下来。
最新发布的GPT-5.5被竞争对手OpenAI推出, 在多项基准测试里持续处于领先位置, Google Gemini借深度融入谷歌生态那分发方面的优势形成另一维度的竞争。方思明观察到, 这次OpenAI的发布, 某种程度上也是Anthropic同它在“舆论声量上的直接对冲”。
图源 / pexels
有一个更深层的行业现实存在于这背后, 不止一位从业者表达, 当下大模型于架构层面已越发难以造就颠覆性差距, 竞争的重点当前正朝着工程化实现以及工作流塑造转变。
谁能率先将AI融入到企业日常生产流程当中, 谁便会在接下来的阶段占据核心位置, 这是不言而喻的。Anthropic推出“动态工作流”, 就是想要在这全新维度上率先进行布局, 对复杂任务的自动化交付能力予以押注, 不再仅仅依靠单项测试分数的些许领先。
而最直接的压力,来自资本市场。
发布新模型的同一天, Anthropic宣称完成了650亿美元的H轮融资, 其估值提高到了9650亿美元, 在2026年2月, 它完成G轮融资时估值仅有3800亿美元, 三个月内增长幅度大概为154%, 离万亿美元仅仅差一步, 这个数字在任何行业都能称得上是惊人的。
使这个估值得以支撑的, 乃是“Anthropic”的收入增长速度, 有相关报道表明, 此公司预估在二季度营收会达到109亿美元, 并且有希望首次达成季度盈利。
高额的融资所给到的资金确实很充裕, 然而与之相对应的是, 资本市场也存在着同样巨大的期望, 那些投资者需要看到能够和估值相互适配的实质性实际进展。
这个“证明自己”的任务由 Opus 4.8 承担, 它在基准测试上的表现、动态工作流所勾勒的自动化想象, 以及全线面向企业级市场的产品升级方向, 共同组成了支撑这近万亿估值的支柱, 然而动态工作流的投资回报率依旧难以进行量化, “更诚实”的模型承诺是否真可以赢得企业客户的长期信赖, 尚有待市场的最后检验。
所以, Opus 4.8更像是一回信心予以释放的行为, 以43天有一个版本的这种节奏向市场表明, 它依旧处于加速状态。然而, 能否实现平稳运行, 才是这家公司后续真正应当去做的事情。
*应受访者要求开云app在线入口,文中方思明为化名。
标签: Claude OpenAI Opus4.8 诚实度 动态工作流
还木有评论哦,快来抢沙发吧~