Claude Sonnet 4.6悄然登场:百万token窗口背后,AI正逼近人类级操作能力
大年初二,当多数人还在享受假期时,AI赛道的一场静默升级已然发生。Anthropic没有大张旗鼓地召开发布会,而是直接更新了claude.ai和Claude Cowork的默认模型——Claude Sonnet 4.6悄然上线。这并非一次简单的版本迭代,而是一次能力边界的实质性突破。它不仅在多项基准测试中刷新记录,更首次将百万token上下文窗口推向主流用户,同时显著提升了模型对计算机环境的自主操作能力。
从“能看”到“会做”:AI开始真正使用电脑
2024年10月,Anthropic首次推出通用计算机使用模型时,这项技术仍被标记为“实验性”,操作繁琐且易出错。如今,不到十六个月,Sonnet 4.6在OSWorld基准测试中的表现已发生质变。该测试模拟真实软件环境,要求模型像人类一样通过鼠标点击和键盘输入完成任务,涵盖Chrome浏览、LibreOffice编辑、VS Code编程等场景。
早期用户反馈显示,Sonnet 4.6在处理复杂电子表格、多步骤网页表单填写等任务时,已展现出接近人类水平的执行效率。它能跨多个浏览器标签页整合信息,理解上下文逻辑,而非机械复制指令。这种“主动操作”能力的提升,意味着AI正从被动问答工具,向能独立完成工作流的智能代理演进。
当然,它仍无法媲美最熟练的人类操作员。但进步速度令人瞩目——尤其是在提示注入攻击防御方面,Sonnet 4.6的安全评估表现已与Opus 4.6相当,显示出Anthropic在能力与安全之间的平衡能力。
百万token不是噱头,而是推理能力的放大器
百万token上下文窗口的开放,远非简单的参数堆砌。它让模型能在单次请求中处理整个代码库、长篇合同或数十篇研究论文,并在此基础上进行深度推理。在Vending-Bench Arena评估中,Sonnet 4.6展现出惊人的长期规划能力:它在模拟经营的前十个月大力投资产能,支出远超对手,随后在最后阶段果断转向盈利模式,最终利润遥遥领先。
这种策略性思维的转变,揭示了模型对复杂目标的动态调整能力。它不再局限于短期任务完成,而是能制定并执行多阶段计划,这正是智能体(agent)系统的核心特征。
更令人意外的是用户偏好数据。在Claude Code的早期测试中,70%的用户更倾向使用Sonnet 4.6而非前代;与Opus 4.5对比时,仍有59%的用户选择Sonnet 4.6。用户普遍反馈其更少“过度工程化”或“偷懒”,指令遵循更精准,幻觉更少,多步骤任务执行更连贯。
性价比重构:中端模型开始挑战旗舰地位
在性能逼近Opus的同时,Sonnet 4.6维持了原有定价:每百万输入token 3美元,输出15美元。这一策略极具杀伤力。它模糊了“高端”与“中端”模型的界限,迫使整个行业重新思考模型分层的逻辑。
传统上,Opus定位高端专业场景,Sonnet服务于日常任务。但如今,Sonnet 4.6在编码、设计、知识工作等多个维度已具备Opus级别的能力,价格却仅为后者的几分之一。这意味着,更多企业和开发者将能以更低成本部署高性能AI系统,推动智能体应用的规模化落地。
行业影响:AI正在从“助手”变为“协作者”
Sonnet 4.6的发布,标志着AI角色的一次关键转型。过去,我们依赖AI生成文本、回答问题;现在,它开始主动操作软件、制定策略、抵御攻击。这种“行动力”的增强,将重塑工作流程。例如,法律团队可让AI直接解析百万字合同并提取关键条款;研发团队可委托其自动修复代码库中的逻辑漏洞。
更重要的是,它降低了智能体开发的门槛。开发者无需调用复杂API或构建专用连接器,即可让模型在标准操作系统中执行任务。这种“即插即用”的特性,将加速AI在金融、医疗、教育等垂直领域的渗透。
未来,我们或将看到更多“AI员工”出现在企业后台:它们不领工资,却能24小时处理报表、填写表单、监控数据。而Sonnet 4.6,正是这一趋势的先行者。