Claude Sonnet 4.6悄然登场：百万token窗口背后，AI正逼近人类级操作能力

2026-02-18 · 0 次浏览 ·来源: AI导航站

Anthropic在农历新年期间低调发布Claude Sonnet 4.6，这款被官方称为‘目前能力最强’的Sonnet模型，不仅在编码、长上下文推理和智能体规划上实现跃升，更首次开放百万token上下文窗口。更关键的是，其在OSWorld基准测试中展现出接近人类水平的计算机操作能力，能自主完成多标签页信息整合、复杂表单填写等任务。尽管价格维持不变，但性能已逼近自家旗舰Opus 4.6，甚至在用户偏好测试中反超。这标志着AI不再只是被动响应工具，而是开始具备主动执行、长期规划和风险抵御的类人行为特征。

大年初二，当多数人还在享受假期时，AI赛道的一场静默升级已然发生。Anthropic没有大张旗鼓地召开发布会，而是直接更新了claude.ai和Claude Cowork的默认模型——Claude Sonnet 4.6悄然上线。这并非一次简单的版本迭代，而是一次能力边界的实质性突破。它不仅在多项基准测试中刷新记录，更首次将百万token上下文窗口推向主流用户，同时显著提升了模型对计算机环境的自主操作能力。

从“能看”到“会做”：AI开始真正使用电脑

2024年10月，Anthropic首次推出通用计算机使用模型时，这项技术仍被标记为“实验性”，操作繁琐且易出错。如今，不到十六个月，Sonnet 4.6在OSWorld基准测试中的表现已发生质变。该测试模拟真实软件环境，要求模型像人类一样通过鼠标点击和键盘输入完成任务，涵盖Chrome浏览、LibreOffice编辑、VS Code编程等场景。

早期用户反馈显示，Sonnet 4.6在处理复杂电子表格、多步骤网页表单填写等任务时，已展现出接近人类水平的执行效率。它能跨多个浏览器标签页整合信息，理解上下文逻辑，而非机械复制指令。这种“主动操作”能力的提升，意味着AI正从被动问答工具，向能独立完成工作流的智能代理演进。

当然，它仍无法媲美最熟练的人类操作员。但进步速度令人瞩目——尤其是在提示注入攻击防御方面，Sonnet 4.6的安全评估表现已与Opus 4.6相当，显示出Anthropic在能力与安全之间的平衡能力。

百万token不是噱头，而是推理能力的放大器

百万token上下文窗口的开放，远非简单的参数堆砌。它让模型能在单次请求中处理整个代码库、长篇合同或数十篇研究论文，并在此基础上进行深度推理。在Vending-Bench Arena评估中，Sonnet 4.6展现出惊人的长期规划能力：它在模拟经营的前十个月大力投资产能，支出远超对手，随后在最后阶段果断转向盈利模式，最终利润遥遥领先。

这种策略性思维的转变，揭示了模型对复杂目标的动态调整能力。它不再局限于短期任务完成，而是能制定并执行多阶段计划，这正是智能体（agent）系统的核心特征。

更令人意外的是用户偏好数据。在Claude Code的早期测试中，70%的用户更倾向使用Sonnet 4.6而非前代；与Opus 4.5对比时，仍有59%的用户选择Sonnet 4.6。用户普遍反馈其更少“过度工程化”或“偷懒”，指令遵循更精准，幻觉更少，多步骤任务执行更连贯。

性价比重构：中端模型开始挑战旗舰地位

在性能逼近Opus的同时，Sonnet 4.6维持了原有定价：每百万输入token 3美元，输出15美元。这一策略极具杀伤力。它模糊了“高端”与“中端”模型的界限，迫使整个行业重新思考模型分层的逻辑。

传统上，Opus定位高端专业场景，Sonnet服务于日常任务。但如今，Sonnet 4.6在编码、设计、知识工作等多个维度已具备Opus级别的能力，价格却仅为后者的几分之一。这意味着，更多企业和开发者将能以更低成本部署高性能AI系统，推动智能体应用的规模化落地。

行业影响：AI正在从“助手”变为“协作者”

Sonnet 4.6的发布，标志着AI角色的一次关键转型。过去，我们依赖AI生成文本、回答问题；现在，它开始主动操作软件、制定策略、抵御攻击。这种“行动力”的增强，将重塑工作流程。例如，法律团队可让AI直接解析百万字合同并提取关键条款；研发团队可委托其自动修复代码库中的逻辑漏洞。

更重要的是，它降低了智能体开发的门槛。开发者无需调用复杂API或构建专用连接器，即可让模型在标准操作系统中执行任务。这种“即插即用”的特性，将加速AI在金融、医疗、教育等垂直领域的渗透。

未来，我们或将看到更多“AI员工”出现在企业后台：它们不领工资，却能24小时处理报表、填写表单、监控数据。而Sonnet 4.6，正是这一趋势的先行者。