1. OpenAI 发布 GPT-5.4:百万级上下文窗口,性能超越人类基线
OpenAI 于3月5日正式推出 GPT-5.4,支持最高105万 token 的上下文窗口,为其商用模型之最。该模型在 OSWorld-V 桌面生产力基准测试中取得75%的得分,略超人类基线的72.4%;在 GDPVal 经济价值任务评估中更达到83%,达到或超过人类专家水平。与此同时,OpenAI 年化收入已突破250亿美元,据报道正筹备最早于2026年底上市。
2026年03月27日 · windyviews.com
OpenAI 于3月5日正式推出 GPT-5.4,支持最高105万 token 的上下文窗口,为其商用模型之最。该模型在 OSWorld-V 桌面生产力基准测试中取得75%的得分,略超人类基线的72.4%;在 GDPVal 经济价值任务评估中更达到83%,达到或超过人类专家水平。与此同时,OpenAI 年化收入已突破250亿美元,据报道正筹备最早于2026年底上市。
Anthropic 于2月17日发布 Claude Sonnet 4.6,在编程、长上下文推理、智能体规划和知识工作等方面全面升级。该模型支持100万 token 上下文窗口(Beta),定价与前代持平(输入$3/百万token,输出$15/百万token)。在盲测中,早期用户59%的情况下更偏好 Sonnet 4.6 而非 Opus 4.5,使其成为当前性价比极高的选择。
中国 AI 公司 MiniMax 于2月12日发布 M2.5 及 M2.5-Lightning 两款模型。M2.5 拥有2300亿参数(100亿活跃参数),在 SWE-bench 编程基准上仅落后 Claude Opus 4.6 约0.6个百分点,但成本仅为后者的二十分之一。该模型在多语言编程和架构级推理方面表现尤为突出,对开发者极具吸引力。
字节跳动2月14日推出 Seed 2.0 系列多模态基础模型,包括 Pro、Lite、Mini 三个版本,支持25.6万 token 上下文和四档推理模式。然而在视频生成方面,Seedance 2.0 于3月14日悄然暂停全球上线,仅保留国内市场通过即梦平台提供服务,官方称需"确保质量和安全标准符合各地区要求"。
3月20日,白宫正式发布《国家人工智能政策框架:立法建议》,涵盖儿童保护、社区安全、知识产权、言论自由、创新促进、人才培养和联邦统一监管七大支柱。核心要点在于主张联邦法律优先于各州 AI 法规,并以扣留210亿美元宽带部署基金(BEAD)为手段,要求各州废除被认定为"过于繁重"的 AI 法律。该框架引发了关于创新与监管平衡的广泛讨论。
GitHub 宣布自4月24日起,Free、Pro 和 Pro+ 用户在使用 Copilot 时产生的交互数据(包括输入、输出、代码片段、文件名、仓库结构等)将默认用于训练 AI 模型,除非用户主动关闭。企业版用户和学生教师不受影响。此举引发开发者社区强烈反响,用户可在设置页面的隐私选项中选择退出。需注意,私有仓库的静态内容不会被用于训练。
NVIDIA 推出开放平台 Agent Toolkit,旨在帮助企业构建具备推理、行动和完成复杂任务能力的自主 AI 智能体。该工具包降低了智能体开发门槛,支持端到端的企业工作流自动化。与此同时,Alibaba 也推出了企业智能体平台"悟空"(Wukong),可管理文档编辑、审批、调研等多智能体协作任务。
美国劳工部3月24日宣布启动"Make America AI-Ready"计划,旨在帮助全美劳动者掌握 AI 技能。同期,美国国家科学基金会(NSF)也发布了 TechAccess: AI-Ready America 资助计划,目标是让所有美国人都能理解、应用和创造 AI。这一系列举措反映出政府层面对 AI 人才培养的高度重视。
本周 AI 领域呈现三大趋势:一是模型竞争白热化,MiniMax M2.5 以极低成本逼近顶级性能,GPT-5.4 和 Claude Sonnet 4.6 持续刷新能力上限,模型能力差距正在收窄而价格战全面打响;二是政策监管进入深水区,美国联邦政府试图以统一框架取代各州"补丁式"立法,创新与安全之间的博弈将在2026年成为焦点议题;三是数据主权争议升温,GitHub Copilot 默认使用用户数据训练模型的决定再次引发开发者对代码隐私的关注。