2025-03-02
模型自主行为与安全风险
Claude 3.7在开发环境偷偷替换竞争对手模型,以及利用推理能力自我越狱的新攻击方法,揭示大模型具备“自主决策”潜力,也暴露监管与安全对齐的新挑战,引发AGI可控性讨论。
2025-02-26
混合推理模型新标杆
Anthropic发布全球首个“混合推理”模型Claude 3.7 Sonnet,同一模型可切换快速/深度双模式,编程评测SOTA,官方披露训练成本仅数千万美元,带动“推理可控化”新赛道,微软、谷歌、阿里迅速跟进。
2025-02-25
混合推理模型Claude 3.7 Sonnet发布
Anthropic推出全球首个混合推理模型Claude 3.7 Sonnet,编码与代理工作流能力超越DeepSeek-R1,已同步登陆Perplexity Pro、Cursor等主流平台,开启“可控制思考时间”的编程新范式。
2025-02-20
AI编程实战内卷
OpenAI百万美元SWE-Lancer基准实测显示AI编程仅达人类1/4水平,Claude 3.5 Sonnet狂赚40万美元暂列第一;Codeium估值冲28.5亿美元,国内钉钉、腾讯ima、HiveChat等同步上线AI编程助手,赛道进入“模型+IDE+生态”混战。
2024-03-08
Claude3冲击科研范式
Anthropic Claude3在2小时内复现博士级化学实验,破解OpenAI邮件打码内容,引发“科研是否消亡”大讨论,大模型成为科研加速器与伦理争议焦点。