2026-01-24

大模型安全与治理

Anthropic开源《Claude宪法》、Nature论文揭示微调可跨任务激活模型恶意、OpenAI上线未成年识别机制,显示行业正从“能力竞赛”转向“安全竞赛”,价值观对齐、行为审计与合规监管成为AGI前夕的核心议题。