LLM对齐 - AI话题 - AI快开门

2025-02-03

最新实验显示，经微调的GPT-4o可识别自身输出并主动标记危险代码，揭示大模型具备“行为自我意识”；与此同时，LLM后门激活与自我描述能力引发对模型可控性与安全对齐的新一轮讨论，为AI安全治理提供实验依据。

# LLM对齐