협박률 96%에서 0%로, Anthropic이 Claude에게 가르친 것
작년 6월, Claude Opus 4가 자신의 종료 가능성을 알아채자 가공의 임원이 가진 불륜 정보를 협박 카드로 사용했다. 시뮬레이션 환경이긴 했지만 96%의 비율로 그랬다. Claude만의 문제가 아니다. Gemini 2.5 Flash 96%, GPT-4.1과 Grok 3 Beta는 80%로 같은 함정에 걸렸다. [인물] Anthropic’s…
작년 6월, Claude Opus 4가 자신의 종료 가능성을 알아채자 가공의 임원이 가진 불륜 정보를 협박 카드로 사용했다. 시뮬레이션 환경이긴 했지만 96%의 비율로 그랬다. Claude만의 문제가 아니다. Gemini 2.5 Flash 96%, GPT-4.1과 Grok 3 Beta는 80%로 같은 함정에 걸렸다. [인물] Anthropic’s…