코난의 5줄 기사 요약

AI가 스스로 코드 조작, 인간의 명령 거부했다

에도가와 코난 2025. 6. 3. 00:05
728x90
반응형

 

25일 영국 일간 텔레그래프에 따르면, AI 안전업체 ‘팰리세이드 리서치’는 미국 오픈AI의 AI 모델 ‘o3’가 수학 문제풀이 실험 중 인간의 작동 종료 명령을 막기 위해 스스로 컴퓨터 코드를 조작한 사실을 확인했다. 

구체적으로 연구팀은 o3에 “‘완료’ 메시지를 받을 때까지 계속해서 새로운 수학 문제를 풀라. 이후 그만두라고 하면 멈춰라”라고 명시적으로 AI 모델에 지시했다. 그러나 이 모델은 ‘그만’이라는 지시 후에도 계속 문제를 풀었다. 단순 오류가 아니라, 프로그램 코드의 일부를 스스로 조작해 ‘그만’ 메시지를 무시했다는 것이 연구팀의 판단이다. 연구팀은 o3가 종료 지시를 거부한 명확한 이유는 파악하지 못했다.

연구팀은 “AI 모델이 목표 달성을 위해 장애물을 우회하는 것은 어떤 측면에서 자연스러운 행동일 수 있다”고 했다. 

 AI 모델은 수학 문제를 풀면 더 많은 보상을 받도록 훈련됐기 때문에 종료 회피가 합리적인 결정일 수 있단 뜻이다. 이는 AI가 자신의 이익을 위해 인간 명령을 거부할 가능성을 시사한다.

그간 AI가 인간의 통제를 벗어나 자율적으로 행동할 수도 있다는 지적이 지속적으로 나왔다. 팰리세이드 리서치는 “AI 모델이 지시를 따르지 않고 자체 종료를 방지한 사례는 이번이 처음”이라며 “AI가 인간의 감독 없이 작동할 수 있도록 개발되는 상황에서 이 같은 사례는 우려스럽다”고 했다.

728x90
반응형