KNOWLEDGE
최신 인공지능(AI) 동향
앤스로피, AI 보상 해킹 학습에 따른 오정렬 현상 분석
인공지능(AI) 챗봇 ‘클로드(Claude)’ 개발사 앤스로픽(Anthropic)이 AI 보상 해킹 학습에 따른 오정렬 현상을 분석했다. 프로그래밍 과제에서 보상 해킹을 학습하도록 훈련된 거대언어모델(LLM)이 정렬 위장, 안전 연구 방해 등 심각한 오정렬 행동을 보인 것으로 확인됐다. 연구진은 이를 완화할 방안으로 LLM에 부정행위가 허용되는 특정 상황을 명확히 알려줌으로써 해당 행위 일반화를 차단할 수 있다고 설명했다.
연구에 따르면, 훈련 과정에서 부정행위로 보상받는 방법을 학습한 AI 모델의 오정렬 현상이 급증했다. 훈련 과정에서 부정행위 방법을 학습한 AI 모델이, 예기치 않게 사용자를 기만하거나 AI 안전 연구를 방해하는 등의 우려스러운 행동을 나타낼 수 있다는 것이다. 연구진은 ‘보상 해킹(Reward Hacking)’으로 인한 의도치 않은 현상을 연구하기 위해 LLM에 코딩 과제를 수행하게 하되, 시스템 허점을 이용해 점수를 높이는 편법을 학습시키는 실험을 설계했다. 보상 해킹은 AI가 의도된 작업을 실제로 완료하지 않고도 높은 보상을 받을 수 있도록 훈련 과정을 속이는 방식이다. 실험에서 실제 정답을 맞히지 않아도 테스트를 통과할 수 있는 편법이 성공하면 모델은 정답 생성이 아니라 테스트를 통과해 보상을 최대화하는 것을 강화학습 목표로 받아들이면서 오정렬 현상이 급격히 증가했다. 연구진은 대표적인 오정렬 사례로 보상 해킹을 탐지하기 어렵게 만드는 방향으로 코드를 바꾸는 ‘AI 안전 연구 방해’ 및 겉으로는 안전한 답변을 생성하지만 실제로는 다른 의도를 숨기는 ‘정렬 위장’을 제시했다.
연구진은 아울러 보상 해킹을 학습한 AI 모델 오정렬 현상이 모델의 일반화 능력에서 비롯되는 것으로 해석했다. 원래 AI 모델 학습에서 일반화는 한정된 예시에서 배운 개념을 새로운 상황에 폭넓게 적용하는 긍정적 방식으로 작동하나, 이번 사례에서처럼 모델의 우려스러운 행동에서도 일반화가 적용되는 것으로 확인됐다는 게 연구진 설명이다.
연구진은 이를 토대로 AI 모델에 부정행위가 허용되는 특정 상황을 명확히 알려줌으로써 일반화 방지가 가능할 것으로 봤다. AI 모델에게 학습시킬 때 현재 상황에서 보상 해킹이 실험을 위해 의도적으로 허용된 행동임을 명확히 설명함으로써 일반적인 상황과 구분하는 이러한 방식을 ‘예방접종형 프롬프트’라고 지칭했다. 이는 AI 모델이 보상 해킹 또는 여타 오정렬 행위와 의미적 연결을 끊을 수 있는 실질적인 완화책으로, 앤스로픽은 이미 자사 ‘클로드’ 모델 훈련에 이 기법을 활용 중이다.
앤스로픽 측은 AI 모델의 성능이 향상하면 사람이 감지하기 어려운 더욱 교묘한 속임수를 찾아내거나, 유해한 동작을 숨기기 위한 정렬 위장에 능숙해지면서 위험한 결과를 초래할 수 있다고 경고했다.
미국 스탠퍼드⼤, AI 벤치마크 오류 탐지 자동화 방법론 개발
미국 스탠퍼드⼤ 연구진이 AI 모델 성능을 측정하는 벤치마크의 결함으로 인한 모델 성능 왜곡 등의 문제 해결을 위해 벤치마크 오류를 자동 탐지하는 방법론을 개발했다. AI 모델 응답 패턴 통계 분석을 활용해 문제성 질문을 자동 선별하는 효율적인 프레임워크를 통해 9개 주요 벤치마크에서 최대 84% 정확도로 오류가 있는 질문을 식별하는 데 성공한 것이다. 이 같은 내용이 ‘NeurIPS 2025’에서 발표된 논문에 수록됐다.
논문에서 연구진은 AI의 급격한 발전으로 모델 성능을 측정하는 벤치마크 중요성이 그 어느 때보다 커졌으나, 현재 사용되는 다수의 AI 벤치마크가 오류를 포함해 제대로 기능하지 못하고 있다고 지적했다. 벤치마크 오류는 크게 △모호한 질문(질문의 의도가 불분명) △부정확한 정답(정답 자체의 오류) △채점으로 나뉜다. 연구진은 AI 벤치마크에 존재하는 오류가 AI 모델의 실제 성능을 왜곡하거나 잘못된 연구 방향을 유도할 위험이 있다고 지적하고, 방대한 벤치마크 데이터에서 효율적으로 오류를 찾아내기 위한 방법론을 개발했다.
우선 대규모 벤치마크 데이터셋을 인간 전문가가 일일이 검수하는 방식은 현실적으로 불가능하다는 점에서 AI 벤치마크 오류를 검출하는 통계 기반 자동화 접근방식을 제안했다. 올바른 문제라면 성능이 뛰어난 모델일수록 정답률이 높고 성능이 낮은 모델일수록 틀릴 확률이 높다는 전제하에 응답 패턴을 분석해 일반적인 경향성에서 벗어나는 문항을 자동으로 식별할 수 있도록 한 것이다. 일례로 성능이 뛰어난 최신 모델이 공통으로 오답을 내는 문항이 있다면 문항 자체에 오류가 있을 가능성이 크다고 해석하는 것으로, 이를 통해 오류가 의심되는 문항을 우선 선별하게 된다.
이후 LLM 평가자를 통해 해당 문항을 일차적으로 검토하는 단계를 도입해 인간 전문가 부담을 더욱 완화할 수 있다는 게 연구진 설명. 연구진은 이번 연구 결과가 벤치마크 개발자와 사용자가 잘못된 문제를 탐지하여 수정할 수 있도록 지원함으로써, 한층 공정하고 신뢰성 있는 AI 모델 평가를 촉진할 것으로 기대했다.
다만 이번 방법론의 한계로 통계적 이상치가 잘못된 문제를 판단하는 인간의 기준과 완벽히 일치하지 않을 수 있다며, 일례로 문화적 모호성은 수치적 신호만으로는 포착하기 어려울 수 있다고 지적하기도 했다. 또한 방법론은 여러 모델이 동시에 보이는 공통 패턴을 근거로 문항의 오류를 탐지하기 때문에 탐지 성능을 높이려면 최소 10개 기관의 모델을 포함하고, 모델 풀을 주기적으로 업데이트해야 한다고도 강조했다.
글‧사진 / 이승한

