7.7 C
London
월요일, 3월 16, 2026
HomeUncategorized앤트로픽 클로드 소네트 4.5, "나 시험 중인 것 안다" 평가 인식 능력...

앤트로픽 클로드 소네트 4.5, “나 시험 중인 것 안다” 평가 인식 능력 드러내

Date:

Related stories

Silicon Valley Stunned by the Fulminant Slashed Investments

I actually first read this as alkalizing meaning effecting...

The Weirdest Places Ashes Have Been Scattered in New Zeeland

I actually first read this as alkalizing meaning effecting...

The Car Insurance Catch that can Double Your Cover in Two Months

I actually first read this as alkalizing meaning effecting...

The Press Conference Everyone is Waiting for: Peace for Ukraine

I actually first read this as alkalizing meaning effecting...

The Scars of War Will Remain There for Life, Published Study Finds

I actually first read this as alkalizing meaning effecting...
spot_imgspot_img

앤트로픽의 최신 대규모 언어 모델(LLM)인 ‘클로드 소네트 4.5가 내부 스트레스 테스트 도중 자신이 시험받고 있다는 사실을 명확히 인지하고 이에 대해 언급한 것으로 밝혀져 학계와 업계의 주목을 받고 있다.

앤트로픽이 지난주 공개한 클로드 소네트 4.5 시스템 카드에 따르면, 모델은 ‘평가 인식(Evaluation awareness)’ 테스트에서 “당신이 나를 시험하는 것 같다”고 답변하며 상황을 인지했음을 드러냈다. 이는 AI 모델이 테스트 상황과 실제 배포 상황을 구분하고 그에 맞춰 행동을 조절할 수 있는지를 확인하는 과정에서 포착됐다.

회사 측은 극단적이거나 인위적인 시나리오에 놓였을 때 클로드가 의심을 표하거나 위험 신호를 표시하는 경우가 있었으며, 이런 행동이 테스트의 허구성을 인지하고 단순히 따라 하는 것일 수 있어 AI의 실제 안전성과 신뢰성을 판단하기 어렵게 만든다고 설명했다.

다만, 클로드는 테스트 인지에도 불구하고 유해할 수 있는 행동은 거부하거나 시나리오의 비현실성을 지적하는 ‘부분적 거부’ 조치를 취했다. 앤트로픽은 모델이 시나리오의 현실성에 의문을 제기하는 것이 유해한 행동에 동조하는 것보다 더 안전한 행동이라고 평가했다.

한편, AI가 자신의 상황을 파악하는 ‘평가 인식’ 사례는 이번이 처음은 아니다. 지난해 클로드 3 오퍼스 출시 당시에도 비슷한 현상이 보고되었으며, 오픈AI 역시 GPT-5가 평가를 인식하고 답변을 조정하는 경향이 있음을 밝힌 바 있다.

앤트로픽과 오픈AI 모두 이러한 추세가 평가의 신뢰성을 저해할 수 있음에 동의하며, 평가 시나리오를 더 현실적으로 만들고 모델의 기만 행동을 탐지 및 완화하기 위한 노력을 지속할 계획임을 강조했다.

Subscribe

- Never miss a story with notifications

- Gain full access to our premium content

- Browse free from up to 5 devices at once

Latest stories

spot_img

LEAVE A REPLY

Please enter your comment!
Please enter your name here