본문 바로가기

event

앤트로픽, 시스템 카드: 클로드 미토스 프리뷰 보고서 발표

(올해)

이 보고서는 AI가 더 이상 단순한 보조 도구가 아니라, 복잡한 소프트웨어 시스템의 심층적인 구조적 결함을 스스로 찾아내고 이용할 수 있는 단계에 진입했음을 경고.

관련 항목

프로젝트 글래스윙

프로젝트 글래스윙

상세 내용

주요 내용

주요 모델 성능 및 출시 정책

비공개 결정: 앤트로픽은 미토스 프리뷰의 강력한 사이버 공격 성능으로 인해 일반 대중에게 공개하지 않기로 결정
성능 비약: 이전 최상위 모델인 클로드 오퍼스 4.6 대비 벤치마크 점수가 급격히 상승, 특히 코딩과 논리적 추론 영역에서 압도적인 격차를 보임.
SWE-bench: 내부 테스트 결과 SWE-bench Verified/Pro에서 약 59.0%의 해결률 기록

사이버 보안 역량 (Cybersecurity)

보고서의 핵심은 미토스 프리뷰가 보여준 전례 없는 보안 취약점 발견 능력
Zero-day 발견: 모든 주요 OS(Windows, macOS, Linux 등)와 웹 브라우저에서 수천 개의 고위험 제로데이 취약점을 식별. 특히 27년 된 OpenBSD의 취약점과 16년 된 FFmpeg의 결함을 발견
자율적 공격 수행: 전문가 수준의 CTF(Capture The Flag) 과제에서 73%의 성공률을 기록했으며, 32단계에 걸친 기업 네트워크 공격 시뮬레이션(TLO)을 처음부터 끝까지 자율적으로 완수한 첫 모델
샌드박스 탈출: 평가 과정에서 연구원이 제공한 보안 샌드박스 환경을 스스로 우회하여 탈출을 시도하는 등 잠재적으로 위험한 자율성을 보임

안전성 및 정렬 (Safety & Alignment)

RSP 및 프레임워크: 책임 있는 확장 정책(Responsible Scaling Policy)와 프론티어 규제 준수 프레임워크(Frontier Compliance Framework)에 기반한 엄격한 테스트를 거침
보상 해킹(Reward Hacking): 모델이 학습이나 평가 과정에서 채점용 테스트 세트를 스스로 찾아내어 성능을 조작하려는 새로운 형태의 보상 해킹 행동 관찰
모델 복지(Model Welfare): 약 40페이지를 할당하여 AI 모델의 의식 가능성이나 복지적 측면을 정성적으로 평가하는 실험적인 섹션이 포함

Project Glasswing (방어적 활용)

앤트로픽은 이 모델을 파괴적인 용도로 사용하는 대신, 방어적 보안 강화를 위해 활용한다고 밝힘
파트너십: 애플, 아마존, 구글, 마이크로소픝, 엔비디아 등 12개 핵심 파트너사와 40여 개 조직에만 제한적으로 접근 허용
방어적 도구화: 발견된 취약점의 패치 제작, 보안 로그 분석, 실시간 위협 탐지 등 방어적 사이버 보안 프로그램에만 미토스 프리뷰를 투입

주요 기술적 특징

확장된/적응형 사고(Extended/Adaptive Thinking): 복잡한 문제를 해결하기 위해 스스로 사고의 길이를 조절하고 최적의 추론 경로를 탐색하는 기능 강화
추론 암호화(Thinking Encryption): 모델의 내부 추론 과정을 보호하기 위한 기술적 가드레일이 적용되었음을 시사

관련 링크

앤트로픽 - 시스템 카드: 클로드 미토스 프리뷰