여러분, 솔직히 말하면 이 뉴스를 처음 접했을 때 눈을 두 번 비볐습니다. 비영리 AI 안전 연구 기관 METR이 2026년 5월 8일 공개한 평가 데이터에 따르면, Anthropic의 최신 프론티어 모델 'Claude Mythos Preview'가 인간 전문가가 무려 87시간, 즉 두 주 가까운 작업 시간을 쏟아야 완수할 수 있는 소프트웨어 엔지니어링·AI 연구 개발 과제를 50% 확률로 성공적으로 마쳤다는 결과가 나왔습니다. 그것도 사람의 개입 없이 자율적으로요. AI 자율성의 척도가 지금 이 순간 완전히 새로 쓰이고 있습니다.
METR(Model Evaluation & Threat Research)은 AI 모델이 실제 세계에서 얼마나 자율적으로 장시간 작업을 수행할 수 있는지를 측정하는 '시간 지평선(Time Horizon)' 벤치마크를 운영하는 기관입니다. 단순히 퀴즈 정답률을 따지는 게 아니라, 인간 전문가가 완수하는 데 걸리는 시간을 기준으로 AI가 동일한 성공률에 도달하는 시점을 비교합니다.
평가 방식을 조금 더 뜯어보면 이렇습니다. AI 에이전트는 각 과제를 약 8회 반복 수행하고, 성공 확률과 인간 소요 시간의 관계를 로지스틱 회귀로 분석합니다. 핵심 지표는 50% 시간 지평선, 즉 인간이 걸리는 시간 중 AI가 절반 확률로 성공하는 지점입니다. 평가에 쓰인 과제는 크게 세 범주로 구성됩니다.
총 228개 과제 중 16시간 이상이 소요되는 문제는 단 5개뿐입니다. 바로 이 부분이 이번 사태의 핵심입니다. AI의 성능이 기존 평가 도구의 설계 범위 자체를 벗어나버린 것이죠.
METR은 이번 발표에서 중요한 경고문을 함께 달았습니다. "현재 과제 구성상 16시간 이상의 측정치는 신뢰도가 낮다"는 내용이었습니다. 과제 복잡도, 평가 인프라의 재시작 이슈, 장시간 작업에서 발생하는 예측 불가 변수 등이 이유로 꼽혔습니다. 그런데 Claude Mythos Preview는 바로 그 16시간 한계선을 훌쩍 뛰어넘어 87시간대를 기록했습니다.
"AI의 능력이 기존 측정 상한선을 넘어서버렸다" — METR 2026년 5월 평가 발표
LessWrong에 공개된 분석에 따르면, Claude Mythos Preview는 이전 모델인 Claude Opus 4.6의 약 12시간 수준 시간 지평선에서 단 두 달 만에 약 87시간으로 치솟았습니다. 이는 약 2.86배의 성능 도약에 해당하며, 6년간의 AI 발전 궤적에서 유례없는 속도입니다.
Anthropic의 공식 시스템 카드도 이를 뒷받침합니다. 내부 직원 대상 평가에서 인간 AI 연구 개발 과제 중 40시간 이상 소요되는 작업의 3분의 2를 Claude Mythos Preview가 자율 완수했다는 데이터가 포함됐습니다. 연구 생산성 기준으로는 기하 평균 약 4배의 향상이 보고됐습니다. 아 진짜, 이건 단순한 성능 개선이 아닌 차원이 다른 이야기입니다.
87시간이라는 숫자가 피부로 와닿지 않을 수 있습니다. 주 5일 하루 8시간 근무 기준으로 환산하면 약 2주치 작업 분량입니다. 소프트웨어 엔지니어링 프로젝트로 치면, 기능 설계부터 코드 구현, 테스트, 디버깅까지 아우르는 중간 규모 스프린트에 해당하죠. Claude Mythos Preview는 이 과정을 사람의 손을 거치지 않고 단독으로 수행합니다.
관련 벤치마크 수치들도 눈길을 끕니다.
AI의 자율성은 이제 '얼마나 오래 혼자 일할 수 있는가'로 측정되는 시대가 됐습니다. 벤치마크의 천장이 깨졌다는 건, 다음 평가 기준 자체를 다시 설계해야 한다는 뜻이기도 합니다.
물론 한계도 분명히 짚어야 합니다. 현재 벤치마크는 점수화가 용이한 과제 중심으로 구성되어 있어, 목표가 불분명하거나 맥락이 복잡한 실제 업무 환경에서의 성능은 수치보다 낮을 수 있다는 점을 전문가들은 지적합니다. Mythos Preview가 일부 완전한 안전 검증 없이 공개됐다는 우려도 AI 안전 커뮤니티 일각에서 나오고 있습니다.
이번 METR 결과가 던지는 더 큰 질문은 단순히 '모델 성능'의 문제가 아닙니다. Threads에서 AI 연구자 최씨는 이렇게 정리했습니다. "AI 발전은 단일 모델의 지능 향상을 넘어 에이전트 간의 시스템 설계 영역으로 넘어갔다." 미래의 AI 연구 환경은 수많은 AI 에이전트와 인간이 함께 돌아가는 거대한 운영체제처럼 작동할 수도 있다는 전망이 나오는 이유입니다.
실제로 산업 현장에서도 이런 방향의 변화가 포착됩니다.
보안 분야에서는 우려의 목소리도 동시에 커지고 있습니다. Claude Mythos Preview가 취약점 탐지에서도 높은 성능을 보임에 따라, 사이버 공격 시나리오에서의 악용 가능성에 대한 논의도 병행되고 있습니다. Hugging Face와 ClawHub 같은 AI 플랫폼이 악성코드 배포 경로로 악용된 사례가 나오는 현 상황에서, AI 자율성의 향상은 기술적 기회인 동시에 새로운 리스크의 축이기도 합니다.
저는 이 분야를 관찰한 지 꽤 됐는데, 사실 '50% 시간 지평선 87시간'이라는 수치보다 더 인상적인 건 METR이 "우리 도구로는 이제 제대로 못 잡는다"고 인정했다는 사실입니다. 측정 기준이 측정 대상을 따라잡지 못하는 상황, 이게 바로 2026년 AI 산업의 현주소 아닐까요~
물론 아직 현실 업무의 복잡성을 완전히 소화한다고 단정할 수는 없습니다. 벤치마크는 점수를 낼 수 있는 과제 위주로 설계돼 있고, 실제 프로젝트 환경에서의 변수는 훨씬 다양하니까요. 하지만 방향성만큼은 명확합니다. AI가 단순 보조 도구에서 자율 작업 단위로 진화하고 있다는 것, 그리고 그 속도가 업계 전문가들조차 예상보다 빠르다고 느낀다는 것입니다.
Anthropic, OpenAI, Google 등 주요 플레이어들의 에이전트 경쟁은 이제 모델 성능 점수 싸움이 아니라 '얼마나 오랫동안, 얼마나 복잡한 일을, 얼마나 안전하게 혼자 해낼 수 있는가'로 재정의되고 있습니다. 앞으로 이 지표들이 어떻게 바뀌어 갈지, 궁금하네요~
투자 유의사항
본 글은 정보 제공 목적으로 작성되었으며, 특정 종목에 대한 투자 권유가 아닙니다. 투자 판단과 그에 따른 결과는 투자자 본인에게 있으며, 본 블로그는 어떠한 투자 손실에 대해서도 책임을 지지 않습니다. 주식 투자는 원금 손실의 위험이 있으므로 신중하게 판단하시기 바랍니다.
© OHMY개미 | 본 콘텐츠의 무단 복제 및 배포를 금합니다. | 이미지 출처: Pexels (royalty-free)
| AI 교부가 경고한 '코드 레드'...클로드 4.5 퇴장까지 (0) | 2026.05.09 |
|---|---|
| AI 에이전트 시대, 지금 일어나는 3가지 결정적 변화 (1) | 2026.05.09 |
| AI가 감정을 느낀다? 앤트로픽의 충격적 발견 (1) | 2026.05.08 |
| OpenAI Codex, 브라우저 안으로 들어오다 (0) | 2026.05.08 |
| AI 에이전트 시대, 구글·Anthropic이 그린 미래 지도 (0) | 2026.05.07 |