상세 컨텐츠

본문 제목

Claude Mythos, 87시간짜리 과제를 혼자 풀었다

2026 AI 소식

by 오마이개미 2026. 5. 9. 15:44

본문

Claude Mythos, 인간 전문가 87시간 과제를 AI 혼자 해냈다 — METR 벤치마크 충격 결과

여러분, 솔직히 말하면 이 뉴스를 처음 접했을 때 눈을 두 번 비볐습니다. 비영리 AI 안전 연구 기관 METR이 2026년 5월 8일 공개한 평가 데이터에 따르면, Anthropic의 최신 프론티어 모델 'Claude Mythos Preview'가 인간 전문가가 무려 87시간, 즉 두 주 가까운 작업 시간을 쏟아야 완수할 수 있는 소프트웨어 엔지니어링·AI 연구 개발 과제를 50% 확률로 성공적으로 마쳤다는 결과가 나왔습니다. 그것도 사람의 개입 없이 자율적으로요. AI 자율성의 척도가 지금 이 순간 완전히 새로 쓰이고 있습니다.

METR 시간 지평선 벤치마크란 무엇인가

METR(Model Evaluation & Threat Research)은 AI 모델이 실제 세계에서 얼마나 자율적으로 장시간 작업을 수행할 수 있는지를 측정하는 '시간 지평선(Time Horizon)' 벤치마크를 운영하는 기관입니다. 단순히 퀴즈 정답률을 따지는 게 아니라, 인간 전문가가 완수하는 데 걸리는 시간을 기준으로 AI가 동일한 성공률에 도달하는 시점을 비교합니다.

평가 방식을 조금 더 뜯어보면 이렇습니다. AI 에이전트는 각 과제를 약 8회 반복 수행하고, 성공 확률과 인간 소요 시간의 관계를 로지스틱 회귀로 분석합니다. 핵심 지표는 50% 시간 지평선, 즉 인간이 걸리는 시간 중 AI가 절반 확률로 성공하는 지점입니다. 평가에 쓰인 과제는 크게 세 범주로 구성됩니다.

  • RE-Bench: 머신러닝 연구 엔지니어링 분야의 실전 과제
  • HCAST: ML 엔지니어링 포함 고난도 소프트웨어 엔지니어링 과제
  • SWAA: 컴퓨터 소프트웨어 조작 관련 소규모 과제

총 228개 과제 중 16시간 이상이 소요되는 문제는 단 5개뿐입니다. 바로 이 부분이 이번 사태의 핵심입니다. AI의 성능이 기존 평가 도구의 설계 범위 자체를 벗어나버린 것이죠.

Claude Mythos Preview, 측정 상한을 넘어버리다

METR은 이번 발표에서 중요한 경고문을 함께 달았습니다. "현재 과제 구성상 16시간 이상의 측정치는 신뢰도가 낮다"는 내용이었습니다. 과제 복잡도, 평가 인프라의 재시작 이슈, 장시간 작업에서 발생하는 예측 불가 변수 등이 이유로 꼽혔습니다. 그런데 Claude Mythos Preview는 바로 그 16시간 한계선을 훌쩍 뛰어넘어 87시간대를 기록했습니다.

"AI의 능력이 기존 측정 상한선을 넘어서버렸다" — METR 2026년 5월 평가 발표

LessWrong에 공개된 분석에 따르면, Claude Mythos Preview는 이전 모델인 Claude Opus 4.6의 약 12시간 수준 시간 지평선에서 단 두 달 만에 약 87시간으로 치솟았습니다. 이는 약 2.86배의 성능 도약에 해당하며, 6년간의 AI 발전 궤적에서 유례없는 속도입니다.

Anthropic의 공식 시스템 카드도 이를 뒷받침합니다. 내부 직원 대상 평가에서 인간 AI 연구 개발 과제 중 40시간 이상 소요되는 작업의 3분의 2를 Claude Mythos Preview가 자율 완수했다는 데이터가 포함됐습니다. 연구 생산성 기준으로는 기하 평균 약 4배의 향상이 보고됐습니다. 아 진짜, 이건 단순한 성능 개선이 아닌 차원이 다른 이야기입니다.

87시간의 의미 — 수치로 보는 AI 자율성의 도약

87시간이라는 숫자가 피부로 와닿지 않을 수 있습니다. 주 5일 하루 8시간 근무 기준으로 환산하면 약 2주치 작업 분량입니다. 소프트웨어 엔지니어링 프로젝트로 치면, 기능 설계부터 코드 구현, 테스트, 디버깅까지 아우르는 중간 규모 스프린트에 해당하죠. Claude Mythos Preview는 이 과정을 사람의 손을 거치지 않고 단독으로 수행합니다.

관련 벤치마크 수치들도 눈길을 끕니다.

  • SWE-bench 성공률: 93.9% — 코드 버그 수정 능력의 최상위권
  • CyberGym 성공률: 83.1% — 사이버 보안 과제 대응 능력 측정
  • Epoch AI 순위: GPT-5.4(4월 10일 등재), Gemini 3.1(4월 15일 등재)보다 늦게 추가됐지만 성능 지표에서 선두권 위치
AI의 자율성은 이제 '얼마나 오래 혼자 일할 수 있는가'로 측정되는 시대가 됐습니다. 벤치마크의 천장이 깨졌다는 건, 다음 평가 기준 자체를 다시 설계해야 한다는 뜻이기도 합니다.

물론 한계도 분명히 짚어야 합니다. 현재 벤치마크는 점수화가 용이한 과제 중심으로 구성되어 있어, 목표가 불분명하거나 맥락이 복잡한 실제 업무 환경에서의 성능은 수치보다 낮을 수 있다는 점을 전문가들은 지적합니다. Mythos Preview가 일부 완전한 안전 검증 없이 공개됐다는 우려도 AI 안전 커뮤니티 일각에서 나오고 있습니다.

Claude Mythos, 87시간짜리 과제를 혼자 풀었다 - 투자 참고 이미지
출처: Pexels (royalty-free)

AI 에이전트 시대의 시스템 설계 경쟁

이번 METR 결과가 던지는 더 큰 질문은 단순히 '모델 성능'의 문제가 아닙니다. Threads에서 AI 연구자 최씨는 이렇게 정리했습니다. "AI 발전은 단일 모델의 지능 향상을 넘어 에이전트 간의 시스템 설계 영역으로 넘어갔다." 미래의 AI 연구 환경은 수많은 AI 에이전트와 인간이 함께 돌아가는 거대한 운영체제처럼 작동할 수도 있다는 전망이 나오는 이유입니다.

실제로 산업 현장에서도 이런 방향의 변화가 포착됩니다.

  • AWS MCP Server GA 출시: 단일 도구로 15,000개 이상의 AWS API를 호출하고, IAM·CloudWatch·CloudTrail로 완전한 통제와 감사를 지원하는 AI 에이전트용 플랫폼이 정식 출시됐습니다.
  • Claude 멀티에이전트 오케스트레이션: Anthropic은 AI가 작업을 분할해 전문화된 여러 에이전트에게 동시에 배분하는 멀티에이전트 기능을 새롭게 발표했습니다.
  • Claude Dreaming 기능: 사용자와 대화가 없는 백그라운드 상태에서 이전 데이터를 자율 분석·통합하고, 다음 세션에서 더 효율적인 해결책을 제시하는 기능이 도입됐습니다. 법률 AI 기업 Harvey에서는 이 기능 도입 후 업무 완료율이 6배 상승했다는 사례도 보고됐습니다.

보안 분야에서는 우려의 목소리도 동시에 커지고 있습니다. Claude Mythos Preview가 취약점 탐지에서도 높은 성능을 보임에 따라, 사이버 공격 시나리오에서의 악용 가능성에 대한 논의도 병행되고 있습니다. Hugging Face와 ClawHub 같은 AI 플랫폼이 악성코드 배포 경로로 악용된 사례가 나오는 현 상황에서, AI 자율성의 향상은 기술적 기회인 동시에 새로운 리스크의 축이기도 합니다.

Claude Mythos, 87시간짜리 과제를 혼자 풀었다 - 종목 분석 이미지
출처: Pexels (royalty-free)

OHMY개미의 한 마디

저는 이 분야를 관찰한 지 꽤 됐는데, 사실 '50% 시간 지평선 87시간'이라는 수치보다 더 인상적인 건 METR이 "우리 도구로는 이제 제대로 못 잡는다"고 인정했다는 사실입니다. 측정 기준이 측정 대상을 따라잡지 못하는 상황, 이게 바로 2026년 AI 산업의 현주소 아닐까요~

물론 아직 현실 업무의 복잡성을 완전히 소화한다고 단정할 수는 없습니다. 벤치마크는 점수를 낼 수 있는 과제 위주로 설계돼 있고, 실제 프로젝트 환경에서의 변수는 훨씬 다양하니까요. 하지만 방향성만큼은 명확합니다. AI가 단순 보조 도구에서 자율 작업 단위로 진화하고 있다는 것, 그리고 그 속도가 업계 전문가들조차 예상보다 빠르다고 느낀다는 것입니다.

Anthropic, OpenAI, Google 등 주요 플레이어들의 에이전트 경쟁은 이제 모델 성능 점수 싸움이 아니라 '얼마나 오랫동안, 얼마나 복잡한 일을, 얼마나 안전하게 혼자 해낼 수 있는가'로 재정의되고 있습니다. 앞으로 이 지표들이 어떻게 바뀌어 갈지, 궁금하네요~

Claude Mythos, 87시간짜리 과제를 혼자 풀었다 - 심층 분석 이미지
출처: Pexels (royalty-free)
#삼성전자#SK하이닉스#코스닥#코스피#Claude Mythos#METR벤치마크#AI에이전트#Anthropic#AI자율성#2026년AI전망

투자 유의사항
본 글은 정보 제공 목적으로 작성되었으며, 특정 종목에 대한 투자 권유가 아닙니다. 투자 판단과 그에 따른 결과는 투자자 본인에게 있으며, 본 블로그는 어떠한 투자 손실에 대해서도 책임을 지지 않습니다. 주식 투자는 원금 손실의 위험이 있으므로 신중하게 판단하시기 바랍니다.

© OHMY개미 | 본 콘텐츠의 무단 복제 및 배포를 금합니다. | 이미지 출처: Pexels (royalty-free)

관련글 더보기