
조회 5
2026-05-13 16:11
AI 평가가 ‘정답률’에서 ‘얼마나 오래 혼자 일하나’로 옮겨가고 있습니다.
METR에 따르면 클로드 미소스 프리뷰는 인간 16시간짜리 업무를 50% 확률로 수행했습니다.
업무 자동화는 더 빨라지겠지만, 감독·통제 설계의 중요성도 함께 커집니다.
안녕하세요. 디지털에이전시 이앤아이입니다.

요즘 AI 소식은 “벤치마크 몇 점 올랐다”보다 “이제 혼자서 어디까지 하냐”가 더 궁금해지죠. 이번에 비영리 AI 연구기관 METR이 흥미로운 결과를 공개했습니다. 초기 버전인 ‘클로드 미소스 프리뷰(Claude Mythos Preview)’가 인간 전문가 기준 약 16시간 걸리는 작업을, 사람 개입 없이 50% 확률로 해냈다는 내용입니다.
여기서 포인트는 ‘16시간’이 단순한 체감 표현이 아니라, METR이 새로 밀고 있는 평가 방식에서 나온 숫자라는 점인데요. METR은 ‘작업 완료 시간 지평(task-completion time horizon)’이라는 지표로 AI의 자율성을 측정합니다. 쉽게 말해, 인간 전문가가 특정 일을 끝내는 데 걸리는 시간을 기준으로 “AI가 이 정도 난이도의 일을 어느 확률로 끝낼 수 있나”를 보는 방식입니다.
예를 들어 ‘50% 시간 지평’은 AI가 절반의 확률로 성공할 수 있는 업무 난이도를 인간 작업 시간으로 환산한 값입니다. METR은 소프트웨어 엔지니어링, 머신러닝, 사이버보안 같은 과제에서 모델들의 성공률을 측정하고, 인간 전문가의 평균 소요 시간과 비교해 이 수치를 산출했다고 설명했어요. 그러니까 이 지표는 “똑똑하냐”보다 “혼자서 끝까지 밀고 가냐”에 더 가깝습니다.
이번 결과가 더 눈에 띄는 이유는 상승 속도입니다. METR의 ‘시간 지평 차트’에 따르면 지난 2월 공개된 ‘클로드 오퍼스 4.6’이 약 11시간 59분 수준이었는데, 미소스 프리뷰는 16시간 이상으로 올라섰습니다. 게다가 METR은 현재 사용하는 과제 묶음(task suite)으로는 16시간 이상의 작업 시간을 ‘신뢰성 있게’ 측정하기 어렵다고도 했습니다. 평가 도구가 따라가기 벅찰 정도로, 모델의 자율 수행 시간이 상한선에 근접했다는 뜻이죠.
실제로 METR이 준비한 228개 과제 중 인간 기준 16시간 이상 걸리는 문제는 5개뿐이었다고 합니다. 측정할 ‘긴 일감’ 자체가 부족해졌다는 얘기인데요. AI가 빠르게 발전하면서, 기존 평가 체계가 다 담아내지 못하는 구간으로 들어가고 있다는 신호로 읽힙니다.
METR은 또 2019년 이후 주요 AI 모델들의 작업 수행 가능 시간이 평균 약 7개월마다 2배씩 늘어왔고, ‘에이전트(agent)’ 개념이 본격화된 2024년 이후에는 3개월마다 2배 수준으로 더 빨라졌다고 분석했습니다. 이 변화는 단순히 추론 능력만 좋아져서가 아니라, 작업 중 실수를 복구하고 새로운 상황에 적응하는 능력, 그리고 도구 활용 능력(tool use capability)이 함께 올라간 결과라고 짚었습니다. 현업에서 우리가 체감하는 “AI가 중간에 길을 잃지 않는다”는 느낌이, 이런 지표로도 드러난 셈입니다.
물론 한계도 있습니다. 실험 환경에서는 인간이 업무 맥락과 배경지식을 이미 갖고 있는 실제 현업보다 시간이 더 걸릴 수 있고, 그래서 인간 작업 시간이 과대평가됐을 가능성도 있다고 METR은 인정했습니다. 그럼에도 “이 추세가 산업 현장에도 적용된다면 5년 안에 인간에게 한 달 걸리는 소프트웨어 업무 상당수를 자동화할 수 있다”는 전망을 내놨습니다. 단정은 어렵지만, 방향성 자체는 분명해 보이네요.
여기서 홍보·전산·웹 운영 담당자 관점으로 한 번 더 생각해볼 만합니다. AI가 ‘하루치 업무’를 혼자 처리할 수 있다는 건, 단순히 작업 속도가 빨라진다는 의미를 넘어섭니다. 업무를 잘게 쪼개서 지시하던 방식에서, 목표와 제약조건을 주고 결과물을 검수하는 방식으로 역할이 이동할 가능성이 커지거든요. 즉, 실무자는 ‘실행자’에서 ‘감독자·편집자·품질관리자’로 무게중심이 옮겨갈 수 있습니다.
다만 METR도 경고했듯 자율성이 커질수록 위험도 같이 커집니다. 장시간 감독 없이 움직이는 AI는 생산성을 크게 올릴 수 있지만, 오작동하거나 악의적으로 활용될 때 영향 범위도 커지죠. 그래서 앞으로의 과제는 “AI를 도입할까 말까”보다 “어떤 업무를 어디까지 맡기고, 어떤 지점에서 멈추게 할지”를 설계하는 쪽에 더 가까워질 것 같습니다.
이앤아이 관점에서 보면, 웹서비스 운영과 콘텐츠 업무에서도 같은 질문이 생깁니다. AI가 초안을 만들고 수정까지 반복하는 시대에는, 승인 흐름(검수·결재), 로그 기록, 권한 관리, 배포 전 테스트 같은 ‘안전장치’가 업무 자동화만큼 중요해지거든요. 자동화는 속도를 주고, 거버넌스는 신뢰를 줍니다. 둘을 같이 설계하는 조직이 결국 더 편하게, 더 오래 AI를 쓰게 될 가능성이 큽니다.
#AI에이전트 #자율작업 #업무자동화 #METR #작업완료시간지평 #클로드 #AI평가 #리스크관리
#이앤아이 #디지털에이전시 #ENIMedia #AI전문기업
이앤아이와 함께 더 나은 웹 환경을 만들어 나가요!