이앤아이 WithENI  로고

홈으로
ENI Media
SMART News
ENI Media

ENI Media


AI가 ‘하루치 업무’를 혼자 한다면? METR가 제시한 새 기준

조회 12

2026-05-13 16:33

벤치마크 점수 대신 ‘시간 지평’으로 본 AI 자율성, 이제 16시간짜리 과제도 절반은 해냅니다

METR 연구에 따르면 최신 AI 모델은 인간 전문가 기준 16시간짜리 작업을 50% 확률로 자율 수행했습니다.
점수 경쟁이 아니라 ‘작업 완료 시간 지평’이라는 새 지표로, AI가 얼마나 오래 혼자 일하는지 측정했습니다.
업무 자동화는 더 빨라지겠지만, 장시간 자율 AI의 관리·통제 기준도 함께 준비해야 합니다.

안녕하세요. 디지털에이전시 이앤아이입니다.

METR 연구에 따르면 최신 AI 모델은 인간 전문가 기준 16시간짜리 작업을 50% 확률로 자율 수행했습니다.<br />
점수 경쟁이 아니라 ‘작업 완료 시간 지평’이라는 새 지표로, AI가 얼마나 오래 혼자 일하는지 측정했습니다.<br />
업무 자동화는 더 빨라지겠지만, 장시간 자율 AI의 관리·통제 기준도 함께 준비해야 합니다.

요즘 AI 이야기를 들으면 이런 질문이 자주 나옵니다. ‘이 모델이 똑똑한 건 알겠는데, 그래서 실제로 일을 얼마나 맡길 수 있지?’ 단순히 시험 점수처럼 벤치마크가 높다고 해서, 실무에서 바로 ‘혼자서 끝까지’ 해내는 건 또 다른 문제니까요.

비영리 AI 연구기관 METR가 흥미로운 방식으로 이 질문에 답했습니다. 최근 ‘클로드 미소스 프리뷰(Claude Mythos Preview)’ 초기 버전이 인간 전문가 기준 약 16시간이 걸리는 작업을 50% 성공률로 수행했다는 결과를 공개했는데요. 핵심은 ‘성능이 몇 점’이 아니라, ‘사람 개입 없이 얼마나 오래 자율적으로 일을 이어갈 수 있나’를 봤다는 점입니다.

METR가 쓴 지표 이름은 ‘작업 완료 시간 지평(task-completion time horizon)’입니다. 쉽게 말해, 인간 전문가가 어떤 일을 끝내는 데 걸리는 시간을 기준으로, AI가 그 일을 성공적으로 끝낼 수 있는 범위를 시간으로 환산해 보는 방식이죠. 여기서 ‘50% 시간 지평’은 AI가 절반의 확률로 성공할 수 있는 작업 난이도를 ‘인간 작업 시간’으로 바꾼 값입니다.

이 접근이 실무 관점에서 유용한 이유는 분명합니다. 우리가 AI를 도입할 때 진짜 궁금한 건 ‘정답을 맞히는 능력’만이 아니라, 중간에 막히거나 실수했을 때 스스로 복구하고, 도구를 쓰고, 맥락을 유지하면서 끝까지 가는 능력이기 때문입니다. METR도 성능 향상의 요인으로 단순 추론력뿐 아니라 신뢰성, 오류 복구 능력, 도구 활용 능력의 발전을 꼽았습니다.

또 하나 눈에 띄는 대목은 ‘평가 체계가 따라가기 버거워졌다’는 이야기입니다. METR은 현재 사용 중인 과제 묶음(task suite)으로는 16시간 이상의 작업 시간을 신뢰성 있게 측정하기 어렵다고 설명했는데요. 준비한 228개 과제 중 인간 기준 16시간 이상 걸리는 문제는 5개뿐이었다고 합니다. AI가 빨리 좋아지는 것도 맞지만, 그 속도를 담아낼 테스트 자체가 부족해지는 상황에 가까워 보입니다.

발전 속도에 대한 분석도 나왔습니다. METR은 2019년 이후 주요 AI 모델들의 ‘작업 수행 가능 시간’이 평균 약 7개월마다 2배씩 늘어왔고, 2024년 이후 에이전트 개념이 본격화되면서는 3개월마다 2배 수준으로 증가하는 추세를 보인다고 했습니다. 물론 이 수치는 실험 환경과 과제 구성에 영향을 받기 때문에 그대로 단정하긴 어렵지만, ‘자율적으로 오래 일하는 AI’가 빠르게 현실로 다가오고 있다는 신호로는 충분합니다.

다만 METR도 한계를 인정합니다. 실제 현업에서는 인간 전문가가 이미 업무 맥락과 배경지식을 갖고 있어 실험보다 더 빨리 해결할 수 있다는 점인데요. 즉, ‘인간 16시간’이라는 기준이 과대평가됐을 가능성도 있다는 겁니다. 그럼에도 불구하고 METR은 현재 추세가 산업 현장에도 적용된다면, 앞으로 5년 안에 인간에게 한 달 정도 걸리는 소프트웨어 업무 상당수가 자동화될 가능성을 전망했습니다.

여기서 홍보·전산·웹 운영 담당자 입장에서는 질문이 바뀝니다. ‘AI가 일을 할 수 있나’에서 ‘어떤 일을, 어떤 조건으로, 어디까지 맡길 것인가’로요. 예를 들어 웹사이트 운영에서는 장애 대응, 로그 분석, 반복적인 콘텐츠 수정, 접근성 점검 같은 업무가 후보가 될 수 있고, 홍보 영역에서는 보도자료 초안 작성, 채널별 문구 변환, 성과 리포트 정리처럼 ‘시간이 많이 들지만 규칙이 있는 일’부터 자동화 여지가 커집니다. 다만 자율성이 길어질수록 중간 점검 지점, 승인 절차, 변경 이력 관리 같은 ‘가드레일’이 더 중요해집니다.

METR도 경고를 덧붙였습니다. 장시간 인간 감독 없이 행동할 수 있는 AI는 생산성을 크게 올릴 수 있지만, 오작동하거나 악의적으로 활용될 경우 영향도 커진다는 점입니다. 결국 조직이 준비해야 할 건 ‘더 똑똑한 모델’만이 아니라, AI가 오래 일할수록 더 단단해져야 하는 운영 체계입니다.

이앤아이 관점에서 보면, 이제 AI 도입은 ‘툴 하나 붙여보기’에서 ‘업무 흐름을 다시 설계하기’로 넘어가는 단계에 들어섰습니다. 어떤 업무를 AI에게 맡길지 정의하고, 필요한 데이터와 권한을 정리하고, 검수·승인·배포까지 연결하는 자동화 파이프라인을 만드는 쪽이 성과를 좌우할 가능성이 큽니다.

#AI에이전트 #자율AI #업무자동화 #생성형AI #클로드 #METR #벤치마크 #디지털전환
#이앤아이 #디지털에이전시 #ENIMedia #AI전문기업

이앤아이와 함께 더 나은 웹 환경을 만들어 나가요!