이앤아이 WithENI  로고

홈으로
ENI Media
SMART News
ENI Media

ENI Media


AI가 ‘하루치 업무’를 혼자 해낸다? METR가 본 자율 작업의 기준

조회 5

2026-05-13 16:09

벤치마크 점수보다 중요한 건 ‘얼마나 오래 혼자 일하나’입니다. METR의 시간 지평 지표가 보여준 변화

AI의 자율성이 높아지면서, 인간 전문가의 ‘하루(약 16시간) 업무’를 독립 수행하는 모델이 등장했습니다.
METR는 ‘작업 완료 시간 지평’이라는 새 지표로, AI가 사람 개입 없이 버티는 시간을 측정했습니다.
업무 자동화 기회가 커지는 만큼, 장시간 자율 AI의 리스크 관리도 함께 준비해야 합니다.

안녕하세요. 디지털에이전시 이앤아이입니다.

AI의 자율성이 높아지면서, 인간 전문가의 ‘하루(약 16시간) 업무’를 독립 수행하는 모델이 등장했습니다.<br />
METR는 ‘작업 완료 시간 지평’이라는 새 지표로, AI가 사람 개입 없이 버티는 시간을 측정했습니다.<br />
업무 자동화 기회가 커지는 만큼, 장시간 자율 AI의 리스크 관리도 함께 준비해야 합니다.

요즘 AI 소식은 “정답을 얼마나 잘 맞히나”보다 “얼마나 오래 혼자 일할 수 있나”로 초점이 옮겨가는 느낌입니다. 비영리 AI 연구기관 METR가 공개한 평가가 딱 그 흐름을 보여줬는데요. 초기 버전인 ‘클로드 미소스 프리뷰(Claude Mythos Preview)’가 인간 전문가 기준 약 16시간 걸리는 작업을 50% 성공률로 수행했다는 결과가 나왔습니다.

여기서 흥미로운 점은, METR이 흔히 보는 벤치마크 점수 대신 ‘작업 완료 시간 지평(task-completion time horizon)’이라는 지표를 썼다는 겁니다. 쉽게 말해 “사람이 이 일을 끝내는 데 걸리는 시간”을 기준으로, AI가 그 일을 어느 정도 확률로 끝낼 수 있는지 보는 방식이죠. 예를 들어 ‘50% 시간 지평’은 AI가 절반의 확률로 성공할 수 있는 작업의 난이도를 사람의 작업 시간으로 환산한 값입니다.

이 지표가 실무자에게 와닿는 이유는 분명합니다. 실제 업무는 문제를 한 번에 푸는 시험이 아니라, 중간에 막히면 다시 시도하고, 오류를 고치고, 도구를 바꿔가며 끝까지 완주하는 과정이기 때문이죠. METR도 이번 성능 향상의 핵심 요인으로 ‘신뢰성’과 ‘오류 복구 능력’의 개선을 꼽았습니다. 추론이 조금 더 똑똑해진 것뿐 아니라, 작업 도중 실수를 수정하고 상황에 적응하는 능력이 좋아지면서 장시간 자율 수행이 가능해졌다는 설명입니다. 도구 활용 능력의 발전도 함께 언급됐고요.

또 하나 눈여겨볼 대목은 “평가 체계가 따라가기 버거워졌다”는 연구진의 코멘트입니다. METR은 현재 사용 중인 과제 모음(task suite)으로는 16시간 이상의 작업 시간을 신뢰성 있게 측정하기 어렵다고 밝혔는데요. 준비된 228개 과제 중 인간 기준 16시간 이상 걸리는 문제는 5개뿐이었다고 합니다. 모델이 빨리 좋아진 것도 있지만, ‘긴 업무’를 측정할 문제 자체가 부족해졌다는 뜻이기도 하죠.

METR이 이전에 공개한 차트에서는 최첨단 모델의 작업 수행 가능 시간이 평균 약 7개월마다 2배씩 늘어나는 흐름이 관찰됐고, 2024년 이후 AI 에이전트 개념이 본격화되면서는 3개월마다 2배 수준으로 빨라지는 추세도 언급됐습니다. 물론 이런 수치는 실험 환경과 과제 구성에 영향을 받습니다. 연구진도 현업에서는 사람이 이미 맥락과 배경지식을 갖고 있어 실험보다 더 빨리 해결할 수 있고, 그래서 인간 작업 시간이 과대평가됐을 가능성을 인정했습니다.

그럼에도 메시지는 꽤 명확합니다. ‘짧은 질문-짧은 답’의 AI를 넘어, 반나절~하루 단위로 일을 맡길 수 있는 AI가 점점 현실이 되고 있다는 것. 대학, 병원, 공공기관, 기업처럼 업무가 문서·웹·시스템 운영으로 촘촘히 이어진 조직일수록 이 변화는 더 직접적으로 다가옵니다. 예를 들어 웹사이트 운영에서는 장애 징후 탐지, 로그 분석, 수정안 제안, 공지 초안 작성, 배포 체크리스트 점검 같은 일이 연쇄적으로 이어지는데요. 이런 ‘연결된 작업’을 한 번에 묶어 처리하는 방향으로 자동화가 진화할 가능성이 큽니다.

다만, METR이 경고했듯 자율성이 커질수록 위험도 함께 커집니다. 장시간 인간 감독 없이 행동하는 AI는 생산성을 크게 올릴 수 있지만, 오작동하거나 악의적으로 활용될 때 영향 범위도 커지죠. 그래서 앞으로의 과제는 “AI를 도입할까 말까”가 아니라, “어떤 업무를 어디까지 맡기고, 어떤 통제 장치를 둘 것인가”로 바뀔 가능성이 큽니다. 승인 단계(결재), 변경 이력, 권한 분리, 로그 기록, 롤백 같은 운영 원칙이 더 중요해지는 이유입니다.

이앤아이 관점에서 보면, 이제 자동화는 ‘단일 기능’보다 ‘업무 흐름 전체’를 설계하는 쪽으로 무게중심이 옮겨가고 있습니다. AI가 오래 일할수록, 조직은 더 명확한 가이드와 안전장치, 그리고 사람이 최종 책임을 지는 구조를 갖춰야 하니까요. AI를 잘 쓰는 조직은 결국 ‘도입 속도’보다 ‘운영 설계’에서 차이가 나기 시작할 것 같습니다.

#작업완료시간지평 #AI자율성 #AI에이전트 #업무자동화 #생성형AI #리스크관리 #도구활용 #소프트웨어엔지니어링

#이앤아이 #디지털에이전시 #ENIMedia #AI전문기업

이앤아이와 함께 더 나은 웹 환경을 만들어 나가요!