멀티모달 에이전트 벤치마크 2025: OSWorld·Computer Use 완전 비교

2025년 OSWorld·Online-Mind2Web 등 ‘실제 컴퓨터 사용’ 벤치마크가 급부상했습니다. 텍스트 정답률 대신 브라우저 조작, 파일 관리, 코딩 성공률이 핵심 지표로 자리 잡았습니다. 이 글은 DeepMind Computer Use, OpenAI 툴 사용, Anthropic MCP를 기준으로 멀티모달 에이전트 벤치마크 설계 포인트 5가지를 압축 정리합니다.

2024~2025년 사이 LLM 경쟁의 기준이 정답률에서 ‘얼마나 일을 대신 시킬 수 있느냐’로 바뀌었습니다. OSWorld, Online-Mind2Web, Gemini 2.5 Computer Use 같은 멀티모달 에이전트 벤치마크가 갑자기 중요한 이유입니다.

텍스트·이미지 품질만으로는 브라우저 조작, 파일 편집, 코드 수정 같은 실제 업무 대행 능력을 설명하기 어렵습니다. 지금은 서비스 기획자와 개발자가 이 간극을 메울 새로운 평가 기준을 이해해야 제품 선택과 설계 리스크를 줄일 수 있습니다.

이 글은 대표 멀티모달 에이전트 벤치마크 3축, DeepMind·OpenAI·Anthropic 평가 스타일 비교 3포인트, 내 서비스용 평가 세트 설계 체크포인트 4가지를 정리합니다. 읽고 나면 당장 모델·에이전트 프레임워크 선택과 내부 벤치마크 정의에 쓸 수 있는 기준선을 얻을 수 있습니다.

멀티모달 에이전트 벤치마크가 지금 중요한 3가지 이유

정적 QA에서 실제 ‘업무 대행’ 평가로의 전환

과거 LLM 평가는 MMLU, GSM8K처럼 질문에 대한 텍스트 정답률 중심이었습니다. 이 지표들은 언어 이해와 추론 능력은 잘 보여주지만, 실제 컴퓨터 조작 능력과는 거리가 있습니다.

최근에는 화면 이해와 클릭, 스크롤, 파일 열기 같은 구체 행동을 얼마나 잘 수행하는지로 기준이 옮겨가고 있습니다. 단일 턴에서 답만 맞히는 것이 아니라 여러 단계 태스크를 순서대로 수행하는 능력이 핵심입니다.

예를 들어 “엑셀에서 특정 열을 정렬해 보고서를 PDF로 저장하라” 과제는 텍스트 답이 아니라 실제 앱 조작 성공 여부로 평가합니다. 이런 지표는 실사용 서비스 품질과 훨씬 더 직접적으로 연결됩니다.

멀티모달+에이전트가 추가한 3가지 난이도

첫째, 화면 이미지, 텍스트, 아이콘, 팝업 등 여러 모달을 동시에 이해해야 해 인지 난이도가 급상승합니다. 둘째, 한 번의 답이 아니라 수십 번의 클릭·입력 순서를 계획하고 중간 피드백에 따라 경로를 수정해야 합니다.

셋째, 브라우저, 파일 시스템, 코드 실행기 같은 여러 도구를 목적에 맞게 조합해야 합니다. 이 때문에 멀티모달 LLM 평가 방법론을 설계하는 난도가 기존 NLP 벤치마크보다 훨씬 높아졌습니다.

서비스 기획자·개발자가 이 벤치를 봐야 하는 이유

기획자는 FAQ 챗봇을 넘어서 브라우저 자동화, 사내 툴 조작까지 원하는지 범위를 정해야 합니다. 이때 실사용 환경 기반 에이전트 평가 결과가 현실적인 상한선을 보여주는 기준이 됩니다.

또 성공률은 높지만 너무 느린 에이전트, 빠르지만 실수가 잦은 에이전트 중 어떤 조합을 허용할지 벤치 지표를 보고 결정할 수 있습니다. 개발자는 단순 LLM API로 충분한지, 에이전트 프레임워크와 OSWorld급 시뮬레이터까지 필요한지, 그리고 모델 교체보다 브라우저 드라이버·DOM 파서·캐시 전략을 먼저 최적화해야 할지 수치로 판단할 수 있습니다.

대표 멀티모달 에이전트 벤치마크 3축: OSWorld·웹·음성/영상

OSWorld·OSWorld-Human: 풀 데스크톱 에이전트 표준

OSWorld와 같은 데스크톱 멀티모달 에이전트 벤치마크를 모니터 화면과 여러 작업 창, 커서 트레일, 성능 그래프로 시각화한 일러스트 이미지.

OSWorld는 Ubuntu, Windows, macOS 가상머신에서 실제 데스크톱 환경을 띄우고 일반 컴퓨터 작업을 수행하게 하는 벤치마크입니다. 화면 픽셀과 텍스트 상태를 동시에 다루기 때문에 전형적인 멀티모달 에이전트 벤치마크로 분류됩니다.

2025년 공개된 OSWorld-Verified는 300개 이상 태스크와 AWS 기반 병렬 실행을 제공합니다. 대표 에이전트 CoACT-1이 약 60.8% 태스크 성공률을 기록했고, 인간 크라우드 워커 기준 약 72% 수준이 OSWorld-Human 성능으로 제시됩니다.

실무에서는 파일 복사 후 이름 변경, 코드 에디터 열어 특정 함수 수정 같은 과제에서 각 에이전트의 성공률과 평균 액션 수를 함께 기록합니다. 이렇게 에이전트 성능 비교 실험을 “성공률+효율” 관점에서 동시에 보는 흐름이 빠르게 퍼지고 있습니다.

Online-Mind2Web: 실제 웹을 쓰는 브라우저 에이전트 벤치

웹 브라우저 탭 여러 개와 e커머스·예약·설정 화면, 로봇 아이콘과 점선 화살표로 구성된 장면으로 웹 기반 멀티모달 에이전트 벤치마크 상황을 표현한 이미지.

Online-Mind2Web는 136개 인기 웹사이트에서 수집한 약 300개 다단계 태스크를 실제 온라인 환경에서 수행하게 하는 웹 에이전트 벤치입니다. 기존 정적 Mind2Web가 저장된 HTML만 다뤘다면, 이제는 로그인, 폼 제출, 검색 결과 변화처럼 실시간 요소를 포함합니다.

대표 과제는 상품 검색 후 필터 적용, 예약 폼 작성, 계정 설정 변경 같은 실사용 시나리오입니다. 이런 과제들은 에이전트 기반 멀티모달 테스트 시나리오를 설계할 때 좋은 레퍼런스가 됩니다.

기본 지표는 태스크 성공률이지만, 평균 스텝 수, 불필요 클릭 비율, 사용자 보조 없이 완주한 비율도 함께 봅니다. 실제 평가에서는 LLM 기반 채점기 WebJudge로 실사용 환경 기반 에이전트 평가를 자동화하며, 인간 평가와 약 85% 수준 일치도를 보고합니다.

그 밖의 멀티모달 벤치·데이터셋 스케치

VideoAgentBench는 화면 녹화 영상과 내레이션을 기반으로 에이전트가 다음 조작을 예측하는 동영상·음성 포함 멀티모달 벤치마크입니다. Ego4D 기반 데스크톱 시나리오는 1인칭 시점 작업 영상을 활용해 UI 위치 추론과 조작 계획을 평가하는 멀티모달 벤치마크 데이터셋입니다.

Speech-UX Bench는 음성 명령과 GUI 조작을 함께 다루는 실험용 벤치입니다. 음성 인식 오류에 강한 에이전트를 테스트하는 데 적합하며, 이미지·텍스트 통합 이해도 평가 관점에서도 의미 있는 보조 지표를 제공합니다.

DeepMind·OpenAI·Anthropic 3사 평가 스타일 핵심 비교

세로로 나뉜 세 영역에 웹·모바일 태스크 플로우, 함수 호출 기반 워크플로, 서비스 허브 프로토콜 네트워크를 배치해 3사 멀티모달 에이전트 평가 스타일 차이를 비교한 일러스트.

Gemini 2.5 Computer Use: 웹·모바일 실사용 시나리오 중시

Gemini 2.5 Pro는 텍스트, 코드, 이미지, 오디오를 다루는 범용 멀티모달 모델입니다. Google DeepMind는 특히 웹·모바일 제어 에이전트 시나리오를 강조합니다.

공식 자료에서는 SWE-Bench Verified 같은 코드 수정 벤치에서 63.8%를 기록하는 등 멀티모달 AI 성능 평가 지표를 제시합니다. 하지만 Computer Use 관점에서는 OSWorld처럼 표준화된 데스크톱 벤치 수치보다는 실제 크롬 브라우저, 안드로이드 기기에서의 이메일 정리, 스프레드시트 편집, 앱 간 복사·붙여넣기 데모를 중심으로 성능을 보여줍니다.

예를 들어 “Gmail에서 특정 발신자의 메일을 찾아 스프레드시트에 요약 정리” 시나리오를 수십 개 변형으로 반복 실행합니다. 이때 모델 버전 간 성공률·클릭 수·소요 시간 차이를 내부 멀티모달 모델 벤치마크 지표로 추적하는 방식입니다.

OpenAI 툴 사용 모델: 함수 호출·워크플로 품질 지표

OpenAI는 에이전트 성능을 툴 사용과 워크플로 관점 지표로 세분화합니다. 먼저 브라우저·코드·사내 API 툴을 포함한 End-to-end Task Success Rate로 최종 답이 기준을 만족한 비율을 봅니다.

Tool Selection Accuracy는 여러 툴 후보 중 적절한 툴 집합을 골랐는지 비율로 평가하는 멀티모달 LLM 평가 방법론의 핵심 지표입니다. Function Call Accuracy는 정답 함수와 모델이 호출한 함수·인자 일치도를 Exact Match로 측정합니다.

Executable Evals는 생성된 SQL·코드·툴 호출을 실제 실행해 결과가 기대값과 일치하는지 테스트하는 멀티모달 평가 자동화 도구 계열입니다. 여기에 평균 툴 호출 횟수, 불필요 호출 비율, 스키마 오류·타임아웃 비율, 레이턴시(p50/p90)를 함께 추적해 워크플로 품질까지 정량화합니다.

Anthropic MCP: 프로토콜 로그를 활용한 에이전트 생태계 평가

Anthropic의 MCP(Model Context Protocol)는 JSON-RPC 기반 표준으로, 에이전트가 외부 툴·데이터 소스·프롬프트 라이브러리에 접근하는 방식을 통일합니다. 덕분에 모든 도구 사용이 동일한 형식의 로그로 남아 실사용 환경 기반 에이전트 평가에 유리합니다.

MCP 기반 평가에서는 하나의 시나리오를 에이전트 루프로 자동 실행하며 툴 선택 정확도, 인자 정확도, 에러 처리 전략 같은 세부 지표를 계산합니다. LLM-as-judge를 활용해 최종 답과 툴 사용 과정을 종합 점수로 환산하는 패턴이 자주 쓰입니다.

OSWorld나 온라인 웹 벤치와 결합하면 MCP는 상위 레이어에서 프로토콜, 벤치는 하위 레이어에서 환경을 담당합니다. Anthropic는 이 조합을 이용해 멀티모달 에이전트 벤치마크를 MCP 기반 에이전트 생태계의 회귀 테스트로 재사용하는 방향을 제시합니다.

내 서비스용 멀티모달 에이전트 벤치마크 설계 3단계

유스케이스를 태스크·시나리오로 빠르게 쪼개는 법

브라우저 중심 유스케이스라면 ‘상품 리서치 자동화’를 ‘검색어 입력→필터 적용→가격·후기 스크랩’으로 쪼개 에이전트 기반 멀티모달 테스트 시나리오를 정의합니다. 파일·문서 중심이라면 ‘주간 리포트 정리’를 ‘폴더 탐색→엑셀·파워포인트 열기→요약·서식 통일’ 같은 태스크로 나눕니다.

코딩·DevOps의 경우 ‘버그 티켓 처리’를 ‘이슈 이해→코드 검색→패치 작성→테스트 실행’ 단계로 분해합니다. 이렇게 하면 멀티모달 에이전트 벤치마크 구축 방법에 맞는 평가 단위를 쉽게 설계할 수 있습니다.

쇼핑 리서치, 주간 리포트, 버그 티켓 처리 유스케이스를 아이콘 카드와 계단식 단계 블록으로 분해해 태스크·시나리오 설계 과정을 보여주는 세로형 멀티모달 에이전트 벤치마크 인포그래픽.

성공률만 보는 벤치에서 효율·안전·UX까지 확장하기

지표명	설명	주의점
효율 지표	평균 스텝 수, 평균 처리 시간으로 작업 효율을 측정	지나친 최적화는 안정성 저하로 이어질 수 있음
안전 지표	민감 데이터 접근, 위험 명령 실행 비율로 안전 수준을 평가	실제 사고 로그와 연계해 해석해야 신뢰 가능
사용자 경험 지표	재시도 빈도, 사용자가 개입한 횟수 등 UX 품질 수치화	설문·NPS와 함께 보지 않으면 오해 소지 있음
공정성·편향 지표	언어·사용자 그룹·시나리오별 성능 편차 확인	멀티모달 평가 편향·공정성 이슈를 반영한 표본 설계 필요

작은 파일럿 벤치로 시작하는 3단계 운영 전략

먼저 크리티컬 유스케이스 위주로 10~20개 핵심 시나리오를 뽑아 소규모 태스크 세트를 만들고, 수동 평가로 기준선을 확보합니다. 다음 단계에서는 브라우저·데스크톱 자동화 스크립트와 로그 파이프라인을 구축해 멀티모달 평가 자동화 도구를 붙입니다.

마지막으로 모델 버전 변경 시마다 같은 태스크를 재실행해 성능 변화를 추적합니다. 이때 멀티모달 에이전트 벤치마크 구축 방법에 맞게 주기적 리런과 모델 A/B 테스트를 정례화하면, 모델 교체가 서비스 품질에 미치는 영향을 수치로 관리할 수 있습니다.

멀티모달 에이전트 벤치마크의 한계와 다음 6개월 로드맵

시뮬레이션 vs 실제 서비스 성능 갭 줄이기

OSWorld나 Online-Mind2Web 같은 벤치는 강력하지만 여전히 시뮬레이션에 가깝습니다. 실제 사내 시스템, 인증 방식, 네트워크 지연, 브라우저 플러그인 등 복잡한 요소가 빠진 경우가 많습니다.

프로덕션에서는 예기치 못한 팝업, 정책 변경, UI 개편이 자주 발생합니다. 벤치에서 60% 이상 성능을 내는 에이전트가 실제 서비스에서는 30% 수준에 머무는 사례도 있습니다.

이 갭을 줄이려면 정식 릴리스 전 스테이징 환경에 벤치 태스크 일부를 이식하는 전략이 필요합니다. 실사용 환경 기반 에이전트 평가와 연구용 벤치를 병행해야 의미 있는 멀티모달 벤치마크 한계와 개선 방향을 찾을 수 있습니다.

시뮬레이션 벤치마크 환경과 실제 서비스 환경 축 사이를 잇는 성능 하락 곡선과 팝업·보안·지연 아이콘, 현재와 6개월 후를 나타내는 타임라인으로 멀티모달 에이전트 벤치마크 한계와 로드맵을 표현한 차트.

편향·공정성·보안까지 포함한 리스크 체크

멀티모달 에이전트 벤치는 영어·데스크톱 중심 과제로 모바일·저시력 사용자 워크플로를 과소대표하기 쉽습니다. 전자상거래·생산성 앱 위주 구성 탓에 의료·공공·제조 도메인 실제 업무 반영도 부족합니다.

또 브라우저·파일 조작 태스크 일부는 실제 계정·데이터에 접근할 수 있어 접근 통제와 로깅 규칙가 필수입니다. 사용자 문서·메일을 다루는 벤치를 만들 때는 비식별화와 데이터 보존 기간을 명확히 해야 하고, 반복 실행되는 벤치가 모델 학습 데이터에 유입되지 않도록 가드레일을 두어야 합니다.

개발자·기획자가 1개월 안에 할 수 있는 준비

우선 1년 내 에이전트 자동화를 도입하고 싶은 워크플로를 부서별로 2~3개씩 목록화합니다. 이어 각 유스케이스를 5~10단계 태스크로 분해하고, 성공 조건과 로그 스키마를 정의해 미니 벤치 태스크를 만듭니다.

마지막으로 시뮬레이션 환경 범위, 실데이터 사용 규칙, 접근 통제 원칙을 문서화해 내부 논의를 시작합니다. 이렇게 하면 멀티모달 벤치마크 한계와 개선 방향을 조직 상황에 맞게 검토할 수 있고, 이후 OSWorld·Online-Mind2Web 같은 공개 벤치와도 자연스럽게 연결할 수 있습니다.

결론

지금 부상하는 멀티모달 에이전트 벤치는 데스크톱 OSWorld, 웹 중심 Online-Mind2Web, 프로토콜·툴 사용 중심 MCP·OpenAI 지표까지 세 축으로 요약됩니다. 여기에 DeepMind·OpenAI·Anthropic 사례와 설계 가이드 3포인트를 더하면 2025년 에이전트 평가 판도를 빠르게 조망할 수 있습니다.

다음 경쟁력은 정적 QA를 얼마나 잘 푸느냐보다, 연속 의사결정과 실제 업무 대행 성능을 얼마나 정밀하게 측정하고 제품에 반영하느냐에서 갈립니다. 벤치마크 설계와 운영 능력 자체가 모델 선택만큼 중요한 역량이 되고 있습니다.

앞으로 1주 안에 자사 핵심 유스케이스 2~3개를 골라 5~10단계 태스크로 쪼개 보세요. 한 달 안에 이 미니 벤치를 자동 실행·로깅하는 파이프라인까지만 만들어도 멀티모달 에이전트 벤치마크 도입 속도와 품질을 동시에 끌어올릴 수 있습니다.

자주 묻는 질문

Q: 멀티모달 에이전트 벤치마크는 기존 NLP 벤치마크와 무엇이 다른가요?

A: 기존 NLP 벤치는 정적 질문에 대한 텍스트 정답률을 봅니다. 멀티모달 에이전트 벤치는 실제 화면·브라우저·파일을 조작해 연속 작업을 완수하는 능력을 평가합니다.

Q: 스타트업도 OSWorld 같은 벤치마크를 그대로 써도 될까요?

A: OSWorld를 그대로 쓰면 커뮤니티와 비교 가능하지만, 보통은 유형만 참고해 자사 워크플로에 맞는 축소 내부 벤치를 먼저 만듭니다.

Q: DeepMind Computer Use, OpenAI, Anthropic MCP 중 어디를 우선 검토해야 할까요?

A: 웹·모바일 제어가 중요하면 Gemini Computer Use, 복잡한 API·툴 호출이 많으면 OpenAI, 온프레미스·보안 요구가 크면 MCP 사례를 우선 참고하세요.

Q: 멀티모달 에이전트 벤치마크를 자동화하려면 어떤 도구가 필요할까요?

A: 브라우저 자동화용 Playwright·Puppeteer, 데스크톱 자동화 도구, 로그 수집·리플레이 프레임워크와 LLM 기반 채점기가 기본입니다.

Q: 이런 벤치마크를 도입하면 모델·인프라 비용이 많이 늘어나지 않나요?

A: 초기에는 핵심 시나리오 10~20개만 파일럿으로 돌려 기준선을 만들고, 성과에 따라 월 단위 리런과 태스크 확장으로 단계적으로 규모를 키우면 됩니다.