에이전트 AI 상용화 2025: Google 마리너·Copilot OS가 여는 Computer Use

2025년 에이전트 AI 상용화는 브라우저·OS를 직접 조작하는 Computer Use AI로 본격 전환 중이다. Google 프로젝트 마리너와 Copilot OS는 검색·문서·회의까지 자동 수행하는 새로운 UX를 제시한다. 이 글은 두 플랫폼 구조와 활용 시나리오, 도입 전략과 1~2년 전망을 압축 정리한다.

2025년, 브라우저와 데스크톱 앱에서 이뤄지는 클릭과 입력 상당 수를 사람이 아닌 에이전트 AI가 맡기 시작했다. 검색·쇼핑·문서 작업까지, 화면 위 행동 자체가 자동화되는 흐름이 본격화되고 있다.

2024년까지는 질문을 던지고 답을 받는 챗봇 단계에 머물렀다면, 2025년부터는 브라우저와 OS를 직접 조작하는 Computer Use AI 단계로 넘어가는 중이다. Google 프로젝트 마리너와 Microsoft Copilot OS가 이 전환의 선두에 서 있다.

이 글은 에이전트 AI 상용화 흐름을 여섯 축으로 정리한다. Google 프로젝트 마리너, Copilot OS, 기존 챗봇·RPA와의 차이, 비즈니스 임팩트, 기업·개발자 도입 전략, 향후 1~2년 UX 변화를 중심으로 핵심 포인트를 짚는다.

에이전트 AI 상용화와 ‘Computer Use AI’가 바꾸는 3가지

대답만 하던 챗봇에서 ‘직접 수행하는’ 에이전트로

기존 챗봇은 질문에 답하거나 링크를 보여주는 수동 응답형이다. 에이전트형 AI는 답한 뒤 실제 클릭과 입력까지 수행하는 능동 수행형이다.
기존 매크로나 RPA는 사람이 짠 고정 스크립트를 재생하는 구조다. 에이전트형 AI는 화면을 이해하고 매번 계획을 새로 세운다.
전통 자동화는 예외 상황에 약하다. 에이전트형 AI는 오류를 인지하고 수정 루프를 돌려 성공률을 끌어올린다.
예를 들어 항공권 변경 시 챗봇은 정책만 설명한다. 에이전트는 항공사 사이트에 접속해 날짜를 바꾸고 결제까지 진행하는 수준을 목표로 한다.

화면·마우스·키보드를 통째로 다루는 Computer Use AI

Computer Use는 에이전트가 사람처럼 화면을 보고 마우스와 키보드를 조작하는 능력을 뜻한다. 브라우저나 데스크톱 앱 내부 API가 없어도 눈과 손에 해당하는 인터페이스만으로 업무를 처리한다.

핵심 구조는 Observe-Plan-Act 루프다. 먼저 화면을 캡처해 버튼, 입력창, 텍스트를 인식해 관찰한다. 다음에 목표를 달성하기 위한 클릭, 입력, 스크롤 계획을 세운다. 마지막으로 마우스 이동과 키 입력을 실행하고 결과 화면을 다시 관찰해 계획을 조정한다.

초보 인턴에게 업무를 맡기는 장면과 비슷하다. 목표를 설명하면 인턴은 화면을 보며 메뉴를 찾아 클릭하고, 잘못 들어가면 뒤로 가기를 눌러 다시 시도한다. 업무 자동화 AI 에이전트는 이 과정을 모델과 정책으로 반복한다.

예를 들어 “이번 달 카드 내역을 내려받아 파일로 정리해줘”라고 지시할 수 있다. 에이전트는 카드사 사이트를 열고 로그인하고, 기간을 선택해 CSV를 내려받고, 스프레드시트 앱을 열어 카테고리별로 정리하는 연속 행동을 수행한다.

지금 상용화가 터지는 3가지 이유: 모델·인프라·UX

대형 언어모델과 비전 모델의 성능이 올라 화면 요소 설명, 이해, 계획 능력이 Computer Use 수준에 도달했다.
PC와 모바일 NPU, GPU 성능이 높아져 로컬 또는 하이브리드 방식 연속 에이전트 실행이 가능한 환경이 마련됐다.
브라우저 확장 프로그램과 OS 레벨 Copilot 버튼 등 UX 통합이 진행돼, 사용자가 에이전트를 부르는 진입점이 표준화되고 있다.
주요 클라우드와 생산성 툴이 API와 웹훅을 개방해 실제 비즈니스 워크플로우와 연결된 업무 자동화 AI 에이전트 구축이 쉬워졌다.

Google 프로젝트 마리너: 브라우저를 조작하는 웹 에이전트

프로젝트 마리너 개요: 검색과 실행 사이를 잇는 레이어

프로젝트 마리너는 구글이 실험 중인 브라우저 조작 특화 에이전트다. 크롬이나 크롬 기반 환경에서 웹 페이지를 직접 읽고 버튼을 찾아 클릭하며 입력 폼을 채우는 역할에 집중한다.

검색과 브라우저 사이 레이어에 위치한다. 기존 검색은 링크 목록까지만 제공했고 사용자는 그 이후 클릭과 탐색을 스스로 수행했다. 마리너는 이 뒷단 탐색과 폼 작성까지 맡아 에이전트 AI 상용화의 전초기지 역할을 한다.

구글 입장에서 마리너는 검색 광고, 쇼핑, 여행 예약 등 트랜잭션 영역에서 전환율을 높이는 도구다. “검색 결과를 넘어 실제 행동까지 이어주는 브라우저 비서”라는 포지셔닝을 지향한다.

웹 페이지 이해부터 액션 실행까지: 마리너 작동 방식

먼저 DOM 구조와 화면 스냅샷을 함께 분석해 버튼, 링크, 입력창 역할을 파악한다.
사용자의 자연어 목표를 태스크로 변환해 필요한 하위 단계와 방문해야 할 사이트 목록을 계획한다.
클릭, 스크롤, 텍스트 입력 같은 액션을 순차적으로 실행하며 각 단계 성공 여부를 로그와 스크린샷으로 확인한다.
실패나 예외가 발생하면 평가 모듈이 원인을 분석하고 대체 경로를 재계획하는 사이클을 반복해 멀티에이전트 AI 시스템 수준의 안정성을 높인다.

예를 들어 “이번 주말 서울 출발 부산 왕복 KTX 중 가장 저렴한 시간대를 예매해줘”라고 요청하면 관련 사이트 탐색과 예약까지 한 번에 처리하는 방향을 목표로 한다.

실사용 시나리오 3가지: 리서치·쇼핑·예약 자동화

일반 사용자는 여행 준비 과정에서 마리너형 브라우저 에이전트를 활용할 수 있다. “봄 일본 여행 항공권과 숙소를 예산 안에서 찾아서 일정표를 만들어줘”라고 말하면, 에이전트가 항공권 비교 사이트와 숙박 플랫폼을 돌며 옵션을 비교하고 추천 일정을 문서로 정리한다.

실무자는 시장 리서치나 경쟁사 모니터링에 쓸 수 있다. 정해진 키워드 목록으로 검색하고 상위 결과의 주요 문장을 요약하며, 가격과 기능 정보를 스프레드시트에 모으는 반복 업무를 에이전트에 맡긴다.

에이전트 AI 서비스 사례에서 자주 언급되는 영역이 이 자동 리서치다. 수십 개 탭을 열고 복붙하던 작업이 자동화되며, 시간 절감과 인력 비용 절약 효과를 정량화하기 쉬운 구간이다.

Microsoft Copilot OS: 운영체제에 녹아든 OS 에이전트

Copilot OS 비전: 윈도우 위에 얹힌 지능 레이어

Copilot OS는 마이크로소프트가 윈도우와 오피스 전반에 심으려는 지능 레이어다. 단일 앱이 아니라 OS 전역에서 호출되는 에이전트 허브에 가깝다.

파일 시스템, 캘린더, 메일, Teams, Office 문서, Azure 클라우드 리소스를 하나의 맥락으로 이해하는 구조가 핵심이다. 사용자는 특정 앱을 실행하는 대신 Copilot에게 목표를 지시하고, OS는 적절한 앱과 서비스를 조합해 결과를 제공한다.

이 구조는 AI 에이전트 비즈니스 모델과도 연결된다. 라이선스와 클라우드 리소스 사용량을 기반으로 OS 위 에이전트 계층을 구독 형태로 제공하는 방향이다.

파일·앱·문서를 대신 다루는 Copilot 핵심 기능

PC 전체 활동을 타임라인 형태로 인덱싱해 과거 화면과 파일 상태를 검색하게 하는 Recall 계열 기능이 중심에 있다.
메일, 캘린더, 문서 앱을 가로지르는 워크플로우를 자동 실행해 회의 예약, 안건 공유, 후속 메일 발송을 한 번에 처리한다.
로컬 파일, 클라우드 문서, 채팅 로그를 모아 특정 프로젝트 단위로 요약하고 보고서 초안을 자동 작성하는 업무 자동화 AI 에이전트 역할을 수행한다.
“어제 회의에서 정한 API 변경 사항을 정리해 개발자들에게 전달 메일을 써줘”처럼 OS 전반 맥락을 요구하는 에이전트 AI 상용화 시나리오를 처리할 수 있다.

예를 들어 “이번 분기 매출 회의용 슬라이드를 준비해줘”라고 지시하면 관련 문서를 찾아 요약하고 슬라이드 초안을 만들어주는 식이다.

개발자·지식노동자를 위한 생산성 시나리오

개발자 하루 흐름을 가정해보자. 오전에는 Copilot이 지난주 이슈 트래커, 코드 리뷰, 회의 메모를 요약해 오늘 집중해야 할 태스크 목록을 만든다.

점심 이후 새 기능 설계 회의가 열리면 Copilot은 회의 음성을 받아 회의록을 만들고, 결정 사항과 액션 아이템을 태그해 관련 팀원 캘린더에 할당한다.

오후에는 문서 작업이 남는다. 에이전트는 저장소와 위키에서 관련 자료를 모아 설계 문서 초안을 작성하고 리뷰어 목록을 추천한다. 이런 흐름이 에이전트 AI 도입 성공 사례로 확산되며 개발 팀과 지식노동자의 업무 경험을 근본적으로 바꿀 수 있다.

마리너 vs Copilot OS vs 기존 챗봇·RPA 3대 비교

웹 에이전트 vs OS 에이전트: 역할 분담과 강약점

구분	웹 에이전트(마리너형)	OS 에이전트(Copilot형)
주요 무대	브라우저 탭·웹 서비스	파일·앱·로컬·클라우드
강점	다양한 SaaS·사이트 자동 탐색	깊은 컨텍스트·계정 통합
약점	로그인·보안 제약 영향 큼	윈도우·오피스 중심 종속성
적합 업무	리서치·쇼핑·예약·크롤링	회의·문서·메일·프로젝트

사용자 여정 기준	웹 검색·폼 작성 단계 자동화	PC 내 문서·협업 단계 자동화
보안 관점	쿠키·세션 처리·권한 경계 중요	파일·메일 권한 설계가 핵심
운영 모델	브라우저 확장·클라우드 실행	OS 내 기본 기능·구독 연동

이 대비를 바탕으로 에이전트 AI 플랫폼 비교 시 어떤 계층에서 자동화를 설계할지 결정할 수 있다. 에이전트 AI와 기존 RPA 비교에서도 역할 분담과 보안 경계가 핵심 기준이 된다.

LLM 챗봇·플러그인·RPA와 Computer Use의 구조적 차이

항목	LLM 챗봇	플러그인·툴 콜	전통 RPA	Computer Use 에이전트
입력 방식	자연어 대화	자연어+버튼	스크립트·UI 좌표	자연어 목표
실행 범위	답변 생성 중심	특정 앱·API	정의된 앱·화면	화면·OS 전반
확장성	플러그인 설치 필요	지원 앱에 제한	시나리오 추가 작업 큼	웹·OS 전반 확장 가능
유지보수	프롬프트 튜닝 중심	API 변경 대응 필요	UI 변경에 민감	모델·정책 업데이트 중심

항목	LLM 챗봇	플러그인·툴 콜	전통 RPA	Computer Use 에이전트
실패 처리	오류 메시지 제시 수준	앱 에러 반환 기반	예외 처리 코드 의존	자체 관찰·재계획 루프
도입 난이도	비교적 낮음	중간	초기 구축 높음	파일·권한 설계 필요

이 구조에서 에이전트 AI 상용화는 대화형 에이전트 솔루션을 넘어 실제 클릭과 입력까지 포함하는 운영 계층 확장 흐름으로 이해할 수 있다.

검색·OS·클라우드별 에이전트 AI 비즈니스 모델

검색·브라우저 영역에서는 에이전트가 수행하는 상거래, 예약, 구독 전환에서 수수료와 광고 매출이 발생한다.
OS·오피스 영역에서는 Copilot 같은 기능을 구독 요금제에 포함시키거나, 고급 에이전트 기능을 별도 애드온으로 파는 AI 에이전트 비즈니스 모델이 형성된다.
클라우드·API 사용량 기반으로 에이전트 실행 시간, 토큰 사용량, 스토리지에 과금해 인프라 매출을 확대하는 구조가 만들어진다.
기업용 마켓플레이스에서는 특정 산업 특화 에이전트를 유료 템플릿으로 판매해 파트너 생태계 수익 분배 구조를 구축할 수 있다.

기업·개발자를 위한 에이전트형 AI 도입 전략 3단계

1단계: 브라우저 자동화 vs OS 통합, 우선 타깃 정하기

영업 리서치, 가격 비교, 공공 데이터 조회처럼 웹 비중이 높은 업무는 마리너형 브라우저 자동화를 우선 시도하는 것이 효율적이다.
내부 문서 작성, 회의 정리, 메일 후속 조치처럼 윈도우·오피스 중심 흐름은 Copilot형 OS 통합 활용이 적합하다.
콜센터 백오피스, 보험 심사, 리포트 생성 등 양쪽을 모두 쓰는 업무는 브라우저 에이전트로 외부 데이터를 모으고 OS 에이전트로 사내 문서를 만드는 2단 구조가 유용하다.
스타트업은 범용 에이전트형 AI 도입 전략보다 특정 팀 반복 태스크 한두 개에 집중한 PoC로 시작하는 편이 리스크를 줄인다.

2단계: API·에이전트 프레임워크·확장 슬롯 활용

Google과 MS는 검색, 브라우저, OS, 클라우드를 아우르는 에이전트 API를 확장 중이며 어떤 계층에 붙을지 선택지가 늘고 있다.
OpenAI, Anthropic 등은 멀티에이전트 AI 시스템과 툴 콜을 지원하는 플랫폼을 제공해 자체 오케스트레이션보다 빠른 실험이 가능하다.
오픈소스에서는 AutoGen, LangChain, CrewAI 등 에이전트 프레임워크가 빠르게 발전하며, 에이전트 AI 플랫폼 비교 시 벤더 종속성을 완화하는 카드가 된다.
장기적으로는 브라우저, OS, 클라우드가 제공하는 공식 확장 슬롯을 활용해 사내 전용 에이전트를 배포하는 구조가 현실적이다.

3단계: 보안·권한·로그로 에이전트 거버넌스 세우기

위험: 에이전트에 과도한 계정 권한을 부여하면 실수나 해킹 시 광범위한 데이터 손상 위험이 생긴다.
최소 가이드: 사람보다 좁은 역할과 리소스 권한만 부여하고, 민감 시스템은 별도 MFA를 두는 설계가 필요하다.
위험: 화면과 파일을 자유롭게 읽는 에이전트는 개인정보·기밀 정보를 의도치 않게 수집해 외부로 전송할 수 있다.
최소 가이드: 에이전트 AI 보안 및 개인 정보 보호 정책을 별도 정의하고, 마스킹·레드액션 규칙을 모델 호출 전 단계에서 적용해야 한다.
위험: 에이전트 행동이 로그에 남지 않으면 사고 분석과 규제 대응이 어렵다.
최소 가이드: 모든 에이전트 액션을 사람이 읽을 수 있는 로그로 남기고, 에이전트 AI 도입 시 문제점과 해결 방안을 거버넌스 문서로 관리해야 한다.

향후 1~2년: 에이전트가 표준 인터페이스가 되는 과정

‘앱 실행’에서 ‘목표 지시’로 바뀌는 사용자 경험

지금까지 사용자는 회의를 준비할 때 캘린더를 열고 메일함을 보고 메신저를 확인하며 여러 앱을 전전했다. 에이전트가 표준이 되면 “내일 회의 자료와 참석자 정리를 마무리해줘”라는 목표 지시 한 번으로 같은 일이 처리된다.

일정 예약도 마찬가지다. 기존에는 예약 사이트를 열고 시간대를 하나씩 눌러봐야 했다. Computer Use 에이전트가 일반화되면 “이번 주 수요일 저녁 근처 식당 예약해줘”처럼 자연어로 지시하고, 에이전트는 여러 사이트를 돌며 조건에 맞는 옵션을 찾는다.

에이전트 AI 상용화가 진행되면 앱 아이콘을 찾는 시간은 줄고, 바탕화면이나 브라우저에서 에이전트를 호출해 목표를 설명하는 시간이 늘어난다. 초보자에게도 복잡한 앱 사용법보다 목표 설명이 더 쉬운 UX로 바뀐다.

시장·산업 구조와 일자리의 재배치

검색 시장에서는 결과 클릭보다 에이전트가 수행하는 액션 가치가 커져 ‘행동 전환’ 기반 광고와 수수료 모델 비중이 증가한다.
SaaS 시장에서는 에이전트 친화적 API와 웹훅을 제공하는 서비스가 우위를 점하고, UI보다 에이전트 협업 기능이 차별화 요소가 된다.
BPO와 단순 백오피스 아웃소싱 영역에서는 반복 클릭과 데이터 입력을 에이전트가 대체하며, 사람 인력은 예외 처리와 품질 관리 중심으로 재편된다.
이 과정에서 에이전트 오케스트레이션 설계, 프롬프트 엔지니어링, 운영 모니터링 같은 새로운 역할이 생겨난다.

국내 서비스에서 먼저 터질 에이전트 AI 적용 사례

포털 서비스는 로그인, 검색, 메일, 카페, 지도가 한 계정에 묶여 있어 통합 에이전트가 뉴스 요약부터 일정 예약까지 한 번에 처리하는 형태가 유력하다.
커머스 플랫폼에서는 장바구니 기반이 아니라 “다음 달 캠핑 준비에 필요한 것들을 예산 안에서 리스트업하고 구매” 같은 목표 기반 장보기 에이전트가 등장할 수 있다.
협업툴·메신저에서는 회의실 예약, 프로젝트 태스크 생성, 결재 문서 기안까지 하나의 에이전트가 처리하는 시나리오가 현실적이다.
국내 금융·통신처럼 규제가 강한 에이전트 AI 적용 산업 분야에서는 제한된 권한으로 상담사 보조·내부 업무 자동화부터 시작하는 단계적 Computer Use 도입이 예상된다.

결론

Computer Use 에이전트는 ① 화면과 입력까지 다루는 수행 능력 ② Google 마리너·Copilot OS 같은 플랫폼화 ③ 기존 챗봇·RPA와 다른 UX·비즈니스 모델이라는 세 축으로 정리된다. 브라우저·OS·클라우드를 가로지르는 구조가 정착되면 자동화의 단위는 ‘클릭’이 아니라 ‘업무 목표’로 이동한다.

이 변화는 검색, 업무툴, OS 경계를 흐리며 한 에이전트가 전체 여정을 주도하는 방향으로 이어진다. 사용자는 목표만 전달하고, 어떤 앱을 열고 어떤 API를 호출하는지는 점점 보이지 않게 된다. 그만큼 데이터, 권한, 로그를 아우르는 새로운 거버넌스 계층이 경쟁력이 된다.

향후 90일 안에 한 팀의 반복 업무 한 가지를 골라 에이전트 PoC를 수행하고, 6개월 안에 파일 구조와 권한 체계를 에이전트 친화적으로 재정비하는 로드맵을 만드는 편이 좋다. 이렇게 얻은 조직별 경험이 에이전트 AI 상용화 시대에 맞는 자신만의 에이전트형 AI 도입 전략이자 경쟁 우위가 된다.

자주 묻는 질문

Q: 에이전트 AI 상용화가 기존 챗봇 도입과 무엇이 다른가요?

A: 기존 챗봇은 답변이나 링크 제시에 그치지만, 에이전트 AI는 그 이후 클릭·입력·파일 편집까지 자동 수행한다.

Q: Google 프로젝트 마리너와 Copilot OS 중 무엇을 먼저 고려해야 할까요?

A: 웹 업무 비중이 크면 마리너형, 윈도우·오피스 중심이면 Copilot형부터 작은 파일럿으로 시작하는 편이 효율적입니다.

Q: 기업이 에이전트 AI를 도입할 때 가장 중요한 보안 이슈는 무엇인가요?

A: 계정 권한 범위, 민감 데이터 처리, 행동 로그 3가지를 기준으로 권한·데이터·로그 정책을 촘촘히 설계해야 합니다.

Q: 에이전트 AI 구축 비용은 어느 정도를 예상해야 하나요?

A: 초기 PoC는 소규모 인건비와 월 수십만~수백만 원 수준 클라우드 비용이 들고, 확산 시 사용자·작업량에 비례해 증가합니다.

Q: 향후 1~2년 안에 에이전트 AI가 어느 정도까지 확산될까요?

A: 주요 OS·브라우저 기본 에이전트가 보편화되고, 이메일·문서·일정부터 콜센터·리서치까지 점진적으로 확대될 전망입니다.