에이전트, 에이전트라는 단어 많이 들어봤을 것이다. 요즘 ‘에이전트’ 라는 단어를 빼고는 AI 이야기를 할 수 없을 정도로 Agent의 시대라는 말이 과언이 아니다. 그런데 솔직하게 “그래서 에이전트가 뭐에요?” 라고 물어보면 명확하게 설명하기는 쉽지 않다.
구글에서 작성 된 ‘Introduction to Agents’ 백서는 이 질문에 대한 답을 제시한다. 오늘은 이 자료를 바탕으로 AI 에이전트가 무엇인지, 어떻게 구성되어있는지 처음 에이전트라는 단어를 들어보는 사람도 이해 할 수 있도록 쉽게 이야기 해보고자 한다.

에이전트는 왜 등장했나? 예측 AI에서 자율 AI로
기존의 AI는 대부분 ‘예측’이나 ‘생성’에 집중했다. 우리가 질문하면 답하고, 번역을 요청하면 번역하고, 이미지를 그려달라면 그려주는 식이다. 매번 인간이 명령을 내려야 하고, 단일 작업만 수행할 수 있었다.
하지만 AI 에이전트는 근본적으로 다른 접근 방식을 취한다. 에이전트는 목표만 주어지면 그 목표를 달성하기 위해 스스로 계획을 세우고, 필요한 행동을 취하며, 결과를 관찰한 후 다시 계획을 조정한다. 인간의 지속적인 개입 없이도 복잡하고 다단계적인 작업을 처리할 수 있는 것이다.
구글은 이를 “완전한 애플리케이션”이라고 표현한다. 단순히 텍스트를 생성하는 도구가 아니라, 언어 모델의 추론 능력과 실제 행동 능력을 결합한 자율적인 시스템이라는 의미이다.
에이전트의 3가지 핵심 구성 요소
에이전트를 이해하려면 먼저 그 구조를 파악해야 한다. 구글은 에이전트를 인체에 비유하며 세 가지 필수 요소를 제시한다.
모델: 에이전트의 ‘두뇌’
모델은 에이전트의 추론 엔진이다. Gemini, GPT, Claude와 같은 대형 언어 모델이 이 역할을 담당한다. 모델은 주어진 상황을 분석하고, 옵션을 평가하며, 다음에 무엇을 해야 할지 결정한다.
흥미로운 점은 강력한 에이전트일수록 여러 모델을 함께 사용한다는 것이다. 복잡한 계획 수립에는 Gemini 3.0 Pro 같은 강력한 모델을 사용하고, 단순한 분류나 요약 작업에는 Gemini 2.5 Flash 같은 빠르고 저렴한 모델을 사용하는 식이다. 마치 회사에서 전략 기획은 임원이, 일상 업무는 실무자가 처리하는 것과 비슷하다.
도구: 에이전트의 ‘손’
아무리 똑똑한 두뇌라도 손이 없으면 실제 세상에서 아무것도 할 수 없다. 도구는 에이전트가 외부 세계와 상호작용할 수 있게 해주는 인터페이스이다.
도구의 예시는 다양하다. 검색 API를 통해 최신 정보를 찾고, 데이터베이스를 쿼리하여 필요한 데이터를 가져오며, 이메일 API로 메일을 보내고, 코드를 실행하여 복잡한 계산을 수행한다. RAG 시스템을 통해 기업의 내부 문서에 접근할 수도 있다.
중요한 것은 에이전트가 이런 도구들을 스스로 선택하고 조합하여 사용한다는 점이다. “오늘 날씨 어때?”라는 질문에 날씨 API를 호출할지, “분기 매출 분석해줘”라는 요청에 어떤 데이터베이스를 쿼리할지 에이전트가 판단한다.
오케스트레이션: 에이전트의 ‘신경계’
오케스트레이션 레이어는 두뇌와 손을 연결하는 중앙 신경계 역할을 한다. 언제 생각할지, 언제 행동할지, 결과를 어떻게 다음 단계에 반영할지를 관리하는 핵심 시스템이다.
이 레이어는 에이전트의 ‘기억’도 담당한다. 현재 대화의 실행 기록을 유지하는 단기 기억, 그리고 세션을 넘어 지속되는 장기 기억을 모두 관리한다. 덕분에 에이전트는 “지난번에 네가 추천해줬던 레스토랑 이름이 뭐였지?” 같은 질문에도 답할 수 있다.

에이전트는 어떻게 문제를 해결하나?
에이전트의 동작 방식은 ‘Think, Act, Observe’라는 지속적인 루프로 요약된다.
1) Mission을 받는다. 사용자의 요청이나 자동화된 트리거를 통해 구체적인 목표를 설정한다.
2) Scene을 스캔한다. 에이전트는 현재 환경을 파악한다. 사용 가능한 도구는 무엇인지, 과거에 시도했던 작업은 무엇인지, 장기 기억에서 참고할 만한 정보는 없는지 확인한다.
3) Think한다. 모델의 추론 능력을 활용하여 목표 달성을 위한 계획을 수립한다. 복잡한 목표는 여러 단계로 나누어진다.
4) Act한다. 계획의 첫 번째 단계를 실행한다. 적절한 도구를 선택하고 호출하여 실제 행동을 취한다.
5) Observe하고 반복한다. 행동의 결과를 관찰하고, 이 새로운 정보를 맥락에 추가한 후, 다시 Think 단계로 돌아간다. 목표가 완전히 달성될 때까지 이 루프를 반복한다.
예를 들어보면 이렇다, “서울과 부산의 중간 지점에서 평점 4점 이상인 커피숍을 찾아줘”라는 요청을 받으면, 에이전트는 먼저 중간 지점을 계산하고(지도 API 사용), 그 위치에서 커피숍을 검색하며(검색 API 사용), 평점을 필터링한 후(데이터 처리), 최종 결과를 제시한다. 각 단계마다 결과를 확인하고 다음 행동을 조정하는 것이다.
에이전트 시스템의 5단계 진화
구글은 에이전트 시스템을 복잡성에 따라 5개 레벨로 분류한다. 각 레벨은 이전 레벨의 기능을 포함하면서 더 고도화된다.
Level 0: 핵심 추론 시스템이다. 순수한 언어 모델로, 도구나 외부 환경과의 상호작용 없이 사전 훈련된 지식만으로 작동한다. 개념을 설명하고 문제 해결 방법을 제안할 수 있지만, 실시간 정보는 알 수 없다. 단순 응답 시스템이라고 봐도 될 것 같다.
Level 1: 연결된 문제 해결사다. 외부 도구에 연결되어 실시간 정보에 접근할 수 있다. 검색 API를 호출하거나 데이터베이스를 쿼리하는 기본적인 에이전트가 여기에 해당한다.
Level 2: 전략적 문제 해결사다. 단순 작업 실행을 넘어 복잡한 다단계 목표를 전략적으로 계획한다. 맥락 엔지니어링을 통해 각 단계에 가장 관련성 높은 정보를 능동적으로 선택하고 관리한다.
Level 3: 협업 멀티 에이전트 시스템이다. 단일 슈퍼 에이전트 대신 전문가 팀이 협력하는 구조다. 프로젝트 관리자 에이전트가 시장 조사, 마케팅, 개발 에이전트에게 임무를 위임하는 식이다. 노동 분업을 통해 각 에이전트가 더 단순하고 유지보수하기 쉬워진다.
Level 4: 자기 진화 시스템이다. 가장 고도화된 단계로, 자신의 능력 격차를 스스로 인식하고 새로운 도구나 에이전트를 동적으로 생성할 수 있다. 필요한 기능이 없으면 직접 만들어내는 것이다.

에이전트 시대, 개발자의 역할은 어떻게 바뀌나?
구글은 에이전트 개발이 개발자의 역할을 근본적으로 변화시킨다고 말한다. 전통적인 개발자는 모든 논리적 단계를 정확하게 정의하는 ‘벽돌공’이었다. 하지만 에이전트 개발자는 ‘감독’이자 ‘건축가’가 된다.
장면을 설정하고(지침), 출연진을 선택하며(도구), 필요한 맥락을 제공한 후(데이터), 자율적인 배우가 의도한 성능을 발휘하도록 안내하는 것이다. 모든 것을 통제하는 것이 아니라, 올바른 환경을 구축하여 에이전트가 스스로 최선의 해결책을 찾도록 돕는다.
이는 LM의 유연성이 가장 큰 장점인 동시에 가장 큰 문제라는 것을 의미한다. 에이전트는 예측 불가능하고 확률적이다. 전통적인 단위 테스트로는 검증할 수 없다. 그래서 구글은 ‘Agent Ops’라는 새로운 운영 철학을 제안한다. 추적과 로그를 통해 에이전트의 사고 과정을 모니터링하고, LM을 심판으로 사용하여 품질을 평가하며, 메트릭 기반으로 개발을 진행하는 것이다.
에이전트는 AI의 새로운 패러다임이다
AI 에이전트는 단순한 기술적 진화가 아니다. AI를 수동적인 도구에서 능동적인 파트너로 전환하는 패러다임의 변화이다.
아직 완벽하지는 않다. 보안 문제, 비용 관리, 예측 불가능성 등 해결해야 할 과제가 많다. 하지만 방향성은 분명해 보인다. 앞으로 우리는 AI에게 일일이 지시하는 것이 아니라, 목표를 설정하고 함께 문제를 해결하는 방식으로 협업하게 될 것이다.
구글이 제시한 이 프레임워크는 에이전트를 이해하고 구축하기 위한 실질적인 청사진이다. 모델, 도구, 오케스트레이션이라는 세 가지 기둥과 레벨별 진화 과정을 이해하면, AI 에이전트라는 복잡한 개념이 훨씬 명확해진다.
에이전트 시대는 이미 시작되었다. 이제 우리가 할 일은 이 새로운 도구를 어떻게 현명하게 활용할지 고민하는 것이다.