[AI정보] Google Gemini 3, Agent의 시대를 제시하다

Google의 따끈따끈한 최신 모델 Gemini 3에 대해서 알아본다.
Gemini 3는 현존 최고의 멀티모달 이해력과 추론 능력을 갖춘 AI 모델이다.

새로운 Deep Think 기능이 가장 주목할 만하다. 난공불락으로 여겨지던 ARC-AGI-2 벤치마크에서 45.1%라는 역대 최고점을 기록했다. 에이전트 작업과 코딩에 최적화되어 있다.

Gemini 3에 대해서 알아보자.

Gemini 3가 특별한 이유

Google은 약 2년 전부터 Gemini 시리즈를 발전시켜왔다. 현재 월간 20억 명이 AI Overviews를 사용하고, Gemini 앱 사용자는 6억 5천만 명을 넘어섰다.

가장 눈에 띄는 점은 추론 능력이다. Gemini 3 Pro는 LMArena 리더보드에서 1위를 차지했고, 박사 학위 수준의 문제에서 91.9%의 정확도를 기록했다.

이전 AI들은 단순 질문에는 잘 답했지만, 복잡한 질문에는 헤매는 경우가 많았다. Gemini 3는 질문 뒤에 숨은 맥락과 의도를 정확하게 파악한다. 적은 프롬프트로도 원하는 결과를 얻을 수 있다.

세 가지 핵심 활용 분야

1. Learn anything

Gemini 3는 텍스트, 이미지, 비디오, 오디오, 코드를 동시에 처리할 수 있다. 100만 토큰이라는 방대한 컨텍스트 창 덕분에 긴 학술 논문이나 강의 영상도 한 번에 이해한다.

실제 활용 사례를 보면 흥미롭다. 외국어로 된 손글씨 레시피를 해독하고 번역해서 가족 요리책을 만들 수 있다. 피클볼 경기 영상을 분석해서 자세 개선 훈련 계획을 짜줄 수도 있다.

복잡한 과학 개념도 시각화 코드로 만들어 이해하기 쉽게 보여준다. Google 검색의 AI 모드에서는 RNA 중합효소 같은 어려운 주제를 몰입형 시각 레이아웃으로 학습할 수 있다.

사진을 통해 레시피 북 만들기 예시 (영상 출처: Google 블로그)

2. Build anything

개발자들에게는 더욱 반가운 소식이다. Gemini 3는 Google이 만든 최고의 코딩 모델로, WebDev Arena 리더보드 1위를 기록했다.

특히 주목할 점은 Google Antigravity라는 새로운 에이전트 개발 플랫폼이다. 개발자가 높은 수준에서 작업을 지시하면, AI가 알아서 복잡한 작업을 계획하고 실행한다.

편집기, 터미널, 브라우저에 직접 접근해서 종단 간 작업을 자율적으로 처리한다. 예를 들어 항공편 추적기 앱을 만들고 싶다고 하면, Antigravity의 에이전트가 독립적으로 애플리케이션을 계획하고 코딩한 뒤 브라우저에서 실행까지 검증한다.

개발자는 더 창의적인 부분에 집중할 수 있게 된다. 레트로 3D 우주선 게임을 코딩하거나, 셰이더로 공상 과학 세계를 구축하는 등 상상력을 현실로 구현하는 작업이 훨씬 수월해진다.

3. Plan anything

Gemini 3는 단순히 한두 단계 작업만 처리하는 것이 아니다. 장기적인 계획을 세우고 일관되게 실행하는 능력도 갖추고 있다.

Vending-Bench 2 리더보드 1위가 이를 증명한다. 이 벤치마크는 시뮬레이션된 자판기 사업을 1년 동안 관리하는 능력을 테스트한다. Gemini 3 Pro는 1년 내내 일관된 의사 결정을 유지하며 높은 수익을 창출했다.

일상생활에서는 어떻게 활용될까? Gmail 받은 편지함을 정리하거나 지역 서비스를 예약하는 등 여러 단계가 필요한 복잡한 작업을 처음부터 끝까지 처리할 수 있다. 모든 과정은 사용자의 통제와 안내 하에 이루어진다.

Deep Think: 더 깊은 추론을 하는 AI

Gemini 3의 또 다른 특징은 Deep Think 모드이다. 일반 모드보다 훨씬 더 복잡한 문제를 해결할 수 있는 강화된 추론 모드이다.

성과는 놀랍다. Humanity’s Last Exam에서 41.0%를 달성했고, ARC-AGI-2에서는 45.1%라는 전례 없는 기록을 세웠다.

현재는 안전성 테스터에게만 제공되지만, 곧 Google AI Ultra 구독자들도 사용할 수 있다. 복잡한 수학 문제나 다층적인 과학 개념을 다룰 때 특히 유용할 것으로 보인다.

구분	Humanity’s Last Exam (HLE)	ARC-AGI-2
핵심 역량	전문 지식 & 복합 이해 (Knowledge)	추상화 & 유동적 추론 (Reasoning)
비유	사법고시, 박사 학위 논문 심사	멘사 IQ 테스트
인간의 강점	전문가만 풀 수 있음	어린아이도 풀 수 있음
AI의 과제	“얼마나 깊이 아는가?”	“얼마나 유연하게 생각하는가?”

HLE 와 ARC-AGI-2 설명 & 비교

안전성도 최우선

강력한 AI일수록 안전성이 중요하다. Gemini 3는 Google AI 모델 중 가장 포괄적인 안전성 평가를 거쳤다.

아첨하는 성향이 줄어들었고, 프롬프트 주입 공격에 대한 저항력이 증가했다. 사이버 공격을 통한 오용 방지 기능도 강화되었다.

Google은 자체 안전성 프레임워크로 내부 테스트를 진행했다. 또한 UK AISI 같은 기관과 Apollo, Vaultis, Dreadnode 등 업계 전문가들로부터 독립적인 평가를 받았다.

Agent의 시대가 도래했다.

Gemini 3의 등장은 세 가지 중요한 신호를 보낸다.

첫째, AI가 진정한 사고 파트너로 진화하고 있다. 상투적인 답변이 아니라 진정한 통찰력을 제공한다. 듣고 싶은 것뿐만 아니라 들어야 하는 것을 알려준다.

둘째, 멀티모달 AI의 실용성이 입증되었다. 텍스트, 이미지, 비디오, 코드를 모두 이해하고 처리할 수 있다는 것은, 우리가 생각하고 작업하는 방식 그대로 AI와 협업할 수 있다는 뜻이다.

셋째, 에이전트 중심 개발의 시대가 시작되었다. Google Antigravity 같은 플랫폼은 개발자가 무엇을 만들고 싶은지만 말하면, AI가 어떻게 만들지 알아서 처리하는 미래를 보여준다.

AI가 계속 발전하면서, 우리는 더 창의적인 부분에 집중하고 반복적이거나 복잡한 작업은 AI에게 맡기는 협업 구조가 자연스러워질 것이다.

Gemini 3는 그런 미래로 가는 중요한 한 걸음이다.

Gemini 3가 특별한 이유

세 가지 핵심 활용 분야

1. Learn anything

2. Build anything

3. Plan anything

Deep Think: 더 깊은 추론을 하는 AI

안전성도 최우선

Agent의 시대가 도래했다.

관련 게시물

Hermes Agent, 기억하는 AI 에이전트의 시작

Claude Managed Agents, 이제 에이전트도 ‘관리형’으로 쓰는 시대

카파시가 RAG를 버리고 마크다운 위키를 선택한 이유