Claude Code 안에서 Codex 쓰는 법, 공식 플러그인 codex-plugin-cc 정리

Claude Code 한 화면에서 Codex를 그대로 부를 수 있다. 별도 터미널을 띄울 필요도, CrewAI 같은 멀티에이전트 프레임워크를 학습할 필요도 없다. /codex 한 줄이면 일곱 개 명령어가 펼쳐진다.

핵심 요약

  • OpenAI가 2026년 3월 30일 공식 플러그인 codex-plugin-cc를 GitHub에 공개했다. 한 달 반 만에 별 18.8k를 돌파했다.
  • 설치는 4단계 명령어, 2분. 인증은 ChatGPT 무료 티어로도 가능하다.
  • 같은 코드베이스를 두 모델이 검토하면 서로 다른 결함을 잡아낸다. Opus 8개, Codex 4개, 겹친 건 1개.

두 달 전에 풀렸는데 한국에선 아직 조용한 이유

Implicator는 이 출시를 “AI 코딩 에이전트 시장에서 한 벤더가 경쟁사의 CLI에 1st party 확장을 직접 배포한 첫 공개 사례”라고 정리했다. The Decoder는 OpenAI가 도구를 바꾸길 기다리는 대신 기존 워크플로우 속에서 Codex를 제공하는 방식으로 전환했다고 보도했다.

영어권에서는 Alpha SignalMarketing Agent Blog 같은 매체가 이미 튜토리얼을 풀었다. 그런데 한국 개발자 커뮤니티에서는 아직 인지도가 낮다. 두 달 전에 풀렸는데도 그렇다. 이 시점에 정리해두는 이유다.

[아키텍처] Codex 플러그인을 Claude Code에 설치하는 단계별 가이드
출처: You can now trigger Codex from Claude Code! Here’s how

설치 2분, 4단계로 끝난다

openai/codex-plugin-cc README에 적힌 설치 절차는 정확히 4줄이다.

/plugin marketplace add openai/codex-plugin-cc
/plugin install codex@openai-codex
/reload-plugins
/codex:setup

요구사항은 Node.js 18.18 이상, 그리고 ChatGPT 계정이나 OpenAI API 키 둘 중 하나다. Startup Fortune 가이드에 따르면 추가 설치 시간은 약 2분이며, /codex:setup 명령어가 Codex CLI 미설치 시 npm install -g @openai/codex를 자동으로 돌려준다.

인증도 단순하다. !codex login으로 ChatGPT 계정과 API 키 양쪽 모두 받는다. 기본 모델은 .codex/config.toml에서 바꾼다. 설치 범위는 개인 모든 프로젝트(user), 저장소 모든 협업자(project), 저장소 내 개인(local) 셋 중에서 고른다.

가장 중요한 한 줄은 과금 구조다. Marketing Agent Blog가 짚었듯 charges pull from your OpenAI quota, not your Anthropic plan. Codex 사용료는 OpenAI 쪽에서 빠진다. Anthropic 청구서엔 영향이 없다. 무료 ChatGPT 티어로도 굴려볼 수 있다.

명령어 7개, 이것만 외우면 된다

/codex를 치면 펼쳐지는 일곱 개 명령어다. Chase AI와 공식 README 기준으로 표로 모아본다.

명령어기능자주 쓰는 옵션예시
/codex:setup설치·인증 확인, Review Gate 관리--enable-review-gate초기 설정
/codex:review표준 코드 리뷰 (읽기 전용)--base <ref>--background/codex:review --base main
/codex:adversarial-review설계 가정·실패 모드 도전 리뷰--background + 포커스 텍스트/codex:adversarial-review look for race conditions
/codex:rescueCodex에 작업 위임--model--effort--background/codex:rescue --model gpt-5.4-mini investigate flaky test
/codex:status진행 중 작업 상태작업 ID/codex:status task-abc123
/codex:result완료 작업 최종 출력작업 ID/codex:result task-abc123
/codex:cancel백그라운드 작업 취소/codex:cancel task-abc123

Chase AI 분석에 따르면 /codex:adversarial-review는 일곱 가지 공격 표면(인증, 데이터 손실, 롤백, 경쟁 상태, 의존성 저하, 버전 스큐, 관찰성 갭)을 압박 테스트한다. 결과는 심각도, 파일경로, 라인번호, 영향분석, 수정제안이 포함된 구조화 JSON으로 떨어진다. 코드 리뷰가 “느낌”이 아니라 데이터로 돌아온다는 뜻이다.

여기까지가 도구 사용법이다. 그런데 사실 더 중요한 건 왜 OpenAI가 이걸 만들었느냐다.

왜 OpenAI는 경쟁사 안으로 들어갔나

숫자가 다르다. Technobezz에 따르면 Claude Code는 연간 25억 달러 매출에 일일 13만 5천 개의 GitHub 커밋을 만들어낸다. GitHub 전체 공개 커밋의 약 4%다. SmartScope 분석으로 Codex는 주간 활성 사용자 200만 명대다. 사용자 베이스에서 Claude Code가 앞선다.

이 격차에서 OpenAI는 두 가지 선택지가 있었다. 더 좋은 모델로 Claude Code 사용자를 빼앗아오거나, 아니면 Claude Code 안으로 직접 들어가거나. Implicator는 OpenAI의 결정을 한 줄로 압축했다. developers refuse to switch tools, you walk your product through the competitor's front door. 개발자가 도구를 바꾸지 않으면, 그쪽 정문으로 자사 제품을 들고 들어간다.

[인물] Anthropic이 관리하는 고품질 Claude Code 플러그인 공식 디렉토리
출처: anthropics/claude-plugins-official

이게 가능했던 건 Anthropic이 공식 플러그인 시스템을 개방형으로 만들었기 때문이다. anthropics/claude-plugins-official 저장소는 내부 개발(/plugins)과 서드파티 파트너(/external_plugins)로 나뉘어 있고, 외부 플러그인도 품질·보안 검토만 통과하면 받아준다. 경쟁사도 예외가 아니다.

이 결정이 만드는 효과는 세 갈래로 갈린다. 사용자 획득 비용이 거의 제로다. Claude Code 사용자를 직접 데려오지 않고도 Codex 접점이 Claude Code 안에 생긴다. 동시에 사용량 기반 수익도 자동으로 굴러간다. /codex:review 한 번이 OpenAI의 매출 이벤트다. 그리고 이탈 방어 효과까지 따라온다. Codex 단독으론 Claude Code의 일일 13만 5천 커밋 생태계를 이기기 어렵지만, 같이 쓰이는 도구가 되면 Claude Code 사용자도 자연스럽게 Codex 사용자가 된다.

두 모델을 같이 돌리면 뭐가 달라질까

이 플러그인의 진짜 가치는 cross-provider review에 있다. 한 모델이 짠 코드를 다른 회사 모델이 검토하는 구조다. MindStudio는 이를 단일 모델의 동의 편향(sycophancy bias)을 제거하는 장치로 설명한다.

학술적으로도 뒷받침된다. arXiv 논문 AI-powered Code Review with LLMs는 4개 전문 에이전트로 구성된 시스템이 단일 정적 분석 도구가 놓친 문제들을 탐지함을 검증했다. LLM-Based Multi-Agent Systems for Software Engineering 종합 리뷰는 멀티 에이전트의 상호 검증이 LLM 환각 문제를 완화한다고 정리했다.

실측은 더 흥미롭다. Chase AI 테스트에서 같은 코드베이스를 검토했을 때 Opus는 8개 이슈를 찾았고 Codex는 4개를 찾았다. 그런데 겹친 건 1개뿐이었다. 두 모델이 서로 다른 결함을 본다는 뜻이다. Marketing Agent Blog 사례에서도 Codex가 Opus가 놓친 고심각도 이슈 세 건(DB 크래시, 스키마 드리프트, 대시보드 오류)을 잡아냈다.

Subaud.io 사례 보고는 한 줄이 인상적이다. 4라운드 검토를 거치면서 “더 느리지만 더 빨랐다(slower but faster)”는 결론에 도달했다. 표면적으로는 리뷰 사이클이 늘어나지만, 나중에 잡힐 결함을 미리 처리하는 시간이 줄어들기 때문이다.

실전 워크플로우, Opus가 설계하고 Codex가 실행한다

Chase AI 튜토리얼이 제시한 패턴이 가장 직관적이다. Use Opus to plan, use Codex to execute. 장기 사고와 아키텍처 설계는 Opus에게, 기계적 구현은 Codex에게 맡긴다.

Medium의 Mark Chen은 두 모델의 역할을 이렇게 나눴다. Claude는 장문맥 추론과 세심한 분석을 담당하는 조율자, Codex는 코드 생성과 패턴 인식에 강한 위임 전문가. 둘이 한 화면에서 협업한다는 발상 자체가 새롭다.

실무에서 쓰는 시나리오는 Startup Fortune이 세 가지로 정리했다.

  • 표준 리뷰: 미커밋 변경사항이나 브랜치 diff에 /codex:review. 읽기 전용이라 코드 변경 없음.
  • 회의적 adversarial 리뷰/codex:adversarial-review로 인증, 데이터 손실, 롤백 같은 위험 영역 압박 테스트.
  • 에이전트 위임: 다른 에이전트의 두 번째 의견이 필요할 때 /codex:rescue로 작업 통째 인계.

MindStudio는 여기에 네 가지를 더 얹는다. 보안 감사(다른 훈련 데이터를 가진 모델이 취약점을 더 잘 본다), 팀 표준 자동 검증, 주니어 개발자 교육, 모델 벤치마킹.

여기서 다음 질문이 따라온다. 그럼 기존에 있던 CrewAI나 LangGraph 같은 멀티에이전트 프레임워크와는 뭐가 다른가.

CrewAI·AutoGen·LangGraph와 비교하면

기존 멀티에이전트 프레임워크들과 비교하면 codex-plugin-cc는 분명히 다른 카테고리에 속한다.

항목codex-plugin-ccCrewAIAutoGenLangGraph
설치4단계 명령, 2분Python SDK 설치·구성Python SDK + Microsoft Agent Framework 마이그레이션 중Python SDK + 그래프 정의
러닝 커브낮음(7개 명령어)낮음중간높음
통합 환경한 화면(Claude Code)별도 Python 환경별도 Python 환경별도 Python 환경
운영 비용ChatGPT 구독 또는 APILLM API + 인프라LLM API + 인프라LLM API + 인프라
적합 시나리오코드 리뷰·작업 위임역할 기반 파이프라인연구·채팅 패턴상태·분기가 중요한 워크플로우

Developers Digest 분석에 따르면 LangGraph는 v0.4로 상태 영속성을 개선했고, CrewAI는 엔터프라이즈급 관찰성·스케줄링을 출시했다. AutoGen은 1.0 GA 이후 Semantic Kernel과 Microsoft Agent Framework로 통합되며 유지보수 모드로 진입 중이다.

codex-plugin-cc는 이들과 경쟁하는 도구가 아니다. 풀스택 프레임워크 도입 없이 기존 IDE 안에서 다른 모델을 호출하는 가장 가벼운 통합이다. 멀티에이전트의 효익이라고 부르던 상호 검증 효과를 명령어 한 줄로 얻는다.

솔직히 짚어야 할 한계

장점만 나열하면 AI가 쓴 글 같다. 한계도 본다.

가장 먼저 짚을 건 Codex의 리뷰가 항상 더 많은 결함을 잡는 건 아니다라는 점이다. Chase AI 실측에서 Opus 8개 vs Codex 4개였다. 더 많이 발견하는 게 더 좋은 리뷰는 아니지만, Codex가 복잡한 작업에서 Opus보다 덜 효과적이라는 보고는 분명히 있다. 두 모델을 다 돌렸다고 모든 결함이 잡히지도 않는다. 과보고 가능성도 존재한다.

비용 관리도 만만치 않다. SmartScope 분석으로 GPT-5.4 기준 토큰당 입력 $2.50, 출력 $15 수준이다. Claude Code Max 구독자가 무심코 /codex:review를 남발하면 추가 OpenAI 청구가 따로 발생한다. 권장은 세 가지다. --model gpt-5.4-mini 또는 --model spark 명시 지정, /codex:status로 실시간 모니터링, 그리고 ChatGPT 무료 티어로 먼저 체험해보기. 두 구독을 동시에 관리해야 하는 인지 부담은 분명 있다.

마지막으로 플러그인 생태계 자체의 보안 리스크가 있다. Anthropic 공식 문서도 명시한다. “플러그인과 마켓플레이스는 사용자 권한으로 임의 코드를 실행할 수 있는 고도로 신뢰된 컴포넌트로, 신뢰할 수 있는 소스에서만 설치해야 한다”. codex-plugin-cc는 OpenAI 공식 저장소라 안전하지만, 같은 마켓플레이스에 악의적 플러그인이 들어올 가능성은 항상 있다. 공식 OpenAI/Anthropic 배포 플러그인만 쓰는 게 안전하다.

더 큰 그림, MCP가 만든 메타 시장

이 사건은 단순한 신제품 출시가 아니다. AI 코딩 도구 시장의 경쟁 축이 바뀌었다는 신호다. 누가 더 좋은 모델을 가지고 있느냐에서, 누가 더 많은 개발자 환경에 자사 도구를 노출시킬 수 있느냐로 옮겨갔다.

기술적으로는 Model Context Protocol(MCP)이 이 모든 걸 가능하게 한다. Technobezz는 OpenAI·Anthropic·Google 세 주요 AI 코딩 플랫폼이 MCP를 통해 유사한 확장 패턴으로 수렴 중이라고 진단했다. AWS 공식 Agent Toolkit도 Claude Code, Codex, Kiro 세 도구를 동시 공식 지원한다. MCP가 클라우드 인프라 차원에서 표준화되고 있다는 뜻이다.

이건 클라우드 시장이 AWS·Azure·GCP의 상호운용성으로 진화한 패턴과 닮았다. 호환성이 새로운 경쟁 우위가 된다. 자사 도구가 경쟁사 환경에서도 작동한다는 점은 도구의 성숙도와 자신감을 보여주는 마케팅 신호이기도 하다.

그래서 지금 뭘 해보면 좋을까

당장 시도해볼 한 가지는 /codex:adversarial-review다. 다음 PR을 올리기 전에 Claude Code에서 한 줄만 치면 된다. ChatGPT 무료 티어로도 일단 시작할 수 있고, 두 모델이 겹치지 않는 결함을 잡아내는 경험을 직접 해보는 게 빠르다.

좀 더 큰 흐름에서는 Plan with Opus, Execute with Codex 패턴을 자기 워크플로우에 한번 끼워보길 권한다. 두 도구를 따로 띄워서 왔다 갔다 하던 패턴이 한 화면으로 들어오는 것만으로도 인지 부담이 꽤 줄어든다.

OpenAI는 Codex를 만들었고 Anthropic은 Claude Code를 만들었다. 둘이 한 화면에서 같이 돌아가는 시대가 됐다. 두 달 전에 이미 시작된 변화고, 지금이 흐름을 잡기 좋은 시점이다.


참고 자료