DeepSeek V4, 1조 파라미터 오픈소스 모델이 바꿀 것들

GPT-5 API 호출 한 번에 드는 비용으로 DeepSeek V4는 같은 작업을 열 번 이상 돌릴 수 있다. 토큰당 $0.10~$0.30. 이 가격표 하나가 AI 업계의 가격 구조 전체를 흔들고 있다.

핵심 요약
DeepSeek V4는 1조 파라미터 MoE 모델로, GPT-5 대비 10~50배 저렴한 가격과 100만 토큰 컨텍스트를 제공한다. 다만 보안 취약점(유해 프롬프트 차단율 0%)과 데이터 프라이버시 리스크가 심각하다. 공식 출시 전이므로 독립 벤치마크 검증 후 단계적 도입이 원칙이다.

DeepSeek V4 출시 예고
출처: TechNode

1조 파라미터인데 실제로 쓰는 건 37B뿐이다

DeepSeek V4의 핵심은 MoE(Mixture-of-Experts) 희소 활성화 구조다. 파라미터가 1조 개지만 추론 시 토큰당 약 37B만 활성화된다. 냉장고에 식재료를 가득 채워놓고 필요한 것만 꺼내 쓰는 방식이라고 보면 된다.

이 접근이 가능한 건 DeepSeek이 V2부터 꾸준히 MoE 아키텍처를 발전시켜왔기 때문이다. V2에서 160개 전문가, V3에서 256개 전문가 + topk=8 라우팅을 거쳐, V4에서 1조 파라미터 규모까지 끌어올렸다.

여기에 세 가지 기술이 더해진다.

Engram 조건부 메모리는 정적 지식을 별도 메모리로 분리해 O(1) 해시 기반 검색을 구현한다. DeepSeek 내부 벤치마크 기준 100만 토큰 Needle-in-a-Haystack 검색 정확도가 97%로, 표준 어텐션 메커니즘의 84.2% 대비 12.8%p 높다. 다만 이 수치는 독립 기관 검증이 아직 이루어지지 않았다는 점을 유의해야 한다.

DSA(DeepSeek Sparse Attention)는 2,048개의 관련 토큰만 선별해 표준 어텐션 대비 약 50% 낮은 연산 비용으로 100만 토큰 컨텍스트를 처리한다. mHC(Manifold-Constrained Hyper-Connections)는 신호 증폭을 1.6배로 제한해 1조 파라미터 규모에서의 학습 안정성을 확보한다.

기술 스펙을 나열하면 실감이 안 날 수 있다. 실제로 이게 무슨 의미인지 한 가지만 짚어보겠다.

100만 토큰 컨텍스트가 진짜 바꾸는 건 ‘작업 방식’이다

100만 토큰은 단순한 용량 증가가 아니라 워크플로우의 변화를 의미한다. GPT-5.2의 컨텍스트 윈도우는 256K 토큰, Claude Opus 4.6은 200K(1M 베타)다. DeepSeek V4는 이 4배에 달하는 컨텍스트를 기본 제공한다.

지금까지 대형 문서를 AI로 처리하려면 ‘청킹(chunking)’이라는 워크어라운드가 필수였다. 문서를 잘게 쪼개서 여러 번 넣고, 결과를 다시 합치는 작업이다. 개발자라면 이 과정에서 맥락이 잘리는 고통을 한번쯤 겪어봤을 것이다.

100만 토큰이면 500개 이상의 코드 파일을 통째로 넣을 수 있다. 수천 페이지 계약서를 분리 없이 일괄 분석할 수 있다. 수백 편의 논문을 한 번에 통합 분석해서 가설을 뽑아낼 수 있다. 청킹 워크어라운드가 사라진다는 건, AI가 ‘부분적 이해’에서 ‘전체 맥락 파악’으로 넘어간다는 뜻이다.

가격 이야기를 안 할 수 없다.

GPT-5 대비 최대 50배 저렴한 가격표

모델입력 토큰 가격(/1M)컨텍스트 윈도우라이선스
DeepSeek V4$0.10~0.301M 토큰오픈소스(Apache 2.0 예상)
GPT-5.2 Standard$1.75256K 토큰독점
Claude Opus 4.6$5.00200K (1M 베타)독점

Claude Opus 4.6 대비 약 17~50배, GPT-5.2 대비 약 6~17배 저렴하다. 캐시 히트까지 고려하면 격차는 더 벌어진다. TLDL의 2026년 3월 LLM 가격 비교에 따르면, 캐시 히트 시 DeepSeek은 OpenAI 대비 입력 토큰 기준 약 90배, Claude 대비 약 500배까지 저렴해진다.

이 가격이 실현되면 이전에는 비용 부담으로 포기했던 AI 활용 케이스가 경제적으로 타당해진다. Goldman Sachs도 DeepSeek의 저비용 모델이 AI 도입 사례와 활용도를 확대할 것이라고 전망한 바 있다. 대규모 배치 처리, 고빈도 API 호출, 프로토타이핑 단계에서 비용 절감 효과가 극대화된다.

그런데 이 모델을 당장 도입해도 되는 걸까. 솔직히 말하면, 지금은 아니다.

보안 취약점: 유해 프롬프트 차단율 0%

DeepSeek 모델 계열의 보안은 현재로서는 심각한 수준이다.

Cisco 연구진이 HarmBench 벤치마크로 테스트한 결과, DeepSeek R1의 유해 프롬프트 차단율은 0%였다. GPT-4o는 86%, Google Gemini는 64%를 기록한 것과 비교하면 격차가 크다. Qualys도 885건의 공격 테스트에서 58%를 통과시켰다고 보고했다. ChatGPT에서 이미 패치된 jailbreak 기법이 DeepSeek에서는 그대로 작동한다.

2026년 Nature Communications에 게재된 연구에서도 DeepSeek-R1은 전체 벤치마크 항목에서 최대 해악 점수 90%를 기록하며 테스트 대상 모델 중 가장 취약한 것으로 나타났다.

보안만이 아니다. 데이터 프라이버시 리스크도 구조적이다. DeepSeek 서비스 약관은 중국 법률을 적용하고, 사용자 데이터를 중국 서버에 저장한다. Feroot Security는 DeepSeek 앱에서 키 입력 속도, 리듬, 지속 시간 같은 바이오메트릭 데이터를 수집하는 코드를 발견했다. 이탈리아, 대만, 호주, 미국 NASA 등이 이미 정부 기기에서의 DeepSeek 사용을 제한하고 있다.

이런 상황에서 기업이 퍼블릭 API로 민감 데이터를 처리하는 건 권장하기 어렵다.

화웨이 독점 접근과 AI 공급망 분열

기술과 비용만큼이나 주목해야 할 건 지정학적 맥락이다. DeepSeek은 V4 최적화 기회를 화웨이에만 제공하고 NVIDIA, AMD를 차단했다. AI 업계가 수십 년간 유지해 온 관례에서 벗어난 결정이다.

화웨이 독점 접근
출처: The China Academy

미국의 수출 규제로 고급 NVIDIA GPU 접근이 제한되자, 오히려 중국 독자 AI 공급망 구축이 가속화되는 역설적 상황이 벌어지고 있다. 화웨이 어센드 910C는 NVIDIA H100 추론 성능의 60%를 달성하며, 소프트웨어 최적화로 격차를 좁히는 중이다.

2026년 현재 AI 생태계는 사실상 두 축으로 분열되고 있다. 미국 중심(NVIDIA + OpenAI/Anthropic/Google)과 중국 중심(화웨이/캄브리콘 + DeepSeek/Qwen). 한국 기업은 이 두 생태계 사이에서 전략적 선택을 강요받는 위치에 놓여 있다.

여기에 Anthropic의 지식 증류 고발까지 겹쳤다. 2026년 2월, Anthropic은 DeepSeek을 포함한 중국 AI 기업들이 약 2.4만 개 사기 계정으로 Claude와 1,600만 건 이상의 교환을 생성해 모델 능력을 추출했다고 공개했다. CNBC, Fortune, TechCrunch 등 주요 매체가 이를 보도했고, DeepSeek 측은 아직 공식 입장을 내지 않고 있다.

Anthropic 지식 증류 고발
출처: TechCrunch

인사이트

비용 파괴자로서의 가치는 실질적이다. GPT-5나 Claude 기반 AI 프로젝트를 운영 중이라면, DeepSeek V4 출시 후 비민감 데이터 영역에서의 비용 비교는 해볼 만하다. 대규모 배치 처리, 프로토타이핑, 코드 생성 같은 영역에서 연간 비용 절감 효과가 상당할 수 있다.

오픈소스 + 온프레미스 조합은 벤더 락인의 대안이 된다. Apache 2.0 라이선스로 출시될 경우, 라이선스 비용 없이 파인튜닝과 온프레미스 배포가 가능하다. OpenAI나 Anthropic 단일 공급망 의존도를 줄이는 전략적 수단으로 검토할 수 있다. 다만 보안과 프라이버시 문제를 해결하기 위해 퍼블릭 API가 아닌 온프레미스 배포가 전제 조건이다.

마무리

DeepSeek V4는 ‘저비용 고성능’의 기회와 ‘신뢰성 미검증’의 리스크가 공존하는 모델이다. 공식 출시 전이고, 내부 벤치마크 수치는 독립 검증을 거치지 않았으며, 보안 취약점은 현재 수준에서 심각하다.

당장 할 수 있는 한 가지가 있다면, V3.1-Terminus(685B, MIT 라이선스)로 비민감 데이터 파이럿을 먼저 돌려보는 것이다. V4가 나오면 독립 벤치마크를 확인하고, 레드팀 테스트를 거친 뒤 단계적으로 도입 범위를 넓혀가면 된다.

솔직히 이 모델이 약속한 것들을 전부 지킬 수 있을지는 아직 모른다. 하지만 AI 비용 구조에 균열이 생기고 있다는 건 확실하다.


참고 자료