AI PM의 새로운 필수 역량: AI Eval (평가)

AI PM(프로덕트 매니저)으로 업무를 전환한 뒤 느낀 것이 있습니다.

평가(Evaluation, 줄여서 Eval) 능력이 AI PM의 핵심 역량이라는 것이죠.

모델의 기능을 평가하고 활용하려면 평가 방법이 필요합니다. 실제 모델을 활용한 AI 제품의 상품화를 위해서도 평가가 필요하고요.

LLM의 능력은 모두 알 수 없습니다. 그래서 AI PM은 평가를 통해 모델의 기능을 파악해야 합니다. 이때 ‘LLM as a Judge’를 활용할 수 있죠.

오늘은 Lenny’s Podcast “Why AI evals are the hottest new skill for product builders“의 내용을 공유하고자 합니다.

Eval이 무엇인가요?

간단하게 말하면 AI 애플리케이션의 품질을 체계적으로 측정하고 개선하는 방법입니다.

LLM 애플리케이션에 대한 데이터 분석을 체계적으로 수행하는 것이죠.

AI 제품을 개발하다 보면 이런 상황을 마주합니다. 고객에게 이메일을 제대로 보내지 못하거나, 잘못된 답변을 하는 문제가 발생할 때요. Eval이 없다면 우리는 그저 추측에 의존할 수밖에 없습니다.

AI Eval을 표현하는 이미지 (이미지 출처: Genspark로 생성)

제가 발견한 두 가지 핵심 인사이트

이 팟캐스트를 들으면서 정말 인상 깊었던 포인트가 두 가지 있습니다.

하나는 제가 실제로 겪었던 문제를 정확히 짚어주었고요. 다른 하나는 제 업무 방식을 완전히 바꿔놓았습니다.

첫 번째: LLM을 Judge로 활용할 때는 반드시 2진 결정 기법을 사용하세요

LLM as a Judge를 활용할 때 중점적으로 고려해야할 부분입니다.

Yes or No / True or False

2진 결정의 기법으로 작성을 해야한다는 것입니다.

2진 결정 기법을 활용한 Eval 필요 (이미지 출처: Genspark로 생성)

왜 그럴까요?

기본적으로 LLM은 할루시네이션의 특성을 가지고 있기 때문입니다.

LLM이 평가하는 LLM as a Judge 방식은 LLM 자체가 잘못된 판단을 내릴 수 있습니다. 그래서 그 판단 자체를 다시 평가해야 하는 ‘메타 평가’가 필요하죠.

실제 업무에서 LLM as Judge를 활용한 경험

저는 업무를 수행하면서 점수 척도로 LLM as Judge를 활용해봤습니다.

어느정도 원하는 평가 결과를 볼 수 는 있었지만 정확한 평가를 하는 것에는 무리가 있었습니다. 그 이유는 모호성에 있습니다.

점수가 낮은 것은 사람이 다시 확인하는 방식으로 대응할 수 있습니다. 하지만 높은 점수를 받은 결과까지 신뢰할 수 없다면 어떻게 될까요? 평가 시스템에 대한 신뢰 떨어지고 결국에는 사람이 모든 평가를 다시 리뷰해야하는 문제가 생기게 됩니다.

그래서 명확한 기준이 필요합니다.

두 번째: 평가 프롬프트는 새로운 형태의 PRD입니다

이 관점이 제 업무 방식을 완전히 바꿔놓았습니다.

LLM as a Judge 프롬프트는 제품이 어떻게 작동해야 하는지에 대한 요구 사항을 담고 있습니다.

그렇게 때문에 AI PM에게 새로운 PRD가 될 수 있다는 것입니다.

실제 활용 방법

2진 기법으로 작성한다면 요구사항과 같은 형태로 제품 명세를 작성할 수 있습니다.

예를 들어, 인간 인계 판단을 위한 평가 프롬프트는 이렇게 작성할 수 있습니다:

  • 사용자가 명시적으로 인간 상담을 요청했는가? (Yes/No)
  • 정책상 의무적으로 전환이 필요한 상황인가? (Yes/No)
  • 민감한 문제로 인간 개입이 필요한가? (Yes/No)
  • AI가 답변하기에 충분한 정보가 없는가? (Yes/No)

이런 식으로 평가 프롬프트를 통해 모델 연구자와 커뮤니케이션할 수 있습니다. 그리고 그것을 그대로 평가로 활용할 수 있죠.

데이터 분석을 통해 실제 문제점을 발견하면, PRD를 업데이트하듯이 평가 프롬프트를 개선할 수 있습니다.

마치며

평가(Eval)는 AI PM의 새로운 필수 역량입니다.

처음에는 어렵게 느껴질 수 있습니다. 하지만 한 번 시작하면 생각보다 어렵지 않다는 것을 알게 될 것입니다.

작게 시작하세요. 몇 개의 사례부터 분석해보세요. 2진 결정 기법으로 평가 기준을 만들어보세요.

그리고 그것을 PRD처럼 활용해보세요.

AI 시대에 AI PM에게 필수적인 역량이 쌓일 것입니다.

위로 스크롤