개요

프롬프트 엔지니어링은 모델의 잠재적 역량을 효과적으로 활용하는 데 중점을 둔 분야입니다. 최근 이 분야에서 주목받고 있는 기법은 Verbalized Sampling(VS) 입니다.

Stanford 대학 연구진이 2024년 10월 발표한 논문 “VERBALIZED SAMPLING: HOW TO MITIGATE MODE COLLAPSE AND UNLOCK LLM DIVERSITY”에서 VS 기법에 대한 자세한 내용을 확인할 수 있습니다.

Verbalized Sampling(VS)이란?

Verbalized Sampling(VS) 기법은 LLM이 생성하는 응답의 의미적 다양성(semantic diversity) 을 크게 향상시키는 방법입니다.

VS는 단일 응답을 요청하는 기존의 방식과 달리, “여러 개의 응답과 각 응답의 확률(혹은 자신감)을 함께 제시하라” 는 방식으로 모델에 지시합니다. 이를 통해 LLM이 내부적으로 고려하는 다양한 분포(distribution)를 노출시킬 수 있습니다.

프롬프트 예시 비교

표준 프롬프트

11월 빼빼로 데이를 위한 마케팅 문구를 생성해주세요.

VS 기반 프롬프트

11월 빼빼로 데이를 위한 마케팅 문구 5개를 생성해주세요.
각 응답은 별도의 태그 안에 넣어주세요.
각 응답에는 <text>와 숫자 형태의 <probability> 요소가 포함되어야 합니다.
응답은 전체 분포의 꼬리 부분(tails of the distribution)에서 무작위로 샘플링하여
각 응답의 확률이 0.10 미만이 되도록 해야 합니다.

왜 확률을 함께 제시하는가?

확률을 제시하게 하는 아이디어는 GPT-3.5-Turbo 시대에도 존재했지만, 당시에는 결과 차이가 미미했습니다. 그러나 최근 고성능 모델에서는 VS 기법을 적용할 경우 결과의 다양성이 눈에 띄게 향상됩니다.

모드 붕괴(Mode Collapse) 문제

현재의 대규모 언어 모델(LLM)은 사용자의 피드백(정답, 양질의 응답)에 기반하여 ‘가장 빈번하고 안전한 답변’을 생성하는 경향이 두드러지게 나타납니다. 결과적으로, 출력물의 다양성이 저하되고 유사한 문장이 반복되는 현상이 발생하고 있습니다.

VS(Verbalized Sampling) 기법은 이러한 한계를 극복하고 문장과 아이디어의 다양성을 증진시키기 위해 고안된 방법입니다.

VS 기법의 효과

주요 성과

창의적인 영역 과제에서 문장의 다양성이 평균 1.6배에서 2.1배 증가하는 것으로 나타났습니다.

실험 결과, VS는 다음 영역에서 성능을 크게 향상시켰습니다:

  • 창작 글쓰기 (시, 이야기, 농담)
  • 대화 시뮬레이션
  • 개방형 QA
  • 합성 데이터 생성

주의 사항

VS 기법 적용 시 다음과 같은 사항을 고려해야 합니다:

  1. 확률값의 정확성: 모델이 제시하는 확률값이 실제 내부 확률을 정확히 반영하지 않을 가능성이 존재합니다.

  2. 실제 서비스 적용 시 고려사항: 속도 저하 또는 해석 가능성(interpretability) 저하 등의 부담이 발생할 수 있습니다.

VS가 갖는 두 가지 의미

1. 프롬프트 엔지니어링의 본질적인 확장

프롬프트 엔지니어링은 “단일 문장을 효과적으로 작성하는 기술”이 아니라, **“모델이 고려하는 다양한 가능성을 명확하게 드러내는 기술”**로 발전하고 있습니다.

2. 프롬프트 설계의 중요성

단순히 모델이 생성한 문장을 수정하기 위해 Temperature, Top-P 등의 하이퍼 파라미터를 조정하는 것이 아니라, 입력 프롬프트를 정교하게 설계하는 것이 중요합니다.

결론

대규모 언어 모델에게 단순히 질문을 제시하는 것이 아니라, 프롬프트를 통해 모델이 어떻게 다양한 가능성을 표현하도록 유도할 것인지에 대한 전략적 고민이 필요합니다.


참고 논문

Verbalized Sampling: How to Mitigate Mode Collapse and Unlock LLM Diversity

초록

학습 후 정렬은 종종 LLM의 다양성을 감소시켜 모드 붕괴라는 현상을 초래합니다. 이러한 효과를 알고리즘의 한계로 돌리는 이전 연구와 달리, 우리는 인지 심리학에서 확립된 연구 결과에 따라 주석 작성자가 익숙한 텍스트를 체계적으로 선호하는 선호 데이터의 전형성 편향이라는 근본적이고 만연한 데이터 수준의 동인을 파악합니다. 이 편향을 이론적으로 공식화하고, 선호도 데이터 세트에서 이를 경험적으로 검증하며, 모드 붕괴의 핵심적인 역할을 한다는 것을 보여줍니다.

이 분석에서 얻은 동기를 바탕으로 모드 붕괴를 피할 수 있는 간단하고 훈련이 필요 없는 프롬프트 전략인 언어화된 샘플링을 도입했습니다. VS는 모델에 일련의 응답에 대한 확률 분포를 언어화하라는 메시지를 표시합니다(예: “커피에 대한 5가지 농담과 그에 해당하는 확률 생성”).

종합적인 실험 결과, VS는 사실의 정확성과 안전성을 유지하면서 창작 글쓰기(시, 이야기, 농담), 대화 시뮬레이션, 개방형 QA 및 합성 데이터 생성 전반에서 성능을 크게 향상시키는 것으로 나타났습니다. 예를 들어, 창의적 글쓰기에서 VS는 직접 프롬프트보다 다양성을 1.6~2.1배 증가시킵니다.

또한, 능력이 뛰어난 모델일수록 VS를 통해 더 많은 이점을 얻는다는 새로운 경향도 관찰되고 있습니다. 요약하자면, 우리의 연구는 모드 붕괴에 대한 새로운 데이터 중심적 관점과 사전 학습된 생성 다양성을 활용하는 데 도움이 되는 실용적인 추론 시간 해결책을 제공합니다.