https://arxiv.org/pdf/2310.11324v2
Tldr
이 논문은 대규모 언어 모델이 프롬프트 형식의 미묘하고 의미적으로 동일한 변화에 얼마나 민감한지를 정량화하며, 일부 작업에서 최대 76점의 정확도 차이를 밝혀냈습니다. 이 연구는 이러한 민감성이 모델 규모와 명령어 튜닝 전반에 걸쳐 지속됨을 보여주며, 현재의 LLM 평가 및 비교 방법론에 도전합니다.
서론
대규모 언어 모델(LLM)은 입력 프롬프트에 제공된 예시를 통해 모델이 작업을 수행할 수 있는 인컨텍스트 학습(in-context learning) 능력으로 자연어 처리 분야를 혁신했습니다. 그러나 효과적인 프롬프트를 설계하는 과정은 과학보다는 예술에 가까워, 연구자와 실무자들은 최적의 형식을 만들기 위해 직관과 시행착오에 의존하는 경우가 많습니다. Sclar 외 연구진의 이 논문은 프롬프트 엔지니어링의 중요하지만 탐구되지 않은 측면, 즉 프롬프트의 의미론적 의미를 보존하는 겉보기에 사소한 서식 선택에 대한 LLM의 민감성을 다룹니다.
그림 1: 의미적으로 동등한 프롬프트 형식이라도 극적으로 다른 성능 결과를 낼 수 있습니다. 이 예시는 독해 작업에서 구분자, 대소문자, 간격을 변경하는 것이 LLaMA-2-13B의 정확도에 76.8% 포인트 차이를 가져왔음을 보여줍니다.
이 연구는 많은 사람들이 중요하지 않다고 생각하는 스타일 결정, 예를 들어 구분자로 콜론 대신 마침표를 사용하거나 필드 사이의 간격을 달리하는 것이 모델 성능에 극적으로 영향을 미칠 수 있음을 밝혀냈습니다. 이 발견은 LLM을 실제로 평가하고 비교하며 배포하는 방식에 지대한 영향을 미칩니다.
문제 정의 및 동기
현재 LLM 평가 관행은 일반적으로 단일하고 종종 임의로 선택된 프롬프트 형식을 사용하여 성능을 보고합니다. 이러한 접근 방식은 사소한 서식 변경이 결과에 미미한 영향을 미친다고 가정하여, 연구자들이 주로 지시의 명확성 및 소수샷 예시 선택과 같은 프롬프트 설계의 의미론적 측면에 집중하게 합니다. 그러나 일화적인 증거에 따르면 표면적인 서식 변경이 모델 동작에 상당한 영향을 미칠 수 있습니다.
저자들은 프롬프트의 의미론적 내용(어떤 작업을 요구하는지)과 그 형식(정보가 어떻게 제시되는지)을 구별함으로써 이러한 현상을 공식적으로 조사합니다. 그들은 “그럴듯한 프롬프트 형식”을 인간 독자가 동등하게 이해할 수 있는 동일한 의미론적 정보를 제시하는 다양한 방식으로 정의합니다. 핵심 질문은 다음과 같습니다: 의미적으로 동등하지만 스타일적으로 다른 이러한 프롬프트 형식 간에 성능이 얼마나 달라지는가?
이러한 민감성은 여러 가지 중요한 이유로 중요합니다. 첫째, 모델 평가의 신뢰성과 다른 LLM 간의 비교에 영향을 미칩니다. 둘째, 사용자가 동일한 요청을 다양한 형식으로 자연스럽게 표현할 수 있는 배포된 시스템의 견고성에 영향을 미칩니다. 마지막으로, LLM이 훈련 중에 실제로 무엇을 학습하고 입력 표현을 어떻게 처리하는지에 대한 우리의 이해에 도전합니다.
방법론 및 기술적 접근 방식
연구원들은 프롬프트 서식에 대한 LLM 민감도를 정량화하기 위해 FORMATSPREAD 알고리즘을 중심으로 체계적인 프레임워크를 개발했습니다. 그들의 접근 방식은 세 가지 핵심 구성 요소로 이루어져 있습니다:
문법 기반 형식 공간 정의: 무작위 변형을 테스트하는 대신, 저자들은 백커스-나우르 형식(BNF)을 사용하여 그럴듯한 프롬프트 형식의 공간을 정의하는 공식 문법을 구성했습니다. 이 문법은 다음을 포함한 다양한 서식 요소를 지정합니다:
- 구분자(콜론, 마침표, 대시 등)
- 대소문자 변환 함수(소문자, 대문자, 제목 대문자)
- 필드 간의 간격 패턴
- 객관식 질문을 위한 항목 열거 스타일
이 문법에는 생성된 모든 형식이 자연스럽고 인간이 해석할 수 있도록 보장하는 문맥적 제약이 포함됩니다.
성능 편차 정량화: 저자들은 동일한 의미론적 내용에 대해 다른 프롬프트 형식에서 달성된 최대 및 최소 작업 정확도 간의 차이를 “성능 편차”로 정의합니다. 이 지표는 서식 민감도에 대한 그들의 주요 측정 기준으로 사용됩니다.
다중 무장 강도에 의한 효율적인 탐색: 모든 가능한 형식을 철저히 테스트하는 것은 계산상 불가능하기 때문에, 연구자들은 이 문제를 다중 무장 강도 최적화 작업으로 구성합니다. 그들은 다음을 특징으로 하는 Thompson Sampling을 사용하여 FORMATSPREAD를 구현합니다:
- 각 프롬프트 형식은 “팔”을 나타냅s니다.
- 숨겨진 보상은 전체 데이터셋에 대한 실제 성능입니다.
- 관찰된 보상은 미니배치에 대한 성능 추정치입니다.
- 이 알고리즘은 고정된 평가 예산 내에서 형식 공간을 효율적으로 탐색합니다.
탐색은 두 단계로 진행됩니다: 첫 번째 단계에서는 예산의 절반을 사용하여 최고 성능의 형식을 식별하고, 그 다음에는 첫 번째 단계의 지식을 활용하여 효율성을 개선하며 나머지 평가로 최저 성능의 형식을 찾습니다.
실험 설계 및 결과
평가는 Super-NaturalInstructions의 53개 분류 작업과 Instruction Induction의 10개 텍스트 생성 작업을 포함하며, 여러 오픈 소스 모델(LLaMA-2 변형, Falcon 모델) 및 API 기반 GPT-3.5-Turbo를 통해 테스트되었습니다. 연구자들은 데이터셋 크기를 1,000개 샘플로 표준화하고, 형식화 효과를 분리하기 위해 few-shot 예제 선택을 제어했습니다.
광범위한 큰 성능 편차: 결과는 테스트된 모든 조건에서 놀라운 민감도를 보여줍니다. 최대 76 정확도 포인트의 성능 편차가 관찰되었으며, 모든 모델-작업 조합에서 중앙값 편차는 7.5 포인트였습니다. 결정적으로, 작업의 20%는 LLaMA-2 모델의 경우 최소 15 포인트의 편차를 보였는데, 이는 무작위 형식 10개만 샘플링했을 때도 발생했으며, 이는 실제 편차의 하한선을 나타냅니다.
그림 2: 모델 크기나 예제 수에 관계없이 지속적인 민감도를 보여주는 다양한 모델 및 few-shot 설정에서의 성능 편차 분포.
스케일링 및 훈련은 민감도를 제거하지 않습니다: 예상과는 달리, 민감도는 모델 스케일 및 훈련 패러다임 전반에 걸쳐 지속됩니다.
- 7B에서 70B 파라미터로의 모델 크기 스케일링은 형식화 민감도를 일관되게 감소시키지 않습니다.
- 더 많은 few-shot 예제(1-shot vs 5-shot)를 추가하는 것이 효과를 확실히 완화하지 않습니다.
- 지시 튜닝된 모델도 형식화 선택에 여전히 상당히 민감합니다.
- GPT-3.5-Turbo와 같은 고급 모델조차도 상당한 편차(중앙값 6.4 포인트, 최대 56.2 포인트)를 보입니다.
형식 성능은 모델에 따라 다릅니다: 중요한 발견은 한 모델에서 잘 작동하는 프롬프트 형식이 다른 모델로 반드시 이전되지 않는다는 것입니다. 다른 모델 간의 형식 순위 상관관계는 약하며(< 62%의 일관된 추세 확률), 단일 고정 프롬프트 형식을 사용하여 모델을 비교하는 일반적인 관행이 유효하지 않음을 입증합니다.
비단조 형식 공간: 프롬프트 형식 전반의 정확도 경관은 매우 불규칙하고 비단조적입니다. 원자적 형식 변경을 했을 때, 세 형식 시퀀스 중 약 32-34%만이 단조적인 성능 변화를 보였는데, 이는 본질적으로 무작위적 기회에 불과합니다. 이 발견은 지역 탐색 알고리즘이 프롬프트 최적화에 비효율적임을 시사합니다.
기술 분석 및 시사점
임베딩 분석: 예측 불가능한 성능 영향에도 불구하고, 다른 프롬프트 형식은 고도로 구별 가능한 내부 표현을 생성합니다. 모델의 은닉 상태에 주성분 분석을 사용하여, XGBoost 분류기는 임베딩만으로 프롬프트 형식을 식별하는 데 98% 이상의 정확도를 달성했습니다. 중요한 것은, 이 임베딩의 분리 가능성이 관찰된 성능 편차와 중간 정도의 상관관계를 보인다는 것인데, 이는 형식화가 모델의 내부 표현에 체계적이지만 복잡한 변환을 생성함을 시사합니다.
FORMATSPREAD 알고리즘 검증: 톰슨 샘플링(Thompson Sampling) 접근 방식은 합리적인 컴퓨팅 예산을 사용하여 1 정확도 포인트 이내로 실제 성능 스프레드를 추정하는 데 매우 효과적임을 입증합니다. 이러한 효율성 덕분에 이 도구는 연구 개발 워크플로우에서 체계적인 프롬프트 분석에 실용적입니다.
그림 3: 톰슨 샘플링을 사용하는 FORMATSPREAD는 다른 접근 방식보다 훨씬 빠르게 정확한 스프레드 추정치에 수렴하여 체계적인 프롬프트 형식 분석을 계산적으로 실현 가능하게 만듭니다.
원자적 변경 분석: 개별 형식 요소는 전반적인 예측 가능성이 약하더라도 극적인 영향을 미칠 수 있습니다. 예를 들어, 특정 작업에서 구분 기호를 변경하면 최대 78% 포인트의 차이가 발생했으며, 대소문자 변경은 다른 작업에서 10포인트 이상의 변화를 일으켰습니다. 이는 단순한 가산 효과보다는 형식 요소 간의 복잡한 상호 작용을 시사합니다.
광범위한 함의 및 중요성
이 연구는 LLM 평가 및 배포의 현재 관행에 근본적으로 도전합니다. 형식에 대한 민감성이 입증된 바에 따르면:
평가 방법론 변경 필요: 단일 지점 성능 추정치는 불충분하며 잠재적으로 오해의 소지가 있습니다. 저자들은 단일 지점 추정치 대신 여러 그럴듯한 형식에 걸친 성능 범위를 보고할 것을 권장합니다. 이러한 변화는 모델의 기능과 한계에 대한 보다 현실적인 평가를 제공할 것입니다.
모델 비교 수정 필요: 형식 선호도는 모델마다 다르기 때문에 공정한 모델 비교는 단일하고 임의로 선택된 형식에 의존할 수 없습니다. 비교는 각 모델에 대해 형식을 별도로 최적화하거나 형식에 걸친 성능 분포를 보고해야 합니다.
배포 견고성 중요: 실제 애플리케이션의 경우, 사용자 입력 변형에 따른 예상 성능 범위를 이해하는 것이 안정적인 시스템 동작에 필수적입니다. FORMATSPREAD는 개발 중 이러한 견고성을 평가하기 위한 실용적인 도구를 제공합니다.
학습에 대한 근본적인 질문: 규모와 훈련 접근 방식에 걸쳐 형식 민감성이 지속되는 것은 현재 LLM이 취약한 방식으로 표면적인 입력 특징에 의존하도록 학습한다는 것을 시사합니다. 이는 보다 견고한 내부 표현을 장려하는 훈련 기술의 필요성을 지적합니다.
결론 및 향후 방향
본 연구는 LLM의 프롬프트 형식 민감도를 체계적으로 정량화한 최초의 연구이며, 이는 모델 평가, 비교 및 배포에 영향을 미치는 만연하고 중요한 현상임을 밝혀냈습니다. FORMATSPREAD 알고리즘은 이러한 민감도를 측정하는 실용적인 도구를 제공하는 동시에, 경험적 발견은 LLM 견고성에 대한 근본적인 가정에 도전합니다.
이 연구는 형식 민감도를 줄이기 위한 훈련 방법 개발, 형식 종속적 행동의 기계론적 기반 이해, 형식 효과를 고려하는 표준화된 평가 프로토콜 구축을 포함하여 미래 연구를 위한 여러 중요한 길을 열어줍니다. 분야가 더욱 신뢰할 수 있고 견고한 언어 모델을 향해 나아가면서, 이러한 형식 민감도를 해결하는 것은 신뢰할 수 있는 AI 시스템을 구축하는 데 매우 중요할 것입니다.