• 생각의 사슬(CoT) 프롬프팅은 대규모 언어 모델(LLM)에서 추론을 유도한다
    • 생각의 사슬(Chain-of-Thought, CoT) 프롬프팅은 퓨샷 예시(few-shot exemplars)에 풀이 과정에 대한 예시를 포함함으로써 LLM이 복잡한 다단계 추론을 수행할 수 있도록 합니다. 이 방법은 산술, 상식, 기호 추론 벤치마크에서 상당한 성능 향상을 가져왔으며, 특히 Google Research, Brain Team이 개발한 PaLM 540B와 같이 1000억 개 이상의 매개변수를 가진 모델에서 두드러졌습니다.
  • ReAct: 언어 모델에서 추론과 행동의 시너지화
    • 프린스턴 대학교와 구글 리서치 연구진은 대규모 언어 모델이 내부 사고와 외부 행동을 교차시킴으로써 추론과 행동을 시너지 효과를 내게 하는 ReAct라는 패러다임을 소개했습니다. 이 접근 방식은 ALFWorld 벤치마크에서 71%, WebShop에서 40%의 인상적인 성공률을 달성했으며, 이전 방법들을 크게 능가함과 동시에 지식 집약적 작업에서 환각 오류를 현저히 줄였습니다.
  • Lost in the Middle: 언어 모델은 긴 컨텍스트를 어떻게 사용하는가?
    • 최첨단 언어 모델은 긴 컨텍스트를 처리할 때 “U자형” 성능 곡선을 보여주는데, 이는 중간에 위치한 정보가 시작이나 끝에 있는 정보에 비해 덜 효과적으로 검색되거나 활용됨을 의미합니다. 이는 단순히 모델의 컨텍스트 창을 늘리는 것이 전체 길이에 걸쳐 견고한 정보 접근을 보장하지 않는다는 것을 나타냅니다.
  • 제로샷 프롬프트에서 어떤 단어가 가장 중요한가?
    • 이 연구는 대규모 언어 모델(LLM)에 대한 지시 프롬프트에서 개별 단어의 영향을 정량화하는 모델 불가지론적 방법인 ZIP(Zero-shot Importance of Perturbation) 점수를 소개합니다. 컨텍스트을 인식하는 단어 교란을 활용하는 이 기술은 맞춤형 검증 벤치마크에서 핵심 단어를 식별하는 데 90%의 정확도를 달성했으며, 단어 중요도와 모델 성능 사이에 일관된 역상관 관계가 있음을 밝혀냈습니다.
  • 대규모 언어 모델(LLM)을 위한 컨텍스트 엔지니어링 종합 연구
    • 연구진은 거대 언어 모델에 제공되는 정보를 최적화하기 위한 체계적인 분야로 “컨텍스트 엔지니어링”을 공식화하고, 파편화된 연구 영역을 통합하는 포괄적인 분류 체계를 제안합니다. 그들의 분석은 LLM이 강력한 이해력을 보여주지만, 그만큼 정교한 긴 형식의 출력을 생성하는 데는 한계를 보이는 중요한 “이해-생성 비대칭성”을 밝혀냈습니다.
  • 프롬프트 설계 시 언어 모델의 허위 특성 민감도 정량화 또는: 내가 프롬프트 포맷팅에 대해 걱정하기 시작한 방법
    • 이 논문은 대규모 언어 모델이 프롬프트 형식의 미묘하고 의미적으로 동일한 변화에 얼마나 민감한지를 정량화하며, 일부 작업에서 최대 76점의 정확도 차이를 밝혀냈습니다. 이 연구는 이러한 민감성이 모델 규모와 명령어 튜닝 전반에 걸쳐 지속됨을 보여주며, 현재의 LLM 평가 및 비교 방법론에 도전합니다.
  • 프롬프트 형식이 LLM 성능에 영향을 미치는가?
    • 이 논문은 다양한 프롬프트 형식 스타일이 대규모 언어 모델 (LLM)의 성능에 어떻게 영향을 미치는지 조사합니다.
  • 환상적인 순서의 프롬프트, 어디서 찾을까?: Few-shot 프롬프트 순서 민감성 극복
    • 유니버시티 칼리지 런던의 연구진은 대규모 언어 모델의 few-shot 인컨텍스트 학습 성능이 프롬프트 내 예시의 순서에 매우 민감하다는 것을 밝혔다. 그들은 추가적인 레이블링된 데이터 없이도 인공적이고 레이블링되지 않은 프로빙 세트를 생성하여 성능이 뛰어난 프롬프트 순서를 선택하는 엔트로피 기반 프로빙 방법을 제안했으며, 다양한 텍스트 분류 작업에서 평균 13%의 상대적 성능 향상과 분산 감소를 달성했다.
  • 퓨샷 딜레마: 대규모 언어 모델의 과도한 프롬프팅
    • 이 연구는 과도한 예시가 특정 도메인 작업에서 대규모 언어 모델(LLM)의 성능 저하를 초래하는 현상인 “과도한 프롬프트(over-prompting)“를 식별하고 특성을 규명합니다. 연구 결과, TF-IDF 기반 예시 선택이 종종 우수하며, 최적의 프롬프트 설정을 사용한 LLaMA-3.1-8B-instruct가 95%의 가중 F1 점수를 달성하여 이진 소프트웨어 요구사항 분류에서 최신 미세 조정된 BERT 모델을 능가함을 보여줍니다.
  • 패러프레이즈 유형에 따른 프롬프트 엔지니어링 능력 유도
    • 프롬프트의 언어적 변형(형태론, 구문, 어휘, 어휘+구문, 담화, 기타 등 6가지 패밀리)이 120개의 다양한 작업에서 대규모 언어 모델(LLM)의 성능에 미치는 영향을 체계적으로 평가하는 실증 연구입니다. 이 연구는 특정 어휘 및 구문 변경이 중앙값 성능을 1% 이상 꾸준히 향상시키며, Gemma 7B와 같은 소규모 모델은 프롬프트 조정(prompt adaptation)을 통해 중앙값에서 최대 13.4%의 성능 향상을 보이는 것을 밝혀냈습니다.