본문 바로가기
카테고리 없음

언어 모델에서 문맥 내 학습(In-context learning)의 힘: 시맨틱 선행, 입력-라벨 매핑, 모델 스케일의 영향

by 외계인우주 2023. 3. 9.

I. 소개

최근 몇 년 동안 GPT-3와 같은 언어 모델은 사전 학습을 통해 방대한 양의 텍스트 데이터에서 학습할 수 있는 능력 덕분에 자연어 처리 작업에서 놀라운 성능을 보여 왔습니다. 그러나 추론 시점에 제시되는 문맥 내 예제에서 학습하는 능력, 즉 문맥 내 학습(ICL)은 여전히 진행 중인 연구 분야입니다. 이 연구에서는 시맨틱 선행과 입력-라벨 매핑이 언어 모델에서 ICL에 어떤 영향을 미치는지 조사합니다. 특히, 다양한 모델 제품군에서 레이블이 뒤집힌 ICL과 의미적으로 관련이 없는 레이블이 있는 ICL이라는 두 가지 설정을 살펴봅니다. 이러한 연구 결과는 언어 모델이 새로운 컨텍스트에 적응하고 제한된 데이터로부터 학습하는 방법을 조명하며, 이는 실제 애플리케이션에서 언어 모델을 사용하는 데 중요한 의미를 갖습니다.

II. 언어 모델의 상황 내 학습(ICL)에 대한 배경

언어 모델의 문맥 내 학습(ICL)은 언어 모델이 새로운 문맥에 적응하고 추론 시점에 제시된 제한된 데이터로부터 학습하는 능력을 말합니다. 언어 모델은 일반적으로 방대한 양의 텍스트 데이터에 대해 사전 학습되기 때문에 추론 중에 마주치는 예제의 특정 입력 레이블 매핑이나 문맥적 뉘앙스를 보지 못했을 수 있으므로 이는 어려운 문제입니다.

ICL은 소수의 샷 학습, 제로 샷 학습, 작업별 미세 조정 등 다양한 형태로 연구되어 왔습니다. ICL의 경우, 모델에 입력과 레이블로 구성된 컨텍스트 내 예제가 제시되고 컨텍스트에 따라 입력-레이블 매핑을 학습하도록 되어 있습니다. 이는 레이블이 특정 컨텍스트나 작업에 한정되어 있어 쉽게 사전 학습할 수 없는 애플리케이션에 특히 유용합니다.

이전 연구에 따르면 더 복잡한 패턴을 포착할 수 있고 정보를 저장할 수 있는 용량이 더 크기 때문에 더 큰 언어 모델이 ICL 작업에서 더 나은 성능을 발휘하는 경향이 있는 것으로 나타났습니다. 그러나 ICL에서 의미론적 선행과 입력 레이블 매핑의 역할은 아직 잘 알려져 있지 않으며, 이 점이 본 연구의 초점입니다.

III. 실험 설정: 레이블이 뒤집힌 ICL과 의미적으로 관련이 없는 레이블이 있는 ICL

이번 연구에서는 언어 모델에서 문맥 내 학습(ICL)을 위한 두 가지 설정을 조사합니다: 레이블이 뒤집힌 ICL과 의미적으로 관련이 없는 레이블이 있는 ICL입니다.

레이블이 뒤집힌 ICL은 레이블이 뒤집혀 있거나 의미론적 선행과 모순되는 문맥 내 예제를 모델에 제시하는 것입니다. 예를 들어, 주어진 입력에 대한 의미론적 선행이 긍정적인 감정인 경우, 레이블이 뒤집힌 예제의 레이블은 부정적인 감정이 될 수 있습니다. 이 설정은 의미적 우선순위를 재정의하고 문맥에 제시된 모순된 정보에 적응하는 모델의 능력을 테스트합니다.

의미적으로 관련이 없는 레이블이 있는 ICL(SUL-ICL)은 레이블이 입력과 의미적으로 관련이 없는 문맥 내 예시를 모델에 제시하는 것입니다. 예를 들어, 긍정적인 감정과 부정적인 감정을 레이블로 사용하는 대신 foo와 bar를 레이블로 사용할 수 있습니다. 이 설정에서는 레이블에 대한 의미적 전임자가 더 이상 정보를 제공하지 않기 때문에 모델이 문맥 내 예시를 기반으로 입력-레이블 매핑을 학습하도록 합니다.

이 두 가지 설정을 사용하여 실험을 수행하여 다양한 모델 군의 ICL 작업 성능을 평가합니다. 우리의 목표는 의미론적 선행과 입력-라벨 매핑이 제한된 문맥 내 예제에서 학습하는 모델의 능력에 미치는 영향을 이해하는 것입니다.

IV. 연구된 모델 제품군: GPT-3, InstructGPT, Codex, PaLM, Flan-PaLM

상황 내 학습(ICL) 과제에서 언어 모델의 성능을 평가하기 위해 다섯 가지 모델 패밀리를 연구합니다:
1. GPT-3: OpenAI에서 개발한 최신 언어 모델로, 1750억 개 이상의 파라미터가 포함된 대규모 트랜스포머 기반 신경망으로 구성되어 있습니다.
2. InstructGPT: Microsoft Research에서 개발한 언어 모델로 대규모 프로그래밍 명령어 코퍼스를 기반으로 미세 조정되었습니다.
3. Codex: GitHub에서 개발한 언어 모델로, 대규모 프로그래밍 코드 코퍼스를 기반으로 미세 조정되었습니다.
4. PaLM: 예측 정렬 방법을 사용하여 입력 및 출력 시퀀스를 정렬하는 Facebook AI Research에서 개발한 언어 모델입니다.
5. Flan-PaLM: 평평한 잠재 공간과 피드포워드 디코더를 사용하는 Facebook AI Research에서 개발한 PaLM의 변형입니다.

이러한 모델 제품군은 언어 모델링에 대한 다양한 접근 방식을 대표하며 아키텍처, 크기, 사전 학습 코퍼스 등이 다양합니다. 뒤집힌 레이블과 의미적으로 관련이 없는 레이블이 있는 ICL 작업에서 이들의 성능을 평가함으로써 다양한 유형의 모델이 제한된 문맥 내 예제에서 어떻게 학습하는지에 대한 인사이트를 얻을 수 있습니다.

V. 결과: 레이블이 뒤집힌 ICL

레이블이 뒤집힌 문맥 내 학습(ICL)에 대한 실험 결과, 이전 연구와 일관되게 큰 모델이 작은 모델보다 더 나은 성능을 보이는 경향이 있는 것으로 나타났습니다. 그러나 의미적 선행어를 무시하고 문맥에서 모순되는 정보에 적응하는 능력은 모델 규모에 따라 달라질 수 있는 새로운 능력이라는 사실도 발견했습니다.

특히, 규모가 작은 언어 모델일수록 의미적 선행자에 크게 의존하고 문맥에 따라 제시되는 뒤집힌 레이블 예제를 무시하는 경향이 있는 반면, 규모가 큰 모델은 모순되는 예제가 제시될 때 의미적 선행자를 무시할 수 있다는 사실을 발견했습니다. 이는 더 큰 모델이 복잡한 패턴을 더 많이 학습할 수 있고 새로운 컨텍스트에 더 쉽게 적응할 수 있음을 시사합니다.

또한 특정 모델 패밀리가 다른 모델 패밀리에 비해 레이블이 뒤집힌 ICL에서 더 나은 성능을 보인다는 사실도 발견했습니다. GPT-3, InstructGPT, Codex는 모두 강력한 성능을 보인 반면, PaLM과 Flan-PaLM은 그다지 좋은 성능을 보여주지 못했습니다. 이는 다양한 아키텍처 및 학습 접근 방식이 레이블이 반전된 ICL을 수행하는 모델의 능력에 영향을 미칠 수 있음을 시사합니다.

전반적으로, 우리의 결과는 모델 규모가 레이블이 반전된 ICL에 중요한 요소이지만 아키텍처 및 사전 학습 코퍼스와 같은 다른 요소도 문맥에서 모순되는 정보에 적응하는 모델의 능력에 중요한 역할을 할 수 있음을 시사합니다.

VI. 결과: 의미적으로 관련 없는 레이블 ICL(SUL-ICL)

의미적으로 관련이 없는 레이블(SUL-ICL)을 사용한 문맥 내 학습(ICL)에 대한 실험을 통해 제한된 문맥 내 예제에서 입력-레이블 매핑을 학습하는 능력도 모델 규모에 따른 새로운 능력이라는 사실이 밝혀졌습니다.

작은 언어 모델은 SUL-ICL 작업에서 입력-라벨 매핑을 학습하는 데 어려움을 겪는 반면, 큰 모델은 이러한 환경에서 매핑을 학습하고 선형 분류까지 수행할 수 있다는 사실을 발견했습니다. 이는 레이블이 입력과 의미적으로 관련이 없는 경우에도 더 큰 모델일수록 입력과 레이블 간의 복잡한 관계를 학습할 수 있는 능력이 더 크다는 것을 시사합니다.

또한 특정 모델 패밀리가 SUL-ICL 작업에서 다른 모델보다 더 나은 성능을 보인다는 사실도 발견했습니다. 특히, InstructGPT가 강력한 성능을 보였으며, 그 뒤를 이어 Codex와 GPT-3이 그 뒤를 이었습니다. PaLM과 Flan-PaLM은 이 작업에서 다시 한 번 성능이 좋지 않았습니다.

흥미롭게도 특정 작업을 수행하기 위해 모델을 일련의 명령어에 따라 미세 조정하는 기술인 명령어 튜닝이 SUL-ICL 작업에서 모든 모델 군의 성능을 향상시킨다는 사실을 발견했습니다. 이는 명령어 튜닝이 제한된 문맥 내 예제에서 입력-라벨 매핑을 학습하는 모델의 능력을 향상시키는 데 유용한 기법이 될 수 있음을 시사합니다.

전반적으로, 우리의 결과는 모델 규모가 SUL-ICL에 중요한 요소이지만 아키텍처 및 훈련 기법(예: 명령어 튜닝)과 같은 다른 요소도 제한된 문맥 내 예제에서 입력 레이블 매핑을 학습하는 모델의 능력에 중요한 역할을 할 수 있음을 시사합니다.

VII. 명령어 조정 모델 평가

본 연구에서는 레이블이 뒤집힌 ICL과 SUL-ICL 과제 모두에서 인스트럭션 튜닝 모델의 성능도 평가했습니다. 인스트럭션 튜닝은 두 과제 모두에서 모든 모델 군의 성능을 향상시켰지만, 레이블이 뒤집힌 ICL에서 그 효과가 더 뚜렷하게 나타났다는 것을 발견했습니다.

특히, 인스트럭션을 튜닝한 모델은 레이블이 뒤집힌 ICL을 수행할 때 의미적 선행에 더 강하게 의존하는 것으로 나타났는데, 이는 인스트럭션 튜닝이 맥락에서 모순되는 예제에 적응할 때 모델이 기존 지식을 더 잘 활용할 수 있도록 도와줄 수 있음을 시사합니다. 하지만, 명령어 튜닝이 SUL-ICL 과제에서 제한된 문맥 내 예제에서 입력-레이블 매핑을 학습하는 모델의 역량을 강화한다는 사실도 발견했습니다.

전반적으로, 우리의 연구 결과는 인스트럭션 튜닝이 시맨틱 선행에 대한 의존도를 강화하고 입력 레이블 매핑을 학습하는 능력을 향상시킴으로써 제한된 문맥 내 예제에서 학습하는 모델의 능력을 향상시키는 데 유용한 기법이 될 수 있음을 시사합니다. 그러나 명령어 튜닝의 영향은 사용되는 특정 작업과 모델군에 따라 달라질 수 있습니다.

VIII. 결론 및 시사점

결론적으로, 이번 연구에서는 두 가지 실험 설정을 사용하여 언어 모델의 문맥 내 학습(ICL)이 의미론적 선행과 입력 레이블 매핑에 의해 어떻게 영향을 받는지 살펴보았습니다: 레이블이 뒤집힌 ICL과 의미적으로 관련이 없는 레이블이 있는 ICL(SUL-ICL)이 그것입니다. GPT-3, InstructGPT, Codex, PaLM, Flan-PaLM 등 여러 모델 패밀리의 성능을 평가한 결과, 모델 규모가 ICL 및 SUL-ICL 작업에 중요한 요소라는 것을 발견했습니다. 특히, 규모가 큰 모델일수록 시맨틱 선행어를 재정의하고 제한된 문맥 내 예제에서 입력-라벨 매핑을 더 잘 학습할 수 있다는 사실을 발견했습니다.

또한 인스트럭션 튜닝이 모델 성능에 미치는 영향을 평가한 결과, 인스트럭션 튜닝이 시맨틱 선행어에 대한 의존도를 강화하고 입력 레이블 매핑을 학습하는 능력을 향상시킴으로써 제한된 문맥 예제에서 학습하는 모델의 능력을 향상시키는 데 유용한 기법이 될 수 있음을 발견했습니다.

이 연구의 시사점은 두 가지입니다. 첫째, 우리의 연구 결과는 문맥 내 학습 과제를 위한 언어 모델을 개발할 때 모델 규모가 고려해야 할 중요한 요소임을 시사합니다. 이는 향후 언어 모델의 설계 및 훈련뿐만 아니라 특정 과제에 적합한 모델을 선택하는 데에도 영향을 미칠 수 있습니다.

둘째, 본 연구는 문맥 내 학습 과제에서 언어 모델의 성능을 개선하기 위한 인스트럭션 튜닝의 잠재적 이점을 강조합니다. 이는 제한된 문맥 내 예시로부터 학습하고 광범위한 작업에서 잘 수행할 수 있는 보다 강력하고 적응적인 언어 모델을 개발하는 데 영향을 미칠 수 있습니다.

전반적으로 이 연구는 언어 모델에서 문맥 내 학습에 영향을 미치는 요인에 대한 이해에 기여하고 다양한 애플리케이션을 위한 보다 효과적이고 적응적인 언어 모델을 개발하는 방법에 대한 통찰력을 제공합니다.

댓글