링크 : https://aclanthology.org/2023.acl-long.511.pdf

Abstract

Pre-trained Large Language Model(PLM)은 Natural Lnaguage Processing의 새로운 발전의 기반이 됩니다. 애플리케이션별 모델 파이프라인에서 다양한 작업에 적용할 수 있는 단일 모델로 분야를 전환했습니다. GPT-3 또는 PaLM과 같은 Autoregressive PLM은 few-shot learning과 같은 기술과 함께 출력 양식을 classification나 regression 대신 generation으로 전환했습니다.

언어 모델이 널리 사용되고 있음에도 불구하고 이러한 모델을 도입할 때 언어 모델의 생성 품질은 거의 평가되지 않습니다. 또한 기존의 생성 작업은 높은 수준에서 시스템을 비교하는 데는 사용할 수 있지만 사람들이 이를 채택하고 있는 실제 사용 사례와 어떤 관련이 있는지는 불분명합니다.

이 연구에서는 기존 애플리케이션별 생성 벤치마크를 PLM에 적용하는 방법을 논의하고 규모, 아키텍처, 입력 및 출력 언어와 같은 차원에서 자연어 생성 작업에서 PLM의 한계와 기능에 대한 심층적인 경험적 연구를 제공합니다.

연구 결과에 따르면 PLM은 다양한 데이터 체계에 대한 적용 가능성과 여러 언어에 대한 일반화가 다르며, 특정 생성 작업 설정에 어떤 PLM을 사용할지 알려줍니다. 향후 PLM을 개발하는 동안 생성 기능을 벤치마킹할 때 고려해야 할 모범 사례를 공유합니다.

Introduction

자연어 생성 작업은 문서, 표 또는 기타 구조화된 양식과 같은 텍스트 또는 비언어적 정보가 입력으로 주어지면 이해할 수 있는 텍스트를 생성해야 합니다. 이러한 텍스트는 의사소통 목표(예: 문서 요약)를 달성하고자 합니다.

지난 몇 년 동안 이러한 문제를 해결하기 위한 표준 접근 방식은 T5(Raffel et al., 2020a) 또는 BART(Lewis et al., 2020a)와 같은 사전 훈련된 Encoder-Decoder 모델로 시작하여 다운스트림 작업을 캡처하는 코퍼스에서 이를 미세 조정하는 것이었습니다.

최근 훨씬 더 큰 규모의 사전 훈련된 언어 모델은 디코더 전용 아키텍처를 사용하여 이러한 패러다임을 뒤집었습니다. 이러한 모델은 모델에 하나 이상의 예가 제시되고 미세 조정 없이 계속 생성하도록 하는 소수 샷 또는 상황 내 학습 접근 방식을 가능하게 했습니다. 우리는 두 종류의 사전 학습된 모델을 모두 PLM이라고 부릅니다.

특정 작업 설정에 대한 근거가 부족하기 때문에 생성 설정에서 단발성 학습은 모델이 매우 다양한 각도에서 커뮤니케이션 목표에 접근하게 합니다. 이러한 다양한 출력 범위로 인해 일반적인 참조 기반 자동 평가 전략은 대부분 호환되지 않습니다.

이러한 단점을 극복하기 위해 사람의 평가를 사용할 수 있지만, 이러한 방식으로 능동적으로 학습 중인 모델의 성능을 모니터링하거나 새로운 모델이 도입될 때마다 모든 평가를 다시 실행하는 것은 불가능합니다. 이는 생성 기능을 어떻게 안정적으로 모니터링해야 하는지에 대한 질문으로 이어지며, 더 많은 작업을 생성 설정에 캐스팅하여 접근함에 따라 그 중요성이 더욱 커지고 있습니다.

이 연구에서는 자동 평가를 통해 14개 언어의 27개 생성 작업에 대해 소수 샷 및 미세 조정 설정에서 8개 모델을 평가하여 조건부 NLG 설정에서 PLM의 첫 번째 대규모 벤치마크를 제시합니다. 적합한 방법, 작업 및 메트릭을 포함하여 서로 다른 시스템 간의 공정한 비교를 보장하기 위한 설계 선택과 과제에 대해 논의합니다.

경험적 결과를 바탕으로 PLM 개발 과정에서 향후 벤치마크에 사용할 수 있는 권장 사항을 도출합니다. 계산 비용이 많이 드는 반복적인 탐색의 필요성을 없애기 위해 모델 간의 차이를 식별하는 데 필요한 평가 예제 수를 조사한 결과, 많은 경우 500개 미만의 예제로 충분하다는 사실을 발견하여 향후 평가 전용 작업을 개발할 수 있는 길을 열었습니다.