Staged Training for Transformer Language Models

Abstract

현재 트랜스포머 언어 모델 확장에 대한 표준 접근 방식으로는 무작위 초기화로부터 각 모델을 훈련하는 것 입니다. 이에 대한 대안으로, 작은 모델로 시작하여 'growth operator'를 적용하여 모델의 width와 depth를 늘려 훈련에 사용되는 컴퓨팅 파워를 점진적으로 늘려가는 staged training setup을 고려해 볼 수 있습니다.

각 단계에서 이전 단계의 출력으로 초기화함으로써 훈련 프로세스는 이전 단계의 컴퓨팅을 효과적으로 재사용하고 더 효율적으로 진행됩니다. 'growth operator’는 각각 전체 학습 상태(model parameters, optimizer state, learning rate schedule 등)를 입력으로 받아 학습이 계속되는 새로운 학습 상태를 출력합니다.

이러한 growth operator에는 두 가지 중요한 특성이 있습니다.

operator를 적용한 후 손실과 '훈련 역학'을 모두 보존한다는 점입니다. 손실 보존 속성은 이전에 논의된 바 있지만, 우리가 아는 한 이 연구는 훈련 역학(훈련 중 손실의 감소 속도)을 보존하는 것의 중요성을 확인한 최초의 연구입니다.

최적의 스테이지 스케줄을 찾기위해 이 스케일링 법칙을 사용하며 훈련 효율이 감소하기 시작하는 시점에 새로운 스테이지를 시작함으로써 컴퓨팅 파워를 가장 많이 절약할 수 있는 지점을 찾습니다.

논문은 growth operator와 autoregressive language model에 대한 staged training을 경험적으로 검증하여 scratch부터 학습한 기존의 모델에 비해 최대 22%의 컴퓨팅 절감 효과를 보여주었습니다.

아래 URL에서 논문의 코드를 확인하실 수 있습니다.

URL : https://github.com/allenai/staged-training

Abstract

Introduction