링크 : https://arxiv.org/pdf/2406.02756

Abstract

사전 학습된 대규모 언어 모델(LLM)은 일관성 있는 기사를 생성하는 데 탁월합니다, 하지만 그 결과물은 진실하지 않거나, 해롭거나, 사용자의 기대에 부합하지 않을 수 있습니다.

현재 접근 방식은 모델 정렬을 개선하기 위해 reinforcement learning with human feedback(RLHF)을 사용하는 데 중점을 두고 있으며, 이는 LLM 출력에 대한 대략적인 인간 선호도를 모델 학습 과정을 안내하는 피드백 신호로 변환하는 방식으로 작동합니다.

그러나 이 접근 방식은 Sequence 수준의 피드백으로 작동하기 때문에 사용자 선호도에 영향을 미치는 출력의 정확한 부분을 식별할 수 있는 정밀도가 부족합니다. 이러한 차이를 해결하기 위해 세분화된 Token 수준의 관리를 통해 LLM Alignment를 개선하는 방법을 제안합니다.

구체적으로, standard reward modeling dataset 세트 내에서 선호도가 낮은 응답을 선호도가 높은 응답으로 최소한의 편집을 통해 원본 콘텐츠의 대부분을 유지하면서 필요한 부분만 변경하도록 어노테이터에게 요청합니다. (→ 기존에 존재하던 데이터셋에서 선호도가 낮은 응답을 선호도가 높은 응답으로 변경)

이렇게 정제된 데이터 세트는 Token 수준의 보상 모델을 학습하는 데 사용되며, 이 모델은 세분화된 Proximal Policy Optimization(PPO) 모델을 학습하는 데 사용됩니다.

실험 결과에 따르면 이 접근 방식은 기존 PPO 모델에 비해 기준 모델 대비 승률 측면에서 LLM 성능을 최대 5.1%까지 절대적으로 향상 시킬 수 있는 것으로 나타났습니다.

Introduction

대규모 언어 모델(LLM)을 발전시키는 핵심 목표 중 하나는 안전하고 유익한 인간 상호 작용을 보장하는 것입니다. 하지만 Web과 책에 있는 텍스트로 학습된 현재의 pre-trained model은 인간의 의도와는 다르게 편향되거나 유해한 텍스트를 생성하는 경우가 많습니다.

이 문제를 해결하기 위해 수많은 연구에서 사람의 피드백을 훈련 과정에 통합했습니다.

중요한 발전은 사람의 피드백을 통한 강화 학습입니다. 강화 학습(RLHF)은 일반적으로 두 단계로 구성됩니다:

  1. 먼저, 주어진 프롬프트에 대해 사람이 부여한 선호도 점수와 함께 다양한 응답으로 구성된 선호도 데이터로 Reward Model(RM)을 학습시킵니다.
  2. 그 다음 이 RM을 통해 Proximal Policy Optimization(PPO)를 적용하여 최종 모델을 최적화합니다.

최근 연구에서는 현재 RM의 한계, 특히 인간의 선호도와 일치하지 않는 부분이 발견되었습니다.

이러한 불일치는 두 가지 주요 문제가 있습니다.

  1. 휴먼 라벨링된 데이터 셋에 부정확하고 모호한 선호도 쌍이 존재한다는 점
  2. Sequence 수준 피드백에 내재되고 제한된 인사이트에서 비롯한다는 점

특히 데이터 수집의 관점에서 보면, 모델 출력의 전반적인 품질을 비교하는 작업은 출력물이 서로 다른 부분에서 원하는 동작과 원치 않는 동작을 모두 보일 때 인간 주석가에게 어려운 작업입니다.

게다가 RM의 관점에서 보면 선호도 기반 데이터 라벨링에 의존하면 학습 신호가 희박해집니다.