Rotary Embedding
FlashAttention
Multi query
ALiBi
FasterTransformer
robust data clearning
grouped-query attention(GQA)
Ghost Attention(GAtt)
- Multi-turn 대화를 위한 fine-tuning 데이터 셋을 구축하는 방법
- 대화를 생성할 때는 초기 대화 혹은 instruction 을 모든 턴에 추가 → 입력 문장의 길어지는 문제가 발생
- 그 이후에는 초기 턴에서만 유지하고 나머지 턴에서는 제거 혹은 학습 시 초기 턴 외에 나머지 턴에서의 instruction데 대한 loss를 0으로 설정
- 취미(ex: 테니스를 좋아함), 언어(ex: 프랑스어), 인물(ex: 나폴레옹처럼 말하기) 등의 초기에 설정된 제약 사항도 잘 따를 수 있게
Iterative Fine-Tuning
Rejection Sampling