[DL] 검색해볼 용어 적는 곳 | Notion

Rotary Embedding

FlashAttention

Multi query

ALiBi

FasterTransformer

robust data clearning

grouped-query attention(GQA)

Ghost Attention(GAtt)

Multi-turn 대화를 위한 fine-tuning 데이터 셋을 구축하는 방법
- 대화를 생성할 때는 초기 대화 혹은 instruction 을 모든 턴에 추가 → 입력 문장의 길어지는 문제가 발생
- 그 이후에는 초기 턴에서만 유지하고 나머지 턴에서는 제거 혹은 학습 시 초기 턴 외에 나머지 턴에서의 instruction데 대한 loss를 0으로 설정
취미(ex: 테니스를 좋아함), 언어(ex: 프랑스어), 인물(ex: 나폴레옹처럼 말하기) 등의 초기에 설정된 제약 사항도 잘 따를 수 있게

Iterative Fine-Tuning

Rejection Sampling