링크 : https://www.sciencedirect.com/science/article/pii/S0010482524002737?ref=pdf_download&fr=RR-2&rr=869b2bf878f3ede9
최근 Large Language Model(LLM)은 다양한 작업을 해결할 수 있는 인상적인 능력을 보여주었습니다. 그러나 다양한 작업에서 성공을 거두었음에도 불구하고 아직까지 생의학 영역에서의 성능을 조사한 선행 연구는 없습니다.
이를 위해 본 논문은 벤치마크 생의학 과제에서 LLM의 성능을 평가하는 것을 목표로 합니다. 이를 위해 26개의 데이터 세트에 걸쳐 6개의 다양한 생물의학 작업에서 4개의 인기 LLM에 대한 종합적인 평가를 수행했습니다.
저희가 아는 한, 생물의학 영역에서 다양한 LLM을 광범위하게 평가하고 비교한 연구는 이번이 처음입니다.
평가 결과, 흥미롭게도 훈련 세트가 작은 생물의학 데이터 세트의 경우, Zero-shot LLM이 해당 데이터 세트의 훈련 세트에서대해서 fine-tuning된 경우 현재의 최신 모델보다 성능이 더 뛰어나다는 사실을 발견했습니다.
이는 대규모 텍스트 말뭉치에 대한 pre-training을 통해 생의학 분야에서도 LLM을 상당히 전문화할 수 있음을 시사합니다. 또한 모든 작업에서 단일 LLM이 다른 LLM을 능가할 수 있는 것은 아니며, 작업에 따라 다른 LLM의 성능이 달라질 수 있다는 사실도 발견했습니다. 대규모 훈련 세트에서 fine-tuning된 생물의학 모델에 비해서는 아직 성능이 상당히 떨어지지만, 이번 연구 결과는 대규모 주석 데이터가 부족한 다양한 생물의학 작업에 LLM이 유용한 도구가 될 수 있는 잠재력을 가지고 있음을 보여줍니다.
최근 몇 년간 자연어 처리(NLP) 분야에서 언어 모델이 빠르게 성장하면서 생물의학 분야를 비롯한 다양한 영역에서 상당한 발전을 이루었습니다. BioBERT(생의학 텍스트 마이닝을 위한 트랜스포머의 양방향 인코더 표현, Bidirectional Encoder Representations from Transformers for Biomedical Text Mining), BioBART(생의학 영역을 위한 양방향 및 자동 회귀 트랜스포머, Bidirectional and Auto-Regressive Transformers for the Biomedical Domain), BioGPT(생의학 텍스트 생성 및 마이닝을 위한 생성 사전 훈련 트랜스포머, Generative Pre-trained Transformer for Biomedical Text Generation and Mining) 같은 도메인 특화 모델이 생의학 영역에서 유망한 결과를 보여주었지만 도메인별 데이터 세트를 사용한 fine-tuning이 필요합니다.
이러한 fine-tuning 과정은 작업별 대규모 Label이 달린 데이터 세트가 필요하기 때문에 시간이 많이 소요될 수 있습니다. 반면 Zero-shot learning을 사용하면 작업별 데이터 세트에 대한 미세 조정 없이도 모델이 작업을 수행할 수 있습니다.
대규모 언어 모델(LLM)은 방대한 양의 텍스트 데이터에 대해 학습된 자연어 처리 모델의 한 종류로, 인간과 유사한 언어를 이해하고 생성할 수 있습니다. 최근 몇 년 동안 ChatGPT3와 같은 LLM은 텍스트 분류, 질문 답변, 텍스트 요약(text classification, question answering, and text summarization)등 다양한 언어 작업에서 인상적인 성능을 보여주었습니다.
LLM이 아직 깊이 연구되지 않은 한 가지 영역은 생의학 텍스트 처리 및 정보 검색 영역(text processing and information retrieval domain)입니다. 생의학 분야에는 방대한 양의 텍스트 데이터가 존재하지만, 이 분야에는 주석이 달린 데이터 세트가 여전히 부족합니다. 따라서 주석이 달린 대규모 데이터 세트가 부족한 생물의학 작업에 적합한 모델을 구축하기가 어렵습니다.
이런 점에서 다양한 작업에서 강력한 Zero-shot 기능을 제공하는 LLM은 생물의학 분야의 연구자와 실무자가 주석이 없는 방대한 데이터에서 관련 정보를 찾고 인사이트를 추출하는 데 유용하게 사용될 수 있습니다.
그러나 다양한 전통적인 NLP 작업에 대한 평가가 이루어지고 있음에도 불구하고 생물의학 영역에서 LLM을 평가한 종합적인 연구는 부족합니다.
이를 위해 이 백서에서는 벤치마크 생물의학 작업에서 LLM을 평가하는 것을 목표로 합니다.
그러나 생의학 영역에서 LLM을 평가하려면 생의학 텍스트의 복잡한 언어적 특성에 대한 적절한 이해가 필요합니다. 또한 LLM은 프롬프트에 민감합니다. 따라서 생의학 작업에서 이러한 LLM을 가장 잘 활용하기 위해서는 프롬프트를 효과적으로 구성하는 것이 중요합니다. 이러한 상황에서 생물의학 영역의 도메인별 지식은 생물의학 작업에서 LLM의 성능을 향상시키는 데 중추적인 역할을 할 수 있습니다. 이와 관련하여 우리는 문서 분류, 명명된 개체 인식, 관계 추출, 텍스트 요약, 질문 답변 등(document classification, named entity recognition, relation extraction, text summarization, question answering, etc)과 같은 생물의학 연구의 일반적인 작업을 시뮬레이션하기 위해 LLM을 위한 프롬프트를 효과적으로 구축하는 방법을 연구합니다.
의학 및 헬스케어 분야의 기술은 매우 중요하기 때문에 이러한 영역에서 LLM을 사용하기 전에 엄격한 평가를 거치는 것이 중요합니다.
따라서 이 백서는 생의학 텍스트 처리 및 정보 검색에서 LLM의 기능과 한계를 이해하는 데 기여할 것입니다. 또한, 이 논문은 다양하고 강력한 LLM에 대한 종합적인 평가를 통해 이 분야의 연구자들을 위한 새로운 도구와 기법을 개발함으로써 LLM을 활용하여 의료 및 생물 의학 분야에서 새로운 애플리케이션을 구축할 수 있는 길을 열어줄 수 있을 것입니다.
이 연구의 주요 내용은 다음과 같습니다: