링크 : https://www.mdpi.com/2227-7390/11/4/1006

Abstract

그런 다음 메트릭의 주요 기여도와 단점을 설명합니다. Transformer 아키텍처의 성공으로 기계 번역(MT)에 대한 관심이 높아졌습니다. 신경망 기반 MT의 번역 품질은 통계적 방법을 사용하여 도출된 번역의 품질을 뛰어넘습니다. 이러한 MT 연구의 성장은 MT의 성능을 추적할 수 있는 정확한 자동 평가 메트릭의 개발을 수반했습니다. 그러나 MT 시스템을 자동으로 평가하고 비교하는 것은 어려운 작업입니다. 여러 연구에 따르면 기존 메트릭(예: BLEU, TER)은 MT 결과물과 인간 참조 번역 간의 의미적 유사성을 포착하는 데 있어 성능이 좋지 않은 것으로 나타났습니다. 지금까지 성능을 개선하기 위해 Transformer 아키텍처를 사용하여 다양한 평가 지표가 제안되었습니다. 그러나 이러한 평가 지표에 대한 체계적이고 종합적인 문헌 고찰은 아직 부족한 실정입니다. 따라서 기존 연구자 및 신규 연구자 모두 지난 몇 년간의 MT 평가 동향을 빠르게 파악할 수 있도록 기존 MT의 자동평가 지표에 대한 조사가 필요합니다. 본 설문조사에서는 자동 평가 지표의 동향을 제시합니다. 해당 분야의 발전 상황을 보다 쉽게 이해할 수 있도록 자동 평가 지표의 분류 체계를 제공합니다. 또한 분류체계에서 대표적인 지표를 선정하고 관련 문제점을 분석하기 위한 실험을 진행합니다. 마지막으로 실험을 통해 현재 자동 평가 지표 연구의 한계와 자동 평가 지표 개선을 위한 추가 연구에 대한 제안을 논의합니다.