GPT-2
ROUGE F1 metrics on CNN and Daily Mail dataset
T5에서도 CNNDM 사용
정답 문서와 생성 문서를 비교하여, 겹치는 부분에 대한 recall 점수를 구하는 것
진짜 말 그대로 n-gram이 몇개나 겹치는지 확인
겹치는 n-gram 개수 / 정답 문서의 n-gram 개수
L : Longest Common Subsequence
GPT 설명
ROUGE-L이 여전히 널리 사용되는 이유는:
간단하고 빠름:
계산이 직관적이며 n-그램 기반 지표와 달리 "유연한 일치"를 허용하여 텍스트 비교의 엄격함을 완화합니다.
순서 정보를 보존:
순서가 유지되는 경우, 중요한 정보의 전달이 제대로 이루어졌다고 간주할 수 있습니다. 이는 요약에서 일관성과 논리적 전개가 중요한 경우에 설득력을 제공합니다.