생성형 모델 사용한 NLG는 오토매틱하게 평가하는게 쉽지 않음
BLEU나 ROUGE 같은 컨벤셔널한 metric은 사람의 판단과 상대적으로 관계가 적은 느낌(특히 창의성이나 다양성이 필요한 태스크의 경우) → 그래서 메일 요약의 경우, BLEU나 ROUGE로는 평가가 어려움
G-EVAL : a framework of using large language models with chain-of-thoughts (CoT) and a form-filling paradigm, to assess the quality of NLG outputs
문장 생성 및 텍스트 요약 평가