CheckEval → LLM써서 평가하는 프레임워크

ambiguity와 inconsistency 문제들을 address 하기 위해

SumEval Benchmark를 통해서 보니까 CheckEval 과 인간판단과 비슷했다.

  1. Aspect selection
    1. 사람이 aspect 골라주고 task 목적에 맞는 checklist 초안 만들어줌
      1. 예) Grammatical correctness, sentence completeness, Fluency 이런것들
  2. Checklist generation
    1. 골라둔 aspects 들에 맞춰서 3가지 단계로 checklist를 만듬
      1. Key Questions Writing, 2) Questions Augmentation, 3) Question Filtering
      1. 예) Grammatical correctness 에 맞는 체크항목을 크게 어떻게 생성할것인가?
      2. Grammatical correctness를 체크하기 위해서 상위의 큰 질문 하나를 생성함, 일반적인 문법룰에 맞는가?가 될 수있음
      3. 그럼 문법룰에 잘 맞는지 확인하기위해서 어떤 구체적인 체크리스트를 생성해야하는가?
        1. 조사가 잘 쓰였나?
        2. 철자는 올바른가
        3. 관사가 잘 쓰였나?
      4. 그 후 불필요한거나 반복적인 체크항목있는지 확인하고 필터링
  3. Checklist-based evaluation
    1. 생성된 checklist 베이스로 evaluation 진행

장점: explanability (어떤 항목이 체크됐는지 알수있으니까)

CheckEval이랑 인간평가랑 비교해보니까 (Spearman, kendall-tau conefficient) 굉장히 좋음. 특히 G-Eval보다 좋음

프롬프트

Questions Augmentation Prompt for Checklist Generation Stage

In this task, you need to create a question to evaluate the {aspect} of the summary of the original document. The definition of {aspect} and the questions corresponding to the key component of {aspect} are provided below. Use them to generate sub-questions for each key question.

Each sub-question must satisfy the following conditions: 1. Each question must be answerable with ‘Yes’ or ‘No’. 2. Each question must contain concepts from the key component. 3. Each question should minimize the subjectivity of the rater’s judgment. 4. The semantic redundancy between sub-questions should be minimized. 5. Formulate questions so that a ‘Yes’ answer is a positive answer.

Definition {aspect} - {definition}