TL;DR

  • 무엇인가: OpenAI가 Let’s Verify Step by Step에서 held-out 평가셋으로 사용한 500개의 수학 문제 서브셋.
  • 왜 중요한가: OpenAI의 “Let’s Verify Step by Step” 연구의 핵심 평가 데이터셋으로 사용되며, 모델의 수학 추론 능력을 빠르게 비교할 때 자주 사용되는 소규모 평가셋.

MATH-500


1. 데이터 구조 및 구성

  • 모달리티 / 도메인: 텍스트 / 수학 (대수학, 기하학, 삼각법, 확률 등)
  • 주요 태스크: Mathematical Reasoning, Chain-of-Thought
  • 구성 단위: 문제(LaTeX) - 정답 매핑
  • 규모: 엄선된 500개 샘플 (MATH 전체 데이터셋의 요약본 성격)

2. 구축 방식

  • 원천 데이터: MATH Benchmark (Hendrycks et al., 2021).
  • 구축 방법: OpenAI가 Let’s Verify Step by Step 연구에서 평가용으로 분리해 사용한 500개의 held-out 문제 셋을 기반으로 한다.
  • 품질 관리: 원본 MATH 벤치마크의 검증된 정답 및 풀이 과정 활용.

3. 활용과 평가

  • 주요 활용: 추론 모델(O1, Qwen2.5-Math 등)의 논리적 단계 검증 및 정확도 측정.
  • 기준 성능 / 대표 결과:
  • 특징적인 통찰: 대규모 데이터셋 전체를 평가하기 부담스러운 환경에서, 모델 간의 상대적 추론 능력을 빠르게 비교할 수 있는 고신뢰성 지표로 활용됨.

4. 한계 및 주의점

  • 범위 한계: 500개라는 적은 샘플 수로 인해 모델의 전체적인 수학적 일반화 성능을 완벽히 대변하기에는 한계가 있을 수 있음.
  • 해석 시 주의할 점: LaTeX 형식의 응답을 파싱하는 방식에 따라 측정 점수가 달라질 수 있으므로 표준 파서를 사용하는 것이 권장됨.

Connections

Source Trail