TL;DR
๋ ํ๊ฐ์ ๊ฐ ๋ฒ์ฃผํ ํ์ ์ ์ผ์น๋๋ฅผ ์ฐ์ฐ ์ผ์น๋ฅผ ๋ณด์ ํด ์ธก์ ํ๋ Cohenโs Kappa () ๋ฅผ ์ ๋ฆฌํ๋ค. ๋จ์ ์ผ์น์จ์ ํ๊ณ๋ฅผ ๋ณด์ํ๋ ํต์ฌ ์์ด๋์ด์, ๋ฐ์ดํฐ ์ฑ๊ฒฉ ๋ฐ ํ๊ฐ์ ์์ ๋ฐ๋ฅธ ํ์ฅํ(Weighted Kappa, Fleissโ Kappa)์ ์ฐจ์ด๋ฅผ ํจ๊ป ๋ค๋ฃฌ๋ค.
Cohenโs Kappa: ํ๊ฐ์ ๊ฐ ์ ๋ขฐ๋์ ์ฒ๋
๋ฐ์ดํฐ ๋ผ๋ฒจ๋ง์ด๋ ์ฑ๋ฅ ํ๊ฐ์์๋ ์ฌ๋ฌ ํ๊ฐ์๊ฐ ๋ด๋ฆฐ ํ๋จ์ด ์ผ๋ง๋ ์ผ๊ด์ ์ธ์ง๊ฐ ๊ฒฐ๊ณผ์ ์ ๋ขฐ์ฑ์ ์ข์ฐํ๋ค.
์ด๋ ๋จ์ํ โ๋์ด ์ผ๋ง๋ ์์ฃผ ๊ฐ์ ๋ต์ ํ๋๊ฐโ ๋ง ๋ณด๋ ๊ฒ์ ๋ถ์กฑํ ์ ์๋ค. ์ด๋ค ๊ฒฝ์ฐ์๋ ํ๊ฐ์๋ค์ด ์ฐ์ฐํ๋ ๊ฐ์ ๋ต์ ์ ํํ ๊ฐ๋ฅ์ฑ ์ด ์๊ธฐ ๋๋ฌธ์ด๋ค. Cohenโs kappa๋ ๋ฐ๋ก ์ด ์ฐ์ฐ ์ผ์น(chance agreement) ๋ฅผ ๋ณด์ ํด, ๋ ํ๊ฐ์ ๊ฐ์ ์ค์ ์ผ์น๋๋ฅผ ๋ ๊ณต์ ํ๊ฒ ์ธก์ ํ๋ ค๋ ์งํ์ด๋ค.
1. ์ ๋จ์ ์ผ์น์จ๋ง์ผ๋ก๋ ๋ถ์กฑํ๊ฐ?
๊ฐ์ฅ ์ง๊ด์ ์ธ ์งํ๋ ๋จ์ ์ผ์น์จ(percent agreement) ์ด๋ค.
- ๊ด์ฐฐ ์ผ์น์จ (): ์ ์ฒด ํญ๋ชฉ ์ค ๋ ํ๊ฐ์๊ฐ ์ค์ ๋ก ๊ฐ์ ํ์ ์ ๋ด๋ฆฐ ๋น์จ
- ์ฐ์ฐ ์ผ์น์จ (): ๊ฐ ํ๊ฐ์๊ฐ ํ์ ์์ฃผ ์ฐ๋ ๋ฒ์ฃผ ๋ถํฌ๋ฅผ ๋ฐํ์ผ๋ก, ์ฐ์ฐํ ๊ฐ์ ํ์ ์ ํ ๊ฒ์ผ๋ก ๊ธฐ๋๋๋ ๋น์จ
์๋ฅผ ๋ค์ด, ๋ ํ๊ฐ์๊ฐ ๋๋ถ๋ถ์ ํญ๋ชฉ์ ๋ํด ๊ฑฐ์ ํญ์ Pass๋ฅผ ์ ํํ๋ค๋ฉด, ํน๋ณํ ํฉ์๊ฐ ์์ด๋ ๋จ์ ์ผ์น์จ์ ๋๊ฒ ๋์ฌ ์ ์๋ค. ์ด๋ฐ ๊ฒฝ์ฐ ๋จ์ ์ผ์น์จ๋ง ๋ณด๋ฉด ์ค์ ๋ณด๋ค ์ผ์น๋๊ฐ ๋์ ๋ณด์ผ ์ ์๋ค.
Cohenโs kappa๋ ์ด ์ฐจ์ด๋ฅผ ๋ฐ์ํด ๋ค์์ฒ๋ผ ๊ณ์ฐํ๋ค.
ํด์์ ์ง๊ด์ ์ผ๋ก ๋ค์๊ณผ ๊ฐ์ด ๋ณผ ์ ์๋ค.
- : ์์ ํ ์ผ์น
- : ์ฐ์ฐ ์์ค์ ์ผ์น
- : ์ฐ์ฐ๋ณด๋ค๋ ๋ชปํ ์ผ์น
์ฆ, ๋จ์ ์ผ์น์จ์์ ์ฐ์ฐํ ์ผ์ด๋ ์ ์๋ ๋ถ๋ถ์ ์ ์ธํ๊ณ ๋จ๋ ์ผ์น๋ ๋ฅผ ํ์คํํ ๊ฐ์ด๋ผ ์ดํดํ๋ฉด ๋๋ค.
2. ๋จ๊ณ๋ณ ๊ณ์ฐ ์์ (Step-by-Step)
์ดํด๋ฅผ ๋๊ธฐ ์ํด 50๊ฐ์ ๋ฌธ์ฅ์ ๋ ๋ช
์ ํ๊ฐ์(A, B)๊ฐ Safe ๋๋ Unsafe๋ก ๋ถ๋ฅํ ๊ฐ์์ ๋ฐ์ดํฐ๋ฅผ ์ดํด๋ณธ๋ค.
1๋จ๊ณ: ํผ๋ ํ๋ ฌ(Confusion Matrix) ์์ฑ
| B: Safe | B: Unsafe | ํฉ๊ณ (A) | |
|---|---|---|---|
| A: Safe | 37 | 3 | 40 |
| A: Unsafe | 2 | 8 | 10 |
| ํฉ๊ณ (B) | 39 | 11 | 50 |
2๋จ๊ณ: ๊ด์ฐฐ ์ผ์น์จ () ๊ณ์ฐ
๋ ์ฌ๋์ ์๊ฒฌ์ด ์ค์ ๋ก ์ผ์นํ ๋น์จ์ด๋ค.
3๋จ๊ณ: ์ฐ์ฐ ์ผ์น์จ () ๊ณ์ฐ
๊ฐ ํ๊ฐ์์ ์ฑํฅ์ ๋ฐํ์ผ๋ก ์ฐ์ฐํ ์ผ์นํ ํ๋ฅ ์ ๊ตฌํ๋ค.
- ๋ ๋ค Safe๋ผ๊ณ ํ ํ๋ฅ : (A๊ฐ Safe๋ผ ํ ํ๋ฅ 40/50) ร (B๊ฐ Safe๋ผ ํ ํ๋ฅ 39/50) =
- ๋ ๋ค Unsafe๋ผ๊ณ ํ ํ๋ฅ : (A๊ฐ Unsafe๋ผ ํ ํ๋ฅ 10/50) ร (B๊ฐ Unsafe๋ผ ํ ํ๋ฅ 11/50) =
- ์ฐ์ฐ ์ผ์น์จ () :
4๋จ๊ณ: Kappa () ์ฐ์ถ
ํด์: ๋จ์ ์ผ์น์จ์ 90% ๋ก ๋งค์ฐ ๋์ ๋ณด์ด์ง๋ง, ์ค์ ์นดํ ๊ฐ์ 0.698 ์ด๋ค. Landis & Koch ๊ธฐ์ค์ ๋ฐ๋ฅด๋ฉด Substantial(์๋นํจ) ์์ค์ ์ผ์น๋์ด๋ฉฐ, ์ฝ 20% ์ ๋๋ ์ฐ์ฐ์ ์ํฅ์ด ์์์์ ์ ์ ์๋ค.
3. ์ผ์น๋ ํด์ ๊ธฐ์ค
์ค๋ฌด์ ๋ ผ๋ฌธ์์ ์์ฃผ ์ธ์ฉ๋๋ ํด์ ๊ธฐ์ค์ Landis & Koch (1977) ์ ๊ตฌ๋ถ์ด๋ค.
| Kappa ๊ฐ () | ํด์ |
|---|---|
| < 0.00 | Poor |
| 0.00 โ 0.20 | Slight |
| 0.21 โ 0.40 | Fair |
| 0.41 โ 0.60 | Moderate |
| 0.61 โ 0.80 | Substantial |
| 0.81 โ 1.00 | Almost Perfect |
๋ค๋ง ์ด ํ๋ ์ ๋ ๊ธฐ์ค ์ด๋ผ๊ธฐ๋ณด๋ค, ์ด๋๊น์ง๋ ์์ฃผ ์ฐ์ด๋ ๊ดํ์ ๊ฐ์ด๋๋ผ์ธ ์ผ๋ก ๋ณด๋ ํธ์ด ์ข๋ค. ์ค์ ํด์์ ๋ฐ์ดํฐ์ ๋ถ๊ท ํ ์ ๋, ๋ผ๋ฒจ๋ง ๋์ด๋, ์ฐ๊ตฌ ๋ชฉ์ ๊น์ง ํจ๊ป ๊ณ ๋ คํด์ผ ํ๋ค.
4. Cohenโs Kappa์ ํ์ฅ๊ณผ ๋ณํ
ํ๊ฐ ์ํฉ์ด ๋ฌ๋ผ์ง๋ฉด ๊ฐ์ ์นดํ ๊ณ์ด์ด๋ผ๋ ์ ์ ํ ์ ์๊ฐ ๋ฌ๋ผ์ง๋ค.
4.1 Cohenโs Kappa
- ํ๊ฐ์ 2๋ช ์ผ ๋ ์ฌ์ฉ
- ๋ช ๋ชฉํ(Nominal) ๋ฒ์ฃผ์ ์ ํฉ
- ์:
Pass / Fail,Spam / Not Spam,Safe / Unsafe
4.2 Weighted Kappa
- ์์ํ(Ordinal) ๋ฒ์ฃผ์ผ ๋ ์ฌ์ฉ
- ์:
๋งค์ฐ ๋์จ / ๋์จ / ๋ณดํต / ์ข์ - ์์ํ ๋ฐ์ดํฐ์์๋ ๋ชจ๋ ๋ถ์ผ์น๊ฐ ๊ฐ์ ํฌ๊ธฐ๊ฐ ์๋๋ฏ๋ก ๋ถ์ผ์น ์ ๋์ ๋ฐ๋ผ ๊ฐ์ค์น(weight) ๋ฅผ ๋ถ์ฌํ๋ค.
- ๋ณดํต linear weighting ๋๋ quadratic weighting์ด ํจ๊ป ์ธ๊ธ๋๋ค.
์ฆ, ๋งค์ฐ ๋์จ vs ๋์จ์ ๋ถ์ผ์น๋ ๋งค์ฐ ๋์จ vs ์ข์์ ๋ถ์ผ์น๋ณด๋ค ๋ ์ฌ๊ฐํ๋ค๊ณ ๋ณด๋ ๋ฐฉ์์ด๋ค.
4.3 Fleissโ Kappa
- 3๋ช ์ด์์ ํ๊ฐ์์ ๋ํ ๋ฒ์ฃผํ ์ผ์น๋๋ฅผ ๋ณผ ๋ ์์ฃผ ์ฌ์ฉ
- ์ค๋ฌด์์๋ Cohenโs kappa์ ๋คํ๊ฐ์ ๋ฒ์ ์ฒ๋ผ ํจ๊ป ์๊ฐ๋์ง๋ง, ์๋ฐํ๋ ๋คํ๊ฐ์ ๋ฒ์ฃผํ ์ผ์น๋๋ฅผ ์ํ ๋ณ๋ ๊ณ์ด ์งํ๋ก ๋ณด๋ ํธ์ด ๋ ์ ํํ๋ค.
5. ์ฃผ์ํด์ผ ํ ์
5.1 Kappa๋ ๋จ์ ์ผ์น์จ๊ณผ ๋ค๋ฅด๋ค
๋์ ๋จ์ ์ผ์น์จ์ด ํญ์ ๋์ kappa๋ฅผ ์๋ฏธํ์ง๋ ์๋๋ค. ํน์ ๋ฒ์ฃผ์ ์๋ต์ด ๋ชฐ๋ ค ์์ผ๋ฉด ๊ด์ฐฐ ์ผ์น์จ์ ๋์๋ ์นดํ๋ ๋ฎ์์ง ์ ์๋ค.
5.2 ๋ถ๊ท ํ ๋ฐ์ดํฐ์์๋ ํด์์ ์ฃผ์ํด์ผ ํ๋ค
ํน์ ๋ฒ์ฃผ๊ฐ ์ง๋์น๊ฒ ๋ง์ด ๋ฑ์ฅํ๋ฉด prevalence problem์ด ์๊ธธ ์ ์๋ค. ์๋ฅผ ๋ค์ด ๋๋ถ๋ถ์ด Pass์ธ ๋ฐ์ดํฐ์์๋ ํ๊ฐ์๋ค์ด ๊ฑฐ์ ํญ์ ๊ฐ์ ๋ต์ ํด๋ ์นดํ๊ฐ ๊ธฐ๋๋ณด๋ค ๋ฎ๊ฒ ๋์ฌ ์ ์๋ค.
5.3 ๋ฎ์ ์นดํ๋ ๊ณง๋ฐ๋ก โํ๊ฐ์ ๋ฌธ์ โ๋ฅผ ๋ปํ์ง๋ ์๋๋ค
์นดํ๊ฐ ๋ฎ์ ์ด์ ๋ ๋ค์ํ๋ค.
- ๊ฐ์ด๋๋ผ์ธ์ด ๋ชจํธํจ
- ํ๊ฐ์ ํ๋ จ ๋ถ์กฑ
- ์ ์ด์ ์ ๋งคํ ํ์คํฌ
- ๋ฒ์ฃผ ๋ถ๊ท ํ
- ํ๊ฐ์๋ณ ๋ฒ์ฃผ ์ฌ์ฉ ์ต๊ด ์ฐจ์ด
๋ฐ๋ผ์ ๋ฎ์ kappa๋ ์ฌ๊ฒํ ๊ฐ ํ์ํ๋ค๋ ์ ํธ๋ก ๋ณด๋ ๊ฒ์ด ์ ์ ํ๋ค.
5.4 ์นดํ๋ ์๊ด๊ณ์๊ฐ ์๋๋ค
๋ ํ๊ฐ์๊ฐ ๋น์ทํ ๊ฒฝํฅ์ ๋ณด์ธ๋ค๊ณ ํด์ ๋ฐ๋์ ๋์ agreement๊ฐ ์๋ ๊ฒ์ ์๋๋ค. ์นดํ๋ ์๊ด(correlation) ์ด ์๋๋ผ agreement ๋ฅผ ์ธก์ ํ๋ ์งํ์ด๋ค.
6. ์์ฑ ๋ฐ์ดํฐ ๊ฒ์ ๊ด์ ์์์ ์๋ฏธ
์์ฑ ๋ฐ์ดํฐ ๊ฒ์์์๋ ๋ณดํต ์ผ๋ถ ์ํ์ ์ฌ๋์ด ํ๊ฐํ๊ฒ ๋๋ค. ์ด๋ ์นดํ๋ ๋ค์ ์ง๋ฌธ์ ๋ตํ๋ค.
๊ฐ์ ์ํ์ ๋ณธ ๋ ํ๊ฐ์์ ํ๋จ์ด, ์ฐ์ฐ ์ด์์ ์์ค์ผ๋ก ์ผ๊ด์ ์ธ๊ฐ?
์๋ฅผ ๋ค์ด:
- ์๋ต์ด ์ ์ฑ ์๋ฐ์ธ์ง ์๋์ง
- ์์ฑ ๊ฒฐ๊ณผ๊ฐ ์ฌ์ค์ ์ผ๋ก ๋ง๋์ง ์๋์ง
- ๋ต๋ณ ํ์ง์ด
์ข์ / ๋ณดํต / ๋์จ์ค ์ด๋์ธ์ง
๊ฐ์ ํญ๋ชฉ์ ๋ ํ๊ฐ์๊ฐ ๋ ๋ฆฝ์ ์ผ๋ก ํ๊ฐํ์ ๋, ์นดํ๊ฐ ์ถฉ๋ถํ ๋๋ค๋ฉด ๊ฒ์ ๊ธฐ์ค์ด ๋น๊ต์ ์์ ์ ์ด๋ผ๊ณ ๋ณผ ์ ์๋ค.
7. ํจ๊ป ๋ณด๋ฉด ์ข์ ๋์ ์งํ
- Krippendorffโs Alpha
- ๊ฒฐ์ธก๊ฐ์ด ์๊ฑฐ๋, ํ๊ฐ์ ์๊ฐ ๊ณ ์ ๋์ง ์๊ฑฐ๋, ๋ค์ํ ์ฒ๋(๋ช ๋ชฉ/์์/๊ตฌ๊ฐ)๋ฅผ ๋ค๋ฃจ๊ณ ์ถ์ ๋ ๋ ์ ์ฐํ๊ฒ ์ฌ์ฉ
- ICC (Intraclass Correlation Coefficient)
- ์ฐ์ํ ๋๋ ์ ์ํ ๋ฐ์ดํฐ์์ ํ๊ฐ์ ๊ฐ ์ผ์น๋๋ฅผ ๋ณผ ๋ ์์ฃผ ์ฌ์ฉ
์ฆ, ์นดํ๋ ๋งค์ฐ ์ ์ฉํ์ง๋ง ๋ชจ๋ ์ ํ์ ํ๊ฐ ๋ฐ์ดํฐ์ ๋ํ ๋ง๋ฅ ํด๋ฒ์ ์๋๋ค.
8. ์ ๋ฆฌ
Cohenโs kappa๋ ๋ ํ๊ฐ์์ ๋ฒ์ฃผํ ํ๋จ์ด ์ผ๋ง๋ ์ผ๊ด์ ์ธ์ง๋ฅผ, ์ฐ์ฐ ์ผ์น๋ฅผ ๋ณด์ ํด์ ์ธก์ ํ๋ ์งํ์ด๋ค.
ํต์ฌ์ ๋ค์ ๋ ๊ฐ์ง์ด๋ค.
- ๋จ์ ์ผ์น์จ๋ณด๋ค ๋ ์๊ฒฉํ agreement ์งํ๋ผ๋ ์
- ๋ฐ์ดํฐ ๋ถํฌ์ ํ๊ฐ ์ค๊ณ์ ๋ฐ๋ผ ๊ฐ์ด ํฌ๊ฒ ๋ฌ๋ผ์ง ์ ์์ผ๋ฏ๋ก ๋งฅ๋ฝ ์์์ ํด์ํด์ผ ํ๋ค๋ ์
๋ฐ๋ผ์ ์์ฑ ๋ฐ์ดํฐ ๊ฒ์, ๋ผ๋ฒจ๋ง ํ์ง ํ๊ฐ, ์ฌ๋ ํ๊ฐ ๊ธฐ๋ฐ ๋ฒค์น๋งํฌ ์ค๊ณ์์ ์นดํ๋ ๋งค์ฐ ์ ์ฉํ์ง๋ง ํญ์ ๋ฒ์ฃผ ๋ถ๊ท ํ, ์ฒ๋ ์ ํ, ํ๊ฐ์ ์๋ฅผ ํจ๊ป ๊ณ ๋ คํด์ผ ํ๋ค.
โKey Concepts to Clarify
- Krippendorffโs Alpha: ๊ฒฐ์ธก์น๋ ๋ค์ํ ์ฒ๋๋ฅผ ๋ค๋ฃฐ ๋ ๋ ์ ์ฐํ ์ผ์น๋ ์งํ
- ICC: ์ฐ์ํ/์ ์ํ ๋ฐ์ดํฐ์์์ ํ๊ฐ์ ๊ฐ ์ผ์น๋ ์งํ
- Weighted Kappa: ์์ํ ๋ฒ์ฃผ์์ ๋ถ์ผ์น ์ ๋์ ์ฐจ๋ฑ์ ๋๋ ์นดํ
- Prevalence Problem: ๋ฒ์ฃผ ๋ถ๊ท ํ ๋๋ฌธ์ ๋จ์ ์ผ์น์จ๊ณผ ์นดํ๊ฐ ์ด๊ธ๋ ์ ์๋ ํ์
๐ References
๐ Core Theory & Foundation
- Cohen (1960) - A coefficient of agreement for nominal scales: ์นดํ ๊ณ์์ ํจ์. ๋ช ๋ชฉ ์ฒ๋์์ ์ฐ์ฐ ์ผ์น๋ฅผ ๋ณด์ ํ๋ ๊ธฐ๋ณธ ๊ณต์์ ์ ์.
- Cohen (1968) - Weighted kappa: Nominal scale agreement with provision for scaled disagreement: ๊ฐ์ค ์นดํ ๋์ . ์์ํ ๋ฐ์ดํฐ์์ ์ค์ฐจ์ ํฌ๊ธฐ์ ๋ฐ๋ผ ์ฐจ๋ฑ์ ๋๋ ๋ฐฉ์ ์ ์.
- Fleiss (1971) - Measuring nominal scale agreement among many raters: ๋ค์ ํ๊ฐ์ ํ์ฅ. 3๋ช ์ด์์ ํ๊ฐ์๊ฐ ์์ ๋ ์ฌ์ฉํ๋ Fleissโ Kappa ์ ์.
๐ Interpretation & Guidelines
- Landis & Koch (1977) - The measurement of observer agreement for categorical data: ํ์ค ํด์ ๊ธฐ์ค. < 0.20(Slight)๋ถํฐ > 0.81(Almost Perfect)๊น์ง์ ๊ดํ์ ๊ฐ์ด๋๋ผ์ธ ์ ์.
- Hallgren (2012) - Computing Inter-Rater Reliability for Observational Data: A Tutorial: ์ค๋ฌด ํํ ๋ฆฌ์ผ. ํ๊ฐ์ ๊ฐ ์ ๋ขฐ๋ ๊ณ์ฐ์ ์ ์ฒด ํ๋ก์ธ์ค์ SPSS/R ํ์ฉ๋ฒ ์ค๋ช .
โ ๏ธ Limitations & Advanced Topics
- Zec et al. (2017) - High Agreement and High Prevalence: The Paradox of Cohenโs Kappa: ์นดํ์ ์ญ์ค. ๋ฐ์ดํฐ ๋ถ๊ท ํ(Prevalence)์ด ์ฌํ ๋ ์ผ์น์จ์ ๋์ผ๋ ์นดํ๋ ๋ฎ๊ฒ ๋์ค๋ ํ์ ๋ถ์.
- Li et al. (2023) - Kappa statistic considerations in evaluating inter-rater reliability: ์ต์ ๊ณ ๋ ค์ฌํญ. ์ํฉ์ ๋ง๋ ์นดํ ์ ํ ๊ธฐ์ค๊ณผ ๋ฌธ๋งฅ์ ํด์์ ์ค์์ฑ ๊ฐ์กฐ.
๐ป Implementation Tools
- Scikit-learn: cohen_kappa_score: Python์ ์ด์ฉํ Cohenโs Kappa ๋ฐ Weighted Kappa ๊ตฌํ API.
- Statsmodels: fleiss_kappa: ๋ค์ ํ๊ฐ์ ์ผ์น๋(Fleissโ Kappa) ๊ณ์ฐ์ ์ํ ๋ผ์ด๋ธ๋ฌ๋ฆฌ ๊ฐ์ด๋.