TL;DR
- Vision-Language Model์ ๋ถ์ (negation) ์ดํด ๋ฅ๋ ฅ์ ํ๊ฐํ๋ ๋ฒค์น๋งํฌ ๋ฐ์ดํฐ์
- ์ด๋ฏธ์ง, ๋น๋์ค, ์๋ฃ ๋๋ฉ์ธ์ ๊ฑธ์ณ 79K ์์ , 18๊ฐ ํ์คํฌ ๋ณํ์ผ๋ก ๊ตฌ์ฑ
- ํ๋ VLM๋ค์ด ๋ถ์ ํํ์์ chance level ์์ค(๋ฌด์์๋ก ์ฐ์์ ๋ ๋์ฌ ํ๋ฅ )์ ์ฑ๋ฅ์ ๋ณด์์ ์ ์ฆ
- CVPR 2025 ๋ฐํ (Alhamoud et al., MIT)
๋ฐ์ดํฐ์ ๋ ธํธ
1. ๋ฐ์ดํฐ์ ์ ๋ณด

- ์ด๋ฆ: NegBench: Vision-Language Models Do Not Understand Negation
- ์ ์: Kumail Alhamoud, Shaden Alshammari, Yonglong Tian, Guohao Li, Philip Torr, Yoon Kim, Marzyeh Ghassemi
- ๋ฐํ: CVPR 2025
- ์ค๋ช
:
- VLM์ด ๋ถ์ (negation)์ ์ผ๋ง๋ ์ ์ดํดํ๋์ง ์ฒด๊ณ์ ์ผ๋ก ํ๊ฐํ๋ ๋๊ท๋ชจ ๋ฒค์น๋งํฌ
- โํน์ ๊ฐ์ฒด๊ฐ ์๋ ์ด๋ฏธ์ง๋ฅผ ๊ฒ์ํ๋ผโ์ ๊ฐ์ ์ค์ฉ์ ์๋๋ฆฌ์ค์์ ๋ถ์ ์ดํด๊ฐ ํ์์ ์์๋, ๊ธฐ์กด ์ฐ๊ตฌ์์ ๊ฑฐ์ ํ๊ตฌ๋์ง ์์ ์์ญ
- ํฉ์ฑ ๋ฐ์ดํฐ ํ์ธํ๋์ผ๋ก ๋ถ์ ์ดํด๋ ฅ์ ๊ฐ์ ํ ์ ์์์ ์ค์ฆ
- ๋ผ์ด์ ์ค: MIT (์ฝ๋ ๊ธฐ์ค)
- ๋ฆฌ์์ค:
- GitHub: https://github.com/m1k2zoo/negbench
- ํ๋ก์ ํธ ํ์ด์ง: https://negbench.github.io
โ ๏ธ ์ฃผ์: ํ๊ฐ ๋ฐ์ดํฐ์ ์ผ๋ถ(CheXpert, COCO, VOC2007, MSR-VTT)๋ ๊ฐ ์๋ณธ ์์ค์์ ๋ณ๋ ๋ค์ด๋ก๋ ํ์.
2. ๋ฐ์ดํฐ ๊ตฌ์กฐ
๋ชจ๋ฌ๋ฆฌํฐ ๋ฐ ์์ค
| ๋ชจ๋ฌ๋ฆฌํฐ | ๋ฐ์ดํฐ ์์ค | ํ์คํฌ |
|---|---|---|
| ์ด๋ฏธ์ง | COCO 2017 Val | MCQ, Retrieval |
| ์ด๋ฏธ์ง | VOC2007 | MCQ |
| ์ด๋ฏธ์ง | Synthetic (Stable Diffusion) | MCQ, Retrieval |
| ์ด๋ฏธ์ง (์๋ฃ) | CheXpert | Binary MCQ |
| ๋น๋์ค | MSR-VTT | MCQ, Retrieval |
- ํน์ง:
- 79,000 ์์ , 18๊ฐ ํ์คํฌ ๋ณํ
- ์ด๋ฏธ์งยท๋น๋์คยท์๋ฃ 3๊ฐ ๋๋ฉ์ธ์ ์์ฐ๋ฅด๋ ํฌ๊ด์ ํ๊ฐ
- ์ํ ์: 79K (์ ์ฒด)
3. ๊ตฌ์ถ ๋ฐฉ์

- ๋ฐฉ๋ฒ: ๊ท์น ๊ธฐ๋ฐ ํ ํ๋ฆฟ + Llama 3.1 ๊ธฐ๋ฐ rephrasing (MSR-VTT ๋น๋์ค ์บก์ )
- ์์ค: COCO, VOC2007, CheXpert, MSR-VTT ๋ฑ ๊ธฐ์กด ๋ฐ์ดํฐ์ ์ ์บก์ ์ ๋ถ์ ํํ์ผ๋ก ๋ณํ
- ํ์ธํ๋ ๋ฐ์ดํฐ (๋ฒค์น๋งํฌ์ ๋ณ๋):
- CC12M-NegCap: ~30M ๋ถ์ ์บก์ (CC12M์์ ํ์)
- CC12M-NegMCQ: ~40M ๋ถ์ MCQ (CC12M์์ ํ์)
4. ํ์คํฌ ๋ฐ ํ์ฉ
์ฃผ์ ํ์คํฌ
- Retrieval with Negation โ ๋ถ์ ์ฟผ๋ฆฌ(โX๊ฐ ์๋ ์ด๋ฏธ์งโ)๋ก ์ฌ๋ฐ๋ฅธ ์ด๋ฏธ์ง/๋น๋์ค๋ฅผ ๊ฒ์
- Multiple Choice Questions (MCQ) with Negated Captions โ ๋ถ์ ํํ์ด ํฌํจ๋ ์บก์ ์ค ์ฌ๋ฐ๋ฅธ ๊ฒ์ ์ ํ
๋ฒค์น๋งํฌ ์ฑ๋ฅ
์ฃผ์ ๋ฐ๊ฒฌ:
- ํ๋ VLM(CLIP, NegCLIP, CoNCLIP ๋ฑ)์ด ๋ถ์ ํ์คํฌ์์ chance level์ ๊ฐ๊น์ด ์ฑ๋ฅ ์ ๋ณด์
- ๋ถ์ ์ ํฌํจํ ์ฟผ๋ฆฌ์์ ๋ชจ๋ธ๋ค์ด ๋ถ์ ์ด๋ฅผ ์ฌ์ค์ ๋ฌด์ํ๋ ๊ฒฝํฅ
ํ์ธํ๋ ํจ๊ณผ (CC12M ๊ธฐ๋ฐ ํฉ์ฑ ๋ฐ์ดํฐ):
| ๋ฐฉ๋ฒ | Negated Retrieval | Negated MCQ |
|---|---|---|
| ๋ฒ ์ด์ค๋ผ์ธ (CLIP) | baseline | baseline |
| + CC12M-NegCap | +10% recall | โ |
| + CC12M-NegMCQ | โ | +40% accuracy |
Recall +10% (Retrieval)
- ๊ฐ์ ์ ์์ง๋ง ํญ์ด ์์ โ ๋ถ์ ํํ์ ์ดํดํ๋ ๊ฒ๋ง์ผ๋ก๋ retrieval์ ๊ทผ๋ณธ์ ํ๊ณ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ด๋ ค์์ ์์ฌ
Accuracy +40% (MCQ)
- ํญ์ด ํผ โ MCQ๋ ์ ํ์ง ๊ฐ ๋น๊ต ํ์คํฌ๋ผ ๋ถ์ ํํ์ ์๋ฏธ๋ง ํ์ตํ๋ฉด ๋ฐ๋ก ์ฑ๋ฅ์ด ์ค๋ฅด๊ธฐ ๋๋ฌธ
Open Questions
- ๋ถ์ ์ดํด๋ ฅ ํฅ์์ด ์ผ๋ฐ์ ์ธ VLM ์ฑ๋ฅ์ ๋ฏธ์น๋ ์ํฅ (trade-off ์กด์ฌ ์ฌ๋ถ)
- ๋ ๋ณต์กํ ๋ ผ๋ฆฌ์ ๋ถ์ (์ด์ค ๋ถ์ , ์กฐ๊ฑด๋ถ ๋ถ์ )์ ๋ํ ํ์ฅ ๊ฐ๋ฅ์ฑ
- ํ๊ตญ์ด ๋ฑ ๋น์์ด ์ธ์ด์์์ ๋ถ์ ์ดํด๋ ฅ ํ๊ฐ ํ์์ฑ
Reference
- NegConstraint โ ํ ์คํธ ์์ฑ์์์ ๋ถ์ ์ ์ฝ ๊ด๋ จ ๋ฐ์ดํฐ์
Discussion
Comments
๋๊ธ์ ์น์ธ ํ ๊ณต๊ฐ๋ฉ๋๋ค.