Zotero History
- Date item added to Zotero:: 2024-12-03
- First date annotations or notes modified:: 2026-03-29
- Last date annotations or notes modified:: 2026-04-12
- Export date:: 2026-04-12
BERTScore: Evaluating Text Generation with BERT
Cite
Zhang, T., Kishore, V., Wu, F., Weinberger, K. Q., & Artzi, Y. (2020). BERTScore: Evaluating Text Generation with BERT (arXiv:1904.09675). arXiv. https://doi.org/10.48550/arXiv.1904.09675
TL;DR
Contribution:: BERT contextual embedding ๊ธฐ๋ฐ์ text generation ์๋ ํ๊ฐ ๋ฉํธ๋ฆญ. n-gram exact match ๋์ token-level cosine similarity๋ก ์๋ฏธ์ ์ ์ฌ์ฑ ํ๊ฐ
Pros:: 363๊ฐ ์์คํ ์์ human judgment๊ณผ ๋์ ์๊ด๊ด๊ณ. task-agnostic (MT, captioning). 104๊ฐ ์ธ์ด ์ง์. ์ธ๋ถ ๋ฆฌ์์ค ๋ถํ์
Cons:: max_length ์ ํ(BERT=512)์ผ๋ก ๋ฌธ์ ์์ค ํ๊ฐ ๋ถ์ ํฉ. ์ฌ์ค ์ค๋ฅ(factual error) ํ์ง ๋ถ๊ฐ. ๋ชจ๋ธ/๋ ์ด์ด/IDF ์ค์ ์ ๋ฐ๋ผ ์ฑ๋ฅ ๋ณ๋
Study Snapshot
Key takeaway:: contextual embedding + greedy matching์ผ๋ก ๊ธฐ์กด n-gram ๋ฉํธ๋ฆญ์ ํจ๋ฌํ๋ ์ด์ฆ/๋์์ด ๋งค์นญ ํ๊ณ๋ฅผ ํด๊ฒฐ. ๋จ, faithfulness ํ๊ฐ์๋ ๋ถ์ ํฉ
Methods:: (1) Reference/Candidate๋ฅผ BERT์ ํต๊ณผ์์ผ contextual embedding ์ถ์ถ (2) token ์ cosine similarity ํ๋ ฌ ์์ฑ (3) greedy matching: Recall=row-wise max, Precision=column-wise max (4) optional IDF ๊ฐ์ค ํ๊ท (5) F1 = 2PR/(P+R)
Outcomes:: WMT18 system-level: ๋๋ถ๋ถ ์ธ์ด์์์ BLEU, METEOR, YiSi-1 ์๋. Segment-level: RUSE(supervised)๋ ๋ฅ๊ฐ. Image captioning: task-specific SPICE๋ณด๋ค ์ฐ์
Results:: PAWS ์ ๋์ ์์ ์์ ๋ค๋ฅธ ๋ฉํธ๋ฆญ์ chance ์์ค ํ๋ฝ, BERTScore๋ ์ํญ ํ๋ฝ๋ง. ์ค๊ฐ ๋ ์ด์ด๊ฐ ์ต์ (Appendix B). WMD optimal matching ๊ต์ฒด ์ ์ผ๊ด๋ ๊ฐ์ ์์(Appendix C)
Implementations
- ๊ณต์ ๊ตฌํ: Tiiiger/bert_score
- korean: lovit/KoBERTScore
Meta
Author:: Zhang, Tianyi
Author:: Kishore, Varsha
Author:: Wu, Felix
Author:: Weinberger, Kilian Q.
Author:: Artzi, YoavTitle:: BERTScore: Evaluating Text Generation with BERT
Short Title::BERTScore Year:: 2020Citekey:: @zhangBERTScoreEvaluatingText2020
itemType:: preprintDOI:: 10.48550/arXiv.1904.09675
LINK
Abstract
We propose BERTScore, an automatic evaluation metric for text generation. Analogously to common metrics, BERTScore computes a similarity score for each token in the candidate sentence with each token in the reference sentence. However, instead of exact matches, we compute token similarity using contextual embeddings. We evaluate using the outputs of 363 machine translation and image captioning systems. BERTScore correlates better with human judgments and provides stronger model selection performance than existing metrics. Finally, we use an adversarial paraphrase detection task to show that BERTScore is more robust to challenging examples when compared to existing metrics.
Reading notes
Main Ideas and Conclusions
Image (4 page, edited: 2024-12-03)
- candidate ์ reference ๋ฅผ BERT์ ํ์ contextual embedding ๊ฐ์ ์ป์ด๋ด๊ณ , token-pair ๋ง๋ค cosine similarity๋ฅผ ์ด์ฉํ์ฌ ์ ์ฌ์ฑ์ ํ๊ฐํ๊ณ IDF๋ก ๊ฐ token์ ๊ฐ์ค์น๋ฅผ ๋ถ์ฌ.
Methods or Evidences Supporting Conclusions
Image (4 page, edited: 2024-12-03)
BERTScore recall : row-wise max pooling
BERTScore precision: column-wise max pooling
(optional) : ๊ฐ์ reference ๋ฌธ์ฅ๋ค์ ๋ณด๋ฉด์ ํ ํฐ์ด reference ๋ฌธ์ฅ์ ๋ค์ด๊ฐ๋ฉด 1, ์๋๋ฉด 0์ผ๋ก ์นด์ดํ ํ ํ๊ท ๊ฐ(๋ก๊ทธ์ค์ผ์ผ)
Image (5 page, edited: 2024-12-03)
cosine-similarity๋ก score๋ฅผ ๊ณ์ฐํ๊ธฐ ๋๋ฌธ์ bound๊ฐ ์ด์ง๋ง,์ ์๋ค์ด ์ค์ ๋ก ๊ณ์ฐ ์์๋ (-1,+1)๋ณด๋ค ์์ ๊ตฌ๊ฐ์์ ๊ฐ๋ค์ด ํ์ฑ. (์ด๊ณ ์ฐจ์์์ -1,1 ์ ๊ฐ๊น์ด ๊ฐ์ ๊ฐ๊ธฐ์๋ ๋งค์ฐ ์ด๋ ค์)
๋ฐ๋ผ์ ์ ์๋ค์ score์ readability๋ฅผ ๋ํ๊ธฐ ์ํด ์ค์ฆ์ ์ธ lower-bound ๋ฅผ ์ฐพ์ ์ค์ ๊ณ์ฐ score๊ฐ (-1,+1) ์ฌ์ด๋ก ์ค๋๋ก rescaling์ ์งํ.
๐ด Problems
Highlight (1 page, edited: 2026-04-12)
n-gram overlap between the candidate and the reference. While this provides a simple and general measure, it fails to account for meaning-preserving lexical and compositional diversity.
Problems:
n-gram overlap ๊ธฐ๋ฐ ๋ฉํธ๋ฆญ(BLEU)์ ๊ทผ๋ณธ์ ํ๊ณ โ ์๋ฏธ๋ฅผ ๋ณด์กดํ๋ ์ดํ์ ยท๊ตฌ์ฑ์ ๋ค์์ฑ์ ๋ฐ์ํ์ง ๋ชปํจ
โconsumers prefer imported carsโ์ โpeople like foreign carsโ๊ฐ ์๋ฏธ์ ์ผ๋ก ๋์ผํ๋๋ผ๋ ํ๋ฉด ํํ๊ฐ ๋ค๋ฅด๋ฉด ๋ฎ์ ์ ์
BERTScore ์ค๊ณ์ ํต์ฌ ๋๊ธฐ
Highlight (1 page, edited: 2026-04-12)
This leads to performance underestimation when semantically-correct phrases are penalized because they differ from the surface form of the reference.
Problems:
์๋ฏธ์ ์ผ๋ก ์ฌ๋ฐ๋ฅธ ๋ฒ์ญ์ด reference์ ํ๋ฉด ํํ๊ฐ ๋ค๋ฅด๋ค๋ ์ด์ ๋ก ๊ณผ์ํ๊ฐ๋จ
exact match ๋ฐฉ์์ ๊ตฌ์กฐ์ ํ๊ณ: ๋์์ด, ํจ๋ฌํ๋ ์ด์ฆ๋ฅผ ํฌ์ฐฉ ๋ถ๊ฐ
์ด ๋ฌธ์ ๊ฐ BERTScore์์ contextual embedding + cosine similarity๋ก ๋์ฒด๋๋ ์ง์ ์ ๋๊ธฐ
Highlight (1 page, edited: 2026-04-12)
Second, n-gram models fail to capture distant dependencies and penalize semantically-critical ordering changes (Isozaki et al., 2010).
Problems:
n-gram ๋ชจ๋ธ์ ๋ ๋ฒ์งธ ํ๊ณ: ์๊ฑฐ๋ฆฌ ์์กด์ฑ ํฌ์ฐฉ ์คํจ + ์๋ฏธ์ ์ผ๋ก ์ค์ํ ์ด์ ๋ณํ์ ๋ํ ํ๋ํฐ ๋ถ์กฑ
์: โA because Bโ์ โB because Aโ๋ฅผ window=2์ธ BLEU๊ฐ ๊ฑฐ์ ๊ตฌ๋ถํ์ง ๋ชปํจ
contextual embedding์ self-attention์ผ๋ก unbounded dependency๋ฅผ ํฌ์ฐฉํ์ฌ ํด๊ฒฐ
๐ก Prior Research
Highlight (2 page, edited: 2026-04-12)
METEOR (Banerjee & Lavie, 2005) computes Exact-P1 and Exact-R1 while allowing backing-off from exact unigram matching to matching word stems, synonyms, and paraphrases.
Prior Research:
METEOR์ ์ ๊ทผ: exact match ์คํจ ์ stem/synonym/paraphrase๋ก fallback
์ธ๋ถ ๋ฆฌ์์ค(stemmer, synonym lexicon, paraphrase table)์ ์์กด
5๊ฐ ์ธ์ด๋ง ์ ์ฒด ์ง์, 11๊ฐ๋ ๋ถ๋ถ ์ง์ โ BERTScore๋ BERT 104๊ฐ ์ธ์ด ํ์ฉ
Highlight (3 page, edited: 2026-04-12)
All these methods require costly human judgments as supervision for each dataset, and risk poor generalization to new domains, even within a known language and task
Prior Research:
ํ์ต ๊ธฐ๋ฐ ๋ฉํธ๋ฆญ(BEER, BLEND, RUSE)์ ํ๊ณ
๊ฐ ๋ฐ์ดํฐ์ ๋ง๋ค ๋น์ผ human judgment ํ์
๋์ผ ์ธ์ดยทํ์คํฌ ๋ด์์๋ ์ ๋๋ฉ์ธ์ผ๋ก ์ผ๋ฐํ ์ํ
BERTScore๋ ํน์ evaluation task์ ์ต์ ํํ์ง ์์ผ๋ฏ๋ก ์ด ๋ฌธ์ ํํผ
Highlight (3 page, edited: 2026-04-12)
However, we use contextual embeddings, which capture the specific use of a token in a sentence, and potentially capture sequence information.
Prior Research:
๊ธฐ์กด embedding ๊ธฐ๋ฐ ๋ฉํธ๋ฆญ(MEANT 2.0, YiSi-1)๊ณผ์ ์ฐจ๋ณ์
static word embedding์ ๋ฌธ๋งฅ ๋ฌด๊ดํ ๋จ์ผ ๋ฒกํฐ โ contextual embedding์ ๋ฌธ๋งฅ์ ๋ฐ๋ผ ๋ค๋ฅธ ๋ฒกํฐ
์ธ๋ถ linguistic structure(semantic parse) ๋ถํ์ โ ์ธ์ด ์ด์์ฑ ์ฐ์
๐ต Main Idea
Highlight (1 page, edited: 2026-04-12)
In this paper, we introduce BERTSCORE, a language generation evaluation metric based on pretrained BERT contextual embeddings (Devlin et al., 2019)
Main Idea:
ํต์ฌ ์ ์: pretrained BERT contextual embedding ๊ธฐ๋ฐ์ text generation ์๋ ํ๊ฐ ๋ฉํธ๋ฆญ
task-agnostic: MT, image captioning ๋ฑ ์ฌ๋ฌ ์์ฑ ํ์คํฌ์ ๋ฒ์ฉ ์ ์ฉ
363๊ฐ ์์คํ ์ถ๋ ฅ์ผ๋ก ํ๊ฐ, human judgment๊ณผ ๋์ ์๊ด๊ด๊ณ ์ ์ฆ
Highlight (1 page, edited: 2026-04-12)
BERTSCORE computes the similarity of two sentences as a sum of cosine similarities between their tokensโ embeddings.
Main Idea:
ํ ์ค ์์ฝ: token-level contextual embedding ๊ฐ cosine similarity์ ํฉ์ผ๋ก ๋ ๋ฌธ์ฅ์ ์ ์ฌ๋ ๊ณ์ฐ
exact match ๋์ soft similarity โ ํจ๋ฌํ๋ ์ด์ฆ, ๋์์ด ์์ฐ์ค๋ฝ๊ฒ ์ฒ๋ฆฌ
greedy matching์ผ๋ก ๊ฐ ํ ํฐ์ ์๋ ๋ฌธ์ฅ์ ๊ฐ์ฅ ์ ์ฌํ ํ ํฐ์ ๋งค์นญ
Image (4 page, edited: 2026-04-12)
Main Idea:
- candidate ์ reference ๋ฅผ BERT์ ํ์ contextual embedding ๊ฐ์ ์ป์ด๋ด๊ณ , token-pair ๋ง๋ค cosine similarity ์ด์ฉํ์ฌ ์ ์ฌ์ฑ์ ํ๊ฐํ๊ณ IDF๋ก ๊ฐ token์ ๊ฐ์ค์น๋ฅผ ๋ถ์ฌ.
๐ข Methods
Highlight (4 page, edited: 2026-04-12)
We combine precision and recall to compute an F1 measure.
Methods:
Recall: reference์ ๊ฐ ํ ํฐ์ candidate์์ greedy matching (row-wise max)
Precision: candidate์ ๊ฐ ํ ํฐ์ reference์์ greedy matching (column-wise max)
F1์ด ๋๋ถ๋ถ์ ์ค์ ์์ ๊ฐ์ฅ ์์ ์ ์ธ ๋ฉํธ๋ฆญ
Image (4 page, edited: 2026-04-12)
BERTScore recall : row-wise max pooling
BERTScore precision: column-wise max pooling
(optional) : ๊ฐ์ reference ๋ฌธ์ฅ๋ค์ ๋ณด๋ฉด์ ํ ํฐ์ด reference ๋ฌธ์ฅ์ ๋ค์ด๊ฐ๋ฉด 1, ์๋๋ฉด 0์ผ๋ก ์นด์ดํ ํ ํ๊ท ๊ฐ(๋ก๊ทธ์ค์ผ์ผ)
Highlight (4 page, edited: 2026-04-12)
BERTSCORE enables us to easily incorporate importance weighting. We experiment with inverse document frequency (idf) scores computed from the test corpus.
Methods:
IDF ๊ฐ์ค์น ์ ์ฉ:
๊ฐ reference ๋ฌธ์ฅ์์ ํ ํฐ ์ถํ ๋น๋์ ์ญ์(๋ก๊ทธ ์ค์ผ์ผ)
tf๋ ๋จ์ผ ๋ฌธ์ฅ์ด๋ฏ๋ก 1๋ก ๊ฐ์ , idf๋ง ์ฌ์ฉ
ํฌ๊ท ํ ํฐ์ ๋์ ๊ฐ์ค์น โ ๋ฌธ์ฅ ์ ์ฌ๋์ ๋ ํฐ ๊ธฐ์ฌ
Image (5 page, edited: 2026-03-29)
cosine-similarity๋ก score๋ฅผ ๊ณ์ฐํ๊ธฐ ๋๋ฌธ์ bound๊ฐ ์ด์ง๋ง,์ ์๋ค์ด ์ค์ ๋ก ๊ณ์ฐ ์์๋ (-1,+1)๋ณด๋ค ์์ ๊ตฌ๊ฐ์์ ๊ฐ๋ค์ด ํ์ฑ. (์ด๊ณ ์ฐจ์์์ -1,1 ์ ๊ฐ๊น์ด ๊ฐ์ ๊ฐ๊ธฐ์๋ ๋งค์ฐ ์ด๋ ค์)
๋ฐ๋ผ์ ์ ์๋ค์ score์ readability๋ฅผ ๋ํ๊ธฐ ์ํด ์ค์ฆ์ ์ธ lower-bound ๋ฅผ ์ฐพ์ ์ค์ ๊ณ์ฐ score๊ฐ (-1,+1) ์ฌ์ด๋ก ์ค๋๋ก rescaling์ ์งํ.
๐ Limitations
Highlight (7 page, edited: 2026-04-12)
Overall, we find that applying importance weighting using idf at times provides small benefit, but in other cases does not help. Understanding better when such importance weighting is likely to help is an important direction for future work, and likely depends on the domain of the text and the available test data. We continue without idf weighting for the rest of our experiments.
Limitations:
IDF weighting์ ํจ๊ณผ๊ฐ ๋ถ์ผ๊ด
์ผ๋ถ ์ค์ ์์๋ง ์ํญ ๊ฐ์ , ๋ค๋ฅธ ๊ฒฝ์ฐ์๋ ๋์ ์ ๋จ
๋๋ฉ์ธยทํ ์คํธ ๋ฐ์ดํฐ์ ๋ฐ๋ผ ๋ฌ๋ผ์ง๋ฉฐ, ์ด๋ฅผ ์ดํดํ๋ ๊ฒ์ด future work
์ดํ ์คํ์์๋ IDF ์์ด ์งํ
Highlight (9 page, edited: 2026-04-12)
However, there is no one configuration of BERTSCORE that clearly outperforms all others.
Limitations:
๋ชจ๋ ์ค์ ์์ ์ต์ ์ธ ๋จ์ผ ๊ตฌ์ฑ์ ์์
๋ชจ๋ธ ์ ํ(BERT vs RoBERTa vs multilingual), ๋ ์ด์ด, IDF ์ฌ์ฉ ์ฌ๋ถ ๋ฑ์ด ๋๋ฉ์ธ/์ธ์ด์ ๋ฐ๋ผ ๋ค๋ฆ
์์ด: RoBERTa-large 24-layer ๊ถ์ฅ
๋น์์ด: multilingual BERT ์ฌ์ฉ ๊ฐ๋ฅํ๋ ์ ์์ ์ธ์ด์์ ๋ถ์์
๐ฃ Key Concepts to Clarify
Highlight (3 page, edited: 2026-04-12)
Instead of greedy matching, WMD (Kusner et al., 2015), WMDO (Chow et al., 2019), and SMS (Clark et al., 2019) propose to use optimal matching based on earth moverโs distance (Rubner et al., 1998).
Key Concepts to Clarify:
Greedy matching vs Optimal matching
Greedy: ๊ฐ ํ ํฐ์ ๊ฐ์ฅ ์ ์ฌํ ์๋ ํ ํฐ์ 1:1 ๋งค์นญ โ , ๋จ์ํ๊ณ ๋น ๋ฆ
Optimal (EMD/WMD): ์ ์ฒด ์ต์ ํ ๋น โ ๊ณ์ฐ ๋น์ฉ ๋์
BERTScore๋ greedy ์ ํ โ Appendix C์์ optimal ๋๋น ์ผ๊ด๋ ๊ฐ์ ์์์ ํ์ธ
MoverScore๋ ๊ฐ์ ๋งฅ๋ฝ์์ optimal(WMD) ์ ํ
Highlight (4 page, edited: 2026-04-12)
In contrast to prior word embeddings (Mikolov et al., 2013; Pennington et al., 2014), contextual embeddings, such as BERT (Devlin et al., 2019) and ELMO (Peters et al., 2018), can generate different vector representations for the same word in different sentences depending on the surrounding words, which form the context of the target word.
Key Concepts to Clarify:
Contextual embedding vs static embedding์ ํต์ฌ ์ฐจ์ด
Static (Word2Vec, GloVe): ๋จ์ด๋น ํ๋์ ๊ณ ์ ๋ฒกํฐ
Contextual (BERT, ELMo): ๊ฐ์ ๋จ์ด๋ ์ฃผ๋ณ ๋ฌธ๋งฅ์ ๋ฐ๋ผ ๋ค๋ฅธ ๋ฒกํฐ ์์ฑ
Transformer์ self-attention์ด ๋ฌธ๋งฅ ์ ๋ณด๋ฅผ ์ธ์ฝ๋ฉ โ ๋ค์์ด, ์ด์ ๋ณํ ํฌ์ฐฉ ๊ฐ๋ฅ
๐ช Results
Image (7 page, edited: 2026-04-12)
Results:
[Table 4 ๋ถ์] Segment-level ์ฑ๋ฅ:
BERTScore๊ฐ ๋ชจ๋ ๋ฉํธ๋ฆญ ๋๋น ์ ์ํ๊ฒ ๋์ ์ฑ๋ฅ
BLEU ๋๋น ํนํ ํฐ ๊ฐ์ โ ๊ฐ๋ณ ๋ฌธ์ฅ ๋ถ์์ ์ ํฉ
์ฌ์ง์ด supervised ๋ฉํธ๋ฆญ RUSE๋ segment-level์์๋ BERTScore์ ์ด์ธ
Image (8 page, edited: 2026-04-12)
Results:
[Table 5 ๋ถ์] Image captioning (COCO 2015 Captioning Challenge) ๊ฒฐ๊ณผ:
M1: ์์ฑ ์บก์ ์ด ์ธ๊ฐ ์บก์ ๋๋น better or equal๋ก ํ๊ฐ๋ ๋น์จ
M2: ์์ฑ ์บก์ ์ด ์ธ๊ฐ ์บก์ ๊ณผ **๊ตฌ๋ถ ๋ถ๊ฐ๋ฅ(indistinguishable)**ํ ๋น์จ (๋ ์๊ฒฉ)
BERTScore๊ฐ task-agnostic ๋ฉํธ๋ฆญ ์ค M1/M2 ๋ชจ๋์์ ํฐ ํญ์ผ๋ก ์ต๊ณ ์ฑ๋ฅ
BLEU, ROUGE ๋ฑ n-gram ๋ฉํธ๋ฆญ์ human judgment์ ์ฝํ ์๊ด๊ด๊ณ
SPICE(task-specific)๋ณด๋ค๋ ์ฐ์ โ ๋ณ๋ task ์ต์ ํ ์์ด๋ ๊ฐ๋ ฅํ ๋ฒ์ฉ์ฑ
Image (8 page, edited: 2026-04-12)
Results:
[Table 6 ๋ถ์] Adversarial robustness (PAWS):
๋๋ถ๋ถ์ ๋ฉํธ๋ฆญ์ด QQP์์๋ ์ ์ ํ๋ PAWS ์ ๋์ ์์ ์์ chance ์์ค๊น์ง ํ๋ฝ
BERTScore๋ ์ํญ ํ๋ฝ๋ง โ contextual embedding์ด word swapping์๋ ์๋ฏธ ์ฐจ์ด๋ฅผ ํฌ์ฐฉ
์: โFlights from New York to Floridaโ vs โFlights from Florida to New Yorkโ ๊ตฌ๋ถ ๊ฐ๋ฅ
๐ Ablation Study
Image (16 page, edited: 2026-04-12)
Ablation Study:
[Appendix B] BERT ๋ ์ด์ด ์ ํ ์คํ:
๋ชจ๋ ๋ชจ๋ธ์์ ์ค๊ฐ ๋ ์ด์ด๊ฐ ์ต์ ์ฑ๋ฅ
์ต์ข ๋ ์ด์ด๋ next-word prediction ๋ฑ pretraining objective์ ํนํ๋์ด semantic similarity์ ๋ ์ ํฉ
WMT16์ validation์ผ๋ก ์ฌ์ฉํ์ฌ ๊ฐ ๋ชจ๋ธ๋ณ ์ต์ ๋ ์ด์ด ํ์
Highlight (19 page, edited: 2026-04-12)
Third, replacing greedy matching with WMD does not lead to consistent improvement.
Ablation Study:
[Appendix C] Greedy matching vs WMD(optimal) ๋น๊ต:
WMD๋ก ๊ต์ฒดํด๋ ์ผ๊ด๋ ๊ฐ์ ์์ โ ์คํ๋ ค BERTScore(greedy)๊ฐ ๋์ผ ์ค์ ์์ ๋ ๋์ ๊ฒฝ์ฐ ๋ค์
๊ฒฐ๋ก : greedy matching์ด text generation ํ๊ฐ์ ์ถฉ๋ถํ๋ฉฐ, optimal matching์ ์ถ๊ฐ ๊ณ์ฐ ๋น์ฉ์ด ์ ๋นํ๋์ง ์์
MoverScore์์ ํต์ฌ ์ฐจ์ด์







Discussion
Comments
๋๊ธ์ ์น์ธ ํ ๊ณต๊ฐ๋ฉ๋๋ค.