Digital garden

태그: RLHF

1건의 항목

Date

Category

Title / Summary

2026.03.19↻ 2026.04.09

개념 노트

Policy Gradient를 처음부터 이해하기

Policy gradient의 목표는 기대 return J(\theta)를 최대화하는 것이다. log-derivative trick을 쓰면 gradient를 trajectory 분포 위의 기댓값 형태로 바꿀 수 있다. baseline과...

LLM
NLP
Reinforcement-Learning
RLHF

© 2026 lots-o.