정책 이터레이션 (Policy Iteration)
어떤 정책
새로운 정책은 다음과 같이 탐욕(greedy)적인 방법으로 찾을 수 있다.
여기서 탐욕적이라는 의미는 먼 미래 대신에 한 시간스텝만을 고려하여 최대값을 구한다는 것을 말한다. 탐욕적 방법으로 새로운 정책을 계산하면 확정적(deterministic) 정책이 된다.
위와 같은 방법으로 새로운 정책을 구하고 이 정책에 대하여 상태가치 함수를 계산하면,
증명은 행동가치 함수와 상태가치 함수의 관계식에서 출발한다.
한편 행동가치 함수와 상태가치 함수의 또 다른 관계식으로부터,
이 성립하므로, 식 (1)을 이용하면 식 (4)의 최대값은 다음과 같이 된다.
식 (6)으로 주어지는 상태가치 함수에 관한 벨만 방정식에서
위 식은 다음과 같이 되어서 식 (5)와 일치한다.
식 (7)에서 기댓값
따라서 정책 개선이 증명되었다.

한편 임의의 정책
상태가치 함수와 행동가치 함수에 대한 벨만 방정식은 각각 다음과 같았다.
벨만 방정식은 보통 해석적인 해를 구할 수 없으므로 반복적 계산 방법, 즉 이터레이션(iteration) 방법으로 해를 구할 수 있다. 확정적 정책을 가정하고 벨만 방정식을 이터레이션 방법으로 풀면 다음과 같다.
여기서 아래 첨자

가치함수가 수렴하면 임의의 정책
다시 새로운 정책

그렇다면 정책 이터레이션은 과연 특정한 정책과 가치함수로 수렴할까. 수렴한다면 그 정책은 모든 정책 중에서 가치함수를 최대로 만드는 정책이기 때문에 최적 정책(optimal policy)이라고 하고 그 때의 가치함수를 최적 가치함수라고 한다.
정책 이터레이션의 수렴에 관한 증명은 가치 이터레이션의 증명과 동일하므로 가치 이터레이션 설명 이후에 증명하도록 한다.