가치함수 (Value Function)
어떤 상태변수
상태가치 함수의 정의는 다음과 같다.
여기서

어떤 상태변수
여기서

공간상에서 상태가치 함수와 행동가치 함수의 관계는 다음과 같다.
즉, 상태가치는 상태변수

시간상에서 상태가치와 행동가치의 관계식을 알아보기 위해서, 행동가치 함수를 한 시간스텝 전개해 보자.
조건부 확률의 연쇄법칙에 의하면
가 된다. 여기서
식 (5)를 식 (4)의 두 번째 적분식에 연쇄법칙을 적용하면 다음과 같이 전개된다
상태가치 함수의 정의인 식 (1)에 의하면 위 식은 대괄호항은
이 된다.
식 (7)을 (4)에 대입하면, 행동가치 함수는 다음과 같이 된다.
식 (8)을 (3)에 대입하면 상태가치 함수는 다음과 같이 된다.
식 (3)을 식 (8)에 대입하면 행동가치 함수는 다음과 같이 된다.
식 (9)와 (10)을 각각 상태가치와 행동가치 벨만 방정식(Bellman equation)이라고 한다. 벨만 방정식은 시간상에서 상태가치와 행동가치의 관계식을 나타낸다.
식 (9)와 (10)의 좌변과 우변에 각각 똑같아 보이는 상태가치 함수와 행동가치 함수가 있는데, 사실은 가치함수가 시변(time-varying) 함수이므로 두 개의 가치함수는 다른 것이다.

하지만 무한구간(

상태가치 함수를 예로 들어서 무한구간에서 가치함수가 시불변 함수가 됨을 증명해 보자.
무한구간에서
무한구간에서
정책 확률밀도함수
따라서 무한구간에서 상태가치 함수는 시간스텝과 관계없이 동일한 입력에 대해서는 동일한 결과를 산출하는 시불변 함수라는 것을 알 수 있다.