Citation Hunt

Фрагмент із Вікіпедії нижче не підкріплений надійним джерелом. Чи можете Ви знайти таке?

Клацніть Є джерело!, аби перейти до Вікіпедії та виправити фрагмент, або Наступна!, щоб переглянути інший. Щасти!

На сторінці Q-навчання:

"

Епізод алгоритму закінчується тоді, коли стан s t + 1 {\displaystyle s_{t+1}} є завершальним, або термінальним станом (англ. final, terminal state). Тим не менше, Q-навчання може також навчатися і в не епізодових завданнях.[джерело?] Якщо коефіцієнт знецінювання (англ. discount factor) є меншим за 1, то цінності (англ. value) дій є скінченними, навіть якщо задача може містити нескінченні цикли.