Reinforcement Learning

Il Reinforcement Learning (RL) è un altro approccio al machine learning.

Gli algoritmi basati sul Reinforcement Learning apprendono per tentativi ed errori tramite l'esperienza passata.

Si muovono in ambiente operativo per acquisire la conoscenza necessaria a compiere le scelte migliori finalizzate al raggiungimento di un obiettivo specifico.

Lo sviluppatore sceglie l'obiettivo, le ricompense (o premi) sulle scelte efficaci e le penalizzazioni (penalty) sulle scelte sbagliate.

Le ricompense e le penalizzazioni sono il "rinforzo" che aiuta la macchina ad apprendere quali decisioni la avvicinano al raggiungimento dell'obiettivo.

Durante la fase di apprendimento l'algoritmo compie delle scelte, analizza i feed-back e valuta l'efficacia delle decisioni tramite una funzione da massimizzare.

Le scelte errate riducono il punteggio della funzione tramite le penalizzazioni.
Le scelte efficaci aumentano il punteggio della funzione tramite le ricompense.

In questo modo l'algoritmo crea un modello decisionale facendo esperienza (learning by doing)

Pertanto, nel RL non c'è un dataset di training a formare la conoscenza dell'agente razionale. E' la macchina a costruire da sé un modello decisionale.

Spesso l'esperienza viene acquisita in un ambiente operativo simulato, ad esempio un videogioco, per evitare che le scelte errate durante l'apprendimento siano eccessivamente costose.

Attualmente gli algoritmi di Reinforcement Learning sono meno usati rispetto alle tecniche di ML supervisionato e ML non supervisionato. Tuttavia, le tecniche di RL sono anche l'approccio più recente e promettente del machine learning. Molti studi sono ancora in corso.

Alcuni esempi di algoritmi del Reinforcement Learning sono basati sul Markov Decision Process. Gli algoritmi più noti sono Q-Learning, Deep Q-Network (DQN), Double Q-Lerning.