Autoage

DeepMind impara a correre

l'algoritmo si sposta nell'ambiente virtualeL'intelligenza artificiale sviluppata dalla DeepMind del gruppo Alphabet ( Google ) ha imparato a correre in un percorso di parkour virtuale, tramite una tecnica di machine learning basata sull'apprendimento con rinforzo.

Come funziona l'apprendimento con rinforzo? La macchina impara dall'esperienza. Le mosse virtuose e vincenti per raggiungere un determinato obiettivo sono premiate da una ricompensa, quelle sbagliate sono punite.

Nel percorso virtuale del parkour l'algoritmo ha dovuto superare gli ostacoli di vario tipo ( precipizi, barriere, muri, tavole traballanti, scalini, ecc. ) imparando da sé, senza una guida umana o una programmazione iniziale.

L'algoritmo ha provato diversi comportamenti. Le scelte sbagliate sono state punite da una punizione ( ricompensa negativa ), quelle migliori da un premio ( ricompensa positiva ).

Così facendo la macchina ha imparato a spostarsi in un ambiente ostile.

Progressivamente l'intelligenza artificiale ha imparato a spostarsi sempre meglio, per tentativi ed errori, cercando di non ripetere gli stessi sbagli.

Per spingere l'agente a muoversi sempre più velocemente, i ricercatori hanno collegato le ricompense anche al tempo di completamento del percorso. In questo modo, l'agente è stato spinto a muoversi sempre più velocemente e a rischiare.

Nota. Senza un premio legato al tempo, l'intelligenza artificiale avrebbe potuto anche scegliere di non muoversi. Sarebbe stata una decisione razionale in un ambiente pieno di insidie, pericoli e ostacoli.

Il software ha testato varie mosse, alcune sembrano goffe perché la macchina ha dovuto imparare da zero, cercando man mano gli spostamenti sempre più efficienti ed efficaci, senza l'aiuto dell'uomo.

A cosa serve l'esperimento?

Questo esperimento è utile per capire come una macchina apprende dall'esperienza.

Non si tratta soltanto di comprendere come un robot intelligente impara muoversi in un ambiente ostile, potrebbe anche essere una ricerca scientifica o medica.

In entrambi i casi, la macchina impara a raggiungere un obiettivo in modo diverso dall'uomo. A volte meglio.

05 / 03 / 2018




Fonte dello studio

https://deepmind.com/blog/producing-flexible-behaviours-simulated-environments/




Home Page | Per contattarci | PIVA 09286581005 | Privacy e preferenze cookies | All rights reserved 2017

Questo sito utilizza cookie tecnici. Sono presenti alcuni cookie di terzi ( Gooogle, Facebook ) per la personalizzazione degli annunci pubblicitari. Cliccando su OK, scorrendo la pagina o proseguendo la navigazione in altra maniera acconsenti all’uso dei cookie.

Per ulteriori informazioni o per revocare il consenso fai riferimento alla Privacy del sito.