Apprendimento tramite rinforzo - Padroneggiare il processo decisionale intelligente per le macchine autonome
Fouad Sabry
Übersetzer Cosimo Pinto
Beschreibung
Nel campo in rapida evoluzione della robotica, l'apprendimento per rinforzo è uno dei metodi più promettenti per la creazione di sistemi autonomi. Questo libro, Reinforcement Learning, fornisce un'esplorazione approfondita di questa potente tecnica, guidando i lettori attraverso i suoi principi fondamentali fino ai suoi ultimi progressi. Perfetto per professionisti, studenti laureati e appassionati, questo libro offre un approccio dettagliato ma accessibile per comprendere l'apprendimento per rinforzo nel contesto della robotica. Breve panoramica dei capitoli: 1: Apprendimento per rinforzo: introduce il concetto fondamentale dell'apprendimento per rinforzo, sottolineandone il ruolo nei sistemi autonomi. 2: Processo decisionale di Markov: spiega il quadro matematico per il processo decisionale in condizioni di incertezza, un fondamento fondamentale per l'apprendimento per rinforzo. 3: Apprendimento delle differenze temporali: esplora metodi per apprendere dall'esperienza senza aver bisogno di un modello dell'ambiente. 4: Equazione di Bellman: discute la relazione ricorsiva critica che sta alla base di molti algoritmi di apprendimento per rinforzo. 5: Qlearning: si concentra su un algoritmo di apprendimento di rinforzo offpolicy che apprende azioni ottimali senza un modello dell'ambiente. 6: Multiarmed bandit: copre un problema di apprendimento di rinforzo più semplice che modella il processo decisionale in ambienti incerti. 7: Processo decisionale di Markov parzialmente osservabile: espande i tradizionali processi decisionali di Markov incorporando stati nascosti. 8: Indice di Gittins: introduce una strategia per bilanciare esplorazione e sfruttamento nei problemi multiarmed bandit. 9: Stato-azione-ricompensa-stato-azione: approfondisce i modelli temporali nell'apprendimento di rinforzo che informano le strategie decisionali. 10: Funzione protovalore: esplora metodi per approssimare le funzioni valore, aiutando nell'efficienza dell'apprendimento. 11: Costruzione automatica della funzione di base: si concentra sui metodi automatici per costruire funzionalità per migliorare l'efficienza dell'apprendimento. 12: Teoria dei giochi Meanfield: discute un framework per la modellazione delle interazioni in sistemi multiagente su larga scala. 13: Multiagent pathfinding: introduce algoritmi per coordinare più agenti per raggiungere le loro destinazioni in modo efficiente. 14: Modelfree (apprendimento per rinforzo): discute metodi che non si basano su un modello dell'ambiente per l'apprendimento. 15: Deep reinforcement learning: combina apprendimento profondo e apprendimento per rinforzo per gestire ambienti complessi e ad alta dimensione. 16: Multiagent reinforcement learning: si concentra sulle strategie per l'apprendimento in ambienti con più agenti interagenti. 17: Selfplay: esplora il concetto di agenti che apprendono attraverso la competizione con se stessi, una componente critica delle strategie di apprendimento avanzate. 18: Ottimizzazione delle policy prossimali: introduce un algoritmo per ottimizzare le policy nell'apprendimento per rinforzo con stabilità e prestazioni migliorate. 19: Dilemma di esplorazione-sfruttamento: discute la sfida fondamentale di bilanciare l'esplorazione di nuove strategie con lo sfruttamento di quelle note. 20: Apprendimento per rinforzo da feedback umano: esamina metodi per migliorare l'apprendimento per rinforzo utilizzando input umani. 21: Apprendimento per imitazione: si concentra sulle tecniche in cui gli agenti apprendono imitando le azioni degli esperti umani.
