Pekiştirmeli Öğrenme ile Adaptif Dövüş Robotu Eğitimi
Ters sarkaç (inverted pendulum) fizyonomisiyle modellenen bir sistemin, harici kontrol modellemelerine gereksinim duymadan (model-free) denge ve dış müdahale reaksiyonu geliştirmesi Deep Q-Network mimarisi ekseninde değerlendirilmiştir. Temel benchmark referansı olan lineer kontrol (LQR) ile başlayıp sıralı zorluk artışına dayanan 4 fazlı bir tasarım çerçevesi izlenmiştir. Ajanın kendi kopyalarıyla kapalı döngüde rekabet etmesi (self-play), tek optimizasyon ekseninde ortaya çıkan aşırı güven (overconfidence) yanılgılarını sınırlandırmak için uygulanmıştır.