Was ist Reinforcement Learning?

#Künstliche Intelligenz
Mar 30, 2022

Was ist Reinforcement Learning?

Reinforcement Learning (RL) ist ein Teilgebiet von Machine Learning. Die Idee hinter Reinforcement Learning ist, dass ein Agent (eine KI) von der Umgebung lernt, indem er mit ihr interagiert (durch Trial-and-Error) und Belohnungen (positiv oder negativ) als Feedback für die Durchführung von Aktionen erhält. Der Lernvorgang beim RL ist also ähnlich zu dem von Menschen und Tieren.

Was sind die wesentlichen Bestandteile von RL?

Im Folgenden werden die wesentlichen Bestandteile von RL und dessen Funktionsweise anhand eines Beispiels erklärt. In unserem Beispiel soll ein Roboter von einem Startpunkt A zu einem Zielpunkt B laufen.

  • Agent: ein Programm, welches trainiert wird, eine bestimmte Aufgabe zu lösen. In unserem Beispiel ist der Agent das Programm, welches den Roboter kontrolliert. Es soll erlernen, zum Zielpunkt zu laufen.
  • Umgebung: die Welt, in der der Agent seine Aktionen ausführt. In unserem Beispiel ist die Umgebung die reale Welt.
  • Aktion: eine Handlung, die von dem Agenten ausgeführt wird und eine Veränderung der Umgebung auslöst. In unserem Beispiel hat der Roboter vier Aktionen: vorwärts gehen, rückwärts gehen, nach links gehen oder nach rechts gehen. Nach jeder dieser Aktionen ändert sich der Zustand der Umgebung.
  • Zustand: der Zustand der Umgebung zu einem bestimmten Zeitpunkt t. In unserem Beispiel der Zustand der Umgebung, nachdem der Roboter eine der vier Aktionen ausgeführt hat.
  • Belohnung: die positive oder negative Bewertung einer Aktion. In unserem Beispiel wird das Programm dafür belohnt, wenn es sich dem Zielpunkt nähert. Das Programm wird bestraft, wenn es sich vom Zielpunkt entfernt, der Roboter hinfällt oder es Zeit verschwendet, indem es zum Beispiel im Kreis läuft. Wichtig hierbei ist, dass der Agent (also unser Programm) nicht die einzelnen Bewertungen maximiert, sondern die aufsummierten Bewertungen. Dadurch kann der Agent zwischen kurzfristigen und langfristigen Belohnungen und Bestrafungen abwägen.

Durch die Trial-and-Error Herangehensweise ähnelt der RL Prozess einer Schleife (siehe Abbildung).  Die Wiederholung von Aktionen und den daraus resultierenden Belohnungen/Bestrafungen ermöglichen es dem Agenten (dem Programm) zu lernen, wie er mit dem Roboter effizienter vom Startpunkt A zum Zielpunkt B laufen kann.

Reinforcement Learning: Trial-and-Error-Prozess

Die wohl bekannteste Anwendung von Reinforcement Learning ist das Programm Alpha Go von DeepMind, welches es 2014 als erstes Computerprogramm schaffte, einen professionellen Go-Spieler zu besiegen. Go ist ein komplexes Strategiespiel für zwei Personen, welches ursprünglich aus China stammt. AlphaZero, die verbesserte Version von Alpha Go, konnte nicht nur den Vorgänger Alpha Go besiegen, sondern zudem für weitere Spiele generalisiert werden. So war AlphaZero in der Lage den bis dahin besten Schachcomputer (Stockfish) zu schlagen.

Quellen (übersetzt): Towards Data Science und Medium

PDF downloaden

Weitere Beiträge

Schaden gut. Alles gut.

Schaden gut. Alles gut.