In unserem Alltag sind wir umgeben von Maschinen. Die meisten Anwendungen darauf, etwa auf PCs oder Smartphones, sind deterministisch programmiert. Mindestens ein Entwickler hat die Nutzeranwendung auf Basis unzähliger Befehlsfolgen erzeugt. Zwar ist der Fortschritt in der Geräteentwicklung rasant, von selbständigen Systemen kann jedoch kaum die Rede sein. Sie basieren auf menschlicher Intelligenz.

Was ist maschinelles Lernen?

Angenommen, man würde diese menschliche Intelligenz nachbilden und Maschinen mit eigenen, auf Basis der Umwelt adaptiven Entscheidungssystemen ausstatten. Sind diese Instanzen dazu fähig, selbstständig Erkenntnisse zu sammeln und auf Basis dieser zu lernen? Tatsächlich gibt es zwei grobe Ansätze in der Forschung, die sich an der Lösung der Aufgabe “Maschinelles Lernen” versuchen.

  • Unsupervised Learning:
    Ein Algorithmus erhält dabei eine Menge an Eingaben und deren Attribute. Ziel ist es, dass die Zusammenhänge und Kategorien der Eingaben erkannt und dadurch Vorhersagen ermöglicht werden. Die Besonderheit ist, dass dem Algorithmus davor nicht mitgeteilt wird, um welche Art von Kategorien es sich handelt. Es werden selbstständige Klassifikatoren erzeugt, nach denen die Eingaben eingeteilt werden. Angenommen, der Learner erhält einen Datensatz an Tieren. Die Tiere können beispielsweise Schlangen oder Hunde sein, diese Information wird dem Learner jedoch vorenthalten. Nur anhand von Attributwerten wie “Fell” oder “Körpergröße” kann der Algorithmus eigene Klassen erzeugen.
  • Supervised Learning:
    Im Gegensatz dazu bekommt ein überwachter Learner Eingaben, die bereits korrekt klassifiziert sind. Auf Basis dieser soll er Unterschiede festmachen und neue künftige Eingaben mittels des Modelles klassifizieren und Assoziationen herstellen. Während des Lernens wird der Algorithmus überwacht und erhält kontinuierlich Rückmeldung mit konkretem Feedback. Ein Anwendungsgebiet des überwachten Lernens ist die automatische Klassifizierung wie zum Beispiel die Nummernschilderkennung an Mautstationen.

Doch genügen diese Ansätze unserem Wunsch nach maschineller Autonomität?

Eine Unterkategorie des Supervised Learnings sticht durch ihr scheinbar menschliches Lernverhalten besonders hervor – das Reinforcement Learning. Hierbei sucht der Algorithmus nach einer Entscheidungsfunktion, wie er in potenziell auftretenden Situationen bestmöglich agieren kann. Das Lernen erfolgt dabei durch Belohnung und Bestrafung auf Basis der Analyse seiner aktuellen Situation. Der Entwickler manipuliert dabei nicht den Agenten und dessen Logik – er erhält also nicht ständig konkrete Rückmeldung -, sondern nur dessen Umwelt und damit seine Lerngrundlage.

Als ein simples Beispiel ist hier das Verhältnis von Mutter zu Kind zu nennen. Das Kind probiert neue Dinge aus, sein Elternteil reagiert darauf und bestärkt es oder rät von verschiedenen Verhaltensmustern ab. Im übertragenen Sinne ist das Kind als der experimentelle Teil des Algorithmus zu verstehen – die Mutter wiederum wird über eine mathematische Belohnungsfunktion realisiert. Gute Aktionen bekommen hohe Ergebniswerte zurückgegeben. Um ähnlich wie ein Mensch zu funktionieren, muss der Algorithmus neben der Belohnungsfunktion auch eine Art Gehirn mit Gedächtnis besitzen. Dies wird über sogenannte neuronale Netze realisiert. Diese Netze sind nichts anderes als hochdimensionale Matrizenfunktionen. Jede Aktion, die der Agent auswählt, wird durch ein oder mehrere derartige Netze “geschossen”. Das Netz passt sich abhängig von der resultierenden Belohnung an das neu gesehene an. War die Aktion ohne besonderen Erfolg, so werden die Gewichte des Netzes beziehungsweise das Gedächtnis so angepasst, dass die Aktion künftig mit geringer Wahrscheinlichkeit gewählt wird. Genau umgekehrt funktioniert dies auch für Aktionen mit hohem Belohnungswert.

Reinforcement Learning in Unternehmen

Auch als Unternehmen kann der Einsatz von Reinforcement Learning einen großen Mehrwert generieren, zum Beispiel in folgenden Bereichen:

  • Spieleindustrie: Wer bereits über Reinforcement Learning gelesen hat, wird mit hoher Wahrscheinlichkeit auch von AlphaGo und AlphaZero von DeepMind (Teil von Google) gehört haben. Es handelt sich hierbei um autodidaktische Computerprogramme, deren Algorithmen mehrere komplexe Brettspiele einzig anhand der Spielregeln und Siegbedingungen sowie durch intensives Spielen gegen sich selbst erlernen. Gerade im Computerspielesektor führt dies nach dem vermeintlich erhofften Erfolg von Virtual Reality zu einem neuen Hype. Spiele beinhalten künftig KIs für Amateure und Profis, die durch Reinforcement Learning trainiert sind.
  • Robotik: Wenn Maschinen den Menschen bei der Fließbandarbeit ersetzen, handelt es sich häufig um identische Arbeitsschritte, die sequentiell abgearbeitet werden. Der Roboter kann simpel und mit dem exakt gewünschten Ablauf programmiert werden. Wenn sich jedoch das gegebene Umfeld für den Roboter verändert, muss die Produktion oftmals gestoppt und manuell von Menschenhand eingegriffen werden. Durch Reinforcement Learning könnte diese Eingriffsrate künftig minimiert werden. Soll der Roboter beispielsweise ein Objekt aufnehmen, das nicht immer an derselben Stelle liegt, kann er durch seine gesammelten Erfahrungen darauf reagieren und den Suchraum anpassen.
  • Ableitung für alle Branchen: Reinforcement besticht vor allem durch eins – die trainierten Algorithmen entwickeln ihre eigenen Handlungstaktiken und agieren für den Menschen häufig unvorhersehbar. Gerade diesen Überraschungseffekt kann man sich zunutze machen, wenn man ein entwickeltes System auf “Alltagstauglichkeit” prüfen möchte. Der Reinforcement Learner stellt das System sehr objektiv und allumfassend auf die Probe. Sogar in Szenarien, auf die viele Menschen nicht selbst gekommen wären.

Ihr Interesse zum Thema Reinforcement Learning und möglichen Einsatzgebieten wurde geweckt? Schreiben Sie uns an, wir beraten Sie gerne!

Kontakt
Privatsphäre Einstellungen
Wir verzichten bewusst auf die Erhebung von Nutzerdaten und benutzen keine Cookies. Lediglich mithilfe der in jedem Falle gegebenen Logdateien analysieren wir das Nutzerverhalten auf unserer Website. Mehr Informationen dazu, welche Daten wir erheben und wie wir diese verarbeiten in unserer Datenschutzerklärung. Wir verwenden allerdings auch externe Inhalte (z.B. Google Maps) zu deren Analsye, Tracking und Speicherungsmethoden wir keine Aussagen treffen können. Deswegen benötigen wir zum anzeigen dieser Inhalte Ihre explizite Zustimmung.
Youtube
Zustimmung zum Anzeigen von Youtube - Inhalten
Vimeo
Zustimmung zum Anzeigen von Vimeo - Inhalten
Google Maps
Zustimmung zum Anzeigen von Google - Inhalten
Spotify
Zustimmung zum Anzeigen von Spotify - Inhalten
Sound Cloud
Zustimmung zum Anzeigen von Sound - Inhalten