Reinforcement Learning, Neuronale Netze und Co. – Was steckt dahinter?

In unserem Alltag sind wir umgeben von Maschinen. Die meisten Anwendungen darauf, etwa auf PCs oder Smartphones, sind deterministisch programmiert. Mindestens ein Entwickler hat die Nutzeranwendung auf Basis unzähliger Befehlsfolgen erzeugt. Zwar ist der Fortschritt in der Geräteentwicklung rasant, von selbständigen Systemen kann jedoch kaum die Rede sein. Sie basieren auf menschlicher Intelligenz.

Was ist maschinelles Lernen?

Angenommen, man würde diese menschliche Intelligenz nachbilden und Maschinen mit eigenen, auf Basis der Umwelt adaptiven Entscheidungssystemen ausstatten. Sind diese Instanzen dazu fähig, selbstständig Erkenntnisse zu sammeln und auf Basis dieser zu lernen? Tatsächlich gibt es zwei grobe Ansätze in der Forschung, die sich an der Lösung der Aufgabe “Maschinelles Lernen” versuchen.

Unsupervised Learning:
Ein Algorithmus erhält dabei eine Menge an Eingaben und deren Attribute. Ziel ist es, dass die Zusammenhänge und Kategorien der Eingaben erkannt und dadurch Vorhersagen ermöglicht werden. Die Besonderheit ist, dass dem Algorithmus davor nicht mitgeteilt wird, um welche Art von Kategorien es sich handelt. Es werden selbstständige Klassifikatoren erzeugt, nach denen die Eingaben eingeteilt werden. Angenommen, der Learner erält einen Datensatz an Tieren. Die Tiere können beispielsweise Schlangen oder Hunde sein, diese Information wird dem Learner jedoch vorenthalten. Nur anhand von Attributwerten wie “Fell” oder “Körpergröße” kann der Algorithmus eigene Klassen erzeugen.
Supervised Learning:
Im Gegensatz dazu bekommt ein überwachter Learner Eingaben, die bereits korrekt klassifiziert sind. Auf Basis dieser soll er Unterschiede festmachen und neue künftige Eingaben mittels des Modelles klassifizieren und Assoziationen herstellen. Während des Lernens wird der Algorithmus überwacht und erhält kontinuierlich Rückmeldung mit konkretem Feedback. Ein Anwendungsgebiet des überwachten Lernens ist die automatische Klassifizierung wie zum Beispiel die Nummernschilderkennung an Mautstationen.

Doch genügen diese Ansätze unserem Wunsch nach maschineller Autonomität?

Eine Unterkategorie des Supervised Learnings sticht durch ihr scheinbar menschliches Lernverhalten besonders hervor – das Reinforcement Learning. Hierbei sucht der Algorithmus nach einer Entscheidungsfunktion, wie er in potenziell auftretenden Situationen bestmöglich agieren kann. Das Lernen erfolgt dabei durch Belohnung und Bestrafung auf Basis der Analyse seiner aktuellen Situation. Der Entwickler manipuliert dabei nicht den Agenten und dessen Logik – er erhält also nicht ständig konkrete Rückmeldung -, sondern nur dessen Umwelt und damit seine Lerngrundlage.

Als ein simples Beispiel ist hier das Verhältnis von Mutter zu Kind zu nennen. Das Kind probiert neue Dinge aus, sein Elternteil reagiert darauf und bestärkt es oder rät von verschiedenen Verhaltensmustern ab. Im übertragenen Sinne ist das Kind als der experimentelle Teil des Algorithmus zu verstehen – die Mutter wiederum wird über eine mathematische Belohnungsfunktion realisiert.

Gute Aktionen bekommen hohe Ergebniswerte zurückgegeben. Um ähnlich wie ein Mensch zu funktionieren, muss der Algorithmus neben der Belohnungsfunktion auch eine Art Gehirn mit Gedächtnis besitzen. Dies wird über sogenannte neuronale Netze realisiert. Diese Netze sind nichts anderes als hochdimensionale Matrizenfunktionen. Jede Aktion, die der Agent auswählt, wird durch ein oder mehrere derartige Netze “geschossen”.

Das Netz passt sich abhängig von der resultierenden Belohnung an das neu gesehene an. War die Aktion ohne besonderen Erfolg, so werden die Gewichte des Netzes beziehungsweise das Gedächtnis so angepasst, dass die Aktion künftig mit geringer Wahrscheinlichkeit gewählt wird. Genau umgekehrt funktioniert dies auch für Aktionen mit hohem Belohnungswert.

Reinforcement Learning in Unternehmen

Auch als Unternehmen kann der Einsatz von Reinforcement Learning einen großen Mehrwert generieren, zum Beispiel in folgenden Bereichen:

Spieleindustrie:
Wer bereits über Reinforcement Learning gelesen hat, wird mit hoher Wahrscheinlichkeit auch von AlphaGo und AlphaZero von DeepMind (Teil von Google) gehört haben. Es handelt sich hierbei um autodidaktische Computerprogramme, deren Algorithmen mehrere komplexe Brettspiele einzig anhand der Spielregeln und Siegbedingungen sowie durch intensives Spielen gegen sich selbst erlernen. Gerade im Computerspielesektor führt dies nach dem vermeintlich erhofften Erfolg von Virtual Reality zu einem neuen Hype. Spiele beinhalten künftig KIs für Amateure und Profis, die durch Reinforcement Learning trainiert sind.
Robotik:
Wenn Maschinen den Menschen bei der Fließbandarbeit ersetzen, handelt es sich häufig um identische Arbeitsschritte, die sequentiell abgearbeitet werden. Der Roboter kann simpel und mit dem exakt gewünschten Ablauf programmiert werden. Wenn sich jedoch das gegebene Umfeld für den Roboter verändert, muss die Produktion oftmals gestoppt und manuell von Menschenhand eingegriffen werden. Durch Reinforcement Learning könnte diese Eingriffsrate künftig minimiert werden. Soll der Roboter beispielsweise ein Objekt aufnehmen, das nicht immer an derselben Stelle liegt, kann er durch seine gesammelten Erfahrungen darauf reagieren und den Suchraum anpassen.
Ableitung für alle Branchen:
Reinforcement besticht vor allem durch eins – die trainierten Algorithmen entwickeln ihre eigenen Handlungstaktiken und agieren für den Menschen häufig unvorhersehbar. Gerade diesen Überraschungseffekt kann man sich zunutze machen, wenn man ein entwickeltes System auf “Alltagstauglichkeit” prüfen möchte. Der Reinforcement Learner stellt das System sehr objektiv und allumfassend auf die Probe. Sogar in Szenarien, auf die viele Menschen nicht selbst gekommen wären.

Über Frachtwerk

Die Frachtwerk GmbH wurde im Jahr 2017 in Berlin als Kombination aus Unternehmensberatung und Softwareentwicklung mit Fokus auf Logistik und Mobilität gegründet. Zu den Projektschwerpunkten gehören Software-Entwicklung, Software-Betrieb, Ablösung von Altsystemen, Data Analytics und Agile Organisationsentwicklung. An zwei Standorten, in Berlin und Karlsruhe, arbeiten insgesamt 40 Mitarbeiter:innen daran, das Beste für ihre Kund:innen zu ermöglichen.

Noch Fragen?

Bereit, das neue Projekt anzugehen? Dann lass uns loslegen! Kontaktiere uns jetzt und entdecke, wie wir dich unterstützen können. Lass uns gemeinsam die Welt von morgen gestalten. digital. nachhaltig.

Mehr Futter für Leseratten

Reinforcement Learning, Neuronale Netze und Co. – Was steckt dahinter?

Was ist maschinelles Lernen?

Doch genügen diese Ansätze unserem Wunsch nach maschineller Autonomität?

Reinforcement Learning in Unternehmen

Culture Check – wenn Haltung entscheidet

Frachtwerk gewinnt Smart-City-Ausschreibung

Frachtwerk goes Europe Teil 2 – Bye bye Wien, hallo Frankfurt

Teamtage in Hünfeld 2025 - ein Erfahrungsbericht

Frachtwerk goes Europe Teil 1 - Aufbruch und Vision

Achtarmige Teamfee - ein Interview mit Sandra von Frachtwerk

Hilfe, mein Team ist nicht engagiert - wie dieses Meetingformat zu mehr Engagement führt (inkl. Vorlage)

Von der Idee zum fertigen Produkt

Zwischen Selbstständigkeit und agiler Organisationsentwicklung - ein Interview mit Pia von Frachtwerk

Mobile App Development: Flutter vs. React Native vs. Native