{"id":2528,"date":"2021-02-18T17:27:00","date_gmt":"2021-02-18T16:27:00","guid":{"rendered":"https:\/\/frachtwerk.fw-web.space\/?p=2528"},"modified":"2024-09-10T13:52:23","modified_gmt":"2024-09-10T13:52:23","slug":"reinforcement-learning-neuronale-netze-und-co-was-steckt-dahinter","status":"publish","type":"post","link":"https:\/\/frachtwerk.fw-web.space\/reinforcement-learning-neuronale-netze-und-co-was-steckt-dahinter\/","title":{"rendered":"Reinforcement Learning, Neuronale Netze und Co. \u2013 Was steckt dahinter?"},"content":{"rendered":"\n
Angenommen, man w\u00fcrde diese menschliche Intelligenz nachbilden und Maschinen mit eigenen, auf Basis der Umwelt adaptiven Entscheidungssystemen ausstatten. Sind diese Instanzen dazu f\u00e4hig, selbstst\u00e4ndig Erkenntnisse zu sammeln und auf Basis dieser zu lernen? Tats\u00e4chlich gibt es zwei grobe Ans\u00e4tze in der Forschung, die sich an der L\u00f6sung der Aufgabe \u201cMaschinelles Lernen\u201d versuchen.<\/p>\n\n\n\n
Eine Unterkategorie des Supervised Learnings sticht durch ihr scheinbar menschliches Lernverhalten besonders hervor \u2013 das Reinforcement Learning. Hierbei sucht der Algorithmus nach einer Entscheidungsfunktion, wie er in potenziell auftretenden Situationen bestm\u00f6glich agieren kann. Das Lernen erfolgt dabei durch Belohnung und Bestrafung auf Basis der Analyse seiner aktuellen Situation. Der Entwickler manipuliert dabei nicht den Agenten und dessen Logik \u2013 er erh\u00e4lt also nicht st\u00e4ndig konkrete R\u00fcckmeldung -, sondern nur dessen Umwelt und damit seine Lerngrundlage.<\/p>\n\n\n\n
Als ein simples Beispiel ist hier das Verh\u00e4ltnis von Mutter zu Kind zu nennen. Das Kind probiert neue Dinge aus, sein Elternteil reagiert darauf und best\u00e4rkt es oder r\u00e4t von verschiedenen Verhaltensmustern ab. Im \u00fcbertragenen Sinne ist das Kind als der experimentelle Teil des Algorithmus zu verstehen \u2013 die Mutter wiederum wird \u00fcber eine mathematische Belohnungsfunktion realisiert. <\/p>\n\n\n\n
Gute Aktionen bekommen hohe Ergebniswerte zur\u00fcckgegeben. Um \u00e4hnlich wie ein Mensch zu funktionieren, muss der Algorithmus neben der Belohnungsfunktion auch eine Art Gehirn mit Ged\u00e4chtnis besitzen. Dies wird \u00fcber sogenannte neuronale Netze realisiert. Diese Netze sind nichts anderes als hochdimensionale Matrizenfunktionen. Jede Aktion, die der Agent ausw\u00e4hlt, wird durch ein oder mehrere derartige Netze \u201cgeschossen\u201d. <\/p>\n\n\n\n
Das Netz passt sich abh\u00e4ngig von der resultierenden Belohnung an das neu gesehene an. War die Aktion ohne besonderen Erfolg, so werden die Gewichte des Netzes beziehungsweise das Ged\u00e4chtnis so angepasst, dass die Aktion k\u00fcnftig mit geringer Wahrscheinlichkeit gew\u00e4hlt wird. Genau umgekehrt funktioniert dies auch f\u00fcr Aktionen mit hohem Belohnungswert.<\/p>\n\n\n\n
Auch als Unternehmen kann der Einsatz von Reinforcement Learning einen gro\u00dfen Mehrwert generieren, zum Beispiel in folgenden Bereichen:<\/p>\n\n\n\n
In unserem Alltag sind wir umgeben von Maschinen. Die meisten Anwendungen darauf, etwa auf PCs oder Smartphones, sind deterministisch programmiert. Mindestens ein Entwickler hat die Nutzeranwendung auf Basis unz\u00e4hliger Befehlsfolgen erzeugt. Zwar ist der Fortschritt in der Ger\u00e4teentwicklung rasant, von selbst\u00e4ndigen Systemen kann jedoch kaum die Rede sein. Sie basieren auf menschlicher Intelligenz.<\/p>\n","protected":false},"author":1,"featured_media":2531,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"footnotes":""},"categories":[2,3],"tags":[],"class_list":["post-2528","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-allgemein","category-fachwissen"],"acf":[],"yoast_head":"\n