Was ist Long short-term memory?

Zuletzt aktualisiert: 22.01.2024

Inhaltsverzeichnis

Verschwindender oder explodierender Farbgradient
Drei Gates und eine innere Gewebezelle
Bauweise eines LSTM
Variationen und Optionen
Erfolge

Eine Technologie ist Long short-term memory. Sie hat zur Besserung der Entstehung von nachgemachtem Intellekt maßgeblich mitgewirkt.

Verfahrensweisen des Fehlersignalrutschs werden beim Dressieren von nachgemachten nervlichen Vermessungsnetzen benutzt. Sie kann man sich wie die Recherche eines Kletterers nach der höchsten Schlucht denken. Bei mehreren vertiefenden Beschichtungen kann dies zu klein ergreifen, so wie ein vergesslicher Kletterer beim Niedergang im erster hochwertigster Klamm landet und sein Dörfchen in einer höheren Schlucht nicht auffinden kann. Indem es für eine LSTM-Zelle zur vortrefflicherem Gedächtnis drei Torgenres verwendet: Ein Eingang, ein Merktor und Vergesstor und ein Ausgangstor, löst das LSTM-Verfahren jene Problemstellung. Eine Sorte Gedenken an zeitligere Erlebnisse: Ein Kurzzeitgedächtnis ermöglicht LSTM auf diese Fasson im Unterschied zu konventionellen rekurrenten nervlichen Netzwerken. Dies anhält langwierig.

LSTM-Netze von Sepp Hochreiter und Jürgen Schmidhuber wurden 1997 in einer Publikation präsentiert und 2000 von Felix Gers und seiner Mannschaft aufgebessert. Seit ungefähr 2016 feiert LSTM erhebliche Leistungen, da seitdem weite Datenmassen zum Schulung benutzt werden können, größere Fortschritte der LSTM-Technik vorgenommen wurden, angemessen leistungsfähige Computer zur Gebrauch stehen und Grafikprozessor-Programmierung eingesetzt wird.

Äußerst gelehrsam sind neuronale Netzwerke mit vielen Nutzschichten. Dass exakt solche mehrschichtigen Stellnetze brauchbar arbeiten können, sorgt LSTM dafür. Eine Pioniertat bei dem artifiziellen Intellekt erlaubt hat dies.

Verschwindender oder explodierender Farbgradient

Die Fehlerrückführung ist eine Handlungsmöglichkeit, künstliche nervliche Netzwerke zu dressieren. Ein Kater und kein Sauhund soll Auf einem Bildnis mit Kater festgestellt werden, ein Stellnetz macht in der frühzeitigen Trainingsperiode zum Beispiel bei der Musterungserkennung manches falsch: Dass die Zuordnungsunrichtigkeiten geringfügiger und geringer werden, werden die Impulse der Verschiedenheiten zwischen erzeugter Zuteilung und Erledigungszuordnung zur Korrektion des Fehlgriffes rekonstruiert und mehrmals steuernde Faktore in den Nutzschichten des Netzwerks jeweilig so umgeändert. Nochmals eingestellt werden Die Ziffern in den steuernden Kampfgewichten, dieser Irrtum wird im sogenannter Gradientenverfahrensweise verkleinert: Neuronale Netzwerke bestehen aus hintereinandergeschalteten Moduldateien, die klassischerweise jeweilig lediglich eine alleinige Aktivierungsaufgabe besitzen, die dafür sorgt, dass die Abgabe zwischen 0 und 1 liegt. Das Irrtumssignal wird bei jeder Fehlerbehebung durch die Herleitung der Aktivierungsaufgabe festgelegt. Der Abstiegsaufstieg und die Fahrtrichtung wird durch diese Herleitung ermittelt, mit der die Fehlerschlucht festgestellt wird. Dass jene bis dahin gebräuchliche Verfahrensweise bei mehrschichtigen Vermessungsnetzen unangebracht ist, erkannte Sepp Hochreiter 1991. Die Skalierungsgröße wird umso mehrmals mit dem Fehlgriffterm multipliziert, pro lang also der Irrtum im Vorgang errechnet wird. Wenn die Facette allzeit geringer als 1 ist, verschwindet der Irrtum und führt zu wirkungslosen Gewichtsaktualisierungen: Denn wenn Nummern zwischen 0 und 1 untereinander multipliziert werden, so ist das Erzeugnis geringer als der winzigere der beiden Faktore. Auf langjährige Sichtweise verschwindet ein originär hochstehender Wertmaßstab daher. Der Fehlerzahlenwert würde auf die Weile auffliegen, wenn die Faktore auf der anderen Seite bedeutend als 1 wären.

Somit bei der Irrtumsjustierung zu bisschen herangezogen werden die Moduldateien in dem Zentrum des Stellnetzes, sogenannte Hidden Layer, die der Eingabeschichte nahen sind als der Ausgabeschichte. Das führt dazu, dass sie knapp dressiert werden, so als wenn beim Kugel bloß die Angreifer dazulernen, wenn es um das Toreschießen geht, nicht allerdings die Mittelfeldakteure oder Strafverteidiger.

Drei Gates und eine innere Gewebezelle

Ein LSTM-Modul wurde um jene Problematik aufzulösen konzipiert. Dies ermöglicht einen verhältnismäßig kontinuierlichen und verwendbaren Fehlerstrom. Welche Informierungen in die innere Gewebezelle hineingehen und herauslaufen sollen, schaut man sich exakt an. Das Können, Informierungen zum Zellsituation zu beseitigen oder hinzuzufügen hat das LSTM vorsichtig geregelt durch Gebilde. Sie werden Pforten oder Gates bezeichnet. LSTM-Module sind allerdings genauso wie gebräuchliche Komponenten kettenartig hintereinandergeschaltet, aber sie haben vertraulich einen anderen Aufbau: Die ergänzenden Ausgänge sind eine Gelegenheit, Angaben fakultativ durchzulassen.

Es gibt statt einer alleinigen nervlichen Funktionalität im LSTM-Modul vier. Sie interagieren auf eine völlig besondere Weise und Gepräge untereinander. Ein LSTM-Modul enthält die genannten Drei Gates und eine innere Gewebezelle . . Prägnant gemeint steuert .

das Input Gate den Umfang, in dem eine neue Wertigkeit in die Gewebezelle fließt, .
Beziehungsweise verbleibt in dem eine Wertigkeit in der Gewebezelle, verpasst wird.
das Output Gate den Umfang, in dem die Wertigkeit in der Gewebezelle zur Ausrechnung für die folgende Moduldatei des Kettenfadens benutzt wird.

Mit sigmoiden nervlichen Funktionalitäten und diversen Vektorvorhaben und Matrixaktionen verknüpft und ineinander überführt werden diese Netzeinzelelemente.

Bauweise eines LSTM

Verschiedenartige Typen von LSTM-Architekturen gibt es. Das convolutionale LSTM-Netz ist gewöhnlich insbesondere bei der Abbilderverarbeitung. Dies wird da illustriert. Es unterscheidet sich vom reinem Peephole LSTM, das die Matrizenmultiplikation verwendet, dadurch, dass die Tätigkeit jeder Nervenzelle über eine diskrete Faltung kalkuliert wird. Ein verhältnismäßig geringer Faltungskern wird intuitiv dabei nach und nach über die Inputaufnahme getrieben. Diese Stellnetze heißen Guckloch weil die Gates die Zellsituation. sehen können, mithin außerdem die Informierungen aus der Gefängniszelle bearbeiten. Index t ist jedesmal der derzeitige Durchgang, . t-1 bezeichnet den vorigen Durchgang. d und e Die Zahlen der Scharten und Linien von Pfeilen und Gefügen sind pro.

Durch Vektorvorhaben und Matrizenunternehmungen festgelegt ist der Datenverkehr zwischen den verschiedenen Gates und ihrer inneren Gewebezelle. Zunächst wird hier die mathematische Struktur des Forget Gates beschrieben. f t {displaystyle f_{t}} ist der dazugehörende e-stellige Startvektor: .

begin{aligned}f_{t}&=sigma _{g}(W_{f}*x_{t}+U_{f}*h_{t-1}+V_{f}circ c_{t-1}+b_{f})end{aligned}

x_t ist der d-stellige Inputpfeil. Er ist in der Reihe nacheinander nachfolgender Nervenzellen das Interface zum zuvor in dem Kettenfaden agierender Nervenzelle. Die drei e × d-stelligen Gewichtsmatrizen W , U , V bilden den wertvollen Teil jedes Netzes, weil sie das Trainingswissen enthalten. b {displaystyle b} ist der Bias-Vektor. Wenn kein starker Input von anderen Einheiten erfolgt, dann stellt das Bias sicher, dass die Einheit bei starkem Gewicht aktiv bleibt und bei schwachem inaktiv. σ_g stellt eine Sigmoidfunktion der Gates dar, die nichtlinear Werte zwischen 0 und 1 aus dem Ganzen bildet.

Drei verschiedenartige Sorten von Matrizenoperatoren gibt es da:

+: Matrixaddition .
○ : Hadamard-Produkt
∗: Matrizenmultiplikation.

Komplex erscheinen diese formelhaften Ausführungen allerdings, jedoch die respektive Programmbibliotheken der Provider für KI übernehmen das tatsächliche Errechnen.

Hier die Struktur des Aktivierungsvektors i_t vom Input Gate und o_t, dem Vektor des Output Gates, sie entsprechen beide dem Aufbau des Forget Gate Vektors:

begin{aligned}i_{t}&=sigma _{g}(W_{i}*x_{t}+U_{i}*h_{t-1}+V_{i}circ c_{t-1}+b_{i})o_{t}&=sigma _{g}(W_{o}*x_{t}+U_{o}*h_{t-1}+V_{o}circ c_{t-1}+b_{o})end{aligned}

So etwas wie ein Buchtenband ist die Zellbeschaffenheit. Mit lediglich wenigen stetigen Interaktionen verläuft die Informierung einlinig über den ganzen Kettenfaden. Die innere Zelle mit dem Zellstatusvektor c t {displaystyle c_{t}} hat folgenden Aufbau:

begin{aligned}c_{t}&=f_{t}circ c_{t-1}+i_{t}circ sigma _{c}(W_{c}*x_{t}+U_{c}*h_{t-1}+b_{c})end{aligned}

Für die Sigmoidfunktionen σ_c und σ_h wird üblicherweise der hyperbolische Tangens verwendet. h_t−1 ist der Outputvektor.

begin{aligned}c_{t}&=f_{t}circ c_{t-1}+i_{t}circ sigma _{c}(W_{c}*x_{t}+U_{c}*h_{t-1}+b_{c})end{aligned}

Die Anfangswerte für c₀ und h₀ werden jeweils mit Nullvektoren initialisiert. Der Outputvektor berechnet sich folgendermaßen:

begin{aligned}h_{t}&=o_{t}circ sigma _{h}(c_{t})end{aligned}

Variationen und Optionen

Verzögerte Netzwerke, sogenannte Time Delay Neural Networks wurden benutzt, tardiv Hidden Markov Models, bevor LSTMs sich generell durchsetzten.

Mehr Ausführungen des LSTM kamen seit ihren Beginnen ständig hinzu. Das Forget Gate und die Peepholetechnologie sowie die Faltungsarbeitsweise wurde wie obig erläutert außerdem entstanden. Besonders in der Sprachrezeption für die Klassifizierung von Phonemen verwendet werden LSTM-Netze. 2005 von Alex Graves publiziert wurde das erste Werk. Sie befasst sich mit der Klassifizierung von Phonemen mittels LSTM. LSTM wurde 2010 erstmalig in einer Publikation von Martin Wöllmer für den Befund durchgehender Einzelsprache verwendet. LSTM-Techniken für die akustische Modellbildung und die Sprachrezeption arbeiteten Wissenschaftler wie Haşim Sak und Wojciech Zaremba breit aus.

Von Kyunghyun Cho und seiner Mannschaft wurden als Variante zu LSTM 2014. Gated Recurrent Units . entwickelt. Insbesondere bei der Klängemodellierung verwendet werden diese. Den Forget Gate und den Input Ausgang kombinieren sie zu einem alleinigen. Aktualisierung Gate . . Auf eine andere Weise geordnet werden die Gates und leichter als konventionelle LSTM-Modelle ist das resultierende Model.

Erfolge

Riesige Summen von Informationen zum Dressieren der Netzwerke stellte Die Einleitung von Big Data zu Gebrauch, die technische Lage für LSTM verbesserte in den Jahren nach 2010 sich überaus: Zu ständig schöneren und preiswerteren Videokarten führte der Aufschwung von grafisch anspruchsvolleren Computerspielen. Ganz viele Matrizenmultiplikationen können auf diesen Videokarten für die Grafikausrechnungen zeitgleich vorgenommen werden. Man braucht exakt das für KI und LSTM. 2011 durch Dan Ciresan und Mitarbeiter in Schmidhubers Gruppierung vorgestellt wurden schnelle GPU-Implementierungen dieser Zusammensetzung. Zahlreiche Konkurrenzen, u. a. die ISBI 2012 Segmentation of Neuronal Structures in Electron Microscopy Stacks Challenge und den ICPR 2012 Contest on Mitosis Detection in Breast Cancer Histological Images gewannen sie seitdem. Um Verwendungen im Zusammenhang von maschinenmäßigem Lernen zu beeilen entwickelte Google unterschiedlich zum Graphikprozessor Tensor Processing Units. Unter anderem eingesetzt, um wirksam LSTMs zu bearbeiten werden sie.

Wichtige Technologiefirmen wie Google, Apple und Microsoft setzen seit ungefähr 2016 LSTM als grundsätzlichen Bestandteil für neue Erzeugnisse ein. Google verwendete so zum Beispiel LSTM für die Sprachrezeption auf dem Mobiltelefon, für den Smart Assistant Allo und für Google Translate. Für die Quicktype-Funktion auf dem iPhone und für Siri verwendet Apple LSTM. Für Amazon Alexa verwendet Amazon LSTM.