- read

Maschinelles Lernen: 8 Schlüsselwörter über Machine Learning

Octoparse.de 66

https://www.octoparse.de/blog/8-schluesselwoerter-ueber-maschinelles-lernen

Sie haben wahrscheinlich schon tausendmal von maschinellem Lernen oder Machine Learning gehört, aber wissen Sie wirklich, was Machine Learning ist? In diesem Artikel habe ich 8 wichtigste Begriffe vorgestellt, die direkt mit dem maschinellen Lernen zusammenhängen. Ich habe versucht, die Fachbegriffe einfach zu erklären und das Fachchinesisch zu vermeiden, sodass hoffentlich jeder, der sich für maschinelles Lernen interessiert, ein paar nützliche Punkte aus diesem Beitrag mitnehmen kann.

Die 8 Begriffe, die in diesem Artikel vorgestellt werden, sind:

Natural language processing (NLP, Computerlinguistik)

Datenbank

Computer Vision(Maschinelles Sehen)

Überwachtes Lernen (Supervised learning)

Unüberwachtes Lernen (Unsupervised Learning)

Bestärkendes Lernen (Reinforcement learning)

Neuronales Netz (Neural network)

Überanpassung (Overfitting)

1. Natural language processing (NLP, Computerlinguistik)

NLP ist ein sehr verbreitetes Konzept für maschinelles Lernen. Es hat es einem Computer ermöglicht, menschliche Sprache zu lesen und sie in alle möglichen Prozesse einzubinden.

Die bekanntesten Anwendungen von NLP sind:

(a) Klassifizierung und Sortierung von Texten

Dabei geht es um die Klassifizierung von Texten in verschiedene Kategorien oder die Sortierung einer Liste von Texten nach Relevanz. Es kann zum Beispiel verwendet werden, um Spam-Mails auszusortieren (indem analysiert wird, ob es sich um Spam-Mails handelt oder nicht), oder es kann auch verwendet werden, um Informationen über Ihre Konkurrenten zu ermitteln und zu extrahieren.

(b) Stimmungsanalyse (Sentiment Analyse)

Bei der Stimmungsanalyse ist ein Computer in der Lage, Gefühle wie Wut, Traurigkeit, Freude usw. durch die Analyse von Textzeichenfolgen zu entschlüsseln. Grundsätzlich kann ein Computer also erkennen, ob Menschen sich glücklich, traurig oder wütend fühlen, während sie die Wörter oder Sätze eingeben. Dies wird häufig bei Umfragen zur Kundenzufriedenheit verwendet, um zu analysieren, wie die Kunden ein Produkt empfinden.

© Extraktion von Informationen

Dies dient hauptsächlich dazu, einen langen Absatz in einem kurzen Text zusammenzufassen, ähnlich wie die Erstellung einer Zusammenfassung.

(d) Named-entity recognition (Eigennamenerkennung, Ner)

Nehmen wir an, dass Sie viele unordentliche Profildaten extrahiert haben, wie z. B. Adresse, Telefon, Name usw., die alle miteinander vermischt sind. Die Extraktion von benannten Einheiten hilft dabei, unordentliche Informationen in strukturierte Daten zu verwandeln, indem alle Daten identifiziert und den richtigen Datentypen zugeordnet werden.

(e) Spracherkennung

Ein gutes Beispiel dafür ist Siri von Apple.

(f) Natural Language Processing (Verstehen natürlicher Sprache, NER)

NLU bedeutet, dass der Computer menschliche Ausdrücke in Computerausdrücke umwandelt. Im Gegensatz dazu geht es bei der Erzeugung natürlicher Sprache darum, Computerausdrücke in menschliche Ausdrücke umzuwandeln. Diese Technologie wird häufig für die Kommunikation zwischen Menschen und Robotern eingesetzt.

(g) Maschinelle Übersetzung

Maschinelle Übersetzung bedeutet, dass Texte automatisch in eine andere Sprache (oder in eine bestimmte Sprache) übersetzt werden.

2. Datenbank

Datenbanken sind eine notwendige Komponente des maschinellen Lernens. Wenn Sie ein System für maschinelles Lernen einrichten wollen, müssen Sie entweder Daten aus öffentlichen Ressourcen sammeln oder neue Daten erzeugen. Alle Datensätze, die für das maschinelle Lernen verwendet werden, bilden zusammen die Datenbank. Im Allgemeinen teilen Wissenschaftler die Daten in drei Kategorien ein:

Trainingsdatensatz: Der Train-Datensatz wird zum Trainieren von Modellen verwendet. Durch das Training können die Modelle für maschinelles Lernen die wichtigen Merkmale der Daten erkennen

Validierungsdatensatz: Der Validierungsdatensatz wird zum Trimmen der Koeffizienten der Modelle und zum Vergleich der Modelle verwendet, um das optimale Modell auszuwählen. Der Validierungsdatensatz unterscheidet sich vom Trainingsdatensatz und kann nicht im Trainingsabschnitt verwendet werden, da es zu einer Überanpassung kommen kann, die sich nachteilig auf die Generierung neuer Daten auswirkt.

Testdatensatz: Sobald das Modell bestätigt ist, wird der Testdatensatz verwendet, um die Leistung des Modells in einem neuen Datensatz zu testen.

Beim traditionellen maschinellen Lernen ist das Verhältnis dieser drei Datensätze 50/25/25; einige Modelle benötigen jedoch nur wenig Tuning und der Trainingsdatensatz kann tatsächlich eine Kombination aus Training und Validierung (Kreuzvalidierung) sein, sodass das Verhältnis von Training/Test 70/30 sein kann.

3. Computer Vision(Maschinelles Sehen)

Computer Vision ist ein Bereich der künstlichen Intelligenz, der sich mit der Analyse und dem Verständnis von Bild- und Videodaten beschäftigt. Auf die folgenden Probleme treffen wir häufig beim Computer Vision:

Bildklassifizierung: Die Bildklassifizierung ist eine Aufgabe der Computer Vision, bei der der Computer lernt, bestimmte Bilder zu erkennen. Zum Beispiel wird ein Modell trainiert, um bestimmte Objekte an bestimmten Orten zu erkennen.

Zielerkennung: Die Zielerkennung besteht darin, dem Modell beizubringen, eine bestimmte Klasse aus einer Reihe von vordefinierten Kategorien zu erkennen und diese mit Hilfe von Rechtecken einzukreisen. Die Zielerkennung kann zum Beispiel zur Konfiguration eines Gesichtserkennungssystems verwendet werden. Das Modell kann alle vordefinierten Dinge erkennen und sie hervorheben.

Bildsegmentierung: Unter Bildsegmentierung versteht man die Aufteilung eines digitalen Bildes in mehrere Segmente (Gruppen von Pixeln, auch Superpixel genannt). Ziel der Segmentierung ist es, die Darstellung eines Bildes zu vereinfachen und/oder zu ändern, so dass es aussagekräftiger und leichter zu analysieren ist.

Signifikanztest: Sobald Stichprobendaten durch eine Beobachtungsstudie oder ein Experiment gesammelt wurden, können Analysten mithilfe statistischer Schlussfolgerungen Beweise bestätigen oder Behauptungen über die Population, aus der die Stichprobe gezogen wurde, bewerten. Die Methoden, die zur Unterstützung oder zum Widerspruch der Behauptungen auf der Grundlage von Stichprobendaten verwendet werden, sind als Signifikanztests bekannt.

4. Überwachtes Lernen (Supervised learning)

Überwachtes Lernen ist die Aufgabe des maschinellen Lernens, eine Funktion aus markierten Trainingsdaten abzuleiten. Ein überwachter Lernalgorithmus analysiert die Trainingsdaten und erzeugt eine abgeleitete Funktion, die für die Zuordnung neuer Beispiele verwendet werden kann. Ein optimales Szenario ermöglicht es dem Algorithmus, die Klassenbezeichnungen für unbekannte Instanzen korrekt zu bestimmen. Dies setzt voraus, dass der Lernalgorithmus auf “vernünftige” Weise von den Trainingsdaten auf ungesehene Situationen verallgemeinert werden kann.

5. Unüberwachtes Lernen (Unsupervised Learning)

Unüberwachtes maschinelles Lernen ist die Aufgabe des maschinellen Lernens, eine Funktion zur Beschreibung einer verborgenen Struktur aus “unmarkierten” Daten abzuleiten (eine Klassifizierung oder Kategorisierung ist in den Beobachtungen nicht enthalten). Da die Beispiele, die dem Lernenden gegeben werden, nicht gekennzeichnet sind, gibt es keine Bewertung der Genauigkeit der Struktur, die vom entsprechenden Algorithmus ausgegeben wird — dies ist eine Möglichkeit, unüberwachtes Lernen von überwachtem Lernen und Verstärkungslernen zu unterscheiden.

6. Bestärkendes Lernen (Reinforcement learning)

Bestärkendes Lernen ist etwas anderes als das, was wir gerade besprochen haben. Bestärkendes Lernen ähnelt dem Prozess des Spielens mit Computern und zielt darauf ab, Computer so zu trainieren, dass sie Aktionen in einer Umgebung ausführen, um eine bestimmte Art von erhaltene Belohnung zu maximieren. In einer Reihe von Experimenten lernt der Computer viele Spielmustern, und während eines Spiels kann der Computer das optimale Muster verwenden, um die Belohnung zu maximieren.
Ein bekanntes Beispiel ist Alpha Go, das den besten menschlichen Schachspieler geschlagen hat. Kürzlich wurde das Verstärkungslernen auch auf Echtzeitgebote angewandt.

7. Neuronales Netz (Neural network)

Neuronales Netz sind Rechensysteme, die sich an den biologischen neuronalen Netzen orientieren, die die Gehirne von Tieren bilden. Genau wie im Gehirn, wo viele Nervenzellen miteinander verbunden sind und ein Netz bilden, besteht ein künstliches neuronales Netz aus vielen Schichten. Jede Schicht besteht aus einer Reihe von Neuronen. Ein künstliches neuronales Netz kann Daten nacheinander verarbeiten, d. h. nur die erste Schicht ist mit den Eingaben verbunden. Wenn die Anzahl der Schichten sehr groß wird, wird das Modell zu einem Deep-Learning-Modell. Es ist schwierig, ein ein künstliches neuronales Netz mit einer bestimmten Anzahl von Schichten zu definieren. Vor 10 Jahren war es mit nur 3 Schichten tief genug, jetzt brauchen wir normalerweise 20 Schichten.

NNs haben viele Variante, die häufig benutzt sind:

  • Convolutional Neural Network — ein großer Durchbruch in der Computer Vision
  • Rekurrentes neuronales Netzwerk — zur Verarbeitung von Daten mit Sequenzmerkmalen, wie z. B. Text und Aktienkurse.
  • Vollständig verbundenes Netzwerk — es ist das einfachste Modell für die Verarbeitung statischer/tabellarischer Daten.​

8. Überanpassung (Overfitting)

Unter Überanpassung versteht man “die Erstellung einer Analyse, die einem bestimmten Datensatz zu sehr oder genau entspricht und daher möglicherweise nicht in der Lage ist, zusätzliche Daten zu berücksichtigen oder zukünftige Beobachtungen zuverlässig vorherzusagen”. Mit anderen Worten: Wenn ein Modell aus unzureichenden Daten lernt, kommt es zu Abweichungen, die sich negativ auf das Modell auswirken können.

Dies ist ein häufiges, aber kritisches Problem.

Wenn es zu einer Überanpassung kommt, bedeutet dies im Allgemeinen, dass das Modell zufällige Geräusche als Dateneingabe annimmt und sie als wichtiges Signal für die Anpassung betrachtet, weshalb sich das Modell bei neuen Daten schlechter verhält (auch bei zufälligen Geräuschen gibt es Abweichungen). Dies geschieht häufig bei einigen komplizierten Modellen wie neuronalen Netzen oder Beschleunigungsgradientenmodellen.

Autor: Das Octoparse Team