Umfassende Analyse von NLP. Hallo Leute, willkommen zu dieser technischen…
Ja
Folgen
--
Hören
Aktie
Hallo Leute, willkommen zu diesem technischen Blog
Die vollständige Form von NLP ist also die Verarbeitung natürlicher Sprache
Eine kleine Kontextentwicklung über seine Vergangenheit
„Das Gebiet der Verarbeitung natürlicher Sprache begann in den 1940er Jahren, nach dem Zweiten Weltkrieg. Zu dieser Zeit erkannten die Menschen die Bedeutung der Übersetzung von einer Sprache in eine andere und hofften, eine Maschine zu entwickeln, die diese Art der Übersetzung automatisch durchführen konnte. Allerdings war die Aufgabe offensichtlich nicht so einfach, wie man es sich zunächst vorgestellt hatte.“
„In den 1980er Jahren gab es einen Wandel hin zum statistischen NLP, das maschinelle Lernalgorithmen verwendet, um die statistischen Beziehungen zwischen Wörtern und Phrasen zu lernen. Statistische NLP-Systeme sind robuster und skalierbarer als regelbasierte Systeme und wurden verwendet, um bei einer Vielzahl von NLP-Aufgaben, wie maschineller Übersetzung, Spracherkennung und Textzusammenfassung, signifikante Ergebnisse zu erzielen.“
Warum brauchen wir eigentlich NLP?
Die Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) hilft Computern, mit Menschen in ihrer eigenen Sprache zu kommunizieren und andere sprachbezogene Aufgaben zu bewältigen. Allerdings ist die menschliche Sprache weitaus komplexer, als den meisten Menschen bewusst ist. Es gibt Regeln wie Rechtschreibung und Grammatik, aber wie wir Sprache und Text interpretieren, ist weitaus weniger klar definiert. Woher wissen Sie beispielsweise, wann eine Person sarkastisch ist? In der menschlichen Sprache können Wörter eine Sache sagen, aber der Kontext und der Ton können dazu führen, dass diese Wörter etwas anderes bedeuten. Der Mensch braucht ein halbes Leben, um die subtilen Nuancen der Sprache zu erlernen. NLP ist also ein Lebensretter und geht sehr gut damit um. NLP ermöglicht es Computern, natürliche Sprache genauso zu verstehen wie Menschen. Es verwendet KI, um reale Eingaben zu erfassen und sie so zu verarbeiten, dass sie für den Computer sinnvoll genug sind, um sie zu verstehen.
Technische Dinge hinter NLP
Es umfasst vier Hauptschritte zur Datenvorverarbeitung
Tokenisierung: In diesem Schritt wird der Text in kleinere Einheiten zerlegt, um damit zu arbeiten. Beispielsweise kann der Satz in Wörter unterteilt werden.
Wortentfernung stoppen:Die irrelevantesten Wörter werden wie folgt aus dem Text entferntzu, für und.
Lemmatisierung und Stemming: Dabei werden Wörter zur Verarbeitung auf ihre Grundformen reduziert. Zum Beispiel würde „Fürsorge“ Pflege zurückgeben, und „Arbeiten“ würde Arbeit zurückgeben.
Wortart-Tagging:Dabei werden Wörter basierend auf der Wortart, um die es sich handelt, markiert – etwa Substantive, Verben und Adjektive.
Verarbeitung natürlicher Sprache : Dies ist die Fähigkeit von Computerprogrammen, die gesprochene und geschriebene menschliche Sprache zu verstehen. Es ist eine Komponente der KI.
Dabei geht es oberflächlich betrachtet nur um die Datenvorverarbeitungsschritte. Kommen wir nun zum Algorithmusteil.
Es werden hauptsächlich zwei Algorithmen verwendet
Regelbasiertes System: Es folgt speziellen Regeln, die auf der Sprache basieren.
Ansatz des maschinellen Lernens : Bei diesem Ansatz kommen statisch getriebene Methoden zum Einsatz. Sie führen Aufgaben basierend auf Training aus, genau wie einige herkömmliche Algorithmen für maschinelles Lernen.
Lassen Sie es uns nun anhand eines Codes verstehen, um ein besseres Verständnis zu erhalten.
Das Ziel des Projekts bestand also darin, lange Absätze in einem kleineren und relevanteren Text zusammenzufassen
Wichtige Bibliotheken sind hier NLTK, Text Blob, Spacy, Sklearn und Seaborn
NLTK Fullform ist ein Toolkit für natürliche Sprache, das alle allgemeinen Regeln der Grammatik einbettet, um es der Maschine verständlich zu machen. Der menschliche Kontext
Ich habe den Korpus mit der Web-Scrapping-Methode extrahiert und dann den Text mit einigen traditionellen Techniken bereinigt.
Ich habe den ersten neutralen Artikel aus Wikipedia extrahiert und dann einige Artikel über die Vorteile von Elektrofahrzeugen. Ich habe den Artikel über die Nachteile des Elektrofahrzeugs extrahiert.
Hier sind einige Möglichkeiten, wie ich die Daten bereinigt habe
Ich habe den Korpus aus drei Artikeln als „combine_corpus“ bezeichnet und Leerzeichen und einige irrelevante Daten entfernt
Dann habe ich das NLTK importiert. tokenize, um die Stoppwörter zu entfernen
Dann habe ich die Spacy-Bibliothek importiert, da sie das Ergebnis in Objektform liefert, während nltk für die String-Werte bevorzugt wird.
Dann habe ich mit Hilfe der Spacy-Bibliothek und der for-Schleife im Grunde die Häufigkeit der Wörter gezählt und sie dem Worthäufigkeitsarray hinzugefügt.
Zur Zusammenfassung haben wir den Satz aus den Dokumenten tokenisiert.
Anschließend wird die Satzbewertung anhand der Satzhäufigkeit durch die Wörter berechnet
Wir haben die oberen 30 % des Satzes hinsichtlich der Häufigkeit ausgewählt.
Wortwolke, die ich aus den Artikeln extrahiert habe
Kommen wir nun zu den realen Anwendungsfällen des NLP
Sprachanalyse: Technologie, die künstliche Intelligenz und natürliche Sprachverarbeitung (NLP) nutzt, um Kundengespräche aus Live- oder aufgezeichneten Audiodaten zu verarbeiten und zu analysieren.17.11.2021
Chatbot : Diese KI-gestützten Chatbots nutzen einen Zweig der KI namens Natural Language Processing (NLP), um ein besseres Benutzererlebnis zu bieten. Wird oft als virtuelle Agenten oder intelligente virtuelle Assistenten bezeichnet.
Zusammenfassungsextraktion: Verwendet fortgeschrittene NLP-Techniken zur Sprachgenerierung, um den Kontext zu verstehen und die Zusammenfassung zu erstellen.
Link zum gleichen Projekt:
github.com
Verarbeitung natürlicher SpracheWarum brauchen wir eigentlich NLP?Technische Dinge hinter NLPTokenisierungWortentfernung stoppen:Lemmatisierung und Stemming:Wortart-Tagging:Verarbeitung natürlicher SpracheRegelbasiertes SystemAnsatz des maschinellen LernensSprachanalyseChatbotZusammenfassungsextraktion