Geht es um die Wartung seiner Maschinen, kann Caterpillar auf mehr als 27 Mio. Dokumente zurückgreifen – ein technischer Wissensschatz, den es zu heben gilt.

Geht es um die Wartung seiner Maschinen, kann Caterpillar auf mehr als 27 Millionen Dokumente zurückgreifen – ein technischer Wissensschatz, den es zu heben gilt. - Bild: Caterpillar

| von Dirk Möller, Neo4j

Caterpillar erprobt seit über zehn Jahren wie NLU (Natural Language Understanding) für die Instandhaltung sowie für das Supply Chain Management eingesetzt werden kann. Ausgangspunkt für die ersten Schritte in Richtung Machine Learning stellte dabei der enorme Datenfundus aus technischen Dokumenten dar, der über Jahre von Servicetechnikern angelegt und gepflegt wurde.

Vom Standpunkt der Computerlinguistik aus, erfüllte dieser Datenpool alle zentralen Anforderungen für die algorithmische Verarbeitung. Zum einen umfassten die Texte nur drei bis sechs Sätze und waren stichpunkartig verfasst. Zum anderen war ein Großteil der Textbausteine bereits indirekt mit Metadaten versehen, die eine Einordnung und Klassifizierung zuließen.

Was ist Natural Language Understanding

Natrural Language Understanding (NLU) ist der englische Begriff für Computerlinguistik. Diese Disziplin erforscht laut einer Definition des Centrums für Informations- und Sprachvermittlung der LMU München die Verarbeitung natürlicher, menschlicher Sprache durch Computer beziehungsweise Software. Demnach erarbeitet sie "die theoretischen Grundlagen der Darstellung, Erkennung und Erzeugung gesprochener und geschriebener Sprache durch Maschinen".

Ein Report setzt sich wie folgt zusammen: "Kundenreklamation: Motorklopfen", "Analyse: Öltest durchgeführt", "Ergebnis: Eisengehalt im Öl", "Reparaturmaßnahmen: defekten Kipphebel, Ölfilter und Öl ersetzt". Und schließlich waren die insgesamt 27 Millionen Texte thematisch begrenzt und bezogen sich nur auf einen Teilbereich, nämlich die Diagnose und Reparatur von Maschinen. Damit bot die umfassende Sammlung an kurzen, gekennzeichneten und domänenspezifischen Textphrasen die ideale Datenquelle, um ein intelligentes Predictive Maintenance-System zu entwickeln. 

Computergestützte, digitale Sprachverarbeitung

Caterpillar erkannte dieses Potential früh und testete unterschiedliche Methoden zur Verarbeitung und Analyse der Daten – angefangen bei der Häufigkeitsverteilung von Wörtern (der deskriptiven Statistik der Sprache) über Machine Learning-Verfahren zur automatischen Klassifizierung bis hin zum heiligen Gral der Computerlinguistik, NLU.

Kongress SMART MAINTENANCE

Sie sind ein Macher in Sachen moderne Instandhaltung? Sie wollen aktuelle Technologien, Prozesse und die Experten dazu kennenlernen? Dann kommen Sie am 24. und 25. November 2020 auf den Kongress SMART MAINTENANCE in Essen, den führenden praxisfokussierten Event der Branche für Profis aus dem deutschsprachigen Raum.

Es erwarten Sie spannende Einblicke in die Praxis Ihrer Kollegen und neueste Erkenntnisse aus der Forschung – und dazu spannende Gespräche mit anderen Experten sowie eine exklusive Werksführung.

Interessiert? Dann klicken Sie hier und sichern Sie sich Ihr Ticket!

Damit ein Computer einen Text "verstehen” kann, muss das System in der Lage sein, einen Satz in seine Struktur zu zerlegen und die richtige Beziehung zwischen Subjekt, Objekt, etc. (Parsing) herzustellen. Anschließend wird jedes Wort der richtigen Definition im Wörterbuch zugeordnet (Word Sense Disambiguation). Erst dann wurde der Satz "richtig" verstanden. Zwei inhaltliche gleiche Sätze – "Maxs Hemd ist blau" und "Max trägt ein blaues Hemd" – führen so trotz ihrer formalen Unterschiede zur gleichen logischen Schlussfolgerung

Wie kann dieses Wissen sinnvoll genutzt werden? Welche Datenbank-Architektur eignet sich? Soll Sprache in ein Datenmodell übertragen werden, gilt es diesen hohen Grad an Vernetzung soweit wie möglich zu imitieren. Sprache wird dazu entweder in Form einer Abhängigkeitsstruktur abgebildet, wobei ein Verb im Kontext zu den anderen Worten betrachtet wird. Oder es wird ein Verzeichnisbaum verwendet. Beide Strukturen sind Graphen

Knowledge Graphen als Basis für Künstliche Intelligenz

Dirk Möller ist Area Director of Sales CEMEA bei Neo4j.
Dirk Möller ist Area Director of Sales CEMEA bei Neo4j. - Bild: Neo4j

Graphen stellen eine der einfachsten und intuitivsten Datenstrukturen dar und bieten enorme Flexibilität. Ein Graph setzt sich aus Knoten (z. B. den Wörtern "Max", "Hemd") sowie den Verbindungen zwischen ihnen (z. B. "hat", "trägt") zusammen. Beiden kann eine beliebige Anzahl von qualitativen oder quantitativen Eigenschaften zugewiesen werden, z. B. "blau". Die Abfrage in diesem Modell kann von einem beliebigen Knoten bzw. Ausgangspunkt starten und den Verzweigungen in Echtzeit bis zum Suchergebnis folgen. 

Sogenannte NLU-Knowledge Graphen eignen sich daher ideal für Sprachverarbeitung und Machine Learning. Unternehmensspezifische Fachbegriffe, Produktnamen, Branchenkürzel, Sachnummern und sogar gängige Rechtschreibfehler werden im Graphen abgelegt und verknüpft. Einmal erfolgte Abfragen werden gespeichert und können für zukünftige Dialoginteraktionen erneut herangezogen werden. Der Knowledge Graph lebt, wächst und verändert sich und stellt damit das Fundament für NLU und KI dar.

Dialogsystem bei Caterpillar

Caterpillar nutzte die Graphdatenbank Neo4j, um seinen umfangreichen Datenpool in einen Knowledge Graphen zu überführen und entwickelte auf dieser Basis ein Dialogsystem für die Instandhaltung. Um die natürliche Sprache der Millionen von Wartungsdokumenten in den Graphen zu übertragen, entwarf das Team eine Datenarchitektur, die Text über ein Open-Source-NLU-Tool aufnimmt, mit der Programmiersprache Python zu Zeichenketten kombiniert, Abgrenzungen vornimmt und "Text-Müll" aussortiert.

Daten werden sowohl aus SAP als auch anderen ERP-Systemen in den Graphen importiert. Das Machine Learning Classification Tool lernt aus den Daten, die bereits mit Tags wie "Ursache" oder "Beanstandung" versehen sind und überträgt diese auf weitere Daten. Für die Definition von Wörtern wird das lexikographische Wörterbuch WordNet verwendet. Der Stanford Dependency Parser analysiert den Text.

Mit dem neuen System kann der Baumaschinenhersteller auf das Wissen und die Erfahrung von Tausenden von Mitarbeitern über eine Schnittstelle zugreifen und den Graphen in alle Richtungen traversieren. Gibt es eine Häufung von Reparaturen bei bestimmten Maschinen oder Bauteilen? Wenn ja, haben sie die gleichen oder verwandte Ursachen? Welche Lösung hat sich in der Vergangenheit als erfolgreich herausgestellt? Die neuen Erkenntnisse fließen direkt in den Graphen ein und können für zukünftige Wartungsmaßnahmen im Sinne der Prescriptive Maintenance herangezogen werden. 

Caterpillar hat bei der Entwicklung einer smarten Lösung für die Instandhaltung auf vorhandenes Kapital aufgebaut und neue Technologien wie NLU und Graphtechnologie effizient genutzt, um aus seinen Daten einen echten Mehrwert für sich und seine Kunden zu schöpfen. Das Ergebnis zeigt wie neue, smarte Technologien die individuelle Expertise eines Unternehmens anheben können ohne sie zu ersetzen.

Immer informiert mit dem Newsletter der INSTANDHALTUNG

Ihnen hat gefallen, was Sie gerade gelesen haben? Dann abonnieren Sie unseren Newsletter!

So bleiben Sie zu allen Neuigkeiten und Trends aus der Instandhaltungs-Branche auf dem Laufenden. Profitieren Sie von den Vorteilen unserer unterschiedlichen Newsletter-Formate - kostenlos!

Hier klicken und anmelden!

Der Eintrag "freemium_overlay_form_ish" existiert leider nicht.