Uploaded by Leonardo Reinhard

NLP in der Bauindustrie: Sprachmodelle für Effizienz

advertisement
Wissenschaftsbasierte Innovation
Neueste Fortschritte beim Verstehen natürlicher Sprache
Die jüngsten Fortschritte bei den modernsten Techniken der natürlichen Sprachverarbeitung
(NLP) und den Algorithmen für den semantischen Abgleich stellen einen wichtigen
Lösungsansatz dar. Die jüngsten Fortschritte im Bereich NLP haben ein wesentlich
differenzierteres Verständnis und eine bessere Generierung von Texteingaben ermöglicht.
Open-Source- und Closed-Source-Modelle wie Claude und GPT-4 haben ihre Fähigkeiten
bei verschiedenen linguistischen Aufgaben, einschließlich semantischem Verständnis und
Texterstellung, unter Beweis gestellt.
Generalistische versus spezialisierte Sprachmodelle
Die oben erwähnten "generalistischen" Modelle optimieren den Erfolg bei vielen Aufgaben,
leiden aber unter einigen bemerkenswerten Einschränkungen, sobald die Anfragen an diese
Modelle sehr domänenspezifisch oder sogar in einer anderen Sprache als Englisch sind (die
in den Datensätzen, die zum Trainieren dieser Modelle verwendet werden, am häufigsten
vertreten ist). Es ist wichtig, sich daran zu erinnern, dass diese Sprachmodelle auf
Datenkorpora trainiert werden, die aus weitgehend verfügbaren, aus dem Internet
zusammengesuchten Informationen bestehen. Das Know-how in vielen Branchen,
insbesondere in der Bauindustrie, ist jedoch in privaten und geschützten Dateien, E-Mails,
Dokumentationen und Verträgen enthalten, auf die diese Modelle nicht trainiert wurden.
Zugänglichkeit der Anpassung von generalistischen Sprachmodellen an
Domänenspezialisten
Es ist wichtig zu erwähnen, dass die Hürde für die Ausbildung von LLMs in den enormen
GPU- Rechenanforderungen und den Datensätzen im Internet besteht, die nur den größten
Technologieunternehmen zur Verfügung stehen. Die "Spezialisierung" ihrer Leistung ist
jedoch eine viel leichter zugängliche Aufgabe, die durch 2 Fortschritte im letzten Jahr
ermöglicht wurde: Erstens wurden große Sprachmodelle und ihre Gewichte der
Öffentlichkeit zugänglich gemacht. Beispiele hierfür sind Calude, LLaMa, Grok und Mixtral,
die der Öffentlichkeit zum Ausführen und Ändern zur Verfügung stehen. Zweitens gibt es
eine Reihe leistungsfähiger Methoden, die es ermöglichen, quelloffene Large Language
Models zu modifizieren, um sie zu Spezialisten für bestimmte Bereiche, neue Sprachen und
neue Aufgaben zu machen. Diese Modelle haben sich als Spezialisten in Bereichen wie dem
Verfassen von juristischen Verträgen, dem Schreiben von Software, der Generierung von
SQL-Abfragen oder der Interpretation biologischer Sequenzen in bestimmten Sprachen
bewährt. Wir werden diese "Spezialisierungsmethoden" in 2 Familien von Ansätzen
unterteilen, die wir Context Augmentation und Model Fine-tuning nennen. Unter
"Kontexterweiterung" werden alle Methoden zusammengefasst, die sich mit der
Verbesserung der Aufforderungen an die Modelle befassen, aber die Modelle selbst nicht
beeinflussen. Im Gegensatz dazu geht es bei der Modell-Feinabstimmung darum, das
Modell selbst zu verändern oder neu zu trainieren. Während die Kontexterweiterung zu
schrittweisen Leistungsänderungen führt, sind mit der Modellerweiterung größere
Leistungssprünge möglich.
Kontext-Erweiterung
Im Bereich der Kontexterweiterung zielt eine spezielle Methode namens
Retrieval-Augmented-Generation (RAG) [12] darauf ab, dem LLM einen relevanten Kontext
zur Verfügung zu stellen, mit dem er arbeiten kann. Dies geschieht durch die Tokenisierung
eines Dokuments, d.h. die Kodierung des Dokuments als eine Folge von Vektoren, die eine
semantische Bedeutung haben. Zum Beispiel eine PDF-Datei mit einer Projektbeschreibung.
Das Modell erhält dann Zugriff auf diesen Satz von Vektoren und kann somit sehr
kontextbezogene Fragen zu dem betreffenden Dokument beantworten. Wir haben die
RAG-Techniken bisher erfolgreich auf Ausschreibungsdokumente angewandt, die uns von
unseren Partnern aus der Bauindustrie zur Verfügung gestellt wurden.
Modell-Ergänzung
Im Bereich der Modellerweiterung ist der wichtigste Durchbruch von 2023 eine Methode
namens QLoRA, kurz für quantisierte Low-rank-Approximation [11]. Dabei handelt es sich
um eine Methode, mit der neue Gewichte zu einer bestehenden LLM hinzugefügt werden
können, die mithilfe einer Low-Rank-Matrixapproximation sowie einer Kurzdarstellung der
Fließkommagewichte und Gradienten komprimiert werden. Kurz gesagt, es ermöglicht das
Hinzufügen einer kleinen Anzahl von zusätzlichen Gewichten (auch Parameter genannt) zu
einem großen Sprachmodell und das erneute Trainieren des erweiterten Modells. Das
Schöne an dieser Technik ist, dass nur der zusätzliche Teil des Modells trainiert werden
muss, während die ursprünglichen Gewichte des Modells intakt bleiben.
Sprachmodell für die Bauindustrie
Mit der Erstellung von (encoder- und decoderbasierten) Sprachmodellen für die Baubranche
sind wir auf dem neuesten Stand der Technik. Unseres Wissens nach wurde so etwas noch
nie gemacht. Unsere ersten Validierungen mit Kunden haben Produktivitätssteigerungen
ergeben, die wir mit bis zu 2,1-fachen Verbesserungen bei der Zeit für die
Informationsextraktion und die Lieferantenzuordnung gemessen haben. Darüber hinaus hat
die Integration von RAG die kontextuelle Relevanz verfeinert, so dass der Benutzer seltener
für Korrekturen eingreifen muss. Wir glauben, dass die Benutzerproduktivität mit einer
Kombination aus Funktionen der Benutzeroberfläche (die die Erstellung von Bauangeboten
von Anfang bis Ende abdeckt) und zusätzlichen Datensätzen zur Steigerung der Leistung
unseres Modells weiter auf das 6-fache gesteigert werden kann.
Download