Ziel unseres Kunden ist es, geeignete Investitionsziele bereits im Vorhinein zu qualifizieren. In diesem Projekt, bei dem es um große transformer-basierte Sprachmodelle geht, hat LangTec eine Lösung zur Identifizierung aller relevanten Unternehmenstypen auf der Grundlage von Informationen, die auf den Websites von Unternehmen vorhanden sind, entwickelt. Die zentrale Herausforderung bei dieser Aufgabe ist die Bewältigung großer Mengen von Website-Inhalten, deren Länge die typische Sequenzlängenbeschränkung von transformer-basierten Sprachmodellen überschreitet. Die Lösung von LangTec wurde auf Recall optimiert, d.h. sie wurde so konzipiert, dass sie alle potenziell interessanten Unternehmen in der Trainings- und Testmenge erfasst.
Neben der Entwicklung, dem Training und der Optimierung des Perfect-Recall-Classifiers hat LangTec erfolgreich ein hybrides Sprachmodell trainiert, das die Merkmale eines anderen statistischen Modells ohne neuronale Netze zusammen mit den Merkmalen des transformer-basierten Modells verwendet, um eine gemeinsame Klassifizierungsentscheidung zu treffen. Diese Modellarchitektur ermöglicht es, transformer-basierte Modelle mit anderen Machine-Learning-Modellen in einer hybriden Architektur zu kombinieren.