Bewertung der Leistung großer Sprachmodelle zur Informationsextraktion: Eine vergleichende Studie

Dieser Artikel untersucht die Leistung großer Sprachmodelle (LLMs) wie ChatGPT4-Turbo und ChatGPT4-Omni bei Aufgaben zur Informationsextraktion und vergleicht sie mit dem spezialisierten E-MailParser von LangTec. Unsere Analyse zeigt, dass ein speziell entwickeltes System zum Dokumentverstehen die führenden LLMs in dieser wichtigen Business-Aufgabe um Längen schlägt.

Benchmarking der Genauigkeit

Um die Genauigkeit von ChatGPT4-Turbo, ChatGPT4-Omni und LangTecs E-MailParser zu bewerten, wurde eine umfassende Bewertung mit 20 Dokumenten über vier Extraktionsaufgaben hinweg durchgeführt:

Q88: Überprüfungsfragebögen für Tankerinformationen
Timesheet: Lade-/Entladeberichte von Tankern
Ship: Anfragen für kommerzielle Frachttransporte
Cargo: Positionierungslisten kommerzieller Frachtschiffe

Aus jedem dieser Dokumente extrahierten wir etwa 20 Ziel-Datenpunkte. Für die Bewertung hatten diese Dokumente vordefinierte Ground-Truth-Labels, die die erwarteten Zielwerte für jedes Feld angaben. Durch den Vergleich der extrahierten Werte mit diesen Ground-Truth-Labels konnten wir die Genauigkeit für jedes Modell berechnen.

Benchmark-Ergebnisse: LLMs vs. LangTecs E-MailParser

Sowohl ChatGPT4-Turbo als auch ChatGPT4-Omni zeigen ein gewisses Maß an Genauigkeit bei Aufgaben zur Informationsextraktion und erreichen Gesamtwerte von 56 % bzw. 49 %. Bemerkenswert ist, dass das neuere Modell ChatGPT4-Omni bei dieser Aufgabe für die meisten Dokumententypen schlechter abschneidet als sein Vorgänger ChatGPT4-Turbo. Eine weitere wichtige Beobachtung war, dass die Leistung der Modelle durch Inkonsistenz beeinträchtigt wird. Für denselben Eingabetext und dieselbe Extraktionsaufgabe liefern diese Modelle jedes Mal unterschiedliche Antworten, selbst wenn dieselbe Frage gestellt wird. Dieses nicht-deterministische Verhalten macht sie unzuverlässig für Szenarien, in denen konsistente und genaue Informationsbeschaffung entscheidend ist.

Im Gegensatz dazu zeigen spezialisierte Parser wie LangTecs E-MailParser eine deutlich höhere Genauigkeit, sind in ihrem Verhalten vollständig deterministisch und erreichen konstant 98 % Extraktionsgenauigkeit über verschiedene Dokumentenformate hinweg. Diese Zuverlässigkeit macht eine deterministische Lösung zur Dokumentenverständnis wie E-MailParser zu einer verlässlicheren Lösung für Aufgaben zur Informationsextraktion, insbesondere bei der Verarbeitung vielfältiger E-Mail-Inhalte in geschäftskritischen Anwendungen.

Abschluss

Während LLMs wie ChatGPT hervorragend zum Generieren von Inhalten geeignet sind, weisen sie erhebliche Einschränkungen auf, insbesondere in Szenarien, die deterministische Ausgaben erfordern, wie z. B. Aufgaben zur Informationsextraktion. Für solche Anwendungen bieten Dokumentenverständnis-Lösungen wie LangTecs E-MailParser eine zuverlässigere und genauere Lösung.

Cookie	Dauer	Beschreibung
cookielawinfo-checkbox-advertisement	1 year	Set by the GDPR Cookie Consent plugin, this cookie is used to record the user consent for the cookies in the "Advertisement" category .
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
CookieLawInfoConsent	1 year	Records the default button state of the corresponding category & the status of CCPA. It works only in coordination with the primary cookie.
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.
_GRECAPTCHA	5 months 27 days	This cookie is set by the Google recaptcha service to identify bots to protect the website against malicious spam attacks.

Jobs & News

Bewertung der Leistung großer Sprachmodelle zur Informationsextraktion: Eine vergleichende Studie

Benchmarking der Genauigkeit

Benchmark-Ergebnisse: LLMs vs. LangTecs E-MailParser

Abschluss

Weitere Infos

Kompakt

LangTec