Das Wirtschaftsmagazin brand eins will seinen Lesern systematisch die archivierten Artikel früherer Jahrgänge zugänglich machen. Dazu müssen die über 10.000 Texte nicht nur rein chronologisch, sondern vor allem auch nach inhaltlichen Kriterien auffindbar und zugreifbar gemacht werden. Bislang besteht bereits eine redaktionell erarbeitete inhaltliche Zielstruktur, aber noch keine Zuordnung der Texte in diese Struktur. In der automatisierten Erstellung genau dieser Zuordnung soll LangTec mit textanalytischen Methoden unterstützen.
Ziel des Vorhabens ist es, die Texte in einer n:m-Zuordnung zu den thematischen Kategorien zuzuordnen. Dabei sollen zu jedem Text sowohl die Inhaltskategorien als auch die Stärke der Assoziation der jeweiligen Zuordnung angegeben werden. LangTec wird die Zuordnung mit Hilfe von Machine Learning automatisieren. Eine zentrale Herausforderung dabei wird sein, das Vorgehen so zu wählen, dass auch ohne das Vorliegen von gelabelten Daten eine vollständige Indexierung aller Texte ohne zusätzliche redaktionelle Arbeit erzielt werden kann.