Grafik von Glenn Carstens-Peters – https://unsplash.com/de/@glenncarstenspeters

Wie wir maschinelles Lernen bei der Erstellung unserer Artikel einsetzen

Tranzparenz ist ein wichtiger Schritt für das Vertrauen von Nutzer*innen in ein Produkt. Heute wollen wir verstärkt auf unsere Verwendung von maschinellen Lernmethoden für Aggregata eingehen.

Henrik Bartsch

Henrik Bartsch

Die Texte in diesem Artikel wurden teilweise mit Hilfe künstlicher Intelligenz erarbeitet und von uns korrigiert und überarbeitet. Für die Generierung wurden folgende Dienste verwendet:

Einleitung

Wir, das Team von Aggregata, verstehen uns als Vermittler und Anwender von Problemen und Lösungen im Bereich des maschinellen Lernens (umgangssprachlich “künstliche Intelligenz”). Dabei zeigen wir grundlegende Informationen auf, wie z.B. Reinforcement Learning funktioniert, wie ein Decision Tree aus gegebenen Daten lernt oder wie wir ein neuronales Netz nutzen können, um bestimmte Merkmale in Bildern zu identifizieren. Aber eine Sache haben wir noch nicht untersucht: Wie wir eigentlich (generative) Modelle aus dem Bereich des maschinellen Lernens nutzen, um Aggregata voranzubringen. Das wollen wir in diesem Artikel nachholen.

Verwendung verschiedener Methoden

Kurz vorweg: Bei Aggregata geht es uns um authentische Inhalte, auf welche sich unsere Nutzer*innen beim Lernen oder Anwenden von Methoden aus dem Bereich des maschinellen Lernens verlassen können sollen.

Aus diesem Grundsatz ergibt sich für uns der Anspruch, dass wir allgemein entsprechende Modelle verwenden wollen und können, sofern dies nicht die Qualität unserer Artikel negativ beeinflusst. Weiterhin sollen alle Informationen nach der Recherche durch ein neuronales Netz überprüft werden, unabhängig von der üblichen Qualität des Modells, welches verwendet wurde.

Zwar bedeutet dies dass wir (generative) neuronale Netze für die Generierung von Artikeln nutzen könnten, wir häufig dies aber nur sehr selten durchführen. Im Rahmen der Transparenz, welche wir für unsere Nutzer*innen anbieten wollen, wollen wir nun einmal auf die verschiedenen Arten eingehen, wie wir entsprechende Modelle verwenden.

Textübersetzung

Für textuelle Übersetzungen nutzen wir selbst DeepL Translate aufgrund der außergewöhnlichen Genauigkeit, mit welchem dieser Service arbeitet. Dies ermöglicht es uns, auch bei komplexen Themenbereichen präzise Übersetzungen zu finden, wenn wir Quellen in verschiedenen Sprachen finden und nur eine grobe Ahnung haben wie eine potenzielle Übersetzung (in Englisch oder Deutsch) aussehen könnte.

Zwischenzeitig haben wir ebenso Versuche mit der Übersetzung von Artikeln durch das Modelle T5 versucht. Außerhalb des Artikels zu T5 haben wir aufgrund nicht-optimaler Ergebnisse diese Idee (vorläufig) verworfen.

Textoptimerung

Textoptimierung ist ein wichtiger Anteil daran, wie sich ein Artikel lesen lässt und bei den Leser*innen in Erinnerung bleibt. Auch hierfür haben wir Methoden gefunden, unsere Texte besser zu machen als wir diese normalerweise schreiben würden. Als primäres Werkzeug hierfür verwenden wir DeepL Write, welches sich in der Anwendung bei uns bewährt hat.

Hierneben versuchen wir ebenso Ideen für verschiedenste Schreibstile zu erhalten, um unsere Artikel ansprechender für alle Nutzer*innen zu machen. Hierfür nutzen wir neben Microsoft Copilot oder Google Gemma auch Llama 2.

Faktenprüfung und Unterstüztung bei der Recherche

Ein sehr wichtiger (und zeitaufwändiger) Teil unserer Arbeit bei Aggregata ist die Suche und Überprüfung von Informationen.

Zur Einordnung: Bei der Recherche zu besonders komplexen Themen (ohne Unterstützung durch maschinelle Lernmodelle) kann der Anteil der Recherche am gesamten Schreibprozess eines Artikels bis zu 75%75\% betragen.

Diese 75%75\% machen einen großen Teil des Prozesses aus. Um hier Fehler zu vermeiden und beliebte Quellen zu priorisieren, verwenden wir häufig Microsoft Copilot, um uns geeignete Quellen für bestimmte Fragestellungen herauszusuchen. Diese Quellen werden dann wieder von uns ausgewertet, ersparen uns aber oft das Durchsuchen ungeeigneter Quellen - vor allem, wenn diese keine weiteren interessanten Informationen zu unserer Fragestellung oder nur weitere, redundante Informationen enthalten.

Zusätzlich greifen wir in seltenen Fällen auf die Faktenprüfung von Microsoft Copilot, Llama 2 und immer häufiger auf Google Gemma zurück. Dies ist vor allem bei komplexen, mathematischen Themen sehr hilfreich, da hier Fehler oft nicht auf den ersten Blick zu erkennen sind. Diese Modelle stellen somit eine Art Qualitätskontrolle für fehleranfällige Bereiche unserer Artikel dar.

Generierung von Inhalten

In bestimmten Bereichen ist es besonders schwierig, Texte zu schreiben, die für die Leser*innen interessant und spannend sind - vor allem, wenn diese viel Mathematik oder unverständliche bzw. unintuitive Grundlagen beinhalten. Um hier Ideen für Beispiele oder Schreibstile zu bekommen, verwenden wir in seltenen Fällen Modelle wie Llama 2 oder Microsoft Copilot. So erreichen wir eine bessere Textqualität bei Themen, die unsere Nutzer*innen sonst weniger ansprechen würden, als wir uns das wünschen.

Anmerkung des Autors: Auch hier gilt, dass wir die entsprechenden Ausgaben der hier genannten Modelle nicht 1:1 übernehmen, sondern uns mit den Ausgaben auseinandersetzen, sie zusammenfassen und die entsprechenden Quellen hinzufügen, bevor diese auf Aggregata erscheinen.

Zukünftige Ideen für Aggregata

Bis hierher haben wir erläutert, wie wir bisher (generative) maschinelle Lernmodelle für unsere Publikationen genutzt haben. Nun wollen wir einen kurzen Ausblick geben, welche Optionen wir für die Zukunft von Aggregata in diesem Bereich sehen.

Übersetzung von Artikeln und andere Sprachen

Wir denken derzeit darüber nach, unsere Inhalte automatisch in Sprachen übersetzen zu lassen, die wir als Aggregata bisher nicht abbilden können. Unsere sprachlichen Schwerpunkte liegen im Deutschen und Englischen und dies wird sich auch in absehbarer Zeit nicht ändern, zumindest nicht in dem Maße, dass wir professionelle und qualitativ hochwertige Beiträge in den entsprechenden Sprachen verfassen könnten. Daher gibt es Überlegungen, weitere Sprachen durch automatisierte Übersetzung und Textoptimierung möglich zu machen.

Zum Beispiel spielen wir mit dem Gedanken, in folgende Sprachen übersetzen zu lassen:

  1. Spanisch
  2. Französisch
  3. Hindi

und eine Reihe weiterer Sprachen. Diese Sprachen haben Vorrang, da sie von besonders vielen Menschen gesprochen werden. (Quelle)

Bildgenerierung

Bisher haben wir Bilder von Unsplash verwendet, um die Titelbilder unserer Artikel und Publikationen grafisch ansprechender zu gestalten. Das ist zwar nicht unbedingt zeitaufwändig, aber manchmal ist es schwierig, genau das richtige Bild zu finden, das den Kerninhalt unserer Artikel darstellt, ohne zu überladen zu wirken. Wir experimentieren daher mit Stable Diffusion XL, das uns helfen könnte, diesen Prozess zu automatisieren, besser passende Bilder zu generieren und unsere Produktivität zu steigern.

TL;DR

In diesem Artikel stellen wir unsere Methoden und Rahmenbedingungen vor, wie wir bei Aggregata die Möglichkeiten des maschinellen Lernens nutzen, um unsere Inhalte zu verbessern. Dabei stellen wir klar, dass wir diese Methoden explizit nicht einsetzen, um Inhalte 1:1 zu generieren und dann zu kopieren, sondern um uns Ideen zu liefern, welche Artikel relevanter und interessanter gemacht werden können. Wir verwenden vor allem Methoden aus der Textübersetzung und -optimierung, an einigen Stellen aber auch Methoden zur Rechercheunterstützung und Faktenprüfung. Wir verwenden generative Modelle, um besonders komplexe Probleme verständlicher zu machen, ohne dass die Qualität der Informationsvermittlung darunter leidet. Letztlich gingen wir auf unsere möglichen Ideen ein, wie wir in Zukunft auch weiter entsprechende neuronale Netze verwenden können, um Aggregata noch besser machen zu können.