Bildgeneratoren

Wahres sagen statt Wahrsagen: Gutes Prompting bei GenAIs

München, Mai 2024 - (von Franziska Melzig, Fischer, Knoblauch & Co.) Generative KIs wie ChatGPT, Midjourney & Co. überschwemmen den Markt – kein Wunder, so liefern sie doch schnelle Antworten bei leichter Bedienbarkeit. Doch warum bringen gleiche Fragen nicht gleiche Ergebnisse? Wie kommt es zu sogenannten "Halluzinationen"? Und wie formuliere ich mein Anliegen so, dass ich genau da ankomme, wo ich hinmöchte?

Die Funktionsweise

Um das nachvollziehen zu können, sollten wir zunächst einen kurzen Blick auf die Grundlagen werfen – wie funktionieren generative KIs? 
Ganz vereinfacht lässt sich sagen: Diese neuronalen Netzwerke lernen aus Daten und können selbstständig neue Muster darin erkennen. Als Analyse-Modelle prüfen sie im Grunde, wie wahrscheinlich bestimmte Elemente (Themen, Wörter, Bildbausteine etc.) gemeinsam auftreten. Large Language Models wie ChatGPT gelingt es so, die natürliche Sprache recht überzeugend nachzustellen und Text-to-Image-Generatoren können so Kunstwerke schaffen.
Obwohl sie hierbei ständig weiterlernen, verfügen KIs trotzdem über kein allgemeines "Weltwissen". So kommt es, wenn man als User nicht genügend oder falschen Kontext liefert, manchmal zu Missverständnissen zwischen Anfrage – also dem Prompt – und der Antwort der KI.

Richtig Prompten bei KI-Bild-Generatoren

Obwohl sich die Eingabe leicht zwischen verschiedenen Bildgeneratoren unterscheidet, sind die grundlegenden Prinzipien für die Erstellung von Befehlen für KI universell. Kurz gesagt: Der Prompt sollte klar, beschreibend, grammatikalisch korrekt und so präzise wie möglich sein. Hier besteht die Herausforderung darin, zwischen einer spezifischen Beschreibung und unnötigen Details unterscheiden zu können.
Besonders wenn man eine bestimmte Vision für Look & Feel des Endproduktes hat, sollten die Prompts bedacht entworfen werden. Für ein neues Standard-WBT zum Thema "Unconscious Bias" wollte die eLearning-Agentur Fischer, Knoblauch & Co. beispielweise eine düstere Geschichte rund um einen Detektiv und Mafia Boss erzählen. Besonders der Gegenspieler "Donnie Gazpacho" hat deshalb einen langen, aber lehrreichen Weg hinter sich.

 

 

 

 

 

 

 

 

 

Darstellung: erster Versuch über Adobe Firefly, finale Version über Midjourney

 

Deshalb fassen wir an dieser Stelle kurz die wichtigsten Tipps & Tricks zusammen:

  1. Tool kennen: Machen Sie sich mit der Terminologie des Programms vertraut, um es bestmöglich nutzen zu können (Seeds, Scale, Models, …).
  2. So konkret wie möglich, so spezifisch wie nötig: Seien Sie präzise, ohne sich auf Details zu fixieren.
  3. Das Wichtigste zuerst: Jedes Wort im Prompt hat sein Gewicht. Wenn der Generator (z.B. Midjourney) nicht das genaue Gewicht jeder Eingabe definieren lässt, behandelt die KI die ersten Wörter als die wichtigeren.
  4. Deskriptoren: Werden die Eigenschaften Ihrer Objekte nicht klar definiert, wird der Generator Zufallsvariationen verwenden, um diese Lücken zu füllen.
  5. Stil: Der Standardstil für die meisten Generatoren ist fotorealistisch. Um einen anderen Stil zu erhalten, kann einer der alternativen Vorschläge der KI-Plattform gewählt oder ein anderer Stil im Prompt beschrieben werden.
  6. Stimmung und Komposition: Bestimmen Sie die Stimmung der gesamten Komposition, indem Sie Adjektive verwenden, die die Atmosphäre oder Kamerawinkel einer Szene beschreiben.

Doch, Vorsicht: Wird der Prompt zu kleinschrittig, zu detailliert und lang, wird die KI zwangsläufig einige Details fallen lassen, verzerren oder falsch interpretieren. Auch mit der Liste an Tipps braucht es einige Versuche, um das richtige Gespür zu entwickeln.

Zusammenfassend bietet die Möglichkeit für KI-generierte Bilder eine Fülle von Potenzialen, um Kreativität zu fördern, visuelle Konzepte zu erkunden und neue Perspektiven zu entdecken. Und für die konkreten Prompts gilt: Probieren geht über Studieren!