Diffusionsmodelle: Eindrucksvolle Bilder mit Generative KI erstellen
Künstliche Intelligenz (KI) erlangt zunehmend an Beliebtheit und findet in nahezu allen Bereichen unseres Lebens Anwendung. Dieser Trend ist seit einigen Jahren zu beobachten und hat in jüngerer Vergangenheit durch die rasante Entwicklung der KI-Technologie deutlich an Fahrt aufgenommen. Insbesondere die Bereiche der Textgenerierung (z.B. ChatGPT, GPT-3) und der Bildgenerierung (z.B. Stable Diffusion, DALL-E 2) haben hierbei eine bedeutende Rolle gespielt. Im Rahmen dieses Artikels möchten wir uns auf die Bildgenerierung durch Diffusionsmodelle konzentrieren und präsentieren hierbei ausschließlich mit Stable-Diffusion-Modellen erzeugte Bilder.
Was sind Diffusionsmodelle?
Diffusionsmodelle sind eine Form von generativen Modellen, die darauf ausgelegt sind, Bilder zu erzeugen, die den Trainingsdaten möglichst ähnlich sind. Beim Training werden die Daten durch Zugabe von Gaußschem Rauschen verfremdet und das Modell lernt, wie es dieses Rauschen unterdrücken kann, um die ursprünglichen Daten wiederherzustellen. Während der Inferenzphase nutzt das Modell zufällig abgetastetes Rauschen, um neue Ergebnisse zu erzeugen.
Dank dieser Technologie sind wir in der Lage, eine schier unendliche Vielfalt an Bildern auf Grundlage von Textvorgaben zu generieren. Die Einsatzmöglichkeiten von Diffusionsmodellen sind zahlreich und vielfältig. Sie können als Inspirationsquelle dienen oder auch dazu genutzt werden, fertige Bilder für Werbespots, Bücher oder Präsentationen zu erstellen. Nicht zuletzt bereitet die Erstellung von Bildern selbst auch großen Spaß, da man nie genau vorhersagen kann, welches Ergebnis am Ende dabei herauskommt.
Wie verwendet man Diffusionsmodelle?
Diffusionsmodelle ermöglichen die Erzeugung von Bildern auf Basis eines vorgegebenen Text-Prompts. Dabei ist es entscheidend, den richtigen Prompt zu erstellen, um das gewünschte Ergebnis zu erzielen. Ein optimaler Prompt besteht aus drei Komponenten: Rahmen, Thema und Stil.
- Rahmen – Der Rahmen gibt den Typ des zu generierenden Bildes vor. Hierbei können verschiedene Rahmenarten zum Einsatz kommen, wie zum Beispiel ein Foto, ein Poster, eine Illustration, ein Ölgemälde, eine Bleistiftzeichnung oder ein 3D-Cartoon. Wird kein Rahmen spezifiziert, wird standardmäßig ein Bild generiert. Im Folgenden finden Sie Ergebnisse, die unter Verwendung der Textaufforderung “Menschen im Park”, jedoch mit unterschiedlichen Rahmenarten generiert wurden.
- Thema – Das Thema gibt den Inhalt des zu generierenden Bildes vor und ist der wichtigste Bestandteil der Textaufforderung. Da Diffusionsmodelle mit Millionen von Bildern trainiert wurden, sollten sie auch bei sehr spezifischen Aufforderungen in der Lage sein, korrekte Ergebnisse zu liefern.
- Stil – Die Stilkomponente beschreibt den Stil des zu generierenden Bildes und umfasst Aspekte wie Beleuchtung, Thema, Zeitraum und Kunststil. Je präziser die Beschreibung des Stils ist, desto besser können Diffusionsmodelle die Vorstellungskraft der Menschen visualisieren. Auch hierbei ist die Textaufforderung von entscheidender Bedeutung. Nehmen wir zum Beispiel die Erstellung eines Bildes des Eiffelturms als Beispiel.
Und der Eiffelturm in verschiedenen Stilen:
Probleme in Verbindung mit Diffusionsmodellen
Obwohl Diffusionsmodelle als leistungsstarke Instrumente zur Erzeugung von Bildern und anderen Inhalten bekannt sind, sind sie nicht fehlerfrei. Es ist wichtig, sich bewusst zu sein, dass diese Modelle auch Einschränkungen haben, die vom Benutzer berücksichtigt werden sollten, um bestmögliche Ergebnisse zu erzielen.
- Zu langes Thema – Ein zu langes Thema kann dazu führen, dass das Modell einige Elemente auslässt oder nicht vollständig berücksichtigt. Es empfiehlt sich, das Thema auf ein oder zwei konkrete Punkte zu beschränken, um sicherzustellen, dass das Modell ein Bild erstellt, das alle gewünschten Elemente enthält. Ein weiterer Tipp ist, den wichtigsten Teil des Themas näher an den Anfang des Prompts zu stellen.
Ein Beispiel für ein zu langes Thema: “Erstelle ein Ölgemälde einer schönen Landschaft mit einer Pferdeherde, einem kleinen Haus im Hintergrund, einem Wasserfall, einem sonnigen Tag und heiterem Licht.”
Besser wäre es, das Thema auf einen oder zwei konkrete Aspekte zu beschränken, z.B.: “Erstelle ein Ölgemälde einer Pferdeherde in einer schönen Landschaft mit einem Wasserfall im Hintergrund an einem sonnigen Tag.”
Das Ergebnis enthält kein Haus, wenn wir aber die Reihenfolge in unserer Aufforderung ein wenig ändern: “Ölgemälde einer schönen Landschaft mit Wasserfall, kleinem Haus im Hintergrund und einer Pferdeherde, sonniger Tag, heiteres Licht”
Diesmal ließ das Modell die Pferde im erzeugten Bild weg.
- Erzeugung seltsam aussehender Gesichter – Modelle sind in der Lage, realistisch aussehende Gesichter zu erzeugen, aber sie haben Probleme mit der Erzeugung mehrerer Gesichter in einem Bild.
Hier ist das Ergebnis des Prompts: ”Ein Foto des Mannes mit Bart und Brille, sehr detailliert, lebensecht, hohe Qualität”
Aber wenn wir die Anzahl der Personen erhöhen, werden die Gesichter verzerrt: “Ein Foto von sechs Personen während einer Bürobesprechung, sehr detailliert, lebensecht, hohe Qualität”
- Verschmelzung von zwei Themen zu einem –Manchmal kann es vorkommen, dass ein Diffusionsmodell bei der Verwendung von zwei ungewöhnlichen Themen aus derselben Themengruppe (wie Tieren) anstatt zwei separaten Themen Verschmelzungen der Objekte erzeugt.
Das Ausgabebild des Prompts: ,,Eine Kuh und ein Schwein”:
Das Ausgabebild enthält zwei Tiere, die aber eher wie eine Kreuzung aus Kuh und Schwein aussehen. Das Problem verschwindet normalerweise, wenn wir es mit sehr bekannten Themen versuchen – “Eine Katze und ein Hund”.
- Generierung von Text in einem Bild – Diffusionsmodelle stoßen bei der Generierung von Text in Bildern auf Schwierigkeiten. Oftmals sind die Ergebnisse fehlerhaft und enthalten unzusammenhängende oder unnötige Wörter:
Pipelines für Diffusionsmodelle
Diffusionsmodelle können durch verschiedene Pipelines eingesetzt werden, um die gewünschten Ergebnisse zu erzielen.
- Text-zu-Bild – Eine Möglichkeit ist die Text-zu-Bild-Pipeline, bei der ein Bild auf der Grundlage einer Texteingabe erzeugt wird. Alle oben genannten Beispiele wurden mit dieser Pipeline erstellt, da sie die einfachste Option zur Verwendung von Diffusionsmodellen darstellt.
- Bild-zu-Bild – Eine weitere Möglichkeit ist die Bild-zu-Bild-Pipeline, bei der ein Ausgabebild auf der Grundlage einer Bild- und Textaufforderung erzeugt wird. Dabei dient das Eingabebild als Grundlage für das Ausgabebild, und der Benutzer kann den Grad der Ähnlichkeit zwischen den beiden Bildern steuern. Diese Pipeline kann beispielsweise zur einfachen Bearbeitung des Eingabebildes eingesetzt werden:
Es kann auch verwendet werden, um Bilder aus einer Skizze zu erzeugen:
Oder einfach nur, um die Farbpalette aus dem Eingabebild wiederzuverwenden:
Feineinstellung der Diffusionsmodelle
Ein weiteres interessantes Merkmal von Diffusionsmodellen ist die Möglichkeit, Modelle mit benutzerdefinierten Daten neu zu trainieren. Nach der Feinabstimmung können die Benutzer Bilder mit ihren eigenen Themen erzeugen. Dabei kann es sich um eine Person, ein Tier, ein Produkt, ein Firmenlogo (denken Sie an das Problem mit der Texterstellung) usw. handeln. Diese Eigenschaft ist wichtig, um Werbespots oder Buchillustrationen mit definierten Charakteren zu erstellen.
Hier sind einige Beispiele, die von einem Modell generiert wurden, das mit nur drei Bildern unseres Logos neu trainiert wurde:
Wie Sie sehen können, sind die Ergebnisse nicht perfekt, aber das Modell hat die wichtigsten Merkmale von nur drei Trainingsbildern erfasst. Mit mehr Trainingsdaten hat es das Potenzial, interessante und schöne Unternehmenswerbung zu erstellen.
Zusammenfassung
In diesem Artikel haben wir Ihnen die wichtigsten Informationen über Diffusionsmodelle vorgestellt. Wie Sie sehen können, handelt es sich um ein leistungsfähiges Werkzeug. Die größte Einschränkung von Diffusionsmodellen liegt bloß in unserer Vorstellungskraft.
Dieses Gebiet der künstlichen Intelligenz (KI) wird intensiv weiterentwickelt und voraussichtlich werden in naher Zukunft die oben genannten Probleme beseitigt, sodass die Leistungsfähigkeit der Diffusionsmodelle erhöht wird.
Nutzen Sie Diffusionsmodelle in Ihrem Unternehmen
Bei theBlue.ai setzen wir auf die Power von Diffusionsmodellen, um innovative Lösungen für unterschiedliche Branchen und Unternehmen zu schaffen. Unser Expertenteam forscht und entwickelt kontinuierlich neue Ansätze, um das volle Potenzial generativer KI-Modelle für unsere Kunden auszuschöpfen. Wir sind überzeugt, dass Diffusionsmodelle die Art und Weise, wie Unternehmen arbeiten, revolutionieren können. Deshalb sind wir stolz darauf, in diesem sich rasant entwickelnden Bereich an vorderster Front mitzuwirken.
Wenn Sie daran interessiert sind, das Potenzial von Diffusionsmodellen für Ihr Unternehmen zu erkunden, zögern Sie bitte nicht, uns zu kontaktieren. Unser Expertenteam bespricht gerne mit Ihnen, wie wir Ihnen helfen können, innovative Lösungen mit dieser leistungsstarken Technologie zu entwickeln und schnell Proof of Concepts zu erstellen, mit denen Sie intern den Wert der generativen KI für Ihr Unternehmen und Ihre Produkte nachweisen können.