← Zurück zur Startseite

Wie funktionieren KI-illustrierte Bücher?

Die komplette Pipeline, verständlich erklärt – vom Foto-Upload bis zum Hardcover.

KI-illustrierte Bücher entstehen durch das Zusammenspiel von drei Arten von KI. Ein Sprachmodell schreibt die Geschichte aus den Antworten im Fragebogen. Ein Vision-Modell liest die Referenzfotos und lernt, wie jede Figur aussieht. Ein Bildmodell malt jede Seite und nutzt die Vision-Referenz, damit die Gesichter konsistent bleiben. Vor dem Druck prüft die Kundin das gesamte Buch und kann jede Seite neu rendern lassen. Memolio folgt genau diesem Ablauf: GPT für die Geschichte, eine Vision-Stufe zum Lernen der Gesichter, Seedream 4.5 für die Illustrationen. Das Ergebnis ist ein 24-seitiges Hardcover, auf dessen jeder Seite die echten Großeltern stehen.

Kurz zusammengefasst

  • Drei KI-Typen: Sprachmodell (Text), Vision-Modell (liest Fotos), Bildmodell (malt Seiten).
  • Typische Produktionszeit: 24 bis 48 Stunden.
  • Die Kunst liegt in der Wiedererkennbarkeit der Gesichter über alle Seiten hinweg.
  • Eine Prüfschleife vor dem Druck fängt alles ab, was die KI falsch macht.
  • Memolio verwendet GPT + Seedream 4.5; Kundendaten werden 90 Tage nach Lieferung gelöscht.

Die fünf Schritte der Pipeline

  1. Fragebogen: Fotos und Erinnerungen

    Die Kundin füllt einen kurzen Fragebogen aus: Namen, Daten, Orte, ein paar Fotos der Großeltern in verschiedenen Lebensphasen, optional Fotos von Partner:in und Enkel:innen, und die Erinnerungen, die im Buch erzählt werden sollen. Bei Memolio dauert das per WhatsApp oder Webformular etwa 20 Minuten.

  2. Text-Generierung: Das Sprachmodell schreibt

    Ein Sprachmodell (Memolio nutzt OpenAI GPT) liest die Fragebogen-Antworten und schreibt eine Erzählung nach einer festen Buchstruktur: Kindheit, Erwachsenenleben, Kennenlernen des Partners, Kinder, Ankunft des Enkels, Widmung. Der Prompt ist so abgestimmt, dass die Geschichte warm und bilingual bleibt und auf den echten Fakten basiert, statt zu halluzinieren.

  3. Bildanalyse: Die KI lernt die Gesichter

    Ein Vision-Modell liest jedes hochgeladene Foto und erstellt eine Figurenbeschreibung: Gesichtsform, Haare, Statur, ungefähres Alter. Das geschieht pro Lebensphase – ein Foto aus den Zwanzigern ergibt eine „junge" Referenz, ein aktuelles Foto eine „alte". Diese Referenzen sorgen dafür, dass die Großeltern auf jeder Seite wiedererkennbar sind.

  4. Bilderzeugung: Jede Seite wird gemalt

    Ein Bildmodell (Memolio nutzt Seedream 4.5 über BytePlus) malt jede Seite einzeln. Der Prompt pro Seite enthält sowohl eine Szenenbeschreibung aus der Geschichte als auch die Vision-Referenz aus den Fotos. Diese referenzgebundene Generierung ist der Grund, warum die Oma auf Seite 3 wie die Oma auf Seite 15 aussieht und nicht wie zwei verschiedene Personen.

  5. Überprüfung und Druck

    Die Kundin sieht das komplette Buch online. Seiten, die nicht stimmen (falsche Kleidung, falsches Gesicht, falsche Szene), lassen sich mit einem Klick neu erzeugen und durchlaufen nur die betroffene Seite erneut durch die Bildstufe. Nach der Freigabe produziert ein Print-on-Demand-Partner das Hardcover und verschickt es.

Woher die Qualität wirklich kommt

Der größte Teil der Qualität in einem KI-illustrierten Buch stammt nicht vom neuesten Modell. Er stammt aus drei technischen Entscheidungen, die für die Kundin unsichtbar bleiben.

Konsistenz der Gesichter. Die Person auf Seite 3 muss wie die Person auf Seite 15 aussehen. Das Standardverhalten von Bildmodellen ist das Gegenteil: jede Seite ist eine frische Generierung, kleine Abweichungen summieren sich. Anbieter, die das im Griff haben, arbeiten mit fixierten Referenzbildern, Bild-zu-Bild-Prompting und pro Figur gleichbleibenden Beschreibungen.

Altersprogression. Ein Großeltern-Buch braucht die Großeltern in verschiedenen Lebensphasen: in den Zwanzigern, in den Fünfzigern, heute. Fotos dazu existieren, aber sie wirken wie verschiedene Menschen, solange die Pipeline sie nicht explizit verknüpft. Gute Anbieter fragen Fotos aus mehreren Lebensphasen ab und füttern pro Seite das passende Bild ein.

Die Prüfschleife. KI macht bei jedem Buch einen Teil der Seiten falsch. Die einzige vernünftige Methode, in Masse Qualität zu liefern, ist: Kundin prüft, lässt nachbessern, gibt frei. Anbieter, die ohne Prüfschleife direkt drucken, verschicken fehlerhafte Bücher. Anbieter mit Prüfschleife fangen die Probleme ab, bevor sie gedruckt werden.

Die Ansätze im Vergleich

Ansatz Textquelle Illustrationsquelle Wiedererkennbarkeit Zeit
KI-illustriert (Memolio-Art) Sprachmodell aus Fragebogen KI-Bildmodell, fotoreferenziert Hoch, mit jedem Modell besser ca. 48 Stunden für die KI
Personalisierte Vorlage Vorgeschrieben Vorgezeichnet, Haut/Haare wählbar Keine (Vorlagengesichter) Sofort
Handillustrierte Auftragsarbeit Von der Kundin oder Ghostwriter:in Individuell handgemalt Sehr hoch Monate
Selbstgemachtes Fotobuch Selbst geschrieben Echte Fotos eingeklebt Entfällt So lange die Kundin braucht

Häufige Fragen

Wie funktionieren KI-illustrierte Bücher?

Sie kombinieren drei KI-Typen: ein Sprachmodell schreibt die Geschichte, ein Vision-Modell liest die Referenzfotos, ein Bildmodell malt jede Seite auf Basis dieser Referenz. Vor dem Druck erlaubt eine Prüfschleife, Seiten nachzubessern, die die KI falsch erzeugt hat.

Welche KI-Modelle werden tatsächlich verwendet?

Das variiert je nach Anbieter. Memolio nutzt OpenAI GPT für den Text und die Fotoanalyse sowie Seedream 4.5 (über BytePlus, Singapur) für die Illustrationen. Andere Anbieter verwenden DALL·E, Midjourney, Stable Diffusion oder Flux. Welche Modelle im Einsatz sind, ändert sich, sobald bessere verfügbar werden.

Wie schafft die KI, dass die Großeltern wie die Großeltern aussehen?

Ein Vision-Modell liest die Referenzfotos und erstellt eine Figurenbeschreibung: Gesichtsform, Haare, Statur, Alter. Das Bildmodell nutzt diese Beschreibung und zusätzlich das Referenzbild selbst als Eingabe, um auf jeder Seite dieselbe Person zu malen. Je besser die Referenzfotos, desto besser die Ähnlichkeit.

Sind KI-illustrierte Bücher qualitativ gut?

Die Qualität hat im letzten Jahr einen großen Sprung gemacht. Die besten KI-illustrierten Bücher sind inzwischen richtig gut: warme, stimmige Aquarelle mit wiedererkennbaren Gesichtern. Sie erreichen nicht ganz das Niveau einer handgemalten Auftragsarbeit, sind aber deutlich günstiger und schneller. Der Abstand schrumpft mit jedem neuen Modell.

Was, wenn die KI etwas falsch macht?

Jeder seriöse Anbieter hat eine Prüfschleife vor dem Druck. Du schaust jede Seite an, markierst, was nicht stimmt, und der Anbieter lässt die Seite neu erzeugen. Nichts geht in den Druck, bevor du freigibst. Für ein Produkt, in dem die Hauptperson ein echter Mensch ist, ist das nicht verhandelbar.

Ist es sicher, Fotos an einen KI-Buch-Anbieter hochzuladen?

Das hängt vom Datenschutz des Anbieters ab. Memolio arbeitet DSGVO-konform: Fotos werden 90 Tage nach Lieferung vom Bild-Host gelöscht, jeder internationale KI-Dienstleister ist über Standardvertragsklauseln abgedeckt, Kundenfotos werden nie zum Training von KI-Modellen verwendet. Lies vor dem Hochladen immer die Datenschutzerklärung.

Wenn im Buch Kinder vorkommen – eigene Kinder, Enkel, Nichten, Neffen – hole vor dem Hochladen immer die Einwilligung der Eltern ein. Die Bildrechte eines Kindes gehören den Eltern oder Erziehungsberechtigten, nicht der Person, die das Buch bestellt. Das ist eine grundlegende Frage des Einverständnisses und gilt unabhängig vom Anbieter.

Für Erwachsene gilt dasselbe Prinzip: Wenn im Buch jemand vorkommt, der nicht weiß, dass du Fotos hochlädst, frag kurz nach. Es ist weniger unangenehm als es klingt und erspart dir schwierigere Gespräche später.

Ein KI-illustriertes Buch für deine Großeltern?

Memolio ist derzeit in der privaten Testphase. Trag dich in die Warteliste ein, um als Erste:r dabei zu sein – und die Entstehung öffentlich mitzuverfolgen.

Zur Warteliste anmelden

Quellen & Weiterlesen