Topthemen

KI-Bildgeneration: StableDiffusion & Co. lokal auf dem iPad nutzen

nextpit stable diffusion ipad
© nextpit

In anderen Sprachen lesen:

StableDiffusion oder Openjourney auf dem iPad, und das auch noch lokal? Mit einigen Apps klappt das ohne Probleme, vor allem wenn Ihr ein leistungsstarkes iPad Pro mit M1- oder M2-Prozessor nutzt. NextPit erklärt Euch, wie Ihr auf dem iPad KI-Bilder erstellt.

Ob im App Store, auf Instagram oder bei Reddit: Man kann derzeit kaum einen Stein ins Internet werfen, ohne ein KI-Bild zu treffen. Führte vor wenigen Monaten der einzige Weg noch über Browser-Interfaces à la Dall-E Mini, sind inzwischen unzählige KI-Modelle frei verfügbar und generieren wirklich alle Arten von Bildern.

Als StableDiffusion & Co. im vergangenen Herbst durch die Decke schossen, war die Bildgeneration alles andere als nutzerfreundlich. Man brauchte ein User-Interface à la Automatic1111 und eine möglichst leistungsstarke Grafikkarte im Desktop-Computer. Wer die passende GPU nicht hatte, konnte die Python-basierten Skipte auch über Google Colab laufen lassen, ein cloud-basiertes Framework mit quasi beliebig viel Rechenpower. Oder man bezahlt eben bei Midjourney, ist dann aber auf einen relativ speziellen Bildstil festgefahren.

Wie kommt jetzt StableDiffusion aufs iPad?

Mit der Zeit hat die Rechenleistung abgenommen, die fürs Generieren von KI-Bildern erforderlich ist. Statt nur auf Hochleistungsrechnern oder in der Cloud klappt das Generieren von KI-Bildern inzwischen auch auf dem iPad beeindruckend gut. Wir haben dazu auf dem iPad Pro (2022) mit M2-Chip zwei verschiedene Apps ausprobiert, beide mit ihren Stärken und Schwächen: Guernika und Draw Things.

Beide Apps sind lediglich eine GUI für das Generieren von Bildern mithilfe eines Modells. Und beide Apps bieten von Haus aus eine Liste von Bild-Modellen, die Ihr herunterladen könnt. Hier wie dort finden sich StableDiffusion in diversen Versionen sowie Openjourney, die Open-Source-Alternative zu Midjourney. Draw Things hingegen bietet eine ausgiebige Liste von Disney über Anime bis SuperMario.

Sowohl bei Draw Things als auch bei Guernika könnt Ihr auch eigene Modelle laden. Diese Bildmodelle werden immer als .CKPT-Dateien geteilt. Das Kürzel steht für Checkpoint und bezeichnet einen als Datei eingefrohrenen "Denk"-Zustand eines Machine-Learning-Modells. Im Netz gibt es unzählige Quellen für alle nur erdenklichen Modelle.

Welche Einstellungen sind wichtig?

Abseits des Modells findet Ihr in den beiden Apps eine Reihe von Einstellungen, die sich zu weiten Teilen überschneiden. Besonders wichtig sind hier natürlich die Prompts sowie die "Steps" und die "Guidance Scale".

Draw Things Screenshot
Um bei Draw Things das gewünschte Ergebnis zu erhalten, gibt es eine Vielzahl von Einstellungsmöglichkeiten – und einen Upscaler! / © NextPit

Der Prompt ist die Text-Anweisung, aus der das KI-Modell das Bild generiert. Das klingt zunächst einfacher, als es ist – denn für gute Ergebnisse im gewünschten Stil sind oft komplexe Prompts erforderlich. Außerdem könnt Ihr über negative Prompts auch bestimmte Bildstile, Bildwinkel oder Dinge ausschließen. Aber auf Prompts kommen wir weiter unten noch einmal gesondert zu sprechen.

Die Steps bezeichnen, mit wie vielen Arbeitsschritten das Bild generiert wird. Mehr Arbeitsschritte bedeuten grundsätzlich mehr Qualität – allerdings auch mehr Rechenzeit. Je nach verwendetem Modell liefern unterschiedlich viele Schritte gute Ergebnisse. Die Guidance Scale legt fest, wie weit das Modell von Euren Prompts abweichen darf. Ein niedriger Wert erlaubt der KI hier mehr "künstlicherische Freiheit".

Sowohl bei Draw Things als auch bei Guernika könnt Ihr auch andere Bilder als Input geben. Dazu gibt es jeweils einen "Strength"-Slider, der festlegt, wie nah das Ergebnis am Originalbild liegen soll. Nachdem jedes generierte Bild einzigartig ist, gibt es bei Draw Things die Möglichkeit, gleich bis zu 100 Bilder in einem Schwung generieren zu lassen – Guernika bietet gar einen Endlos-Modus.

Guernika Screenshot
Bei Guernika findet Ihr die meisten Einstellungen wie bei Draw Things. Allerdings könnt Ihr die Auflösung (noch) nicht anpassen. / © NextPit

Das letzte Feature schließlich gibt es nur bei Draw Things: Hier könnt Ihr die Ausgabe-Auflösung festlegen. Guernika liefert derzeit ausschließlich Bilder mit 512 × 512 Pixeln Größe, wenngleich der Entwickler hier ein baldiges Update mit mehr Flexibilität versprochen hat. Außerdem könnt Ihr bei Draw Things noch einen KI-Upscaler hinzuschalten, der die Auflösung noch weiter hochskaliert. So könnt Ihr hier dann auch hochauflösende Bilder mit 12 Megapixeln und mehr erzeugen.

Und dann kann's auch schon losgehen! Auf unserem M2-iPad dauerte das Generieren der KI-Bilder etwa 20 Sekunden bis fünf Minuten, je nach gewählter Einstellung. Es hat sich als praktisch erwiesen, die Prompts mit sehr geringer Auflösung auf Tauglichkeit zu prüfen und dann bei vielversprechenden Ergebnissen gleich einen größeren Schwung Bilder mit hoher Auflösung zu generieren.

Wie kommt Ihr an die richtigen Prompts?

Das Schreiben von guten Prompts ist eine Wissenschaft für sich – und etwas, das man erst lernen und trainieren muss. Nicht umsonst finden sich auf einschlägigen Portalen bereits die ersten Jobangebote als "Prompt Engineer" – also als jemand, der Anweisungen für KIs schreibt.

Bei Euren Prompts kommt nur Müll heraus? Dann lasst Euch doch davon inspirieren, mit welchen Keyword-Kombinationen andere User tolle Ergebnisse erzielt haben. Auf Webseiten wie PromptHero könnt Ihr Euch durch KI-Kunst klicken und jeweils sehen, mit welchem Modell beziehungsweise Checkpoint und mit welchem Prompt das jeweilige Bild entstanden ist. 

Übrigens könnt Ihr auch ChatGPT darum bitten, Euch für bestimmte Motive ausschweifende Prompts zu schreiben. Probiert's einfach mal aus.

Was sagt Ihr generell zu KI-generierter Kunst? Findet Ihr die aktuelle Entwicklung rund um Midjourney, StableDiffusion & Co. faszinierend oder erschreckend? Oder beides? Und würdet Ihr bei NextPit gerne mehr zu diesem Thema lesen? Ich freue mich auf Eure Meinung in den Kommentaren!

Beste Smart TVs 2024

  Bester OLED-TV 2024 Bester QLED-TV 2024 Preis-Leistungs-Tipp
Gerät
Abbildung LG OLED evo 55G4 Product Image Sony Bravia 65X95L Product Image Hisense 55E7KQ Pro Product Image
Preisvergleich
Zu den Kommentaren (9)
Stefan Möllenhoff

Stefan Möllenhoff
Head of Content Production

Schreibt seit 2004 über Technik und brennt seither für Smartphones, Fotografie, IoT besonders im Smart Home und AI. Ist außerdem ein Koch-Nerd und backt dreimal wöchentlich Pizza im Ooni Koda 16 – macht zum Ausgleich täglich Sport mit mindestens zwei Fitness-Trackern am Körper und ist überzeugt, dass man fast alles selber bauen kann, inklusive Photovoltaik-Anlage und Powerstation.

Zum Autorenprofil
Hat Dir der Artikel gefallen? Jetzt teilen!
Empfohlene Artikel
Neueste Artikel
Push-Benachrichtigungen Nächster Artikel
9 Kommentare
Neuen Kommentar schreiben:
Alle Änderungen werden gespeichert. Änderungen werden nicht gespeichert!
Neuen Kommentar schreiben:
Alle Änderungen werden gespeichert. Änderungen werden nicht gespeichert!

  • 104
    Tenten 27.01.2023 Link zum Kommentar

    Irgendwie sehen eure Beispielbilder nur wie simple Imitate aus, zum Beispiel Draw Things 01 sieht wie ein Werk von Kinkade aus und Draw Things 02 erinnert extrem an Bilder des chinesischen Mangaka Benjamin. Abgesehen davon finde ich sie in ihrer Wirkung alle seelenlos und leer, mir fehlt da was frisches, individuelles. Gerade Benjamin stellt ja gerne das in der kalten Großstadt verlorene Individuum dar, das wirkt dann aber trotz der dargestellten "Isolation" wesentlich emotionaler und anrührender als das Bild hier. Im Grunde ist das alles genauso oberflächlich und gewollt gefällig wie die Texte, die Chat GPT so produziert und damit eher Distanz als Interesse schafft.
    Das Thema ist aber spannend und ich würde gerne mehr darüber bei euch lesen.

    Stefan Möllenhoff


    • Stefan Möllenhoff 39
      Stefan Möllenhoff
      • Admin
      • Staff
      27.01.2023 Link zum Kommentar

      Tatsächlich kann man in die Prompts ja auch Namen von Künstlern reinschreiben, in deren Stil man die Bilder generieren möchte. Das verhilft plötzlich bestimmten Fotografen oder Künstlern zu unverhofftem Ruhm, beispielsweise taucht in unfassbar vielen Prompts "Greg Rutkowski" auf, weil der Name einen bestimmten, oft gewollten Bildstil provoziert. Rutkowski selbst ist davon mäßig begeistert...

      Man kann ChatGPT übrigens auch befehlen, Texte in bestimmten Stilen zu schreiben. Klappt mal besser mal schlechter – und mit Grenzen. ChatGPT weigert sich partout, Rilke im Stil von Donald Trump zu schreiben :p

      Tenten


      • 104
        Tenten 27.01.2023 Link zum Kommentar

        Ja, ich kann mir gut vorstellen, dass nur wenige Künstler es gut finden, wenn das Netz plötzlich überschwemmt wird mit Werken in einem Stil, für den der Künstler vielleicht selbst Jahre gebraucht hat, ihn zu entwickeln. Und plötzlich wird der Stil zu Massenware, an der sich das Publikum vielleicht dann auch schnell satt sieht (so zumindest geht es mir mit Rutkowski).
        Hahaha, Rilke im Stil von Trump erinnert mich an Shakespeare im klingonischen Original (ein Zitat aus Star Trek, weiß aber nicht mehr welche Serie).

        pierrecinemaStefan Möllenhoff


      • Stefan Möllenhoff 39
        Stefan Möllenhoff
        • Admin
        • Staff
        27.01.2023 Link zum Kommentar

        Hahaha :)

        Auf Reddit hatte ich auch mal einen Beitrag von einer Künstlerin (Malerin, wenn ich mich recht erinnere) gesehen, die ein Modell auf ihren Stil trainiert hat, um neue Inspirationen für sich selbst zu generieren – das ist dann natürlich die andere, positive Seite.

        Tenten


      • 14
        pierrecinema 27.01.2023 Link zum Kommentar

        erlebe es selber mit meiner streetart Kunst. machen kann man nicht viel

        Tenten


  • 62
    René H. 26.01.2023 Link zum Kommentar

    <<< Was sagt Ihr generell zu KI-generierter Kunst? >>>
    Wer nicht fotografieren kann.... 😉


    • 104
      Tenten 27.01.2023 Link zum Kommentar

      Das hat doch mit Fotografieren nichts zu tun.

      pierrecinema


    • Stefan Möllenhoff 39
      Stefan Möllenhoff
      • Admin
      • Staff
      27.01.2023 Link zum Kommentar

      Und wer nicht malen kann, muss fotografieren ^^

      TentenpierrecinemaMatthias Zellmer


    • 14
      pierrecinema 27.01.2023 Link zum Kommentar

      dann es es eben keine Kunst mehr

      Tenten

Neuen Kommentar schreiben:
Alle Änderungen werden gespeichert. Änderungen werden nicht gespeichert!
VG Wort Zählerpixel