Erstelle Podcasts aus Blogposts ... voll automatisch mit KI! (n8n + ElevenLabs Tutorial)

🎧 Mein Blog spricht jetzt selbst – dank n8n, GPT und ElevenLabs

Seit ein paar Wochen lasse ich unter anderem meine Blogposts automatisch in eine Audiodatei umwandeln. Und zwar nicht als generisch generierten Roboter-Sound, sondern als echten Podcast, in meiner eigenen Stimme; komplett KI-gestützt, ohne dass ich irgendetwas einsprechen muss.

In meinem neuen Video zeige ich genau, wie das geht. Es ist ein Workflow, den ich mit n8n gebaut habe, ganz ohne Code, dafür mit viel Wirkung. Wenn du also Inhalte erstellst, aber zu wenig Zeit für aufwändige Formate hast (wie Podcast oder Video), oder einfach das Maximum aus deinem Content holen willst, lohnt sich das auf jeden Fall. Aber auch für andere Anwendungsfälle, wie z.B. interne Schulungsinhalte u.ä. lässt sich hieraus lernen. Dazu im Folgenden mehr.

👉 Zum Youtube-Tutorial: https://youtu.be/JNXT-A_Sj1k

👉 Elevenlabs ausprobieren: https://try.elevenlabs.io/6pk2btgz6k94

(Affiliate-Link – ich nutze das Tool täglich und kann es wirklich empfehlen.)

Was dieser Workflow macht: Sobald ein neuer Blogpost erscheint, wird er erkannt, an ein KI-Modell geschickt, dort in gesprochene Sprache „umgeschrieben“, dann über ElevenLabs vertont, als MP3 gespeichert und ins Google Drive geladen. Fertig ist die Audiodatei.

Und das Ganze passiert vollautomatisch, während ich noch schlafe.

Warum überhaupt Audio?

Viele Inhalte, wie Blogposts, Artikel, Newsletter, sind heute textbasiert. Klar, ist effizient. Aber sie erreichen eben nicht alle. Gerade unterwegs hören viele Menschen lieber. Und warum sollte man gute Inhalte nicht auch hörbar machen … vor allem, wenn es automatisch geht?

Was mir wichtig war: Ich wollte kein Vorlesen. Kein „Hallo, dies ist eine automatische Stimme, die Ihnen den Text vorliest“-Erlebnis. Sondern etwas, das wie ich klingt, das den Text interpretierend wiedergibt, so wie ich ihn auch erzählen würde. Das war der Anspruch.

Der Workflow, einmal aufgebaut, läuft er durch

Die Basis ist ein n8n-Workflow, also eine visuelle Automatisierung, bei der Tools miteinander verbunden werden. Du brauchst keine Programmierkenntnisse, aber ein Grundverständnis dafür, was ein „Trigger“, ein „HTTP Request“ oder eine „Expression“ ist, hilft natürlich optional.

Der Ablauf:

RSS-Trigger: Der Workflow lauscht auf neue Einträge in einem Blogfeed, z. B. von WordPress, Beehiiv oder Substack. Sobald ein neuer Post erscheint, wird er abgeholt.
Prompt an GPT: Der Blogtext wird an ein Chatmodell (z. B. GPT-4o) geschickt. Aber nicht einfach so, vorher bekommt das Modell eine klare Rolle: „Du bist mein Podcast-Autor.“
Es bekommt die Anweisung, den Text so umzuschreiben, als wäre es ein lockerer, gesprochener Monolog. Keine sture Vorleserei, sondern ein angenehmes Hörerlebnis. Das Ergebnis ist wirklich verblüffend gut. Ich habe dafür einen Prompt entwickelt, der HTML entfernt, verschachtelte Sätze vereinfacht und den Ton in Richtung „freundlich, direkt, neugierig“ anpasst. wie ich eben auch sprechen würde.
Das Prompt habe ich hier zum kopieren abgelegt: https://pastebin.com/vMD6NxXM
Text to Speech via ElevenLabs: Der neu formatierte Text wird per HTTP Request an die ElevenLabs-API geschickt. Und jetzt wird’s richtig cool:
Ich habe meine eigene Stimme dort trainiert, mit rund 30 Minuten Audio. Das Ergebnis klingt in vielen Fällen so echt, dass man vergisst, dass es synthetisch ist. ElevenLabs ist für mich aktuell der Goldstandard für Text-to-Speech, vor allem was natürliche Betonung und Sprechgeschwindigkeit angeht.
(Wichtig: Du brauchst dafür mindestens einen bezahlten Account bei ElevenLabs, sonst lässt sich die API nicht ansprechen, dann musst du den Text manuell rein kopieren.)
MP3 speichern: Die erzeugte Datei wird in Google Drive hochgeladen, benannt nach dem Titel des Blogposts. Ich lasse mir zusätzlich eine E-Mail senden, damit ich weiß, wann eine neue Audiodatei fertig ist, das ist praktisch, wenn man den letzten Feinschliff noch machen oder die Datei gleich weiterverwerten will.

Kleine Tipps aus der Praxis

Ich lasse die Audiodatei zwei- oder dreimal durchlaufen. Warum? Weil es manchmal Nuancen gibt, die in einem Run besser sind als im anderen. Gerade bei Eigennamen oder wenn die Sätze stilistisch etwas heikel sind, macht das einen Unterschied. Ich höre dann kurz rein, schneide gegebenenfalls die beste Version zusammen, oder nehme einfach die, die passt.

Auch wichtig: Du brauchst nicht zwingend deinen eigenen Blog als Quelle. Du kannst auch RSS-Feeds von anderen Publikationen nehmen und daraus deine persönliche Audioversion generieren. Intern nutze ich das mittlerweile sogar für Lernformate: Wenn ich möchte, dass mein Team bestimmte Fachartikel konsumiert, lasse ich diese vertonen und stelle sie als Audio bereit. Deutlich angenehmer als PDF.

Und klar, dieser Workflow lässt sich ausbauen: Man kann automatisch veröffentlichen, transkribieren, in Slack posten oder sogar auf Plattformen hochladen. Aber mir geht es hier darum, erstmal eine schlanke, funktionierende Basis zu zeigen. Alles Weitere ist modular erweiterbar.

Was du dafür brauchst

Einen RSS-Feed (z. B. von WordPress, Beehiiv oder Substack)
Einen n8n-Account (Cloud oder selbstgehostet)
Einen API-Key für OpenAI oder ein anderes LLM
Einen ElevenLabs-Account (am besten mit eigener Stimme trainiert)
Optional: Google Drive oder Gmail für Ablage & Notification

Warum das Ganze?

Weil Contentproduktion aufwändig ist. Dieser Ansatz schlägt eine Brücke:

Hochwertiger Output, mit KI-Assistenz, aber deinem Stil.

Und das ist die eigentliche Stärke:

Die Automatisierung ersetzt nicht dich. Sie nimmt dir nur einen Teil ab,damit du mehr Zeit für andere kreative Dinge hast.

Wenn du Lust hast, das nachzubauen, findest du das komplette Video-Tutorial auf meinem Kanal. https://youtu.be/JNXT-A_Sj1k Und wenn du schon ElevenLabs ausprobieren willst, hier ist der Link :

👉 https://try.elevenlabs.io/6pk2btgz6k94 (Affiliate-Link, aber ehrlich verdient – ich nutze es täglich.)

Lass mich wissen, was du draus machst. Und wenn du Fragen hast: einfach melden. Ich freue mich auf deinen Input!

Bis bald,

Georg