Der Podcast-Markt im Fokus

18. August 2020 |

Wenn der Vorleseautomat Texte in Podcasts verwandelt

Sprachsynthese ist ein heiß umkämpfter Markt im Digitaluniversum. Die Podcastwelt hat sich die überzeugendsten Anbieter für Text-to-Speech-Services angesehen.

Wer einen Blog oder eine Nachrichtenseite betreibt, den wird die Idee schon mal gekitzelt haben: Wie wäre es, aus dem vorhandenen Content einen Podcast zu machen? Ziemlich smart oder? Aber so viel Arbeit … Doch halt: es ist 2020 und es gibt Künstliche Intelligenz zuhauf, die uns die Arbeit gern abnehmen will und uns ganz ohne Aufwand unsere Texte einspricht. Denn dank der Tatsache, dass Textverarbeitung, Aufnahme und Veröffentlichung automatisiert ablaufen, sind keine aufwendigen Studioaufnahmen mit Technikern und Sprechern notwendig.

Die Podcastwelt hat sich für Euch die vielversprechendsten Player am Markt angesehen.

Play

Renommierte Blogportale wie Medium, Pocket, WordPress verwenden Play, einen Service der eine breite Varianten an Stimmen und Sprachen bietet. Für WordPress gibt es sogar ein dazu passendes Plugin. Der Audioplayer ist responsive und schaut auch auf dem Smartphone gut aus.

Amazon Polly

Amazon Polly verwandelt Text in realistische Sprachausgabe, sodass jeder Nutzer sprechende Anwendungen und neue Kategorien sprachfähiger Produkte entwickeln kann. Pollys Text-to-Speech (TTS) -Service verwendet fortschrittliche Technologien für Deep Learning, um natürlich klingende menschliche Sprache zu synthetisieren. Mit Dutzenden von Stimmen in einer Vielzahl von Sprachen lassen sich so sprachgesteuerte Anwendungen erstellen.

Zusätzlich zu den Standard-TTS-Stimmen bietet Amazon Polly Neural Text-to-Speech (NTTS)-Stimmen an, die durch einen neuen Machine-Learning-Ansatz erweiterte Verbesserungen der Sprachqualität liefern. Die neuronale TTS-Technologie von Polly unterstützt auch zwei Sprechstile, die es ermöglichen, den Redestil des Sprechers besser auf die Anwendung abzustimmen: einen Nachrichtensprecher-Lesestil, der auf die Anwendungsfälle des Nachrichtensprechers zugeschnitten ist, und einen konversativen Sprechstil, der sich ideal für die Zwei-Wege-Kommunikation wie Telefonie-Anwendungen eignet. Zusätzlich kann man mit Amazon Polly Brand Voice eine benutzerdefinierte Stimme für die eigene Organisation erstellen.

Podcastle

Podcastle wurde vom ML-Ingenieur Artavazd Yeritsyan für den Chrome Web Store entwickelt und ist ein Text-zu-Sprache-Generator, der mithilfe künstlicher Intelligenz (KI) Nachrichten, Artikel und Blogposts in Audio-Podcasts umwandelt. Es kann als Erweiterung im Google Chrome-Browser installiert und sofort angeklickt werden, um die Audioversion einer Story zu erstellen und mit einer fast menschlich anmutenden Stimme abzuspielen, einschließlich punktionsbasierter Pausen und Unterbrechungen.

Laut Yeritsyan kann Podcastle von jedem benutzt werden, zielt jedoch hauptsächlich darauf ab, Jugendlichen im Alter zwischen 18 und 24 Jahren dabei zu helfen, unterwegs Nachrichten zu konsumieren, ohne dass sie das Gefühl haben, dass ein Roboter mit ihnen spricht. Derzeit funktioniert der Service am besten mit englischen Texten, an weiteren Sprachen wird bereits gearbeitet.

Descript Pro

Overdub bietet eine hochmoderne Sprachsynthesefunktion, welche die eigene Stimme nachahmt. Nur 10 Minuten müssen eingesprochen werden und schon können Texte in Audio umgewandelt werden. Ein weiteres interessantes Feature ist die Möglichkeit in bestehenden Audiodateien durch Textänderungen Audioänderungen herbeizuführen. Mehr dazu im unterstehenden Video:

ReadSpeaker podCaster

Der ReadSpeaker podCaster™ ist ein automatischer Podcast-Dienst, der mit Hilfe neuester Text-to-Speech-Technologie vollautomatisierte Podcasts aus RSS-Feeds erzeugt. Im Demo-Tool kann jeder seinen eigenen Text eingeben und angebotene Sprachen und Stimmen ausprobieren.

iSpeech

Bei iSpeech geht die Text-zu-Sprache Transformation über eine API vonstatten. Mit wenigen Codezeilen wird eine Verbindung über API hergestellt, was den Vorteil hat, keine Hardware zu benötigen, um die Last der CPU-intensiven Text-zu-Sprache-Konvertierungen zu tragen.
Der Service ist in über 30 Sprachen verfügbar und hat den Vorteil, dass die Betonung einzelner Wörter angepasst werden kann.

Speechkit

Die Open-Source-Software bietet eine Auswahl an über 200 Stimmen in 28 Sprachen sowie Mediaplayer, die in jede Webseite integriert werden können. Auch eine Distribution über Apple Podcasts, Spotify und Google sowie Möglichkeiten für Werbespots sind bereits integriert.

INFO

Sollten wir tolle Angebote außen vor gelassen haben, dann bitte verzeiht uns und schickt uns doch Name und Link des Unternehmens unter redaktion@podcastwelt.info. Nach Überprüfung auf Tauglichkeit nehmen wir natürlich gerne weitere Anbieter in unsere Liste auf!

Tatjana Lukas