Freunde von Star Trek werden sich sehnsüchtig an den Universalübersetzer der Science-Fiction Serie erinnert fühlen: Während Übersetzungsprogramme wie DeepL schon längst Übersetzer zur vom Aussterben bedrohten Berufsgruppe gemacht haben, verspricht nun eine neue App sogar Videos komplett zu übersetzen und dabei nicht nur die Stimme des Sprechers zu imitieren, sondern sogar dessen Lippenbewegungen daran anzupassen.
Neue KI-App übersetzt Videos in Fremdsprachen und synchronisiert Lippenbewegungen
Seit nichtmal einem Jahr ist KI-Technologie in aller Munde. Neben Bild- und Textgeneratoren schickt sich eine neue an, bisherige Errungenschaften zu vereinen und ganze Videoclips durch Imitation der Originalstimme lippensynchron in andere Sprachen zu übersetzen.
Das Startup HeyGen Labs ist bereits länger auf dem KI-Markt unterwegs und bot bislang vor allem KI-Avatare, also computergenerierte Sprecher, die Texte mittels Text-to-Speech Technologie (Text-zu-Sprache) vorlesen. Aufbauend auf dieser Erfahrung künstliche Lippenbewegungen synchron zu einem Text zu gestalten, verband man die Technologie mit den Errungenschaften digitaler Übersetzer und schuf nun einen Komplettübersetzer von Videos, der zwar noch nicht perfekt ist, der aber Synchronsprecher bereits jetzt dazu veranlassen könnte sich nach einer neuen Karriere umzusehen.
Die Beta-Version des neuen Übersetzungstools HeyGen explodierte förmlich auf sozialen Netzwerken, nachdem erste Nutzer die beeindruckenden Beispiele der Übersetzungen teilten. Die KI analysiert die Ausgangssprache eines mindestens 30 Sekunden langen Videoclips und bietet acht verschiedene Zielsprachen an, darunter auch Deutsch, Polnisch und sogar Hindi. Die Übersetzung ins Englische bietet dabei sogar eine Version mit amerikanischem Akzent und eine Version mit Beibehaltung des eigenen Akzents. Denn anstatt eine neue computergenerierte Stimme über das Video zu legen, simuliert die KI die Stimme des Originalsprechers, sodass es erscheint, als ob die betreffende Person fließend in einer anderen Sprache kommunizieren kann.
Selbst die Lippenbewegungen sind – abhängig von der Qualität und dem Winkel der Aufzeichnung – synchron zum neuen Text der Zielsprache. Die Ergebnisse beeindrucken dabei durch relativ geringe Verzerrungen und Artefakte, sodass absehbar ist, dass diese Technologie schon bald für zusätzliche Verwirrung sorgen wird, wenn es darum geht festzustellen, ob auf Video festgehaltene Aussagen einer Person tatsächlich so getätigt wurden. Allerdings entlarvt sich die KI spätestens bei der Übersetzung besonders idiomatischer Phrasen, deren Bedeutung sich nur aus dem Kontext erschließt, sodass vor allem in den deutschen Übersetzungen bislang noch wortgetreue Übertragungen auftauchen, die aber inhaltlich keinen Sinn ergeben.
Bislang aber machen sich Internetnutzer vor allem einen Spaß daraus, eigene Fragmente oder historische Aufnahmen in andere Sprachen zu übersetzen. Marcel Reich-Ranicki erklärt dank KI nun die Literaturgeschichte einem englischsprachigen Publikum und Boris Jelzin scheidet nun ebenfalls auf Englisch aus dem Amt. Vor allem Übersetzungen aus dem Russischen scheinen es der Internetgemeinde angetan zu haben, da die Sprach-KI dabei zwar nicht immer elegante, aber durchaus amüsante Resultate anbietet. Es zeigt sich also, wie bei vielen anderen KIs zuvor, dass die Technologie zwar über viel (dystopisches) Potenzial verfügt, aber in ihrer jetzigen Form vor allem als kurzweiliger Unterhaltungstrend in Erscheinung tritt.
Wer sich selbst von der Qualität der KI überzeugen möchte, muss allerdings Geduld mitbringen. Der Andrang auf die gratis testbare App ist enorm, die Warteschlangen zur Übersetzung von Videoclips liegen bereits im 6-stelligen Bereich, sodass die Ergebnisse durchaus mehrere Tage auf sich warten lassen können. Den italienischsprachigen Trailer zur letzten Ausgabe von „Redaktionsschluss“ liefern wir in Bälde nach.
Unterstützen