Die KI ist, im Bild als mit AI beschrifteter Button dargestellt, das Tor zu vielen neuen Möglichkeiten, ein digitales Hörerlebnis zu generieren.

Audio KI

Die KI ist, im Bild als mit AI beschrifteter Button dargestellt, das Tor zu vielen neuen Möglichkeiten, ein digitales Hörerlebnis zu generieren.

Audio KI Text-to-Speech Generator

Der Audio KI Text-to-Speech oder Text-to-Voice Generator wird im Folgenden auch kurz KI TTS Generator genannt. Der KI Text-zu-Sprache Generator ist eine Software oder Anwendung zur Sprachsynthese, die geschriebene Worte (z. B. Text) in gesprochene Worte (z. B. Sprache) mit einer synthetischen oder künstlichen Stimme umwandelt.

Ein KI Sprachgenerator oder Text-to-Speech (TTS) System, ist eine Technologie, die künstliche Intelligenz und Algorithmen des maschinellen Lernens nutzt, um geschriebenen Text in gesprochene Worte umzuwandeln. Diese fortschrittliche Technologie ahmt menschliche Sprachmuster, Intonation und natürliche Sprache nach und erzeugt lebensechte und menschenähnliche Stimmen.

Audio KI Spracherzeugung

Speech to text (STT)

Als „Speech-to-text“ wird der Prozess bezeichnet, der menschliche Sprache in Text umwandelt. Die Konfiguration alternativer STT Dienste wird in der Regel unterstützt, wie beispielsweise Deep Speech, welches eine lokale Spracherkennung ohne die Notwendigkeit zur Nutzung von Cloud Diensten ermöglicht.

Text to speech (TTS)

„Text-to-Speech“ bedeutet die Umwandlung von Text in gesprochene Sprache und wird als Sprachsynthese bezeichnet. Die Qualität der Sprachausgabe ist ein entscheidender Faktor zur Benutzerakzeptanz eines Sprachassistenten.

Audio KI Stimmerzeugung

Zum Generieren einer KI Stimme wird als Erstes eine Stimme erstellt oder aus einer Bibliothek vorgefertigter Stimmen ausgewählt. Es erfolgt also ein Stimmklon Prozess oder eine Auswahl aus hunderten gebrauchsfertiger Stimmen. Dann wird der Text mit der synthetisch generierten KI Stimme in eine Audio Ausgabe umgewandelt.

Verschiedene KI Stimmen Generatoren bieten die Möglichkeit, die Stimmen von Prominenten nachzubilden. Anwender sollten aber bedenken, dass die legale und ethische Verwendung von KI generierten Stimmen, lokalen Urheberrechts- und Datenschutzgesetzen unterliegen. Die Einholung von Genehmigungen und Lizenzen ist daher von entscheidender Bedeutung, bevor diese Stimmen für öffentliche oder kommerzielle Zwecke verwendbar sind.

Text-zu-Sprache Programme mit künstlicher Intelligenz ähneln herkömmlicher TTS Software, verwenden jedoch KI Stimmen zur Synthetisierung. 

Audio KI Stimmanpassungen

Alle KI Stimmen werden von SSML Funktionen bei Geschwindigkeit, Tonhöhe, Lautstärke, Stimmqualität und Aussprache unterstützt. Man fügt benutzerdefinierte Betonungen für verschiedene Satzzeichen hinzu. Neuerdings erzeugen KI Text-zu-Sprache Anwendungen realistische Sprachausgaben mit synthetischen Stimmen, diese wirken auch durch die Verwendung von Füllwörtern und Phrasen bereits bemerkenswert menschlich. Außerdem passt man die Tonhöhe der Stimme von tiefer bis kindlicher an und erhöht oder verringert die Sprechgeschwindigkeit. Satzzeichen wie Komma, Punkt oder ein Absatz weisen dann den KI Sprachgenerator auf eine jeweils unterschiedlich lange Pause hin, aber auch die Stimme zu heben oder zu senken. Wenn das Ausgabemedium Hervorhebungsfunktionen unterstützt, sind auch weitere Hervorhebungsoptionen wie Fettdruck oder Unterstreichung nutzbar.
In einer Aussprache Bibliothek werden benutzerdefinierte Aussprachen gespeichert und die getroffene Auswahl wird dann bei der Spracherstellung verwendet.

Online Audio KI Text-zu-Sprache Konverter

In den KI Text-zu-Sprache Konverter oder TTS Konverter im Browserfenster wird ein Text, in das dafür vorgesehene Texteingabefenster eingegeben und dann konvertiert. Das Programm generiert eine synthetische Sprachausgabe basierend auf diesem Inhalt, die anschließend als Audiodatei herunterladbar und beliebig verwendbar ist.
Natürlich wird auch vorgefertigter oder von einer Webadresse (URL) kopierter Text importiert.

Natürliche und realistische Audio KI Stimmen

Herkömmliche TTS Konverter verwendeten vorab aufgezeichnete Spracheinheiten, die zur Sprachsynthese zusammengefügt wurden. Das Ergebnis ist eine seltsame, roboterhaft klingende Stimme.
Audio KI Text-zu-Sprache Anwendungen sind fortschrittlicher als gewöhnliche TTS Tools, da sie künstliche Intelligenz, besonders das maschinelle Lernen, nutzen, um synthetische Stimmen zu erzeugen und konstant zu verbessern.

Aktuelle Text-zu-Sprache Konverter, die KI Sprachsynthesizer verwenden, sind mit Datenbanken trainiert, die Zehntausende verschiedene menschliche Stimmen enthalten. Während der Trainingsphase lernt die KI die Stimmen zu unterscheiden, zu kategorisieren und die unterschiedlichen Muster der Sprecharten und Sprachgewohnheiten, wie zum Beispiel Dialekte, zu erkennen. Das ist von besonderer Bedeutung bei den nicht lexikalischen Komponenten der menschlichen Sprache also den Elementen der Sprache, die nicht zu Wörtern und ihren Definitionen gehören.

Durch intensives Training lernt ein KI Voiceover Generator oder Sprachsynthesizer ermöglichen Inferenz-Engines auch, erlernte Muster auf neue Inhalte anzuwenden. Gerade diese Fähigkeit, neue Informationen abzuleiten und zu analysieren, lässt sie wie denkende oder intelligente Wesen erscheinen. Es gibt sogar KI Sprachgeneratoren, die bereits Sprache erzeugen, welche die Emotionalität eines Textes erfolgreich einfangen und vermitteln kann. Diese realistischen Stimmen nutzen aussagekräftige Informationen, versuchen aber auch die Emotionen des Autors auszudrücken.

Audio KI Stimmen

KI Sprachsynthesizer bieten verschiedene KI Stimmen mit vielen unterstützenden Stilvarianten. Es gibt fröhliche, feierliche, professionelle, freundliche, dröhnende und sanfte Stimmen und immer mehr mögliche Variationen dazwischen. Die Stimmen klingen wie ein Nachrichtensprecher, ein Kundendienstmitarbeiter, ein Erzähler oder ein Moderator.

Die konstant wachsenden Bibliotheken, natürlich klingender KI Stimmen in immer mehr Sprachen und Akzenten, mit menschlicher Intonation und erweitert durch die Technologie für maschinelles Lernen umfassen folgende Stimmen Kategorien.

Konversationsstimmen

Perfekt für Unterhaltungsvideos, Podcasts und Hörbücher

Erzählstimmen

Ideal für Hörbücher, Erklärvideos und Dokumentationsvideos

Erklärstimmen

Ideal für Unterhaltungsvideos, Erklärvideos, Podcasts und Hörbücher

Kinderstimmen

Perfekt für Hörbücher, Erklärvideos und E-Learning

Lokal akzentuierte Stimmen

Lokalisierung der Unterhaltungsvideos, Anzeigen und Hörbücher

Emotionale Stimmen

Ideal für Spiele, kreative Videos und Werbung

Charakterstimmen

Perfekt für Spiele, kreative Videos und Werbung

Trainingsstimmen

Geeignet für Schulungsvideos, L&D und E-Learning

Mehrere Stimmen in einer Audio Datei

Die TTS Konvertierung wird nicht nur als Vorlesehilfe für Artikel oder Erzählungen verwendet. Die KI Text-zu-Sprache  unterstützt auch die  Erstellung von Podcasts, Hörbüchern und Werbe- oder Verkaufsförderungsmaterialien. Fortschrittliche KI Text-zu-Sprache Anwendungen ermöglichen es bei der Inhaltsgenerierung, mehrere KI Stimmen in einer einzigen Datei zu verwenden, um Dialoge, Gegenrede und alle Arten von  Konversationen darzustellen.

Verschiedene Absätze bekommen einfach unterschiedliche KI-Sprecher zugewiesen. Damit werden, basierend auf einem einzigen Skript, eine vollständige Podiumsdiskussion oder ein ganzes Programm mit aktiver Beteiligung des Publikums erstellt.

Die einzelnen Absätze werden dann, mit dem jeweils ausgewählten KI Sprecher, als separate Audiodateien oder das gesamte „Gespräch“ als einzelne Audiodatei verwendet.

Audio KI Stimmen in der Übersetzung

Die KI gestützten TTS Tools, die Text in verschiedene gesprochene Sprachdateien umwandeln, generieren bereits KI Stimmen in weit über 100 Sprachen und Akzenten.

Die große Auswahl an verfügbaren Sprachen macht KI gesteuerte Text-zu-Sprache Plattformen besonders nützlich für Entwickler und Ersteller von multilingualen Lernkursen. Ein Schulungsprogramm, das weltweit angeboten werden soll, kann das problemlos mit Hilfe einer mehrsprachigen TTS Plattform tun.

Der Kurs wird weiterhin auf Englisch angeboten, durch die Lokalisierung erhalten die Inhalte aber eine größere Reichweite und eine eindeutiger definierbare Zielgruppe. Auf deren Bedürfnisse kann das Angebot effektiver ausgerichtet und zugeschnitten werden.

Stimmen Klonen

Mit einer Text-zu-Sprache KI kann eine digitale Darstellung einer Stimme erstellt werden, diese wird als Voice Clone bezeichnet. Auf diese Weise können Videopräsentationen, Podcasts und Erzählungen mit persönlichem Branding entstehen.

Dazu wird das Skript einfach in den KI Text-zu-Sprache Generator eingegeben und in wenigen Minuten ist eine Audioaufnahme erstellt, die genau wie gewünscht klingt.

Damit ist es leicht möglich, mit der Verwendung eines Audio KI TTS Tools die gewünschten geschriebenen Inhalte zu erzählen, dabei eine einheitliche Stimme in allen Beiträgen beizubehalten und trotzdem in praktisch jeder möglichen Sprache verstanden zu werden. 

Integrationen

Es gibt auch KI Text-zu-Sprache Konverter, die für kreative Anwendung in andere Tools integriert werden können. Beispielsweise kann man ein Plugin auf einer WordPress Webseite verwenden, um einen Blog „anhörbar“ und „podcastfähig“ zu machen, anstatt nur les- und teilbar.

Mehrsprachige Sprachsynthese

Ein leistungsstarkes Online Text-to-Voice Studio bietet mehrere Wege der Sprachsynthese.

Zum Einen den eingegebenen oder importierten Text sofort umzuwandeln mit einem Online Text-zu-Sprache Editor in die Audio Form. Mittels der Erstellung einer beliebigen Stimme, dem Übertragen der Sprechstile und der daraus generierten Sprache mit einer Voice Cloning Funktion. Zum Anderen durch die Beibehaltung der Stimme und des muttersprachlichen Akzents eines Sprechers beim Übersetzen und Synchronisieren in mehreren Sprachen, mit der Möglichkeit sprachübergreifenden Klonens von Stimmen und mehrsprachiger Sprachsynthese. 
Der Ton ist dann mit Sprachstilen, Aussprachen und SSML Tags weiter optimierbar.

Audio KI Nutzungsmöglichkeiten

  • KI Voice Overs für Videos
  • Audio Veröffentlichung
  • Audio Storytelling
  • Konversations KI
  • Benutzerdefinierte Spracherstellung
  • E-Learning
  • Podcasts
  • Spiele
  • IVR-Systeme (Interaktive Voice Response)
  • Übersetzung und Synchronisation
  • Sprach API

Multi Voice Funktion

Multi Voice Funktionen erstellen Konversationen in Audioprojekten, indem Sie verschiedene Stimmen in derselben Audiodatei verwenden.

Benutzerdefinierte Aussprachen

Diese speziellen Aussprachen definieren, wie bestimmte Wörter ausgesprochen werden. Diese gespeicherten Aussprachen sind dann wiederverwendbar zum Synthetisieren von Sprache.

Stimmbeugungen

Stimmbeugungen erzielt man mit Anpassungen von Geschwindigkeit, Tonhöhe, Betonung und mit dem Hinzufügen angepasster Pausen, um den perfekten Stimmton zu erzielen.

Vorschau Modus

Die letzte Kontrolle erfolgt durch das Anhören eines einzelnen Absatzes oder des gesamten Textes in der Vorschau, bevor der Text dauerhaft in Sprache umgewandelt wird.

Audio KI Voiceovers

Mithilfe der fortschrittlichen generativen Audio KI Technologie entstehen in wenigen Minuten neue und einzigartige synthetische, aber lebensechte Stimmen zur Verwendung in Videos, Podcasts, Hörbüchern und mehr.

Klonen einer Stimme

Eine digitale Stimme, die wie ein echter Mensch klingt, wird entworfen. Egal, ob Inhalte zu erstellen oder Kurzgeschichten zu schreiben sind, mit einem KI Sprachgenerator können fesselnde Audio Erlebnisse entworfen werden.

Stimmen finden

Von den Nutzern erstellte, individuelle synthetische Stimmen können mit der lebendigen Community geteilt werden. Mit diesen Stimmen, die von anderen erstellt wurden, erweitern die Nutzer sich gegenseitig ein riesiges Feld voller Hörmöglichkeiten.

KI Text-to-Speech

KI Text-zu-Sprache bedeutet das Generieren lebensechter Sprache, in jeder bekannten Sprache und mit immer mehr unterschiedlichen Stimmen, mit der leistungsstarken Text-to-Speech Technologie (TTS) erzeugt und durch fortschrittliche KI mit emotional erscheinenden Fähigkeiten kombiniert.

Nicht unterscheidbar

Text, der in lebensechten Klang, in vielen verschiedenen Sprachen und mit angepasster Stimmmelodie umgewandelt ist, ist für nicht mehr unterscheidbar für das menschliche Hörempfinden. Daher perfekt für alle digital Kreativen und um sofort ein hochwertiges TTS Streaming zu starten.

Präzisionsabstimmung

Die Sprachausgabe wird nahezu mühelos über eine intuitive Benutzeroberfläche angepasst. Hier entscheidet der Nutzer frei über die Mischung aus stimmlicher Klarheit und Stabilität oder die Verstärkung eines Gesangsstils für eine lebhaftere Wiedergabe.

Online Text Leser

Ein auf Deep Learning basierendes Tool wird hier genutzt, um beliebige Texte vorzulesen, von kurzen E-Mails bis hin zu vollständigen PDFs.

Überbrückung der Sprachkluft

Endlich ist es möglich, die vielen Vorteile der Integration mehrsprachiger Funktionen in die Inhaltsbereitstellung zu entdecken und ihre Möglichkeiten zu erproben.

Flexibilität bei der Inhaltserstellung

Die Fähigkeiten der Audio KI ermöglicht eine einfache, aber flexible Produktion mehrsprachigen Audio Materials, ohne Kompromisse bei Geschwindigkeit oder Qualität einzugehen.

Globale Reichweite

Grenzenlose Kommunikation mit den weltweiten Zielgruppen ohne die Moderation Dritter ist greifbar nah.

Verbessertes Engagement

Durch diese grenzenlose Kommunikation werden Inhalte in der Muttersprache des jeweiligen Zuhörers bereitgestellt und fördern ein tieferes gegenseitiges Verstehen sowie bessere und damit engagiertere internationale Verbindungen.

Audio KI Anbieter

Play.ht

Die Text-zu-Sprache-Engine von Play.ht integriert TTS Geräte und Anwendungen zur Erweiterung der Funktionen mit Hilfe der TTS API. Die Play.ht TTS Anwendungsprogrammierschnittstelle (API) unterstützt weiterhin die bevorzugten Google-, IBM- und Amazon-Stimmen, verbessert aber das Hörerlebnis mit den erweiterten Back End Funktionen von Play.ht.

Der Audio KI.Voice Generator von Play.ht

  • Qualitativ hochwertige Audio KI Stimmen Generierung
  • KI-Sprachtechnologie effektiv nutzen
  • Realistisches TTS Modell mit Emotionen und Lachen
  • KI Text-zu-Sprache Leitfaden

Eleven Labs

Eleven Labs ist ein Softwareunternehmen, das sich auf die Entwicklung natürlich klingender Sprachsynthese und Text-to-Speech Software unter Verwendung künstlicher Intelligenz und Deep Learning spezialisiert hat. Es gilt als eines der großen Unternehmen hinter dem laufenden AI Spring. Das Startup ist dabei, diese Technologie patentieren zu lassen.

Audio KI Produkte und Leistungen

  • browserbasierte, KI gestützte Text-to-Speech Software 
  • Speech Synthesis mit Stimmgefühlen und Intonation in lebensechter Sprache 
  • Software ausgelegt auf Intonation und Tempo der Übermittlung, basierend auf dem Kontext der verwendeten Spracheingabe. 
  • fortschrittliche Algorithmen analysieren die kontextuellen Aspekte von Texten
  •  Erkennen von Emotionen wie Wut, Traurigkeit, Glück oder Alarm
  • realistische und menschliche Betonung
  • Voice Cloning Tool, das mit hochgeladenen benutzerdefinierten Sprachproben beispielsweise Gesangsstile erstellt
  • Voice Library mit Voice Design Technologie, als eine Funktion zum Teilen einzigartiger Sprachprofile, mit Stimmprofil Auswahl und Anpassungsmöglichkeiten.
  • VoiceLab zum Voice Cloning  und zur Generierung neuer synthetischer Stimmen mit dem mehrsprachigen TTS Modell
  • Tool zum Erstellen langer gesprochener Inhalte wie Hörbücher und Dialog Segmente 
  • kontextbewusste synthetische oder benutzerdefinierte Stimmen, mit Sprachgenerierungsfunktionen in 28 Sprachen.
  • automatische Spracherkennung, wie Koreanisch, Niederländisch und Vietnamesisch für eine „emotionsreiche“ mehrsprachige Sprachgenerierung.
  • KI Erkennungstool namens AI Speech Classifier, ist über eine API zugänglich und mit der proprietären KI Technologie versehen
  • „AI Dubbing“ Tool, übersetzt in mehr als 20 Sprachen, erhält dabei die Originalstimme, Emotionen und Intonation des Sprechers zu bewahren, mit Rauschunterdrückung, Sprecher Differenzierung, Transkription und Synchronisierung.

Die fortschrittlichen KI und Deep Learning Modelle sind emotional klangvoll, besitzen sprachliche Nuancen, regionale Akzente und kulturelle Untertöne für eine zielgruppenorientierte Kommunikation.

Der Wechsel der Sprache ist innerhalb der Eingabeaufforderung möglich, aber beste Ergebnisse entstehen durch Sprachkonsistenz oder durch deutliche Sprachabschnitte.

Audio KI Anwendungsbeispiele

  • Content für Podcasts, Erzählungen, Comedy Shows, zum Klonen von Stimmen
  • Streaming Automatisierungsdienst
  • vollautomatischer Radiodienst mit einem virtuellen DJ, der ChatGPT generierte Eingabeaufforderungen nutzt
  • Zusammenarbeit mit Spieleentwicklern für die Erzählungen in Spielen und die Vertonung von Spielcharakteren
  • Verleger und Autoren kommentieren Hörbücher und Newsletter
  • Stimmen werden erstellt, speziell auf die Kernmärkte zugeschnitten
  • KI erzählte Hörbücher
  • Nutzer Personalisierung durch eine Sprachänderungsfunktion, einen Voice Switcher 
  • Generieren von Audio für die Synchronisierung von Videos
  • reproduziert nahezu jeden Akzent in jeder Sprache

Ein Sprachauthentifizierungssystem gewährleistet die Ethik des Stimmklonens und schützt vor Sprach Deepfakes mit expliziten Nutzungsrichtlinien. Mit einer Technik geklonter Stimmen, die vor Betrug, Diskriminierung, Hassrede oder Online Missbrauch schützt, aber Karikaturen, Parodien, Satire und künstlerische und politische Reden unterstützt.

Speechify

Speechify ist eine Anwendung, die sich auf Text-to-Speech (TTS) konzentriert. Sie ermöglicht es den Nutzern, Text in gesprochene Worte umzuwandeln. Das ist besonders für Menschen mit Sehbehinderungen oder anderweitig am Selbstlesen gehinderte Personen hilfreich.
Speechify ist eine mobile, Chrome Browser Erweiterungs- und Desktop App, die mithilfe einer computergenerierten Text-zu-Sprache Stimme Texte vorliest.
Die App nutzt außerdem optische Zeichenerkennungstechnologie, um physische Bücher oder gedruckten Text in Audio umzuwandeln. Mit der App können Nutzer Fotos von Texten machen und sich diese dann vorlesen lassen.
Speechify wurde von Cliff Weitzman gegründet, einem Legastheniker und Student, der die erste Version des Tools selbst entwickelte, um ihm zu helfen, seine Unterrichtslektüren zu bearbeiten. Die Verwaltung der App ist möglichst knapp gehalten und die Funktionen sind auf Funktionalität und Lernen ausgerichtet. Neben der kostenlosen Nutzung der Funktionen und Stimmen stehen auch erweiterte Servicsangebote für Bezahlkonten zur Verfügung.

Voice AI/ AI VOICE

AI Voice ist eine computergenerierte Stimme, die auf maschinellem Lernen basiert und aus Text Sprache mit natürlicher Intonation und echten Akzenten generiert. KI Stimmen werden durch maschinelle Lernmodelle erstellt, die hunderte Stunden Sprachaufnahmen von echten Synchronsprechern verarbeiten und dann anhand der Audioaufnahmen zu sprechen lernen. Heutzutage werden KI Stimmen aufgrund ihres natürlich klingenden Klangs in den verschiedensten Anwendungen eingesetzt.
Die von Voice AI zur Verfügung gestellten kostenlosen Konvertierungen mit einem KI Sprachgenerator, der online Text in Sprache umwandelt, erstellen natürliche KI Stimmen in jeder Sprache. Sie sind hilfreich vom Videokünstler über Entwickler bis hin zu Unternehmen.

Video Geschichten mit Emotionen 

Mit dem KI Sprachgenerator werden fesselnde Audio Erlebnisse entworfen. Dieser Gaming Gamechanger hin zum immersiven Gaming reicht von fesselnden NPC Dialogen bis zu individuellen Echtzeiterzählungen. Dieses Tool befördert den Sound eines Spiels auf die nächste Ebene. Jedes Buch, jede Erzählung wird mit diesen Stimmen als Hörbuch förmlich zum Leben erweckt. Durch die Umwandlung langer Inhalte in ansprechende Audio Inhalte werden Chatbots zu KI Assistenten mit Persönlichkeit. Die Nutzer können mit diesem KI Chatbot Tool Inhalte und Interaktionen mit einer KI generierten Stimme erstellen und darin natürliche Erlebnisse mit dem KI Sprachgenerator generieren.

Mycroft

Mycroft ist ein freier Open-Source Sprachassistent auf NLU Basis (Sprachdialogsystem), der vom Unternehmen Mycroft AI, Inc. mit Sitz in Kansas City und einer Open-Source Community entwickelt wurde. Durch vollständige Quellcode Offenheit und die Möglichkeit des offline Betriebs unterscheidet es sich von vielen alternativen Sprachassistenten. Der Name basiert auf einem fiktionalen Computer aus dem 1966 veröffentlichten Roman “The Moon Is a Harsh Mistress”.

Entwicklung

Die Idee entstand bei einem Besuch in einem Makerspace in Kansas City. Montgomery entdeckte einen simplen virtuellen Assistenten, erkannte das Potential dieser Technologie aber auch mögliche Datenschutz und Privatsphäre Probleme, also entstand Mycroft als Open Source Produkt.

Ablauf einer Audio KI Anfrage

Nutzer spricht:
„Hey Mycroft – wie viel Uhr ist es?“
Antwortbearbeitung:
wandelt die Sprache in Text um (speech to text (STT))
prüft den Text auf eine Absicht (intent) „Uhr“
gibt die Anfrage an die passende Fähigkeit (skill) weiter „date-time-skill“
Das interne Skill untersucht die Anfrage des Nutzers und ermittelt die aktuelle Uhrzeit
Ausgabe:
„Es ist aktuell 04:09 Uhr“ (text to speech (TTS))

Softwarekomponenten

Die dazu notwendigen Softwarekomponenten werden auf Github gehostet und dort von Mycroft und einer freiwilligen Entwickler Community aktiv weiterentwickelt. Die Software ist modular aufgebaut und lauffähig auf den Plattformen von Linux, Raspberry Pi und Docker-Container

Wake Word

Das „Wake Word“ fungiert als Aktivierungsphrase und muss vom Anwender vor der eigentlichen Anfrage genannt werden. Technologisch basiert die Erkennung auf der „Precise Wake Word“ Engine, die allerdings im Gegensatz zum früher eingesetzten PocketSphinx auf maschinellem Lernen und neuronalen Netzwerken basiert. Im (optionalen) Cloud basierten Backend können alternative Wake Words ausgewählt werden. Außerdem besteht die Möglichkeit, ein eigenes Wake Word zu trainieren. Die Erkennung der Aktivierungsphrase geschieht immer auf dem Gerät lokal und benötigt keinerlei Internetzugang.

Cloudbasierte Spracherzeugung

Dieses Produkt kann für unterschiedliche deutschsprachige TTS Cloudanbieter (beispielsweise Google TTS oder Amazon Polly) konfiguriert werden. Allerdings funktionieren diese nur bei verfügbarer Internetverbindung und daher bestehen Datenschutz Bedenken.

Lokale Spracherzeugung

Aufgrund der Zusammenarbeit mit den Mozilla-Common-Voice Projekten wird ein Mozilla TTS Server zur Spracherzeugung verwendet. Dieser kann lokal betrieben werden und benötigt keinerlei Internetzugang. Er bietet mit „Thorsten (Stimme)“ eine freie deutschsprachige und kommerziell nutzbare Stimme. Sollte keine andere TTS Option zur Verfügung stehen, dient Mimic (basierend auf Festival Lite) als Fallback. Das bietet im Vergleich aber eine geringere Qualität.

Skills

Skills bilden den Funktionsumfang ab. Es stehen viele Skills zur Verfügung. Dazu zählen beispielsweise Skills zum Stellen von Timern, Einrichten von Weckern und Erinnerungen, zur Steuerung von Smart Homes und vieles mehr. Neben den Basisskills, die mit jeder Installation ausgeliefert werden, können viele weitere Skills nach individuellen Bedürfnissen ergänzt werden.Viele Skills sind direkt aus dem Github Repository des jeweiligen Entwicklers herunterladbar, haben dann allerdings keine offizielle Freigabe. Hersteller geprüfte und freigegebene Skills werden im Skill Marketplace angeboten.

Intents

Durch die Schlüsselwörter oder Intents (wörtlich übersetzt: „Absicht“) erkennt Mycroft, welcher Skill die Anfrage des Benutzers bearbeiten soll. Die Intents werden aus der gesprochenen Nutzeranfrage ermittelt. So führt beispielsweise die Nutzeranfrage „Wieviel Uhr ist es?“ dazu, dass das Skill „date-time“ diese Anfrage bearbeitet und die Antwort an den Nutzer erzeugt.

Krisp

Die Anwendung Krisp bezieht sich auf die Rauschunterdrückung bei Audioübertragungen. Krisp AI wird in Videokonferenz Anwendungen verwendet, um Hintergrundgeräusche zu unterdrücken und die Sprachqualität zu verbessern. Krisp (oder Krisp Technologies Inc.) ist also ein Unternehmen für KI basierte Audio Bearbeitungssoftware, das Echtzeit Technologie zur Geräusch- und Sprachunterdrückung anbietet. 

Das Hauptprodukt von Krisp ist eine Softwareanwendung, die Hintergrundgeräusche und Stimmen in Echtzeit aus Audiodaten entfernt. Die Software verwendet Algorithmen für maschinelles Lernen, um das Audiosignal zu analysieren und die Sprache von Hintergrundgeräuschen zu trennen, sodass die Sprache in klarem, rauschfreiem Audio ausgegeben werden kann. Diese Technologie bietet ein breites Anwendungsspektrum, darunter Telefonkonferenzen, Remote Arbeit, Podcasting und Videoproduktion.

Die Software kann als eigenständige Anwendung verwendet oder in bestehende Audioanwendungen wie Skype, Zoom und Slack integriert werden. Dadurch können Nutzer rauschfreies Audio genießen, ohne zwischen verschiedenen Anwendungen wechseln zu müssen. Darüber hinaus kann die Software darauf trainiert werden, bestimmte Arten von Lärm zu erkennen, beispielsweise Verkehrslärm oder Hundegebell, wodurch sie Lärm in bestimmten Umgebungen effektiver unterdrückt.

Krisp stand auf der Forbes-Liste der vielversprechendsten Unternehmen für künstliche Intelligenz in Amerika im Jahr 2020.Darüber hinaus stand Krisp auf der TIME Liste der 100 besten Erfindungen des Jahres 2020.Es hat außerdem zwei Webby Awards gewonnen.

Hier finden Sie weitere Artikel zur KI

ChatGPT und KI Tools

Einführung Teil 1
Freuen Sie sich jede Woche auf einen neuen Artikel:
LMM /TexT Teil 2
Audio Teil 3
Social Media Teil 4 
Presentation Teil 5 
ChatBot Teil 6 
Copywriting Teil 7 
Coding Teil 8 
Research Teil 9  
Images Teil 10
Design Teil 11
Productivity Teil 12
Marketing Teil 13 

WordPress Cookie Plugin von Real Cookie Banner