Wie können Archive Spracherkennung nutzen?

Sie möchten Ihre audiovisuellen Bestände erschliessen und indexieren? Wir übernehmen das gerne für Sie.

Sie können uns Ihr Video- und Audiomaterial gerne zur Transkription und Indexierung zukommen lassen. Dafür können Sie uns einfach hier kontaktieren.

Unser System kann wahlweise direkt genutzt oder an Ihre spezifischen Bedürfnisse angepasst werden.

Für diese Anpassung benötigen wir Ihr branchenspezifisches Vokabular. Es ist wichtig, dass dieses in Textform und mit Kontext umgeben ist, nicht in einer Auflistung einzelner Begriffe.

Wie funktioniert Spracherkennung?

Spracherkennungssysteme werden trainiert, sodass sie möglichst viele verschiedene Wörter verstehen. Wie viele Wörter gibt es aber in der deutschen Sprache? Diese Frage ist nicht einfach zu beantworten – es hängt von der Zählweise ab:

Die neueste Ausgabe vom Duden-Wörterbuch enthält beispielsweise etwa 148’000 Wörter. Es scheint auf den ersten Blick überraschend wenig zu sein, man muss aber bedenken, dass hier nur Grundformen von gängigen Standarddeutschen Wörtern enthalten sind.

Man kann wiederum auch weniger eingegrenzt suchen. Sollte man veraltete Ausdrücke, Fachbegriffe, Fremdwörter, zusammengesetzte Wörter, regionsspezifische Begriffe und Namen hinzufügen, so kommt man auf Millionen von «Deutschen» Wörtern. Es gibt beispielsweise mehr als 60’000 Vornamen allein in der Schweiz.

Unter Umständen wird eine standardmässige, nicht an kundenspezifische Bedürfnisse angepasste Spracherkennung einige Ihrer Fachbegriffe, Namen, Ortsnamen und speziellen Ausdrücke sowie Aussprachen schlechter erkennen.

Um dem Spracherkennungssystem Ihre Wörter und Ausdrücke beizubringen, brauchen wir Kontext.

Wie entsteht ein kundenspezifisches System?

Damit das System Gesprochenes verstehen und in Text umwandeln kann, werden mehrere unterschiedliche Erkennungsmodelle genutzt.

Ein akustisches Modell erkennt einzelne Sprachlaute und fügt sie zu Wörtern zusammen. Das allein ist allerdings nicht ausreichend, da unterschiedliche Wörter oft gleich klingen (siehe Homophone). In der deutschen Sprache ist das bei über 200 Wortpaaren der Fall. Zusätzliche Varianten entstehen durch Dialekte, Akzente und eine undeutliche Aussprache.

Um die korrekte Variante zu bestimmen benötigt man den zweiten Teil vom Prozess – das Sprachmodell.

Vor dem Erkennungsprozess wird das System trainiert. Dabei werden Wortfolgen in einem Text analysiert. Basierend auf der Häufigkeit von Wortfolgen wird eine Wahrscheinlichkeit geschätzt.

Man nennt es das «n-gram»-System. «n» steht hier für die Anzahl der Wörter in einer Wortfolge.

Beispiel:

Der Kurs findet morgen nicht ____

Das System ist sich unsicher über das nächste Wort, da es die gleich tönenden Varianten «Stadt» und «statt» gibt. Das akustische Modell allein sieht beide Wörter als gleich wahrscheinlich.

Um die korrekte Variante zu bestimmen, nutzen wir das Sprachmodell, das oben erwähnte «n-gram»-System. Die Frage ist nun, wie viele Wörter nehmen wir als Kontext?

Die meisten Spracherkennungssysteme nutzen heutzutage ein 4-gram System.

Ohne Kontext hätte man die falsche Variante «Stadt» gewählt, da deren Wahrscheinlichkeit deutlich höher ist. Man benötigt eine Wortfolge, um die richtige Variante zu erkennen.

Um die Wahrscheinlichkeiten möglichst realitätsnah bestimmen zu können, benötigt das System grosse Mengen an Textmaterial.

Deswegen ist es wichtig, dass Sie uns Ihr Spezialvokabular in Textform zukommen lassen. Je mehr Text, in welchem Ihre Fachbegriffe und Eigennamen erwähnt werden, desto besser!

Hier sehen Sie veranschaulicht, wie Spracherkennung mit und ohne kundenspezifisch angepasstem Vokabular aussieht:

Wie Sie sehen, kennt generelle Spracherkennung weniger Namen und Fachbegriffe. Sobald man aber den nötigen Kontext hinzufügt, sinkt die Fehlerrate und das Resultat wird sichtlich besser.

Sie können uns gerne Ihr Material für einen unverbindlichen Test zukommen lassen. Wir werden Sie anschliessend beraten, ob ein Standardsystem für Sie ausreichend ist, oder ob sich eine spezifische Anpassung lohnen würde.