Interview mit 2 Headsets

Audacity2 Bild: Audacity2 - Bestimmte Rechte vorbehalten: Andreas Drop (cc-by-nc-sa 2.0)

Der Ohrkrampf Podcast entsteht ja in der Regel über Skype, und für die Aufnahme der beiden Spuren sorgt dann das kleine Programm Skype-Recorder, welches die eigene Stimme, und die des Gesprächspartners automatisch auf dem linken und rechten Kanal einer Stereospur aufnimmt.

Die letzte Sendung des Jahres 2011 haben wir allerdings zusammen an einem Tisch im SpecOps in Münster aufgenommen, und technisch ging es dabei um die Herausforderung 2 Headsets an einen PC mit einem Mikrofoneingang anzuschließen. Dabei bieten sich generell zwei technische Lösungen dafür an

  • Verwendung eines Mischpultes. Dabei muss dann die optimale Mischung der beiden Spuren direkt bei der Aufnahme vorgenommen werden, denn der Rechner kann nur eine Spur aufnehmen
  • Verwendung einer weiteren Soundkarte. Dadurch ergibt sich ein zweiter Mikrofoneingang.

Die zweite Variante ist die deutlich kostengünstigere, denn eine kleine externe Soundkarte mit USB-Anschluss ist problemlos für 15 Euro zu haben, manchmal bekommt man sie schon für weniger als 10€

Leider gibt es dabei eine technische Schwierigkeit zu überwinden. Worin die besteht, und wie man sie mit Bordmitteln und etwas Mathematik überwindet soll das Thema dieses Artikels sein.

Die Samplefrequenz

Wenn eine Soundkarte irgendetwas vom Mikrofon aufzeichnet, dann zerlegt sie das Tonsignal in sogenannte Samples, d.h. sie misst in sehr schneller Folge, die Spannung am Mikrofoneingang und speichert diese Spannung dann als Zahl ab. Wenn man Musik in CD-Qualität aufnehmen möchte, dann stellt man z.B 44100 dieser Messungen pro Sekunde an, und erhält damit 44100 Samples pro Kanal (jeweils links und rechts). Einen Kanal können wir für unser Mikrofon vernachlässigen. Das liefert uns nämlich nur ein Monosignal.

Dafür haben wir allerdings zwei Soundkarten im Rechner, zum einen gibt es die eingebaute Soundkarte, und dann noch die externe Soundkarte. Diese beiden Karten möchten nun jeweils 44100 Samples pro Sekunde erstellen. Und da liegt auch schon der Kern des Problems begraben. Um das nämlich tun zu können brauchen sie einen Zeitgeber, der genau 44100 mal pro Sekunde sagt “los, geh nachschauen, wie hoch die Spannung am Eingang ist”

Dieser Zeitgeber ist in aller Regel ein Quartzkristall, der elektrisch in Schwingung versetzt wird. Und um verschiedene Zeiten möglichst genau messen zu können schwingt so ein Quartz mit recht hoher Frequenz welche herunter geteilt wird. Man benutzt zum Beispiel einen Quartz, der 320000 mal pro Sekunde schwingt (320kHz), und zählt jede Schwingung mit, und bei jeder 8. Schwingung wird eine Messung des Mikrofonsignals gemacht. In diesem Falle würde man z.B 40000 Messungen (Samplerate 40 kHz) erhalten.

Quartzwecker

Unsere beiden Soundkarten stellen uns dabei vor zwei Schwierigkeiten.

1. Benutzt jeder Hersteller andere Quartze, mit anderen Grundfrequenzen von denen aus herunter geteilt wird. Und da man dabei immer nur durch ganze Zahlen teilen kann, kommt es schon mal vor, das aus Kostengründen ein Quarz genommen wird, der herunter geteilt eben 44125 statt 44100 Samples pro Sekunde macht. Das hört man erst mal nicht, und es stört auch nicht.

2. Selbst wenn man absolut identische Quartze hätte, ist die exakte Frequenz noch in einem engen Rahmen temperaturabhängig. Ein Quartz, der heute 2 Mio. mal pro Sekunde schwingt kann bei Kälte in der gleichen Zeit evtl. nur 1999986 mal schwingen.

Bei der Weiterverarbeitung der beiden Signale aus den beiden Soundkarten geht aber die Software (in meinem Falle Audacity) davon aus, dass das Signal genau 44100 Samples pro Sekunde hatte. Mal angenommen die externe Soundkarte hat einen minimal schnelleren Quartz und erzeugt in einer Sekunde 4 Samples mehr als die langsamere interne Karte. Hier dauert die aufgenommene Sekunde also eine knappe 10000stel Sekunde länger.

Das klingt zunächst einmal nicht dramatisch, aber das passiert bei jeder Sekunde der Aufnahme. Nach einer Aufnahmedauer von einer Stunde hat sich dieser winzige Fehler bereits auf eine drittel Sekunde aufsummiert.(3600/10000)

Hätten wir in der Aufnahme z.B. gemeinsam gesungen, würde man das bereits als deutlich zeitvesetzt wahrnehmen. Es klänge, als wäre ein Kanal das Echo des anderen. In der Aufnahme für den Podcast hatten sich innerhalb der 40 Minuten Aufnahmezeit sogar 5 Sekunden Zeitverschiebung angesammelt. Und so ergaben sich so seltsame Effekte, wie das Desiree bereits auf eine Frage antwortete, noch bevor ich sie auf dem anderen Kanal gestellt hatte. Je weiter zum Ende hin, desto deutlicher ließ sich der Unterschied hören. Der Anfang war noch absolut synchron.

Gegenmaßnahmen

Um dem entgegen zu wirken, muss man also diese Verschiebung irgendwie wieder ausgleichen. Ich hatte bereits vor der Aufnahme mit genau diesem Problem gerechnet (in jeder Lektüre, die sich zum Thema Aufnahme mit zwei Soundkarten im Netz fand wurde davor gewarnt, dass man anschließen zwei Kanäle hat, die nicht synchron sind, und daher besser nicht zu dieser Technik greift. Aber hey, es ist billig!). Daher habe ich zu einem alten Trick aus dem Filmgeschäft gegriffen. Der Klappe. Das ist dieses Schild mit der Szenennummer drauf, das einer ins Bild hält und z.B. ruft “Harry Potter, Take 212, die Fünfte” und dann knallt er die Klappe zu und los geht’s.

Dieses Getue stammt aus der Zeit, als Bild und Ton noch von zwei verschiedenen Geräten aufgezeichnet wurden und später wieder synchron zu einem Film zusammengefügt werden mussten. Auf dem entwickelten Film sieht man später wie sich die Klappe schließt, und auf der Tonspur sollte es in genau diesem Moment knallen, denn nur dann sind die beiden Synchron.

Bei uns geht es natürlich um zwei Tonspuren, aber das Prinzip ist das gleiche. Ich brauche ein Signal, das auf beiden Spuren wieder zu finden ist. Dazu habe ich ganz einfach vor und nach der Aufnahme die beiden Mikrofone leicht aneinander geschlagen. Das erzeugt auf beiden Aufnahmen ein deutliches Plopp

Mathematik

Um den Laufzeitunterschied nun zu korrigieren, habe ich beide Spuren exakt vor dem ersten Plopp zu Anfang der Aufnahme abgeschnitten. Dazu zoomt man mit Audacity so lange in die Aufnahme hinein, bis man die einzelnen Samples als Punkte sieht. Am letzten Sample, welches noch Stille darstellt wird geschnitten. Die Aufnahme beginnt also auf beiden Spuren mit dem Plopp, und zwar ganz exakt.

Das selbe wiederholt man nun mit dem Plopp am Ende jeder Spur. Auch hier wird wieder exakt mit Beginn des Plopps geschnitten. Dazu wieder so lange heranzoomen, bis sich die einzelnen Samples als Punkte erkennen lassen, und genau mit dem
letzten Sample vor dem Plopp enden. Es ist dabei völlig normal, dass dieser letzte Plopp bei den beiden Spuren zu verschiedenen Zeiten kommt. Das ist ja genau der Zustand, den wir korrigieren wollen.

Wir haben jetzt also zwei Spuren, die in der Aufnahme exakt gleich lang waren, jetzt aber in der Wiedergabe unterschiedlich lang sind.

Um möglichste exakt herauszufinden, wie groß der Unterschied ist, habe ich die Einheit, in der die Cursorposition in Audacity angegeben ist von Sekunden auf Samples umgestellt.
So war also in meinem Fall die eine Spur 53.588.781 Samples lang und die andere Spur umfasste 53.677.895 Samples.

Nun geht es darum diese Spuren auf genau die gleiche Anzahl von Samples zu bringen. Audacity bringt dazu ein Werkzeug mit, mit dem ich das Tempo einer Spur beschleunigen, oder verlangsamen kann. Dieser Wert wird dabei in Prozent angegeben. Ich sage also z.B. “spiele diese Spur 20 % schneller ab”, wodurch diese kürzer wird, und 20% weniger Samples enthält.
Das Verhältnis von 53677895 zu53588781 beträgt genau 1,001660162. Und für die Genauigkeit nehme ich jede Nachkommastelle, die ich kriegen kann.

Ich habe mich dafür entschieden, die langsamere (also längere) Spur schneller (also kürzer) zu machen. und habe daher hier eingegeben: gewünschte Beschleunigung 0,001660162 Prozent (Achtung hier ist eine 0 vor dem Komma)

Im Ergebnis waren die beiden Spuren am Ende bis auf 2 Samples genau gleich lang. Bei eine Samplerate von 16kHz mit der ich gearbeitet habe bedeutet das einen Laufzeitunterschied von einer Acht-tausendstel Sekunde über die gesamte Sendungslänge. Bei einem Interview ist das nicht mehr wahrnehmbar. Hier sind die beiden Spuren nun praktisch synchron, und können normal weiterverarbeitet werden.

Am besten beginnt man damit, den nun überflüssig gewordenen “Plopp” am Anfang der Aufnahme zu entfernen.