Vorbemerkung
Zunächst einmal ein kleiner Disclaimer: Nicht alle technischen Details zu den Tonformaten, die ich gleich erwähnen werde, sind detailliert dokumentiert (oder falls doch, liegt sie mir nicht vor), und ich bin auch kein Experte, was das Schaltungsdesign von D/A-Wandlern und Tiefpassfiltern angeht, aber ich versuche mein bestes.

Aber Musik auf DVD ist das eigentliche Thema, so wie hier das legendäre Konzert von Beth Hart „Live at Paradiso“.
Grundlagen
Es folgt eine kurze und ziemlich inakkurate Abhandlung über digitales Audio, die getrost übersprungen werden darf.
Um bewerten zu können, was die unterschiedlichen Tonformate bringen, müssen zunächst einmal die Rahmenbedingungen geklärt werden, nämlich was der Mensch überhaupt zu hören vermag und wie ein Tonsignal überhaupt gespeichert wird.
Ein junger Mensch kann im besten Fall hohe Töne mit bis zu 20 kHz hören (wobei manchmal berichtet wird, dass es bei Kindern auch noch höher geht). Mit zunehmendem Alter geht die Frequenz des höchsten noch wahrnehmbaren Tons runter und fällt weit unter 15 kHz. Das ist also der Bereich, in dem im wahrsten Sinne des Wortes die Musik spielt.
Bei der Entwicklung der CD wurde daher angestrebt, den Bereich bis 20 kHz abzubilden. Nach dem Shannon-Nyquist-Abtasttheorem muss die Samplingfrequenz mindestens doppelt so hoch wie die maximal zulässige Frequenz des abzutastenden Signals sein. Bei der CD hat man eine Samplingfrequenz von 44,1 kHz gewählt. Das zu digitalisierende Signal muss, damit es korrekt abgetastet wird, vorher bandbeschränkt sein, d.h. es darf dann in dieser Konfiguration keine Frequenzen größer als 22,05 kHz beinhalten. Deswegen läuft es vor der Digitalisierung durch einen Tiefpassfilter. Der kann aber in der analogen Domäne nicht beliebig steil sein. Da der Frequenzbereich bis 20 kHz spezifiziert ist, aber die halbe Samplingfrequenz 22,05 kHz beträgt, muss der Tiefpassfilter nicht hart bei 20 kHz abschneiden, sondern kann noch Frequenzen bis 22,05 kHz durchlassen, ohne dass Artefakte entstehen. Beim 1987 eingeführten Digital Audio Tape (DAT) war von Anfang an auch eine Abtastfrequenz von 48 kHz zulässig, um flachere Tiefpassfilter zu erlauben. Bei der Einführung der DVD hat man sich für die Tonspuren ebenfalls für eine Abtastfrequenz von 48 kHz entschieden. Bei neueren A/D- und D/A-Wandlern mit Oversampling und digitalen Filtern besteht dieses Problem übrigens so nicht mehr.
Nach Shannon und Nyquist kann ein bis auf die Hälfte der Samplingfrequenz bandbeschränktes Signal exakt rekonstruiert werden. Dies gilt allerdings nur, wenn die einzelnen Samples ebenfalls exakte Werte sind, was in der Praxis natürlich so nicht geht, weil die Samples nur eine begrenzte Genauigkeit und keinen unendlichen Wertebereich haben. Daher muss zum einen auch die maximale Lautstärke begrenzt sein und zum anderen tritt wegen der begrenzten Genauigkeit ein Quantisierungsfehler auf, der sich durch Rauschen äußert. Der Lautstärkeunterschied zwischen dem Grundrauschen und der Maximallautstärke, also der maximale Dynamikumfang einer digitalen Audioaufzeichnung, ergibt sich durch die Wortbreite der Samples. Bei ganzzahligen Samples ergibt sich ein Dynamikumfang von ca. 6 dB pro Bit, also bei den bei der CD verwendeten 16 Bit ein Dynamikumfang von 96 dB.
Wenn man nun bedenkt, dass das Hintergrundrauschen in einem leisen Wohnraum bereits 20-30 dB beträgt und die Schmerzschwelle bei 120 dB liegt, sieht man, das der Dynamikbereich von 16 Bit unter normalen Umständen locker ausreicht. (Ja, diese Rechung ist aus verschiedenen Gründen so nicht ganz korrekt, aber überschlagsmäßig reichts.) Eine gewöhnliche Aufnahme ist sogar noch weiter in der Dynamik komprimiert, denn ein Musikstück, das so abgespielt wird, dass es an seiner leisesten Stelle gerade über dem Grundrauschen, aber an der lautesten Stelle an der Schmerzgrenze liegt, lässt sich offensichtlich nicht vernünftig anhören.
Eine Wortbreite von 16 Bit ist also normalerweise ausreichend, trotzdem kann eine Wortbreite von 24 Bit vorteilhaft sein. Wenn z.B. eine Aufnahme insgesamt zu leise aufgenommen ist und dann bei leisen Stellen beim Abhören die Lautstärke weiter aufgedreht wird als üblich, könnte man bei 96 dB Dynamikumfang unter Umständen so weit kommen, dass das Grundrauschen wahrnehmbar ist. Bei 24 Bit, also etwa 144 dB, ist da etwas mehr Sicherheitsabstand. Ebenso kann hier etwas mehr sinnvoll sein, wenn nachträglich z.B. die Lautstärke verändert werden soll. Allerdings muss auch klar sein, dass es sich hier um echte Extremfälle handelt und das bei der Wiedergabe einer ordentlich gemasterten Aufnahme auch 16 Bit noch mehr als ausreichend sind.
Beim Aufnehmen sind 24 Bit dagegen sinnvoll, da man mit mehr Sicherheitsabstand hier nicht so genau aussteuern braucht. Bei einer digitalen Aufnahme führt Übersteuern sofort zu deutlichen Störungen und einer unbrauchbaren Aufnahme, deswegen muss das unbedingt vermieden werden. Bei einer Digitalisierung mit 24 Bit kann man daher leiser aufnehmen, um Übersteuern sicher zu vermeiden und hat gleichzeitig noch genug Abstand zum Grundrauschen. Einige moderne Aufnahmegeräte können heutzutage sogar mit 32 Bit Gleitkommazahlen aufnehmen, was den Wertebereich noch mal dramatisch erhöht. Die Absicht dahinter ist, dass man eigentlich bei der Aufnahme gar nichts mehr aussteuern braucht, sondern alles hinterher in Software erledigen kann.
Was den Dynamikbereich, also die Wortbreite der Samples, angeht, kann man bis hier also festhalten, dass bei der Aufnahme und Produktion mehr als 16 Bit sehr sinnvoll sind. Bei der Wiedergabe fertig produzierter Musik werden sie eigentlich nicht benötigt, schaden aber auch nicht.
Ob eine Samplingfrequenz von mehr als 48 kHz sinnvoll ist, kann man dagegen durchaus bezweifeln. Töne die höher sind als 24 kHz (also die halbe Samplingfrequenz) können von Menschen schlicht nicht mehr wahrgenommen werden. Es sind mir auch keine Studien mit Blindtests bekannt, bei denen die Probanden Aufnahmen mit einer höheren Samplingfrequenz zuverlässig von Aufnahmen mit 44,1 kHz unterscheiden konnten. (Der Unterschied zwischen 16 Bit und 24 Bit kann in Blindtest in den oben genannten Fällen durch das höhere Grundrauschen allerdings sehr wohl unterschieden werden. In der Praxis hat aus den oben genannten Gründen allerdings kaum Relevanz.)
Die Sinnhaftigkeit der heute als „Hi-Res“ vermarkteten Aufnahmen mit mehr als 16 Bit Wortbreite und mehr als 48 kHz Samplingrate ist aus diesen Gründen meiner Ansicht nach nicht wirklich gegeben. Ich persönlich nehme übrigens solche Aufnahmen trotzdem gerne, weil es meist ein Zeichen dafür ist, dass die Aufnahme auch sonst ordentlich gemacht ist, schließlich muss eine „Hi-Res“-Aufnahme eine hohe Erwartungshaltung bedienen. Ich bilde mir aber nicht ein, einen Unterschied zu einer 16 Bit/44 kHz-Aufnahme hören zu können (Das hat meines Wissens nach noch niemand zuverlässig geschafft!) und einen großen Aufpreis wäre es mir auch nicht wert.
Audio bei der DVD
Bei der Spezifizierung der Tonformate bei der DVD-Video hat man sich zum einen an diesen Grundlagen orientiert, musste aber zum anderen auch die Möglichkeit schaffen, mehrere Tonspuren (für unterschiedliche Sprachfassungen) und Tonspuren mit mehr als 2 Kanälen (für Surround-Sound) unterzubringen. Die Rahmenbedingung ist zudem, dass die maximale Datenrate der DVD (ohne Overhead) mit etwa 10 MBit/s spezifiziert ist und da noch Video untergebracht werden muss. Der Videoteil soll an dieser Stelle aber mal nicht interessieren.
Es wurden mehrere zulässige Tonformate spezifiert, von denen ein Teil verpflichtend sind und ein Teil optional. Verpflichtend heißt hier, dass alle standardkonformen Player alle Pflicht-Formate unterstützen müssen und standardkonforme DVDs mindestens eine Tonspur in einem Pflichtformat haben müssen. Alle zulässigen Tonformate unterstützen Mehrkanalton, wobei ein Kanal meist ein dedizierter LFE-(Low-Frequency-Effects, Subwoofer)-Kanal ist, und alle bis auf PCM sind verlustbehaftet komprimiert.
Folgende Formate sind definiert:
Format | Sample-Breite | Sampling-Frequenz | Anzahl Kanäle | max. Datenrate (kBit/s) | verpflichtend oder optional |
PCM | 16 oder 24 | 48 oder 96 | 2-6 | 6144 | verpflichtend |
Dolby Digital (AC3) | 16 | 48 | 1-6 | 448 | verpflichtend |
DTS | 16 oder 24 | 48 oder 96 | 2-7 | 1536 | optional |
MP2 | 16 | 48 | 1-8 | 912 | verpflichtend nur bei PAL |
Die verlustbehafteten Codecs laufen jeweils mit constant bit rate (CBR), wobei es zumeist mehrere mögliche Stufen gibt, z.B. kann Dolby Digital 2.0 (Stereo) mit 224 kBit/s konstanter Datenrate laufen. Unkomprimiertes PCM hat naturgemäß ebenfalls eine konstanter Bitrate, die sich direkt aus Wortbreite mal Frequenz mal Anzahl der Kanäle errechnet, also z.B. bei Stereo-PCM in 16 Bit und 48 kHz ergibt sich eine Datenrate von 1536 kBit/s.
Das DTS-Format ist besonders interessant, da es sich in einen Basis-Teil und Erweiterungen unterteilen lässt. Die Basis hat immer 16 Bit und 48 kHz und bis zu 6 Kanäle. Falls eine Erweiterung wie DTS:ES (bis 7 Kanäle) oder DTS 96/24 vorhanden ist, wird diese von älteren Decodern, die damit nichts anfangen können, einfach ignoriert. Somit ist eine Abwärtskompatibilität gewährleistet.
Bemerkenswert ist, dass kein verlustfrei komprimiertes Format spezifiert ist. Praxistaugliche verlustfreie Audio-Codecs standen bei der Einführung der DVD-Video gerade noch nicht zur Verfügung. Daher ist zu beachten, dass bei PCM bei mehr als 16 Bit und 48 kHz Samplingfrequenz keine 6 Kanäle mehr möglich sind, da sonst die maximal erlaubte Bitrate überschritten würde. Die Kombination von „Hi-Res“-Audio und Surround-Sound ist somit nur mit dem verlustbehafteten DTS 96/24 möglich.
In der Tat ist mir unklar, ob es überhaupt DVDs mit Mehrkanal-PCM gibt. Mir selbst sind keine bekannt und einige Aussagen im Netz behaupten, bis zu 8 Kanäle bei 16 Bit und 48 kHz wären zwar spezifiziert, aber es existierten keine Player, die das tatsächlich unterstützen und die Unterstützung in Authoring-Software wäre entweder schlecht oder ebenfalls nicht vorhanden.
Man kann also feststellen, dass bei der DVD-Video qualitativ hochwertige Musikwiedergabe in Stereo in technisch besserer Qualität als bei der CD möglich ist, wenn unkomprimiertes PCM verwendet wird. Außerdem sieht man, dass für hochwertige Wiedergabe von Surround-Sound, wenn schon verlustbehaftete Komprimierung verwendet werden muss, DTS wegen der deutlich höheren maximal zulässigen Datenrate gegenüber Dolby Digital zu bevorzugen ist. Da bei der Kompression die Korrelation zwischen den Kanälen ausgenutzt werden kann ist davon auszugehen, dass bei DTS, wenn die höchste Datenrate verwendet wird, nahezu Transparenz erreicht werden kann. Dolby Digital muss man wohl wegen der verhältnismäßig geringen Datenraten eher an der Qualität von MP3 messen…
Eine Lücke, die die DVD-Video noch lässt (wenn man mal von den offenbar nur in der Theorie vorhandenen DVD mit 6-Kanal-PCM absieht) ist die Wiedergabe von Surround-Sound, ohne dass dies mit verlustbehafteter Kompression einher ginge. Diese Lücke füllt die DVD-Audio, doch dazu mehr in einem späteren Beitrag.
In der Praxis
In der Praxis sind die genannten Tonformate längst nicht alle gleich weit verbreitet und es macht auch einen großen Unterschied, ob auf der DVD ein Spielfilm, ein Konzert oder sogar nur Musik drauf ist.
Bei Filmen ist Dolby Digital 5.1 am weitesten verbreitet. Bei der verhältnismäßig kleinen Datenrate lassen sich leicht mehrere Sprachfassungen unterbringen. Bei Filmen, bei denen der Herausgeber Wert auf bessere Qualität gelegt hat, ist es auch verbreitet, eine Sprache in Dolby Digital und DTS anzubieten und weitere Sprachen dann nur in Dolby Digital.
Eine DVD-Video mit MP2-Ton ist mir übrigens noch nicht untergekommen und DTS:ES nur sehr selten.
Musik auf DVD-Video
Bei der Musik ist die Situation leider durchwachsen. Bei dem im letzten Beitrag erwähnten MVI hatte ich ja schon geschrieben, dass mindestens PCM 48/24 verwendet wurde. Es sollen auch MVIs mit PCM 96/24 Stereo erschienen sein.
Ein Beispiel für Musik-DVD mit reinen Musik-Inhalten sind die Limited Editions einiger Alben von The Pineapple Thief, die als Boxsets mit jeweils 2 CDs, 1 DVD und 1 Blu-ray veröffentlicht wurden. Die DVDs enthalten dabei die Musik der beiden CDs in PCM 96/24 Stereo und als Surround-Abmischung in DTS 96/24 bei 1,5 MBit/s und markieren so das Maximum, das man in der Praxis aus der DVD-Video rausholen kann. (Wobei man diskutieren könnte, ob man nicht besser normales DTS 5.1 bei der selben Datenrate hätte nehmen sollen, um keine Bandbreite für die Codierung der unhörbaren Frequenzanteile oberhalb von 20 kHz zu verschwenden.) Bewegtbild ist nicht enthalten, die Musik ist jeweils mit Standbildern hinterlegt.

The Pineapple Thief: Versions of Truth (Limited Edition) – Die DVD enthält PCM 96/24 und DTS 96/24, aber nur die Blu-ray enthält den Surround-Mix auch in voller Qualität bei verlustfreier Kompression; das ist auf der DVD nicht möglich.
Obwohl eine höhere Qualität und mehr Inhalt pro Disc als auf CD möglich wäre, haben sich DVD-Videos für reine Musik bekanntermaßen nicht durchgesetzt. Die Gründe dafür sind vielfältig, einer ist sicher, dass man viele DVD- (oder auch Blu-ray-) Player ohne angeschlossenen Fernseher nicht vernünftig bedienen kann. CDs lassen sich leichter direkt in einzelne Files für jeden Track Rippen und wie oben diskutiert sind die Qualitätsvorteile von höheren Wortbreiten und Samplingfrequenzen in der Praxis nur marginal oder gar nicht vorhanden. Musik in Surround-Abmischungen erfreuen sich zwar heute einer gewissen Beliebtheit, aber inzwischen sind Streaming und Blu-ray aktuell. Zu der Zeit der Einführung der DVD dachte man bei Surround eher an Filme.
Das soll natürlich nicht heißen, dass Musik auf DVD-Video gar keine Rolle spielt, ganz im Gegenteil! Zahlreiche Aufnahmen von Live-Konzerten und Musikvideos beweisen das.

Dire Straits: Alchemy Live – ein Beispiel für eine DVD mit PCM Stereo und DTS 5.1 auf der Ausgabe von 2010. Die gibt es auch als Blu-ray mit verlustlos komprimiertem Surround-Ton, nur das Bild ist da auch nicht besser; die Aufnahme ist von 1983 und da waren VHS und LaserDisc aktuell!
Worauf achten?
Eine Anleitung zum Abspielen und Migrieren, wie bei den anderen Formate, werde ich mir an dieser Stelle sparen, wir reden hier schließlich über gewöhnliche Video-DVDs…
Aber wenn man eine gute Tonqualität haben will, sollte man bei der Auswahl hinschauen. Natürlich wird man eine Aufnahme eher danach auswählen, was da für Musik drauf ist und wer dort spielt. Eine gute technische Qualität garantiert weder gute Musik noch dass die Aufnahme tatsächlich gut klingt. Aber gute Aufnahmen und vernünftig ausgewählte Tonformate gehen eben doch oft einher.
Leider sind die Angaben auf den Covern nicht immer so detailliert wie man es gerne hätte, z.B. habe ich noch nirgends gesehen, dass die Bitrate angegeben worden wäre. Ob ein DTS-Ton mit den maximalen 1,5 MBit/s oder nur mit der Hälfte läuft, erfährt man erst, wenn man es sich vom heimischen Player anzeigen lässt.
Manchmal sind die Angaben auch etwas irreführend, z.B. bei der DVD zum „Sultans of Swing“-Sampler der Dire Straits (Nicht die oben abgebildete „Alchemy Live“!). Auf dem Cover ist das Dolby-Logo und die Angabe 2.0, aber die positive Überraschung war dann, dass in Wahrheit die Musik in unkomprimiertem PCM-Stereo vorliegen und nur das Bonusmaterial in Dolby Digital 2.0.

Dire Straits: Sultans of Swing (Sampler) – Dolby Digital 2.0 oder doch eher PCM Stereo? Das ist hier die Frage! Die Antwort ist: Das Interview mit Mark Knopfler ist in Dolby, die Musik in PCM.
Es wird einem also nicht leicht gemacht. Als Faustregel kann man vielleicht sagen, dass wenn eine Musik-DVD in DTS und/oder PCM vorliegt, sich wohl jemand Gedanken gemacht hat.
Aber wäre das Beth-Hart-Konzert „Live in Paradiso“ weniger legendär, wenn der Ton nicht als DTS 5.1 bei maximaler Bitrate vorliegen würde? Wohl kaum! 🙂