ハイレゾ音楽のファイルフォーマットについて

Posted on by 0 comment

ハイレゾフォーマットについて、一般的な音楽ファンが覚えておいた方が良い事だけまとめる。

要約すると、

  1. ハイレゾはフォーマットが乱立しているが、以下のフォーマットを抑えれば良い
  2. 一般的なのは、マルチビット(PCM)系の WAV、FLAC、ALAC 96KHz/24bit。96KHzの部分はそれより数値が低くてもあまり神経質にならなくてもOK
  3. マルチビット(PCM)系の中にもファイルの保存形式がいくつかある。
    WAV が一番高音質だが、使い勝手が良くないので、FLAC がベストバランス。
  4. 現在、高音質で使い勝手の良い音楽が配信されているのは、1ビット系 DSD フォーマットのもの。
  5. ハイレゾオーディオの再生装置を買う場合は、DSD を再生できるものを買うべし

どういう事かと言うと、、、

ハイレゾは、専用の再生装置を使わずPCやスマホ等の汎用装置に、専用のアプリを載せて音楽を再生させる。なのでPCオーディオとも呼ぶ。

一般的には、特定の目的のファイルには1つかせいぜい数種類のバリエーションしかない。しかし、音楽ファイルには沢山のフォーマットがあって、混乱をさそう。まずは、そこから整理。

ハイレゾの2大勢力

ハイレゾには、大きく分けて2種類ある。一つはマルチビット(PCM:Pulse Code Modulation)系の WAVE、FLAC、ALAC等で、DVD-Audio の系譜。

もうひとつは1ビット系の DSD(Direct Stream Digital)で、SACD(Super Audio CD) の系譜。両者はデジタル化の仕組みが根本から違う。

そして、夫々、保存するファイル形式が色々あるので、さらにややこしくなる。

カオスなファイルの保存方式

オーディオのファイルの成り立ちは二重構造になっている。ファイルの入れ物である「コンテナフォーマット」と、その中身である音声のデジタル化方式である「コーデック」の二重構造になっている。

マルチビット(PCM)系で使われる「コンテナフォーマット」の代表的なものには、Windows 用の「WAVE(WAV)」、MacOS 用の「AIFF」「MOV(QuickTime File Format)」等がある。

1ビット系(DSD)で良く使われるコンテナフォーマットはDSF (DSD Stream File)形式。DSD 自体はコーデックの事で、ファイルのコンテナフォーマットは DSF 以外も複数あり、互換性が無い。DSD の本家 SONY の mora は DSDIFF (Direct Stream Digital Interchange File Format) を採用している。

コーデック」の中で最もポピュラーなのは、WAVE で使われる「LPCM(Linear Pulse Code Modulation)」。LPCM は歴史も古く、CD 直系なコーデック。

しかし LPCM はファイルが大きくなってしまうので、PC用ハイレゾオーディオでポピュラーになったのは、オープンソースの可逆圧縮コーデックである「FLAC(Free Lossless Audio Codec)」、Apple の可逆圧縮コーデック「ALAC(Apple Lossless Audio Codec)」だ。これらを総称して PCM(Pulse Code Modulation) と呼ぶ。

それとは別に、DSD で使われる「ΔΣ変調(商標名=Direct Stream Digital)」方式のコーデックがある。

整理すると、

名称 コンテナ形式
(拡張子)
コーデック 備考
CD
(ー)
LPCM 非圧縮
WAVE WAVE
(.wav)
LPCM 非圧縮
FLAC FLAC
(.flac)
FLAC 可逆圧縮
ALAC QuickTime File Format
(.m4a)
ALAC 可逆圧縮
DSD DSF
(.dsf)
ΔΣ変調 非圧縮
DSD DSDIFF
(.dff)
ΔΣ変調 非圧縮

というような表になる。

ハイレゾの定義

「ハイレゾ・オーディオ」の定義はハイレゾオーディオの呼称について(周知)にある。

CD/DVDフォーマットの「サンプリング周波数:44.1KHz(CD)or 48KHz(DVD)」×「量子化(ビットレート):16bit」のどちらかが超えるものをハイレゾと言うというらしい。一覧表にしてみる。チャンネル数はすべて2chで計算。

フォーマット サンプリング
周波数
量子化 ビットレート
kbps
CD比
データ量
CD 44.1 KHz 16bit 1,411.2 1
PCM 44.1 KHz 24bit 2,116.8 1.5倍
PCM 48 KHz 24bit 2,304 1.6倍
PCM 96 KHz 24bit 4,608 3.3倍
PCM 192 KHz 24bit 9,216 6.5倍
DSD
SACD
2.8 MHz 1 bit 5,644.8 4倍
DSD 5.6 MHz 1 bit 11,289 8倍

しかし、業界団体の定義には DSD の存在が抜け落ちているような気がしないではないが、、、

サンプリング周波数(Sampling frequency)

サンプリング周波数は、どのくらい高音までデジタル化するのか、という単位と思えば間違いない。仕様上、この数値の半分の周波数まで音声データとして保存・再生できる。

CD の場合は、44.1KHZの半分の 22KHz まで保存・再生できる。但しデジタル→アナログ変換にともなうノイズをカットするため、安いオーディオシステムでは20KHz近辺でカットされている。人間の耳で聞くことができるのは 20KHz までと言われているので、必要充分なスペック。

ただ、自然界にはそれ以上の高い周波数の音が存在すると言われていて(犬等には聞こえるらしい)、それがCDの限界と長い間言われていた。しかし、人間の耳にはそんな超高音は聞こえない。特に20歳以上は耳の老化が始まるので、まず聞こえない。

体で感じるという意見もあるが、体で感じるのはどちらかというと低い周波数領域。こちらは20Hzが一般的な下限。Hzというのは1秒間に振幅する回数を表す単位で、地震で1~2Hz位。20Hz以下は暴風か地鳴りレベルなので、かなりマニアックな領域に突入する。

そして、低音(低い周波数)領域に関しては、CDもハイレゾも一緒だったりする。

演奏のリアルさに影響するのは、周波数の高低より、微細な音、それも低音だと思う。生の楽器の音と録音された音で、一番差を感じるのは体に響く低音なのだ。だから再生する際にサンプリング周波数をCDより大幅に上げる事にあまり意味は無いのではないかと考えている。聞く人によっては聴こえもしない無駄なデータをファイルに保存してファイルサイズを大きくしているだけ。ハイレゾ否定論者の論拠は主にここにあるようだ。

(録音・編集過程では、コスト的に許される限りサンプリング周波数を上げた方が良いとは思うが)

量子化ビット数(Quantization bit rate)

ハイレゾのもう一方の要素である量子化ビット数。こちらが実はハイレゾの本質であるように思う。CDのビット数である「16bit」とは2の16乗=65,536段階の事。簡単に書くと、録音する音の大小(一番大きな音と一番小さな音の差)を、65,536段階に記録するという事を意味している。

デジタル化の他の例で言うと、デジタル画像の一般的なビットレートは8bit=2の8乗=256段階(諧調)だ。カラー画像の場合はRGB3色でその3倍になるが、1色あたりは256段階に過ぎない。どんな高級デジカメで撮影してもPCで表示できる諧調(明暗の差)は256段階でしかない。

これはPC(ハード)とOS(ソフト)の処理能力の限界から決められたものなので、これから変わるかもしれない。それでも一般的には人間の目はたった256段階で、(アナログと変わらないと)騙されてしまうという事だ。写真の場合、自然界に存在する諧調(明暗差)を全部記録する方法は未だかつて(アナログのフィルムでもデジタルの撮像素子でも)無いので、明暗の上下は切り捨てて記録している。音の場合も似たような事をしているのだ。

デジタル音声の方が、デジタル画像より256倍も多い段階に分解されている。それで大きな音と小さな音の落差を全部記録できているかというと、記録できている音源もあれば記録できていない音源もある。

16bitで事足りるのは、音の強弱の差が少ない音源。演奏する時にPAのような電気機器を通すような音楽は、一般的に音が大きいだけで強弱の差は少ない。具体的にはポップス(演歌やアニソンを含む)やロックのような電気楽器を使うような音楽だ。ポップスでも蚊が飛ぶ音とエレキギターの爆音が併存していて、両方を聞き分けないといけないような曲であれば16bitでは足りないかもしれないが、そういう曲は殆ど無いだろう。

16bitでは音の強弱を記録しきれないのは、自然音と生楽器による演奏だ。録音する時は一番大きな音が歪まない事を基準に録音感度を設定して記録するので、強弱が大きい音源の場合、16bitでは極小の微音が再現されなくなる。これが量子化ビットレートを24bit(=2の24乗=16,777,216段階)にする事で再生可能な音として記録できるようになる。これこそがハイレゾ音楽の一番のメリットだと思う。

極小さな音まで記録できるという事は、CDでは再現できなかった、かすかな高音域の倍音や低音の響きも再現できるという事になる。ここにハイレゾのメリットがあるように思う。

よって、PCM系ハイレゾでは、44.1KHz/24bit ~ 96KHz/24bit が最もリーズナブルなフォーマットなのでは無いかと思っている。

他方 1bit 系ハイレゾの DSD は、デジタル化する方式自体が異なる。方式の説明は他の専門サイトに任せるが、1秒当たりに処理するデータ量がCDの4倍になる処も隠れた?ポイントかと思う。

PCM系(プロの録音現場を含めて)ハイレゾ音源で一般的な 96KHz/24bit がCD比3.3倍なので、DSD が一般的なコンシューマ向けオーディオフォーマットでは最も単位時間当たりのデータ処理量が多い(画像で言えば解像力が高い)のではないか? (デジタルーアナログの変換方式が違うので、そんな単純な話ではないとは思うが、素人的にはそのように考えると分かり易い)

どの方式が良いのか?

マルチビット(PCM)系で一番音質が良いのは、圧縮されていない WAVE(WAV) 形式のファイル。(WAVE 自体は音声ファイルを保存する入れ物の形式なので、中身の音声信号(コーデック)は圧縮も非圧縮も可能。ただし、ハイレゾ音源として使われる場合は、非圧縮コーデックの LPCM で保存される。)

但し、WAVE は古い規格であるため、ジャケット写真や曲名等の便利情報を記録できないという欠点がある。また非圧縮なのでファイルサイズも大きい。なので、カジュアルに良い音を楽しみたい人には不向きなファイル形式だ。

良い音を便利に楽しみたいのであれば、マルチビット系では FLAC か ALAC 形式のハイレゾファイルを扱う方が良いと思う。

DSD がベスト!

PCM系には録音時に使われる事がある 192KHz/24bit という仕様もあるが、人間には聞こえない超高音を再生する事の意味の微妙さを考えると、再生音源として現時点では DSD が最も高音質なハイレゾフォーマットなのだと思う。そして、いくつか聞いてみた結果も、DSD で配信されている音源が一番良い音に感じられた。

DSD の録音マスター仕様の DXD(Digital eXtreme Definition)というフォーマットもあるが、まだ一般的では無いようだ。

よって、ハイレゾ音楽を楽しむのであれば、DSDフォーマットを再生できる D/A(Digital/Analog)コンバータ(変換装置)を選ぶ事がポイントになる。

一般ピープルが買える価格帯で、DSDフォーマットに対応し、尚且つ Windows PC、Macintosh、iOS等のスマホすべてに対応している DAコンバータは、2014年後半から色々出てきている。

その中でコストパフォーマンスが高く使い勝手も良いのは、2013年末に他社に先駆けて発売された英国 iFi の D/A コンバータ(+ヘッドフォンアンプ) nano iDSD だ。

iFI nano iDSD のパッケージ

iFI nano iDSD のパッケージ

このバッテリー内蔵 D/A コンバータ(+ヘッドフォンアンプ)は、中々の優れものだ。

続く

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

CAPTCHA