音声ファイル形式について徹底解説!!

音声ファイル形式

動画編集の深い知識 01

音声ファイル形式について徹底解説!!

今回の内容は音声ファイル形式について深堀して解説をしていきます。

動画や画像ファイルの形式と同様に音声ファイルの形式も多くの種類があります。詳しく知りたい方はぜひ最後まで読んでいただければと思います。

デジタル音声ファイルはコピーが簡単にできてしまうため、音楽ファイルの不正コピーや不正配布が近年問題になっています。


アナログデータとデジタルデータ

そもそもデジタル音声ファイルが読み込まれる仕組みは、アナログ信号をデジタルデータに変換することで保存されます。

アナログデータ

アナログとデジタルの違いを詳しく説明をすることは中々難しいかと思いますが、一般的に例えるならまず時計が浮かびませんか?
デジタル時計は数値を電子版で一定間隔で表示するのに対して、アナログ時計は秒針が動くことによって、タイムリーな時間の経過を表現することができます。
デジタル時計も場合は、細かい時間、つまり秒と秒の間の時間を0.1秒を表現することはできませんが、アナログ時計はずっと秒針が動いているので、絶え間なく時間を表現することが可能です。これは連続的な物理量を表現していることになります。

では、時計以外のアナログ製品は、その製品の音や映像などのデータは、どのように説明することができるのでしょうか?
生活に浸透している、または浸透していたアナログデータを取り扱う製品や様々なサービスには下記のようなものがあります。

  • カセットテープ
  • ビデオテープ
  • 写真フィルム
  • アナログ電話
  • アナログ放送
  • レコード

そもそもこれらのアナログというものは、音声や映像、外観や風景などの情報(振動や光などの周波数など)を電気の波であるアナログ信号に変換して処理して使用しています。
ですので、アナログの電気信号をそのまま保存したもの、つまり音や映像そのものを記録したものがアナログデータということになります。
アナログデータは、原音や実際の映像から得た電気信号そのものを利用したり、媒体に焼き付けて保存するとイメージしていただけばいいです。

アナログデータは実際の音や映像に限りなく近く誤差は少ないというのが長所ですが、そのデータの質は、取り扱う機器(録音・再生機器、モニター)の精度に大きく依存してしまいます。つまり、アナログデータが限りなく誤差の少ない忠実に表現されたデータだったとしても、それを再生する機器の性能によって、大きく誤差が出てしまったり、完全に表現しきれないことがあるということになってしまいます。

このようにアナログデータには問題がありますが、アナログデータの本質は実際の音や映像に限りなく近い表現ができるということです。これだけを聞くとデジタルデータよりアナログデータの方が本物に近く質がいいのではないか?でも世の中では、この認識はなくてアナログは古くて時代遅れだというイメージがついてしまってます。どうしてでしょうか…。

実はアナログデータにはデジタルデータに劣る致命的な欠点があります。それは、外部環境の影響(ノイズ)を受けやすく、時間経過や複製によってデータが劣化してしまうという特徴があります。天気の悪い日にはアナログ放送は映像が乱れることが多かったり、アナログデータを媒体するカセットテープやビデオテープは、ダビングを繰り返したり、数年後に再生したりすると、劣化して綺麗に見ることができなくなってしまうという経験をされた方も多いのではないでしょうか。
実はアナログデータは、送られる電波が山や建物などの障害物にぶつかって劣化しますので、障害物がなければ、デジタルデータにも劣らない鮮明で美しい映像を配信することができるんです。そして、特に音楽では、良質な音質を探究して、現在でもデジタルではなく高価なアナログ再生機器を愛用している方がたくさんおられることも事実です。


デジタルデータ

デジタルデータとは、アナログ信号を数値化したものになります。

サンプリング周波数(サンプリングレート)

アナログ信号からデジタルへ変換の方法を詳しく解説していくと、まず一定の間隔で音の波形を記録測定する『標本化』という作業が必要になります。そして、その標本化の周期のことを『サンプリング周波数(サンプリングレート)』といいます。サンプリング周波数は、1秒間に標本化(サンプリング)する回数を表していて、単位は『Hz(ヘルツ)』になります。つまり、1秒間に何回の音を測定して記録するかを表している単位で、数値が高いほど原音に忠実になって、高音質になります。ただし、高音質になればなるほど、もちろんデータ量も比例して大きくなってしまいます。

通常使用されているCDのサンプリング周波数は44.1KHzです。
ただサンプリング周波数は高くしても、実際にサンプリングしきれない音や周波数帯域があるので、音楽家やマニアックな方の中には、とても高価なアナログ製品を愛用する方もおられます。

サンプリングビット

音質に影響を及ぼすのはサンプリング周波数だけでなく、音の強弱(音量)を表す『サンプリングビット』やステレオやモノラル、5.1chなどの録音された音のライン数である『チャンネル数』も影響します。いずれもサンプリング周波数と

音質に影響を与えるのは、サンプリングレートだけではなく、音の強弱(音量)を表す「サンプリングビット」(16ビットなら6万5535、24ビットなら1677万7215の数値精度で音量の変化を表現する)や「チャンネル数」(ステレオやモノラル、5.1chといった録音された音のラインの数)なども影響します。いずれも値が高いほど高音質になります。

ビットレート

もう一つ音質に大きく影響を与えるのが、1秒間あたりに記録(処理)するデータ量を表す『ビットレート』と呼ばれ、単位は『bps』になります。これは、ビットレートの数値が大きいほど、多くの情報を格納できるということで、高音質となります。よく聞くMP3というファイル形式では、128Kbpsが聴くに耐えうる最低限どのビットレートとされています。

ビットレートには2種類あり、『固定ビットレート』と呼ばれるものと『可変ぶビットレート』と呼ばれるものがあります。固定ビットレートは、音声の最初から最後まで、固定された一定の同じビットレートで、可変ビットレートは音声情報の量に応じてビットレートが増減します。
可変ビットレートにすることで、複数の音声が混在する節にはビットレートを高くして、単純で音声が少ない節はビットレートを低くすることで、全体的にファイルサイズを小さくすることが可能となります。

サンプリングレート(Hz)、サンプリングビット、ビットレート(bps)は、これらが、音声のアナログ信号をデジタル化したデータに含まれる情報となります。ただし、このデジタル化したデータも、そのままでは利用することができないので、任意のファイル形式に変換して保存することで、初めてその形式に対応するメディア機器やアプリソフトなどで利用することが可能となります。

こうしたデータの保存形式のことを『ファイルフォーマット』といい、これは拡張子がついたファイル形式になります。

ファイル形式の変換についてはこちらの記事⬇︎⬇︎を参照ください。(初心者向け)

動画・音楽形式、コーデックとコンテナの違い 動画・音声形式とは!?書き出し形式の意味がわからないという方必見!!



コーデック(CODEC)

上記の『動画・音声形式、コーデックとコンテナの違い』についての記事で、コーデックについては解説をしておりますので、ここでの詳しい説明は割愛させていただきます。
コーデックはアナログ信号をデジタル化したデータを、ファイルフォーマットとしてコンテナ化するために、コーデックを用いて加工(符号化)することをいいます。ですのでコーデックの種類は数多くあって、その分だけ符号化する方法があるということになります。

圧縮方式(エンコード、デコード)

コーデックはファイル作成時にデータを圧縮(エンコード)して符号化します。そして、ファイルを再生するときに圧縮を解除(伸張、デコード)して再生します。現在ではコーデックといえば、このような圧縮方式のプログラムことを指します。
音声ファイルや動画ファイルを再生するためには、そのファイルフォーマットに対応したプレーヤーソフトが必要ですが、それとは別に、一度圧縮され符号化されているファイルを解凍するコーデック(圧縮した時と同じコーデック)も必要になります。ZIPやLZHのような圧縮ファイルと同様に、圧縮や解凍するソフトがなければ、ファイルを扱えないのと同じことです。ただ、音楽・動画ファイルの場合は、ファイルフォーマットの拡張子からは、符号化に使用されたコーデックを判断することができない場合があります。それは、通常はファイルフォーマットに対して、コーデックは1つのことが多いですが、中には1つのファイルフォーマットに複数のコーデックが対応している形式があるためです。動画ファイルにおいては、再生機器はそのファイルフォーマットに対応しているにもかかわらず、符号化に使用されたコーデックがないために、再生できないという場合もあります。

コンテナフォーマット(コンテナファイル)

複数の符号化形式に対応して、複数の符号化形式を同時に格納することができるフォーマットをコンテナフォーマット(コンテナファイル)といいます。
コンテナフォーマットは動画などのマルチメディアコンテンツに使用され、映像ファイルや音声ファイルなど、複数のファイル形式を格納するために用いられるため『コンテナ』といわれています。
動画コンテナの場合は映像ファイルと音声ファイルの2つの符号化が必要なため、コンテナにそれぞれのファイル形式でコーデックして、格納することになります。そして、このように複数の符号化し格納したコンテナファイルを再生するためには、符号化に使用したコーデックが必要になります。

ちなみに、音声フォーマットの場合は動画フォーマット(コンテナ化)の場合とは異なり、格納するデータは音声ファイルのみになるので、対応コーデックは1つになります。そのため符号化されたデータをそのままファイルフォーマットとして使用することが可能です。それは簡単にいうとJPEGやPNGなどの画像形式と同じことで、圧縮や伸張をしてもファイルフォーマットが変わらないということ。つまり、MP3を例に出すとMP3コーデックで符号化したデータを、MP3ファイルフォーマット(コンテナ)に格納しても、ファイルフォーマットとコーデックの名称はそのまま同じMP3になります。音声コーデックとして圧縮(エンコード)された符号化データは、そのまま音声ファイルフォーマットとして形式化することも可能ですし、動画コンテナに格納することもできます。


音声ファイルフォーマットの種類

音声ファイルフォーマットには『非圧縮』『非可逆圧縮』『可逆圧縮』の3種類に分類することができます。

非圧縮の音声ファイル形式

非圧縮の音声ファイル形式を紹介していきます。

WAVE形式(.wav)

Windowsの標準音声ファイルフォーマットで、拡張子は『.wav』になります。
符号化の方法については規定されていないため、任意のものを使用することができますが、基本的には非圧縮形式であるので、BMP形式と同じくファイルサイズが大きいためデータ量も大きいという特徴があります。サイズは1分間の音声で10MBが必要です。ただ、音質は CDとほぼ同じで、そのために原音として最初の録音時にまずWAVE形式で録音保存し、それから各コーデック によって圧縮したフォーマットへ変換する方法で一般的に使用されています。
複雑な音声であっても無音であっても、同じビットレート(固定ビットレート)で記録を行うため、一定時間あたりのファイルサイズは変わりません。

AIFF形式(.aif)

Macの標準音声ファイルフォーマットになります。拡張子は『.aif』で、使用方法はWAVE形式と変わらず、基本的にはWAVE形式のMac版だと考えてもらえればいいかと思います。


非可逆圧縮の音声ファイル形式

非可逆圧縮の音声ファイル形式を紹介していきます。

MP3=MPEG Audio Layer-3(.mp4)

MPEGという動画ファイル形式で利用される音声圧縮形式で、拡張子は『.mp3』になります。
Layer層は1〜3層あり、その中でも圧縮率が最も高いのが『Layer-3』になります。MP3は上記でお話ししたように、MP3コーデックで符号化したデータを、そのままMP3フォーマット外して格納(コンテナ化)し、MP3形式にすることも可能ですし、MPEGなど動画コンテナの音声部分として、他のコンテナファイルに音声ファイルとして格納することができます。
MP3の特徴は、非可逆的圧縮に音声ファイル形式のため、一度劣化してしまったものを元に戻すことはできませんが、CD並の音質を保ったまま、約1/10くらいまでデータサイズを圧縮することができるコーデック になります。

MP3形式は高音質であってファイルサイズも1曲3〜5MB程度と小さいことから、ウェブやスマートフォン、その他音楽プレーヤーなど、最も普及している音声ファイル形式です。

MP3形式の音声ファイルを作成するときは、『LAME』というMP3エンコーダを用いるのが一般的です。
LAMEなど機能に優れたMP3エンコーダや、フォーマットを複合化する多くのデコーダは、そのプレーヤーソフトがライセンスフリー(無料)で使用できることが、MP3が爆発的に普及した要因といわれています。
ただ、これらのソフトは、著作権保護のための不正コピーを防止する機能を持っていないために、MP3の不正コピーファイルがウェブ上に出回ってしまい、深刻な社会問題となっています。
コピーした音楽ファイルを第三者へ配布する行為や、個人のウェブサイトに許可なくアップロードすると、違法になってしまうので注意が必要です。


MP3PRO

 MP3をベースとして音質と圧縮率を向上させ、音質を保ったままMP3の約半分までサイズを圧縮することができます。
マニアユーザーに人気の高いCD-R/RWライティングソフトである『nero』。nero5.5特別限定盤というもので、MP3PROに完全に対応したものが登場しました。
その実力評価についてはこちらの記事を参照ください⬇︎⬇︎
https://av.watch.impress.co.jp/docs/20011112/dal34.htm

AAC=Advanced Audio Coding(.aac、.mp4…)

AACはMPEG2やMPEG4の動画形式で採用されている音声圧縮形式になります。
MPEG1という動画形式で使用されている音声圧縮形式がMP3であり、AACはMP3の後継というべき形式になります。MP3が爆発的に普及したことによって、影を潜めていましたが、iTunesやipad、iPhoneなどに採用されたことで、広く認知されるようになりました。

AACはMP3と同じく、AACコーデックで符号化されたデータの圧縮形式を、そのままAACファイルにすることもできますし、そのままコンテナファイルに格納(コンテナ化)することもできます。拡張子は、どのコンテナに格納するかによって変化します。
例として、MPEG4にコンテナ化した場合、拡張子は『.mp4』、音声ファイルの場合は『.m4a』となることが多い。またMP3と同じく、AACデータをそのままファイル化した場合には、拡張子は『.aac』となります。

AAC形式の音声ファイルは、MP3よりも約1.4倍程圧縮率が高く、サンプリングレートもMP3は48KHzまでの対応だったのに対して、AACは最大96KHzまでをサポートしています。
主にApple社の製品の音声部分に広く利用されており、これらは不正防止機能を備えてます。

WMA=Windows Media Audio(.wma)

Microsoft社が開発した Windows標準の音声圧縮形式で、拡張子は『.wma』になります。
CD並の音質を維持したまま、22分の1(64Kbps)まで圧縮することが可能な高圧縮で高音質な音楽ファイル形式です。また著作権保護のために暗号化することで不正コピーを防止したり、有料のコンテンツとして配信することも可能です。

MP3やAACと同じく、符号化されたデータをそのままフォーマット化したり、WMVという動画コンテナの音声部分に格納(コンテナ化)されることもあります。現在では様々な音楽配信などに広く利用されています。

Ogg Vorbis(.ogg)

ライセンスフリー(無料)の音声圧縮形式で、コンテナフォーマットが『Ogg』、コーデックが『Vorbis』両方を合わせて『Ogg Vorbis』になります。
拡張子は複雑で、音声ファイルの拡張子を『.oga』、動画ファイルの拡張子を『.ogv』、動画・音楽共通の拡張子は最初は『.ogg』でしたが、現在では『.ogx』に変更されました。ただ、『.ogg』の拡張子も相互性のために残されています。

Voribis形式は、MP3コーデックが特許ライセンスを請求し始め、自由に利用できなくなってきたので、ライセンスフリーで代替えの効く非可逆圧縮形式の音声ファイルとして開発されたという背景があります。
Voribisは可変ビットレートで圧縮され、同じビットレートならMP3よりも高音質とされており、同じ音質ならMP3よりも圧縮率を高くすることが可能です。

RealAudio(.rm)

RealNetworks社が開発した音声圧縮形式で、拡張子は『.rm』になります。
RealNetworks社は、RealAudioファイルの配布と再生のためのシステムも提供しています。
RealAudioの特徴として、通常ファイル再生を行う場合は、ダウンロード完了後でないと再生することができませんが、RealAudioはファイルをダウンロードしている状態で、ファイルをダウンロードできたところからの再生が可能です。この技術を『ストリーミング』といい、インターネットラジオやウェブで生配信されるコンサート、音楽視聴などに利用されています。また、RealAudio形式の音声ファイルを再生するためのアプリソフトとして『RealPlayer』があります。

その他にも、SONYが開発した圧縮形式である『ATRAC3』、DVDやゲームなどの5.1chに対応した臨場感溢れる音声再生が可能な『Dolby Digital』など多くの種類があります。


可逆圧縮の音楽ファイル形式

可逆圧縮の音声ファイル形式を紹介していきます。

FRAC=Free Lossless Audio Codec(.flac、.fla)

FEACの拡張子は『.flac』または『.fla』になります。主にコーデックとして使用され、可逆圧縮のため圧縮前の元の状態に完全に復元することが可能です。
ライセンスフリーの形式で、その多くはOggコンテナに格納(コンテナ化)され、Ogg FLACと呼ばれます。
CDなどの音源をパソコンに保存しておく場合には、可逆圧縮であるFLACなどの形式に変換し保存しておくことで、少ない容量のファイルでいつでも原音を完全に復元することが可能となります。

Monkey’s Audio(.ape)

WAVE方式を可逆圧縮したライセンスフリーの圧縮形式で、猿音、猿などども呼ばれています。拡張子は『.ape』になります。
これは、WAVE形式のファイルを圧縮するのにコーデックとして使用され、高い圧縮率で保存することが可能です。

TTA=The True Audio(.tta)

ライセンスフリーの可逆圧縮方式で、拡張子は『.tta』になりますが、格納するコンテナによって拡張子が変化します。
解凍・伸張(デコード)速度と再生時のハードウェア負荷でFRACに劣り、圧縮率でMonkey’s Audioにわずかに劣りますが、圧縮(エンコード)速度では、他の形式を上回るとされています。

この他にも、可逆圧縮に対応した形式には『WMA Lossless』やApple社製品で使用する『Apple Lossless』などがあります。


最後に

音声ファイルはフォーマットとコーデックがどちらの意味でも使用されるため、両者の違いが理解しにくいですが、多くの場合、原音である非圧縮のWAVE形式など、圧縮するコーデックの意味で使用されます。



以上、最後まで読んでいただきありがとうございました♪( ´θ`)ノ





コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です