Warning: copy(htaccessbak): failed to open stream: No such file or directory in /home/jtokkyo/public_html/header.php on line 10
MP3音楽データ再生方法及び装置 - 特開2001−324996 | j-tokkyo
トップ :: G 物理学 :: G10 楽器;音響

【発明の名称】 MP3音楽データ再生方法及び装置
【発明者】 【氏名】林 佳樹

【要約】 【課題】MP3音楽データの再生時にも、音の空間的な広がりを持たせ、より高いレベルの音質で再生する。

【解決手段】ファイルB側を元に、新たに16KHz以上の音声成分(ノイズ成分)を作り出し、ファイルBに付加した(以後このファイルをファイルCという)。その結果、ファイルCは、音源をMP3ファイルにエンコーディング、デコーディングした後もCDクオリティの音に戻すことができる。つまり、MP3エンコーディング及びデコーディングの際に失われる16KHz以上の音声成分を、MP3プレーヤー等のハードウェアにノイズ成分を発生させる装置を内蔵することにより、MP3のCD音源のサウンドクオリティに戻すことができる。
【特許請求の範囲】
【請求項1】 MPEG−1 Audio Layer3(以下、MP3という)規格で不可逆圧縮された音楽データ(MP3音楽データ)を、原音に近い音域で再生するための音楽データ再生方法であって、前記MP3音楽データの周波数成分から基音を抽出し、この基音から倍音となる周波数成分を生成し、生成した倍音の周波数成分の内、超高音域の周波数成分のみを残して、その他をカットし、当該残った超高音域の周波数成分を、前記基音に対するゲインに基づいて増幅し、前記MP3音楽データから音色の時間的変化特性を抽出し、この時間的変化特性に基づいて、前記増幅された超音域の周波数成分と、元のMP3音楽データの周波数成分と、を合成して再生する、ことを特徴としたMP3音楽データ再生方法。
【請求項2】 前記カットする周波数成分が16KHz以下であることを特徴とする請求項1記載のMP3音楽データ再生方法。
【請求項3】 MPEG−1 Audio Layer3(以下、MP3という)規格で不可逆圧縮された音楽データ(MP3音楽データ)を、原音に近い音域で再生するための音楽データ再生装置であって、エンコードされたMP3音楽データが入力される入力手段と、前記入力手段に入力されたMP3の音楽データの周波数成分から基音を抽出する基音抽出手段と、前記基音抽出手段で抽出した基音から倍音となる周波数成分を生成する倍音周波数成分生成手段と、前記倍音周波数成分生成手段で生成した倍音の周波数成分の内、MP3への圧縮時にカットされるしきい値を超える高音域周波数成分を残し、ノイズとなる前記しきい値以下の周波数成分をカットするノイズカット手段と、前記ノイズカット手段でカットされた後の周波数成分を、前記基音に対するゲインに基づいて増幅する増幅手段と、前記MP3音楽データから音色の時間的変化特性を抽出する時間的変化特性抽出手段と、前記時間的特性変化抽出手段で抽出された音色の時間的変化特性に基づいて、前記増幅手段で増幅された超音域の周波数成分と、元のMP3音楽データの周波数成分と、を同期させながら合成する合成手段と、前記合成手段で合成された合成MP3音楽データを再生する再生手段と、を有するMP3音楽データ再生装置。
【請求項4】 前記しきい値が16KHzであることを特徴とする請求項3記載のMP3音楽データ再生装置。
【発明の詳細な説明】【0001】
【発明の属する技術分野】本発明は、MPEG−1 Audio Layer3(以下、MP3という)規格で不可逆圧縮された音楽データ(MP3音楽データ)を、原音に近い音域で再生するための音楽データ再生方法及び装置に関する。
【0002】
【従来の技術】従来、コンピュータ上で音声(音楽)を扱うデータ規格の中には、WAVデータ形式が代表的である。WAVデータ形式では、CD(コンパクト・ディスク)並の音質でデータ化できる。
【0003】ところが、WAVデータ形式では、1秒間の音声(音楽)の録音に192KB(キロバイド)必要となる。この容量(192KB)は、96000文字のテキストデータの量に相当するものであり、一般に3分程度の音楽を録音しようとすると、50MB(メガバイド)前後の容量が必要となる。これは、膨大なデータサイズであり、コンピュータでは扱い難いものであった。
【0004】ところで、近年、MP3という圧縮技術が提唱され、前記WAVデータを1/0〜1/12に圧縮することができるようになった。
【0005】MP3は、正式には、Motion Picture Expect Group−1(MPEG−1)Audio Layer3といい、元の音楽データを不可逆圧縮するものである。
【0006】ここで、従来は、音声(音楽)ファイルをネット上で公開する手段としては、「リアルオーディオ」や「WAVファイル」等が適用されていたが、この2つには一長一短があり、「リアルオーディオ」は、リアルタイムに音声(音楽)を配信することが可能であるが、CD並の音質とは程遠く、一方、「WAVファイル」は、音質はCD並であるが、ファイルサイズが前述のように非常に大きいなっていた。
【0007】これに対して、このMP3の再生音質は、前述の如くCD並を維持することができ、しかもデータサイズも1/10〜1/12程度と極めて小さいため、コンピュータ(インターネットを含む)でも取り扱いが容易である。
【0008】ここで、MP3は、そのデータサイズを縮小するために、不要な周波数(超高音域と、超低音域)をカットしている。このように、人間の聴覚特性を使い、ぎりぎりまでデータサイズを削ることで、データの縮小化が図れている。このような、周波数カットは、基本的にはこの帯域の周波数は人間がとんど感じる(聞こえる)ことはなく、問題ないとされていた。
【0009】
【発明が解決しようとする課題】しかしながら、出願人は、人間の聴覚が、上記のように実際に音として感じている周波数帯域のみで音の感じているのではなく、音の空間的な広がりを感じるためには、上記カットした超高音域が重要な要素であることを見出した。
【0010】従って、CD並の音質とされていたMP3音楽データを再生した場合、音自体はほぼ忠実に再生することはできるが、音の広がりという概念的なものが足りず、空間的な広がりに乏しい音になっている。
【0011】本発明は上記事実を考慮し、MP3音楽データの再生時にも、音の空間的な広がりを持たせ、より高いレベルの音質で再生することができるMP3音楽データ再生方法及び装置を得ることが目的である。
【0012】
【課題を解決するための手段】本発明に係るMP3音楽データ再生方法は、MPEG−1 Audio Layer3(以下、MP3という)規格で不可逆圧縮された音楽データ(MP3音楽データ)を、原音に近い音域で再生するための音楽データ再生方法であって、前記MP3音楽データの周波数成分から基音を抽出し、この基音から倍音となる周波数成分を生成し、生成した倍音の周波数成分の内、超高音域の周波数成分のみを残して、その他をカットし、当該残った超高音域の周波数成分を、前記基音に対するゲインに基づいて増幅し、前記MP3音楽データから音色の時間的変化特性を抽出し、この時間的変化特性に基づいて、前記増幅された超音域の周波数成分と、元のMP3音楽データの周波数成分と、を合成して再生する、ことを特徴としている。また、この発明において、前記カットする周波数成分が16KHz以下である。
【0013】本発明に係るMP3音楽データ再生装置は、MPEG−1 Audio Layer3(以下、MP3という)規格で不可逆圧縮された音楽データ(MP3音楽データ)を、原音に近い音域で再生するための音楽データ再生装置であって、エンコードされたMP3音楽データが入力される入力手段と、前記入力手段に入力されたMP3の音楽データの周波数成分から基音を抽出する基音抽出手段と、前記基音抽出手段で抽出した基音から倍音となる周波数成分を生成する倍音周波数成分生成手段と、前記倍音周波数成分生成手段で生成した倍音の周波数成分の内、MP3への圧縮時にカットされるしきい値を超える高音域周波数成分を残し、ノイズとなる前記しきい値以下の周波数成分をカットするノイズカット手段と、前記ノイズカット手段でカットされた後の周波数成分を、前記基音に対するゲインに基づいて増幅する増幅手段と、前記MP3音楽データから音色の時間的変化特性を抽出する時間的変化特性抽出手段と、前記時間的特性変化抽出手段で抽出された音色の時間的変化特性に基づいて、前記増幅手段で増幅された超音域の周波数成分と、元のMP3音楽データの周波数成分と、を同期させながら合成する合成手段と、前記合成手段で合成された合成MP3音楽データを再生する再生手段と、を有している。
【0014】また、この発明のおいて、前記しきい値が16KHzであることを特徴とする。
【0015】上記発明によれば、MP3音楽データは、不可逆圧縮されるため、解凍したときに、元の周波数成分とは異なり、特に、高音域の周波数成分(例えば、16KHz以上)が圧縮時に完全にカットされるため、解凍時はこの帯域はなくなっている。この高音域は、人間が聞こえることがない帯域であるのに、空間的な広がりを考えた場合には、必要な音域である。
【0016】そこで、MP3音楽データの周波数成分から基音を抽出する。すなわち、音楽データの周波数成分は、その多くが基音と倍音が合成された複合音であり、その音の成分中、最も周波数が低く強い成分である基音を抽出する。
【0017】前述のように、基音に倍音を合成したのが複合音であるため、基音が抽出できれば、その倍音を合成することで、基本的には、元の周波数特性とほぼ同一の周波数特性が生成できるはずである。しかし、実際は単音自体が単一であることはないため、通常の周波数帯域での前記基音と倍音とが合成された複合音はノイズとなる。
【0018】一方、16KHz以上の周波数帯域では、この合成された複合音が空間的な広がりを作る音として機能するため、高音域の周波数成分のみを残して、その他をカットする。その後、この高音域の周波数成分を基音に対するゲインに基づいて増幅する。
【0019】一方、前記MP3音楽データから音色の時間的変化特性を抽出することで、この時間的変化特性に基づいて、前記増幅された超音域の周波数成分と、元のMP3音楽データの周波数成分と、を同期させながら合成することができる。この合成された合成MP3音楽データを再生すると、音の広がりとして必要であった高音域の周波数帯域に音圧が存在するため、さらにCD等の音質に近づけることができる。
【0020】
【発明の実施の形態】(MP3音楽データ生成(圧縮))MP3の圧縮の基本は、音の無駄な部分を取り去って、指定されたビットレートに収まるようにすることである。基の音楽がCDに記憶された音楽データの場合、ビットレートは約1400キロビットであり、これから9/10の不要な部分を取り去ることで、128キロビットのMP3音楽データを作成することができる。
【0021】上記不要部分を取り去るには、図1に示される過程を経ることで実行される。
【0022】基の音楽データ(例えば、音楽CD)は、分岐されて、一方がサブバンド分解部10へ入力され、他方がフーリエ変換(周波数分析)部12へ入力される。
【0023】サブバンド分解部10では、まず、基の音楽データ(例えば音楽CD)を1/32のサンプリング周波数でサンプリングし直す。このように、周波数の範囲を釘ってサンプリングし直し、基の音楽データに含まれる周波数成分毎にデータの性質を調べることが可能となる。
【0024】一方、フーリエ変換部12でフーリエ変換された結果から、どの部分が他の音に掻き消されてしまい、不要となるものを判断する心理聴覚評価部14へ送られる。
【0025】上記サブバンド分解部10と心理聴覚評価部14との結果はMDCT(変形離散コサイン)部16へ送られ、サブバンド分解されたデータをさらに細かく周波数単位のデータに変換する。この段階でデジタル化された数値から、周波数における表記に変換され、量子化部18へ送られる。量子化部18では、MDCT部16及び心理聴覚評価部14のそれぞれの周波数成分を数値化し、周波数領域ごとに、適当に除算処理が施される。すなわち、量子化部18では、心理聴覚評価によって得られた結果から、どの周波数に何ビットを割り当てる得てるかが決まる。
【0026】量子化部18での処理結果は、ハフマン符号化部20において、可逆圧縮され、データは圧縮され、MP3音楽データが作成される。
(MP3音楽データの再生)ここで、MP3音楽データの再生は、可逆圧縮されたものを解凍したデータを専用のソフトウェア等で再生処理を行うのが一般的であるが、本実施の形態では、符号化されたMP3音楽データを以下の手順で処理している。
【0027】図2に示される如く、ステップ100で符号化されたMP3音楽データを取込み、次いでステップ102でMP3音楽データの周波数成分から基音を抽出すると共にこの基音から倍音を生成する。
【0028】次のステップ104では、前記合成音(基音+倍音)の周波数成分の内、16KHz以上の周波数帯域のみを残し、それ以外をノイズとしてカットする。16KHz以上の周波数帯域では、この合成された複合音が空間的な広がりを作る音として機能する。
【0029】その後、ステップ106では、この高音域の周波数成分を基音に対するゲインに基づいて増幅した後、ステップ108へ移行する。
【0030】一方、ステップ110では、上記ステップ102からステップ106の処理と同時に、エンベロープが抽出され、ステップ108において、前記増幅されたデータをエンベロープフォロワー回路を通すことで、基のMP3音楽データとの同期をとり、次いでステップ112で、増幅された超音域の周波数成分と、元のMP3音楽データの周波数成分と、を同期させながら合成する(合成MP3音楽データ)。この合成MP3音楽データを専用のソフトウェア等で再生処理する(ステップ114)
【実施例】基のMP3音楽データと合成MP3音楽データを、それぞれ音楽CDデータと比較するため、以下の表1に示すシステムを使用した。
【0031】
【表1】

上記システムにおいて、まず、CD音源(Sample Rate 44.1KHz)をProtoolsハードウェア経由LOGIC AUDIOに取込んだ後(以後このファイルをファイルAという)、PEAK 2.1+Shockwave Export XTRA でMP3ファイルに変換する。
【0032】このファイルAをSound Jam MPにて再生し、Protools ハードウェア経由PCM-7040にコピーし、再びProtools ハードウェア経由でLOGIC AUDIOに取込む(以後このファイルをファイルBという)。以上の2種類のファイルAとファイルB同時に再生し、それぞれの周波数特性Spectra Fooにて測定した。
【0033】ファイルBへの変換の際の最も大きな変化として、ファイルB側には、16KHz以上の音声が存在しないことが認められた。 この2種類のファイルの周波数特性をほぼ同一のものとするため、ファイルB側を元に、DUY DSPider , MacDSP FilterBank , Waves Renaissance EQ を使用して、新たに16KHz以上の音声成分(ノイズ成分)を作り出し、ファイルBに付加した(以後このファイルをファイルCという)。その結果、ファイルCは、音源をMP3ファイルにエンコーディング、デコーディングした後もCDクオリティの音に戻すことができた。
【0034】つまり、MP3エンコーディング及びデコーディングの際に失われる16KHz以上の音声成分を、MP3プレーヤー等のハードウェアに上記の実験で作り出したノイズ成分を発生させる装置を内蔵することにより、MP3のCD音源のサウンドクオリティに戻すことができる。
【0035】
【発明の効果】以上説明した如く本発明に係るMP3音楽データ再生方法及び装置は、MP3音楽データの再生時にも、音の空間的な広がりを持たせ、より高いレベルの音質で再生することができるという優れた効果を有する。
【出願人】 【識別番号】500219700
【氏名又は名称】株式会社ジャパンミュージックエージェンシー
【出願日】 平成12年5月15日(2000.5.15)
【代理人】 【識別番号】100079108
【弁理士】
【氏名又は名称】稲葉 良幸 (外2名)
【公開番号】 特開2001−324996(P2001−324996A)
【公開日】 平成13年11月22日(2001.11.22)
【出願番号】 特願2000−142589(P2000−142589)