トップ :: H 電気 :: H04 電気通信技術




【発明の名称】 多重化装置、多重化方法および多重化プログラム
【発明者】 【氏名】本庄 智典

【要約】 【課題】非圧縮映像データと圧縮音声データとの同期が容易でかつ高品質なストリームデータを、簡単な処理により生成すること。

【構成】多重化装置100は、入力されてくるコンテンツデータを、圧縮映像データと圧縮音声データとに分割するDEMUX111と、DEMUX111により分割された圧縮映像データを伸張するVideo Dec112と、Video Dec112により伸張された映像データを所定のデータ形式へ変換するVideo ENC121と、Video ENC121により分割された圧縮音声データに、Video ENC121により変換された映像データを同期させる同期情報を書き込むASIN122と、Video ENC121により変換された映像データとASIN122により同期情報が書き込まれた圧縮音声データとを多重化することにより、ストリームデータを生成するMUX123と、を備える。
【特許請求の範囲】
【請求項1】
入力されてくるコンテンツデータを、圧縮映像データと圧縮音声データとに分割する分割手段と、
前記分割手段により分割された圧縮映像データを伸張する伸張手段と、
前記伸張手段により伸張された映像データを所定のデータ形式へ変換する変換手段と、
前記分割手段により分割された圧縮音声データに、前記変換手段により変換された映像データを同期させる同期情報を書き込む書込み手段と、
前記変換手段により変換された映像データと前記書込み手段により同期情報が書き込まれた圧縮音声データとを多重化することにより、ストリームデータを生成する多重化手段と、
を備えることを特徴とする多重化装置。
【請求項2】
前記書込み手段は、前記同期情報として前記圧縮音声データの再生開始タイミングをあらわすポーズ情報を書き込むことを特徴とする請求項1に記載の多重化装置。
【請求項3】
前記書込み手段は、前記同期情報として前記圧縮音声データの再生開始時刻をあらわすタイムスタンプ情報を書き込むことを特徴とする請求項1または2に記載の多重化装置。
【請求項4】
前記多重化手段により生成されたストリームデータを再生する再生手段を備え、
前記再生手段は、前記ストリームデータに多重化された圧縮音声データに書き込まれている同期情報を用いて、前記ストリームデータに多重化されている映像データと前記圧縮音声データとを同期させることを特徴とする請求項1〜3のいずれか一つに記載の多重化装置。
【請求項5】
前記多重化手段により生成されたストリームデータを再生する再生手段を備え、
前記再生手段は、前記同期情報として圧縮音声データに書き込まれた当該圧縮音声データの再生開始タイミングをあらわすポーズ情報に基づいて、前記映像データと前記圧縮音声データとの再生開始タイミングの間隔を求め、前記映像データと、前記圧縮音声データとを同期させることを特徴とする請求項2に記載の多重化装置。
【請求項6】
前記多重化手段により生成されたストリームデータを再生する再生手段を備え、
前記再生手段は、前記同期情報として前記圧縮音声データに書き込まれた当該圧縮音声データの再生開始時刻をあらわすタイムスタンプ情報に基づいて、前記映像データと前記圧縮音声データとの再生開始時刻の時間差を求め、前記圧縮音声データとを同期させることを特徴とする請求項3または5に記載の多重化装置。
【請求項7】
入力されてくるコンテンツデータを、圧縮映像データと圧縮音声データとに分割する分割工程と、
前記分割工程により分割された圧縮映像データを伸張する伸張工程と、
前記伸張工程により伸張された映像データを所定のデータ形式へ変換する変換工程と、
前記分割工程により分割された圧縮音声データに、前記変換工程により変換された映像データを同期させる同期情報を書き込む書込み工程と、
前記変換工程により変換された映像データと前記書込み工程により同期情報が書き込まれた圧縮音声データとを多重化することにより、ストリームデータを生成する多重化工程と、
を含むことを特徴とする多重化方法。
【請求項8】
前記多重化工程により生成されたストリームデータを再生する再生工程を備え、
前記再生工程は、前記ストリームデータに多重化された圧縮音声データに書き込まれている同期情報を用いて、前記ストリームデータに多重化されている映像データと前記圧縮音声データとを同期させることを特徴とする請求項7に記載の多重化方法。
【請求項9】
入力されてくるコンテンツデータを、圧縮映像データと圧縮音声データとに分割する分割工程と、
前記分割工程により分割された圧縮映像データを伸張する伸張工程と、
前記伸張工程により伸張された映像データを所定のデータ形式へ変換する変換工程と、
前記分割工程により分割された圧縮音声データに、前記変換工程により変換された映像データを同期させる同期情報を書き込む書込み工程と、
前記変換工程により変換された映像データと前記書込み工程により同期情報が書き込まれた圧縮音声データとを多重化することにより、ストリームデータを生成する多重化工程と、
をコンピュータに実行させることを特徴とする多重化プログラム。
【請求項10】
前記多重化工程により生成されたストリームデータを再生する再生工程を備え、
前記再生工程は、前記ストリームデータに多重化された圧縮音声データに書き込まれている同期情報を用いて、前記ストリームデータに多重化されている映像データと前記圧縮音声データとを同期させることを特徴とする請求項9に記載の多重化プログラム。
【発明の詳細な説明】【技術分野】
【0001】
この発明は、映像データと音声データとにより構成されたコンテンツデータのうち、映像データのデータ形式を変換するとともに、当該映像データに対応した音声データを変換後の映像データに多重化することにより、ストリームデータを生成する多重化装置、多重化方法および多重化プログラムに関する。
【背景技術】
【0002】
従来、映像と音声とを同時に再生するようなコンテンツデータは、映像データと音声データとが一体化された状態で記録されていた。このようなコンテンツデータの場合、主として映像データの記録に重点がおかれ、音声データの記録容量が少なく設定されていることが多い。
【0003】
したがって、音声データの音質を向上させたり、音声データに曲名などの音声に対応する文字情報を付加させたりすることはできなかった。また、音声データは映像データに付随して記録されているため、音声データの再生時刻を独立して管理することはできなかった。そこで、上述のようなコンテンツデータにおいて、音声データの記録に主眼をおき、音声データの時刻管理や、情報の付加を容易におこなえるような装置が開示されている(たとえば、下記特許文献1参照。)。
【0004】
さらに、近年では、あらかじめ映像データと音声データとが独立しており、これらの独立した各データを多重化させた状態で配信または提供されるコンテンツデータが主流となっている。このようなコンテンツデータは、多重化の構成に応じて映像データと音声データとを同期して再生することができる。また、これらの独立した映像データと音声データとを利用者が任意に加工することにより、加工前と同様に同期して再生することができる技術も開示されている(たとえば、下記特許文献2参照。)。
【0005】
上述のような、映像データと音声データとが独立したコンテンツデータの場合、データ形式の変更や、圧縮方式の変更もデータごとに独立しておこなうことができる。たとえば、BS/地上デジタル放送波からコンテンツデータを受信し、さらに記録するような装置では、映像データのみデータ方式を変換し、音声データと再度多重化して、トランスストリームなどの扱いやすいコンテンツデータに生成しなおす処理がおこなわれる。
【0006】
図4は、BS/地上デジタル放送からトランスストリームを生成する従来の多重化装置の機能的構成を示すブロック図である。図4を用いてトランスストリームを生成する際の具体的な処理の一例を説明する。図4のような多重化装置400は、BS/地上デジタルチューナ410と、コーデックLSI(Large Scale Integration)420と、SPDIFデコーダ430とにより構成されている。
【0007】
BS/地上デジタルチューナ410は、BS/地上デジタル放送波を受信してコンテンツデータを取得する。さらに、BS/地上デジタルチューナ410は、DEMUX411と、Video Dec(映像デコーダ)412とを備え、映像データと音声データとを、それぞれ独立したデータとして扱うための処理をおこなう。
【0008】
具体的には、まずBS/地上デジタルチューナ410により取得されたコンテンツデータは、DEMUX411により、映像データと、音声データとに分割される。なお、放送波として配信されたコンテンツデータは、所定の圧縮方式により圧縮されたデータである。したがって、分割された映像データおよび音声データもそれぞれ圧縮された状態のデータである。
【0009】
つぎに、分割された映像データは、Video Dec412に入力され、通常サイズの映像データに伸張される。伸張された映像データは、Video Dec412からコーデックLSI420へ入力される。なお、ここでは、放送波に多重化されている音声データの一般的なフォーマットとしてSPDIF(Sony/Philips Digital Interface Format)を用いた場合を例に挙げて説明する。まず、分割された音声データは、DEMUX411から、SPDIFの規格により圧縮された音声データとして出力され、SPDIFデコーダ430へ入力される。
【0010】
SPDIFデコーダ430は、入力された音声データを伸張した後、LPCM(Linear Pulse Code Modulation)の信号として出力する。LPCMとは、デジタルデータの変換方式の一つであり、データを圧縮せずに所定の規格に沿ったパルス信号に変換する。SPDIFデコーダ430から出力されたLPCMは、コーデックLSI420に入力される。
【0011】
コーデックLSI420は、それぞれ独立した映像データと音声データとを多重化することにより、トランスポートストリームを生成する処理をおこなう。具体的には、コーデックLSI420は、Video ENC(映像エンコーダ)421と、AIN Audio ENC(音声エンコーダ)422と、MUX423とを備えている。
【0012】
Video ENC421には、BS/地上デジタルチューナ410のVideo Dec412から映像データが入力される。入力された映像データは、Video ENC421によりトランスポートストリーム用の映像データに変換されMUX423に出力される。
【0013】
また、AIN Audio ENC422には、SPDIFデコーダ430からLPCMの音声データが入力される。入力された音声データは、AIN Audio ENC422によりトランスポートストリーム用の音声データに変換されMUX423へ出力される。
【0014】
MUX423は、Video ENC421から入力された映像データと、AIN Audio ENC422から入力された音声データとを多重化し、トランスポートストリーム(TS)として出力する。なお、MUX423において多重化された映像データおよび音声データは、いずれも伸張された状態のデータをトランスポートストリーム用のデータに変換(エンコード)されている。したがって、変換後の映像データと音声データとをそのまま多重化しても容易に同期させることができる。
【0015】
つぎに、図5を用いて多重化装置400における同期処理について説明する。図5は、従来の多重化装置における同期処理を示すタイミングチャートである。図5のコーデックLSI420は、(A)において、ポーズ状態のON/OFFに応じてエンコードがおこなわれる。また、同期処理の際には、映像データの構成を基準とするため、(B)において映像同期のタイミングをあらわす信号が定期的に流れている。
【0016】
(C)において、映像データは、所定のデータ量をあらわす“バースト単位”ごとに映像データVn−1、映像データVn、映像データVn+1の順に連続的に再生される。上述した(B)における映像同期の信号は、バースト単位に基づいて、各データ(たとえば映像データVn)の先頭部分にON信号が重なるように構成されている。
【0017】
また、(D)において、圧縮音声データは、SPDIFデコーダ430に入力される前の音声データをあらわしている。また、(E)において、LPCM音声データは、SPDIFデコーダ430により伸張され、符号化された音声データをあらわしている。また、(E)において、LPCM音声データは、SPDIFデコーダ430によって伸張および符号化がおこなわれたため、(D)で示した圧縮音声データと比較して固定値だけ遅延している。
【0018】
SPDIFデコーダ430における伸張および符号化に要する時間は、規格化されている。すなわち、(E)LPCM音声データの遅延をあらわす固定値は、既知の値となる。このように、ポーズ解除時に映像データVnと比較してLPCM音声データAnがとれだけ遅延しているかを参照できるため、映像データと、LPCM音声データとを容易に同期させることができる。
【0019】
【特許文献1】特開平11−219579号公報
【特許文献2】特開2000−195231号公報
【発明の開示】
【発明が解決しようとする課題】
【0020】
しかしながら、図4のような多重化装置400の場合、データ方式を変換したいのは映像データのみでありながら、トランスポートストリームとして同期させるため、音声データも映像データと同様に圧縮状態から伸張する処理がおこなわれている。このように、上述した従来技術では、音声データのデコード処理(SPDIFデコーダ430の処理)と、デコード処理に伴うエンコード処理(AIN Audio ENC422の処理)という本来は不要な構成を備えなければならない。したがって、多重化装置における処理内容が複雑化してしまうという問題があった。
【0021】
また、上述のように余分なデコード処理とエンコード処理により、放送波として受信した状態の圧縮音声データに伸張および圧縮をおこなわなければならない。したがって、再度多重化したトラスポートストリームは、伸張および圧縮により音声データの品質が低下してしまう場合があるという問題があった。
【0022】
ここで、図4のような多重化装置400のから音声データのデコード処理を省き、最初から映像データと、圧縮音声データとを多重化するような構成にしたとする。このような構成の場合であっても、図5における(C)の映像データと、(D)の圧縮音声データとの比較から明らかなように、(C)の映像データと、(D)圧縮音声データとでは遅延関係を固定値によってあらわすことはできない。したがって、(C)の映像データと、(E)のLPCM音声データとのように、遅延時間を考慮して同期させることができない。
【0023】
また、(C)の圧縮音声データは同一のバースト単位内の各データの差分を参照して圧縮しているため、(E)のLPCM音声データのように任意のタイミングでデータを途中から破棄することはできない。このように、伸張された非圧縮の映像データと圧縮された圧縮音声データとを容易に同期できるような多重化が困難であるという問題があった。
【0024】
この発明は、上述した従来技術による問題点を解消するため、圧縮されていない非圧縮映像データと圧縮音声データとの同期が容易でかつ高品質なストリームデータを、簡単な処理により生成することができる多重化装置、多重化方法および多重化プログラムを提供することを目的とする。
【課題を解決するための手段】
【0025】
上述した課題を解決し、目的を達成するため、本発明にかかる多重化装置は、入力されてくるコンテンツデータを、圧縮映像データと圧縮音声データとに分割する分割手段と、前記分割手段により分割された圧縮映像データを伸張する伸張手段と、前記伸張手段により伸張された映像データを所定のデータ形式へ変換する変換手段と、前記分割手段により分割された圧縮音声データに、前記変換手段により変換された映像データを同期させる同期情報を書き込む書込み手段と、前記変換手段により変換された映像データと前記書込み手段により同期情報が書き込まれた圧縮音声データとを多重化することにより、ストリームデータを生成する多重化手段と、を備えることを特徴とする。
【0026】
この発明によれば、同期情報を書き込んだ圧縮音声データと映像データとを多重化することにより、同期情報に基づいて映像データと圧縮音声データとを同期させて再生できるようなストリームデータを生成することができる。
【0027】
また、上記発明においてさらに、前記書込み手段は、前記同期情報として前記圧縮音声データの再生開始タイミングをあらわすポーズ情報を書き込んでもよい。
【0028】
この発明によれば、ポーズ情報が書き込まれた圧縮音声データと映像データとを多重化することにより、ポーズ情報に基づいて映像データと圧縮音声データとを同期させて再生できるようなストリームデータを生成することができる。
【0029】
また、上記発明においてさらに、前記書込み手段は、前記同期情報として前記圧縮音声データの再生開始時刻をあらわすタイムスタンプ情報を書き込んでもよい。
【0030】
この発明によれば、タイムスタンプ情報が書き込まれた圧縮音声データと映像データとを多重化することにより、タイムスタンプ情報に基づいて映像データと圧縮音声データとを同期させて再生できるようなストリームデータを生成することができる。
【0031】
また、上記発明においてさらに、前記多重化手段により生成されたストリームデータを再生する再生手段を備え、前記再生手段は、前記ストリームデータに多重化された圧縮音声データに書き込まれている同期情報を用いて、前記ストリームデータに多重化されている映像データと前記圧縮音声データとを同期させてもよい。
【0032】
この発明によれば、多重化手段により生成されたストリームデータを映像データと圧縮音声データとを同期して再生させることができる。
【0033】
また、上記発明においてさらに、前記多重化手段により生成されたストリームデータを再生する再生手段を備え、前記再生手段は、前記同期情報として圧縮音声データに書き込まれた当該圧縮音声データの再生開始タイミングをあらわすポーズ情報に基づいて、前記映像データと前記圧縮音声データとの再生開始タイミングの間隔を求め、前記映像データと、前記圧縮音声データとを同期させてもよい。
【0034】
この発明によれば、ポーズ情報に基づいて、前記映像データと前記圧縮音声データとの再生開始タイミングの間隔を求めることができる。この再生開始タイミングの間隔の値に応じて圧縮音声データが映像データからどれだけ遅延もしくは先行しているかがわかり、ストリームデータを同期させて再生させることができる。
【0035】
また、上記発明においてさらに、前記多重化手段により生成されたストリームデータを再生する再生手段を備え、前記再生手段は、前記同期情報として前記圧縮音声データに書き込まれた当該圧縮音声データの再生開始時刻をあらわすタイムスタンプ情報に基づいて、前記映像データと前記圧縮音声データとの再生開始時刻の時間差を求め、前記圧縮音声データとを同期させてもよい。
【0036】
この発明によれば、タイムスタンプ情報に基づいて、前記映像データと前記圧縮音声データとの再生開始時刻の時間差を求めることができる。この時間差に応じて圧縮音声データが映像データからどれだけ遅延もしくは先行しているかがわかり、ストリームデータを同期させて再生させることができる。
【発明の効果】
【0037】
本発明にかかる多重化装置、多重化方法および多重化プログラムによれば、圧縮音声データに書き込まれた同期情報を用いることにより、非圧縮映像データと圧縮音声データとの同期が容易でかつ高品質なストリームデータを、簡単な処理により生成することができるという効果を奏する。
【発明を実施するための最良の形態】
【0038】
以下に添付図面を参照して、この発明にかかる多重化装置、多重化方法および多重化プログラムの好適な実施の形態を詳細に説明する。
【0039】
(多重化装置の機能的構成)
まず、本発明の実施の形態にかかる多重化装置の機能的構成について説明する。図1は、本発明の実施の形態にかかる多重化装置の機能的構成を示すブロック図である。図1において、多重化装置100は、BS/地上デジタルチューナ110と、コーデックLSI120とを含んで構成されている。
【0040】
BS/地上デジタルチューナ110は、放送波を受信し、コンテンツデータを取得する。さらに、取得したコンテンツデータを映像データと音声データとに分割して、コーデックLSI(Large Scale Integration)120へ出力する。上述の処理をおこなうため、BS/地上デジタルチューナ110は、分割手段としてのDEMUX111と、伸張手段としてのVideo Dec(デコーダ)112とを含んで構成されている。
【0041】
具体的には、取得したコンテンツデータは、所定の規格に沿って圧縮された映像データと音声データとが多重化されたデータである。ここでは一例としてSPDIFの規格に沿って圧縮されたデータとして説明する。したがって、まずDEMUX111は、コンテンツデータを、圧縮映像データと圧縮音声データとに分割する。分割された一方である圧縮映像データは、Video Dec112に入力される。また、分割された他方である圧縮音声データは、コーデックLSI120に入力される。
【0042】
Video Dec112は、DEMUX111から入力された圧縮映像データを伸張する。伸張された映像データは、通常(非圧縮)の映像データとしてコーデックLSI120に入力される。
【0043】
コーデックLSI120は、BS/地上デジタルチューナ110から入力された映像データと圧縮音声データとを多重化し、トランスポートストリーム(TS)として出力する。上述の処理をおこなうため、コーデックLSI120は、変換手段としてのVideo ENC(映像エンコーダ)121と、書込み手段としてのASIN(圧縮音声データ入力部)122と、多重化手段としてのMUX123とを含んで構成される。
【0044】
具体的には、Video ENC121は、BS/地上デジタルチューナ110のVideo Dec112から入力された映像データをトランスポートストリーム用に変換する。変換された映像データは、MUX123へ入力される。
【0045】
また、ASIN122は、BS/地上デジタルチューナ110のDEMUX111から入力された圧縮音声データに映像データを同期させるための処理をおこなう。同期させるための処理とは、所定の同期情報を圧縮音声データに書き込む処理である。たとえば、圧縮音声データの再生を開始させるタイミングや、具体的な時刻を圧縮音声データに書き込む。この同期情報の書き込みにより、音声データと圧縮音声データとを同期させた場合に、音声データと比較して圧縮音声データがどれだけ遅延もしくは先行しているかを求める処理をおこなうことができる。なお、同期情報の内容や具体的な同期処理については、詳しく後述する。
【0046】
MUX123は、Video ENC121から入力された映像データと、ASIN122から入力された圧縮音声データとを多重化する。多重化されたデータは、トランスポートストリーム(TS)として出力される。
【0047】
以上説明したように、本発明の実施の形態にかかる多重化装置100は、データ形式を変換する映像データのみに所定のデコード処理およびエンコード処理をおこなう構成になっている。データ形式を変換する必要のない音声データは、BS/地上デジタルチューナ110により取得したコンテンツデータとして多重化されていた圧縮音声データのまま、コーデックLSI120により映像データと再度多重化される。
【0048】
したがって、多重化装置100は、従来の多重化装置(たとえば、図4の多重化装置400)から音声データのデコード処理およびエンコード処理をおこなう機能部を省くことにより、従来よりも単純な構成の装置として提供することができる。また、デコード処理およびエンコード処理の繰り返しによる音声データの劣化を防ぐことができる。
【0049】
(多重化する各データの構成)
つぎに、上述した多重化装置100によりトランスポートストリームとして多重化される画像データおよび圧縮音声データの具体的な構成について説明する。図2は、多重化される画像データおよび圧縮音声データの構成を示すタイミングチャートである。
【0050】
図2は、(A)においてポーズ状態のON/OFFを示すポーズ状態と、(B)において映像データを基準とした同期用信号を示す映像同期と、(C)において画像データVnの内容を示す映像データと、(D)において圧縮音声データASnの内容を示す圧縮音声データとを同一の時間軸であらわしている。
【0051】
図1のコーデックLSI120のMUX123は、図2のような(D)圧縮音声データをそのまま(C)の映像データ(正確には、トラスポートストリーム用に変換された映像データ)へ多重化する。上述したように、圧縮音声データは、非圧縮データと異なり、データの途中から再生したり、破棄したりすることができない。
【0052】
したがって、図2におけるポーズ解除200が指示された場合、ポーズ解除200前後の圧縮音声データASn−1または圧縮音声データASnのどちらから多重化するかの判断を、圧縮音声データに書き込まれた同期情報(ポーズ情報およびタイムスタンプ情報)を参照しておこなう。なお、同期情報および同期情報の書き込み処理は、ASIN122によりおこなわれる。
【0053】
(圧縮音声データのフレーム構成)
ここで、図3を用いて圧縮音声データのフレーム構成と、同期情報の書き込み箇所とについて説明する。図3は、圧縮音声データのフレーム構成を示す説明図である。図3において、圧縮音声データ300は、所定のデータサイズごとのバースト301ごとに圧縮音声データ(圧縮音声データASn−1、圧縮音声データASn、圧縮音声データASn+1)が配置されている。
【0054】
またバースト301の直後に配置されているスタッフィング302は、圧縮によって削減されたデータ部分をあらわしている。スタッフィング302は、圧縮によって削減されたデータ部分に配置され、フレームのビット不足を解消する役割を担っている。すなわち、圧縮前の音声データは、バースト301とスタッフィング302とをあわせたデータサイズ303に相当する。
【0055】
バーストフォーマット310は、圧縮音声データ300のバースト301の構成をさらに詳細に示している。図3のようにバーストフォーマット310は、フォーマット情報を含むPaなどのヘッダ部311と、実際の圧縮音声データを含むバースト・ペイロード312とにより構成されている。
【0056】
サブフレーム320は、圧縮音声データを実際にトランスポートストリームとして多重化する際の構成をあらわしている。バーストフォーマット310のヘッダ部311は、サブフレーム320のビットストリーム321のLSBと、MSBとにバイフェーズとしてそれぞれ格納される。以上説明したサブフレーム320の構成は、通常の、すなわち非圧縮の音声データをトランスポートストリームとして多重化する際の一般的な構成である。
【0057】
本実施の形態では、サブフレーム320の空きパケット部分[8、9]に、映像データと圧縮音声データとを同期するための同期情報を書き込んだ構成になっている。同期情報とは、具体的には、たとえば、サブフレーム320に示したタイムスタンプ情報331やポーズ情報332を書き込むことができる。
【0058】
ここで、タイムスタンプ情報331とは、圧縮音声データの再生開始時刻をあらわす情報である。このタイムスタンプ情報に基づいて、映像データと圧縮音声データとの再生開始時刻の時間差を求めることにより、映像データと圧縮音声データとを同期して再生させる。
【0059】
また、ポーズ情報332とは、圧縮音声データの再生開始タイミングをあらわす情報である。このポーズ情報に基づいて、映像データと圧縮音声データとの再生開始タイミングの間隔を求めることにより、映像データと圧縮音声データとを同期して再生させる。このように本実施の形態は、サブフレーム320に同期情報を書き込んだサブフレーム320をトランスポートストリームとして多重化している。
【0060】
以上説明したように、本実施の形態にかかる多重化装置100では、ASIN122により圧縮音声データに同期情報を書き込んでいる。このような圧縮音声データを映像データと多重化することにより、容易に同期可能なトランスポートストリームを生成することができる。また、同期情報を書き込む際には、既存のデータフォーマットの中のいわゆるオプション部を利用しているため、現在利用されているコンテンツデータへ容易に適用させることができる。
【0061】
(同期情報を用いた同期処理の手順)
つぎに、図2に戻り、圧縮音声データに書き込まれた同期情報を用いた同期処理を、具体例を挙げて説明する。図2の(A)に示した映像同期のON信号の間隔は、(C)の映像データに示した映像データVn−1、映像データVn、映像データVn+1のデータサイズにあわせて100[クロック(単位はこの限りではない)]ごとに設けられている。
【0062】
<ポーズ情報を利用した場合>
ポーズ情報は、(D)の圧縮音声データに示した圧縮音声データASn−1、圧縮音声データASn、圧縮音声データASn+1、圧縮音声データASn+2のヘッダ部(0、90、180、270[クロック])に書き込まれている。
【0063】
たとえば、(B)の映像同期のON信号の間隔のうち、(A)のポーズ状態のポーズ解除200からエンコードが開始された場合、映像データVnと、圧縮音声データASnとを同期させるには、(D)の圧縮音声データのうち、ポーズ解除200以前に、最後に読み出された圧縮音声データASnのヘッダ部201に格納されているポーズ情報を参照する。
【0064】
「映像同期」において、ヘッダ部201のポーズ情報のタイミングと、ポーズ解除200のタイミングとの差分を求めることにより、自動的に、映像データVnと、圧縮音声データASnとの遅延間隔が20[クロック]とわかる。このように、圧縮音声データASnが映像データVnからどれだけの間隔遅延しているのか(または、先行しているのか)を求めることができる。したがって、圧縮音声データを上述の処理により求めた間隔だけ、遅延もしくは先行して再生させることにより、映像データと同期させることができる。
【0065】
<タイムスタンプ情報を利用した場合>
タイムスタンプ情報も、ポーズ情報と同様に、(D)の圧縮音声データに示した圧縮音声データASn−1、圧縮音声データASn、圧縮音声データASn+1、圧縮音声データASn+2のヘッダ部(0、90、180、270)に書き込まれている。
【0066】
図2のように、(C)の映像データは、映像データVnのデータサイズにあわせて100[クロック]ごとに、(B)の映像同期のON信号と同期している。一方、(D)の圧縮音声データは、圧縮音声データASnのデータサイズにあわせて90[クロック]ごとにタイムスタンプ情報が書き込まれている。また、タイムスタンプ情報は、最初の圧縮音声データASn−1を0とした時刻情報である。したがって、圧縮音声データASnのタイムスタンプ情報は90[クロック]、圧縮音声データASn+1のタイムスタンプ情報は180[クロック]、圧縮音声データASn+2のタイムスタンプ情報は270[クロック]と設定されている。
【0067】
そして、ポーズ解除200をエンコード開始とした場合に、ポーズ解除200における圧縮音声データの時刻情報(圧縮音声データASn−1を0とした時刻情報)は、タイムスタンプ情報を用いて下記(1)式より求めることができる。
【0068】
時刻情報(ポーズ解除200時)
=Ta×C−1+Dt/Da×Tw …(1)
Ta:圧縮音声データのフレーム間隔(本実施の形態では90)
C :タイムスタンプ情報の取得回数
Dt:ポーズ解除200時のASnデータサイズ
Da:ASn全体のデータサイズ
Tw:タイムスタンプ情報の間隔(圧縮音声データのフレーム間隔と等しい)
【0069】
したがって、ポーズ解除200時の時刻情報は、下記(2)式のようになる
【0070】
時刻情報(ポーズ解除200時)=90×1+20/90×90
=110[クロック] …(2)
【0071】
すなわち、ポーズ解除200時の(D)における圧縮音声データの時刻情報は、110[クロック]となる。さらに、圧縮音声データASnを伸張して非圧縮音声データAnを生成した場合、圧縮音声データASnと非圧縮音声データAnとの遅延時刻は、既知の値である。ここでは一例として遅延時刻を固定値40[クロック]とする。
【0072】
したがって、ポーズ解除200時を基準とした圧縮音声データASnの時刻情報PSTは、下記(3)式によって求めることができる。
【0073】
PST=遅延時刻(固定値40)−時刻情報(ポーズ解除200時)
−ASn開始時のタイムスタンプ情報
=40−(110−90)
=20[クロック] …(3)
【0074】
上述のように、ポーズ解除200時を基準とした圧縮音声データASnの時刻情報PSTは20[クロック]とわかる。このように、圧縮音声データASnが映像データVnからどれだけの間隔遅延しているのか(または、先行しているのか)を求めることができる。したがって、圧縮音声データを上述の処理により求めた間隔だけ、遅延もしくは先行して再生させることにより、映像データと同期させることができる。
【0075】
また、上述の例では、圧縮音声データが、映像データから20[クロック]遅延していることを意味している。これは、すなわち、圧縮音声データASnを再生させた場合、映像データVnよりも遅れて再生が開始されることをあらわしている。この遅れるとは、映像データVnの内容と圧縮音声データASnの内容とのずれを意味するものではなく、映像データVnと、圧縮音声データASnとの再生開始時刻の遅れを意味している。
【0076】
したがって、映像データよりも先行して圧縮音声データの再生を開始したい場合は、映像データVnに対して圧縮音声データASn−1から(上述の例では圧縮音声データASnから)多重化をおこなうように、ポーズ解除200を基準として−70[クロック]に相当する時刻で多重化を開始させればよい。
【0077】
以上説明したように、タイムスタンプ情報を用いた同期処理は、ポーズ情報を利用した同期処理と比較して複雑になるが、圧縮音声データ自体が欠損していた場合などでも、正しく同期させることができる。したがって、同期情報としてポーズ情報とタイムスタンプ情報とをそれぞれ単独で利用してもよいが、2つの同期情報を併用すればエラーへの耐性を強化することができる。
【0078】
また、上述したような同期処理は、本実施の形態にかかる多重化装置100から出力されたトランスポートストリームを受信した各機器によっておこなわれるが、多重化装置100にあらたに再生部130を備え、自ら生成したトランスポートストリームを上述した同期処理を用いて再生してもよい。
【0079】
再生部130は、トランスポートストリームに多重化された映像データと圧縮音声データとをそれぞれ同期する再生させる機能を備えている。具体的には、たとえば、上述したような同期情報を用いて映像データと圧縮音声データとを同期させる機能とを備えたI/F(インターフェース)と、ディスプレイなどの表示装置からなる音声再生部と、スピーカなどの出力装置と(いずれも不図示)、によって構成されている。
【0080】
以上説明したように、本発明にかかる多重化装置、多重化方法および多重化プログラムによれば、非圧縮映像データと圧縮音声データとの同期が容易でかつ高品質なストリームデータを、簡単な処理により生成することができる。
【0081】
なお、本実施の形態で説明した多重化装置100を構成する各機能部110〜123に替わって、あらかじめ各機能部110〜123の機能に相当する処理を実行させる多重化プログラムを格納したROMを用意してもよい。このROMから多重化プログラムを読み出し、CPUにより実行させることにより、本発明にかかる多重化方法を、ソフトウェアを主体にして実現させてもよい。
【0082】
また、他の実施の形態として、HDL(Hardware Description Language:ハードウェア記述言語)などを用いて本発明にかかる多重化を実現する各機能部110〜123の処理をFPGA(Field Programmable Gate Array)などの専用のLSIに記述してもよい。
【0083】
そして、上述のようなHDLが記載されたLSIを多重化装置として提供してもよい。なお、LSIにより、多重化装置の全体の処理を実現させてもよいし、一部分のみを実現させ、他の部分は、所定のハードウェアや、多重化プログラムによって実現させるような構成であってもよい。
【0084】
このように、各機能部110〜123の処理の内容に応じて、ハードウェアを主体に実行させる機能部と、ソフトウェアを主体に実行させる機能部と、特定の処理が書き込まれたLSIとを混在させて多重化方法の各工程を実行してもよい。このような構成により、処理内容や、利用者の用途や利便性に応じて最も効率的な多重化装置を実現することができる。
【0085】
また、上述したような多重化プログラムは、ハードディスク、フレキシブルディスク、CD−ROM、MO、DVDなどのコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。またこのプログラムは、インターネットなどのネットワークを介して配布することが可能な伝送媒体であってもよい。
【産業上の利用可能性】
【0086】
以上のように、本発明にかかる多重化装置、多重化方法および多重化プログラムは、映像データを他のデータ形式に変換するトランスコード技術を適用する場合に有用であり、特に、デジタル放送波からトランスポートストリームを生成する場合に適している。
【図面の簡単な説明】
【0087】
【図1】本発明の実施の形態にかかる多重化装置の機能的構成を示すブロック図である。
【図2】多重化される画像データおよび圧縮音声データの構成を示すタイミングチャートである。
【図3】圧縮音声データのフレーム構成を示す説明図である。
【図4】BS/地上デジタル放送からトランスストリームを生成する従来の多重化装置の機能的構成を示すブロック図である。
【図5】従来の多重化装置における同期処理を示すタイミングチャートである。
【符号の説明】
【0088】
100 多重化装置
110 BS/地上デジタルチューナ
111 DEMUX
112 Video Dec(映像デコーダ)
120 コーデックLSI
121 Video ENC(映像エンコーダ)
122 ASIN
123 MUX
【出願人】 【識別番号】000005223
【氏名又は名称】富士通株式会社
【出願日】 平成18年8月18日(2006.8.18)
【代理人】 【識別番号】100104190
【弁理士】
【氏名又は名称】酒井 昭徳


【公開番号】 特開2008−48249(P2008−48249A)
【公開日】 平成20年2月28日(2008.2.28)
【出願番号】 特願2006−223082(P2006−223082)