トップ :: H 電気 :: H04 電気通信技術

【発明の名称】 スライドショーの制作方法およびシステム
【発明者】 【氏名】ツァオフイ スン
【氏名】アレクサンダー シー.ルイ
【氏名】ジョナサン ケー.リーク
【課題】マルチメディアスライドショーを制作するための方法を提供する。

【解決手段】複数のデジタル画像を選択する段階と、複数のデジタル画像の各々を符号化して標準解像度画像部分および高解像度画像部分を生成する段階と、標準および高解像度画像部分を多重化して単一の高解像度静止画像を生成する段階と、高解像度静止画像について時間パラメータを決定する段階と、少なくとも1つのデジタル画像についてオーディオ部分を選択する段階と、複数の高解像度静止画像を連結してビデオビットストリームを生成する段階と、オーディオ部分を符号化してオーディオビットストリームを生成する段階と、ビデオビットストリームおよびオーディオビットストリームを多重化してマルチメディアスライドショーを生成する段階と、を有する。
【特許請求の範囲】
【請求項1】
複数のデジタル画像をアクセスする段階と、
標準解像度の画像部分と高解像度の画像部分とを生成するため複数の前記デジタル画像の各々を符号化する段階と、
単一の高解像度静止画像を生成するためそれぞれ対応する標準および高解像度の画像部分を多重化する段階と、
各前記高解像度静止画像について時間パラメータを決定する段階と、
その決定された時間パラメータに従って無声スライドショーを生成するため前記複数の高解像度静止画像を連結する段階と、
を有するスライドショーの制作方法。
【請求項2】
複数のデジタル画像を選択する段階と、
標準解像度画像部分および高解像度画像部分を生成するため複数の前記デジタル画像の各々を符号化する段階と、
単一の高解像度静止画像を生成するためそれぞれ対応する標準および高解像度画像部分を多重化する段階と、
各前記高解像度静止画像について時間パラメータを決定する段階と、
複数の前記デジタル画像のうちの少なくとも1つについてオーディオ部分を選択する段階と、
ビデオビットストリームを生成するため複数の前記高解像度静止画像を連結する段階と、
前記オーディオ部分を符号化することによりオーディオビットストリームを生成する段階と、
マルチメディアスライドショーを生成するため前記ビデオビットストリームとオーディオビットストリームとを多重化する段階と、
を有するマルチメディアスライドショーの制作方法。
【請求項3】
複数のデジタル画像を選択する手段と、
標準解像度画像部分および高解像度画像部分を生成するため複数の前記デジタル画像の各々を符号化する手段と、
単一の高解像度静止画像を生成するためそれぞれ対応する標準および高解像度画像部分を多重化する手段と、
各前記高解像度静止画像について時間パラメータを決定する手段と、
複数の前記デジタル画像のうちの少なくとも1つについてオーディオ部分を選択する手段と、
ビデオビットストリームを生成するため複数の前記高解像度静止画像を連結する手段と、
前記オーディオ部分を符号化することによりオーディオビットストリームを生成する手段と、
マルチメディアスライドショーを生成するため前記ビデオビットストリームと前記オーディオビットストリームとを多重化する手段と、
を含んでなるマルチメディアスライドショーを制作するためのシステム。
【発明の詳細な説明】【技術分野】
【0001】
本発明は、一般に、マルチメディアの符号化および表現の分野に関する。
【背景技術】
【0002】
デジタルカメラの使用は、近年になって増大してきた。したがって、商業用および消費者が保持するデジタル画像ファイルの量もまた増大してきた。無作為に保存された写真プリントが入った靴箱で一杯のクローゼットの問題と非常に良く似て、デジタル環境内では、無作為に保存されたデジタル画像で一杯のコンピュータ「靴箱」が存在する。さらに、VCDおよびDVDプレイヤの利用は増えつづけ、利用可能なデジタル画像およびビデオクリップの数も増大し続けている。このため、コストおよび時間的に効率が良いものであって、容易でかつおもしろいデジタル画像の配置、分類および共用システムおよび/または方法に対するニーズが発生している。
【0003】
1つのアプローチは、ビデオCDプレイヤまたはDVDプレイヤを用いてテレビでマルチメディアアルバム/プログラムとして再生できるコンパクトディスク(CD)またはデジタルビデオディスク(DVD)上の画像、テキスト、音声コメント、およびミュージッククリップを制作するというものである。
【0004】
かかるテレビ中心のシステムは、一般的なコンピュータ中心のシステムとは異なっている。例えば、Kodak PictureCD製品(Eastman Kodak社から入手可能)は、コンピュータを利用したデジタル画像共用および観察機能を提供する。しかしながら、Kodak Picture CDのCDフォーマットは、現在の構成のままではテレビで再生できない。
【0005】
VCDコンパチブルプログラムとしてオーディオおよびビデオ情報を符号化しそのプログラムをISO9660フォーマットでCDに転送することが知られている。かかるCDは、VCD/DVDプレイヤおよびコンピュータシステムで再生することができる。VCD符号化は、1秒当たり1.5Mbits以下のビットレートを有する対象アプリケーションを伴う特定のMPEG−1規格を利用する。かかるビットレート制約条件では、画像の解像度は、(米国および日本で一般的である)NTSCシステムで352×240に、また(欧州および中国で一般的である)PALシステムで352×288に制限される。NTSCで352×240およびPALで352×288という解像度は標準解像度とも呼ばれ、NTSCで704×480およびPALで704×575という空間解像度に相当するものは、高解像度とも呼ばれる。
【0006】
特定のMPEG−1規格は、エンタテイメント品質を有するCD−ROMビットレートで動画シーケンスを符号化するように意図されている。したがって、これはテレビにマルチメディアアルバムまたはスライドショーといった静止画像を表示するために適した規格ではない。ビデオシーケンスが、例えばNTSCについては29.97フレーム/秒、またPALについては25フレーム/秒の高いフレームレートで表現される場合、高速移動フレームの時間的フィルタにより、大部分の空間ひずみを隠す。しかしながら、静止画像が標準解像度にサブサンプルされ、MPEG−1符号器(イントラフレーム用のブロックベースのJPEG様の圧縮)により符号化され、テレビで表示されると、ブロッキングアーチファクトといったひずみが強調される可能性がある。
【0007】
DVDはCDよりはるかに高い容量をもち、したがって、より高い空間解像度(すなわちNTSCシステムで720×480、PALシステムで720×576)を記憶できることから、MPEG−2規格を用いてDVDに、オーディオおよびビデオプログラムを符号化することができる。しかしながら、DVD技術は、CD技術に比べてより高価で、より複雑である。かくして、DVD媒体および書込みデバイスは、大部分の消費者にとっては高価すぎるものと考えられている。
【0008】
「スライドショーに随伴させるべき音声ナレーションを録音するための方法および装置」という名称の米国特許第6,084,582号(Qureshi)は、対応するスライドと共に記憶され関連付けられるオーディオセグメントとしてオーディオ入力を記録しデジタル化するための方法および装置を開示している。スライドショーは、パーソナルコンピュータで再生するように意図されたデジタルタイル(例えば、Power Point)である。「マルチメディア制作の視覚的表現を用いてマルチメディア制作を立案するためのコンピュータシステム」という名称の米国特許第5,892,507号(Moorby)は、グラフィカルなユーザインタフェースを通して1またはそれ以上のマルチメディア事象を有するマルチメディアプレゼンテーションを制作および表示するためのコンピュータシステムを開示している。「マルチメディアプレゼンテーションを生成するための方法および装置」という名称の米国特許第6,081,261号(Gill)は、マルチメディアプレゼンテーション内に含まれた複数のオブジェクト間の空間関係を調節するための文書レイアウトパターンを開示している。本発明とは対照的に、これらの参考文献は、画質およびオーディオ操作が強調された状態で、消費者電子デバイス(例えばDVDまたはVCDプレイヤ)および適切な符号器をもつコンピュータで表示可能な高解像度のスライドショーとして、オーディオおよび静止画を制作し表現することに向けられていない。
【0009】
「マルチオーディオストリームを符号化するための方法」という名称の国際公開WO/0035194号は、媒体(例えばコンパクトディスク)に多数のオーディオ情報を符号化できるようにする、多数のサウンドストリームを伴うビデオストリームまたは静止画を符号化するための方法およびシステムを開示している。該方法は、コンパクトディスクへのビデオ情報を伴う数多くの歌の記憶および再生を可能にする。これとは対照的に、本発明は、(画像の強調および制作および高解像度のスライドショー表現による)画像表現品質の強調ならびに視聴覚享受体験(音声コメントおよびミュージック/ソングクリップのオーディオ制作および視聴覚娯楽の組合せによる)に向けられている。
【0010】
本発明中の「高解像度」という語は、ビデオコンパクトディスク仕様書により規定されている通り、NTSCでは352×240、PALシステムでは352×288の標準解像度に関係づけた、NTSCシステムで704×480,PALシステムで704×576の空間解像度をもつ画像を意味する。これとは対照的に、いくつかの先行する開示は、一群の静止画像の組合せにより単一画像の解像度/画質を強調することを意図していた。例えば、「標準的記憶媒体上に記憶するための高解像度の静止画像およびビデオ画像の符号化および復号化用装置」という名称の米国特許第4,825,301号は、各グループが画像の複数の異なる画素に対応する複数の信号グループへと信号を分割することによって、従来の記録媒体(例えばVCRテープ)上で静止画を符号化するための装置を開示している。「高解像度静止画を作り出すための方法および処理」という名称の米国特許第6,349,154号は、動き補償された予測符号化の後、低解像度ピクチャシーケンスから高解像度静止画を作り出すための方法を開示している。「低解像度動画像シーケンスから高解像度画像を作り出すためのシステム」という名称の欧州特許第0731600号は、凸面方式上への投射に基づくビデオシーケンスから高解像度静止画を作り出すための方法を開示している。
【0011】
本発明は、上述の欠点を克服するために意図されている。より具体的に言うと、より高い画像およびスライドショー表現品質を提供できる、容易で楽しく費用および時間効果の高いマルチメディア制作システムに対するニーズが存在している。本発明は、VCD/DVDプレイヤで再生できる標準解像度のものよりも高い空間解像度と画質をもつコンパクトディスク上のマルチメディアスライドショー/アルバムとしてオーディオおよびビデオ情報を制作するためのシステムおよび方法に向けられている。かくして、本発明は、このような容易で楽しく、かつコストおよび時間効果の高いマルチメディア制作システムおよび方法を提供する。
【0012】
【特許文献1】米国特許第6,084,582号明細書
【特許文献2】米国特許第5,892,507号明細書
【特許文献3】米国特許第6,081,261号明細書
【特許文献4】国際公開第WO/0035194号パンフレット
【特許文献5】米国特許第4,825,301号明細書
【特許文献6】米国特許第6,349,154号明細書
【特許文献7】欧州特許第0731600号明細書
【発明の開示】
【発明が解決しようとする課題】
【0013】
本発明の1つの目的は、VCD/DVDプレイヤで再生できる標準解像度のものよりも高い空間解像度と画質をもつ、コンパクトディスクのマルチメディアスライドショー/アルバムとして、オーディオおよびビデオ情報を制作するためのシステムおよび方法を提供することにある。本発明のもう1つの目的は、このような容易で楽しく、かつコストおよび時間効果の高いマルチメディア制作システムおよび方法を提供することにある。
【0014】
これらの目的は、例として示されているにすぎず、かかる目的は、本発明の1つまたは複数の実施形態の典型でありうる。開示された発明によって本質的に達成されるその他の望ましい目的および利点は、当業者であれば思いつくことができ、明白になると思われる。
【課題を解決するための手段】
【0015】
本発明の1つの態様によると、スライドショーを制作する方法が提供される。この方法は、
複数のデジタル画像をアクセスする段階と、複数のデジタル画像の各々を符号化して、標準解像度の画像部分と高解像度の画像部分を生成する段階と、それぞれ対応する標準および高解像度の画像部分を多重化して単一の高解像度静止画像を生成する段階と、各高解像度静止画像について時間パラメータを決定する段階と、および該複数の高解像度静止画像を連結して、決定された時間パラメータに従って無声スライドショーを生成する段階と、を有してなる。
【0016】
発明のもう1つの態様によると、マルチメディアスライドショーを制作する方法が提供されている。この方法は、複数のデジタル画像を選択する段階と、複数のデジタル画像の各々を符号化して標準解像度画像部分および高解像度画像部分を生成する段階と、それぞれ対応する標準および高解像度画像部分を多重化して単一の高解像度静止画像を生成する段階と、各高解像度静止画像について時間パラメータを決定する段階と、該複数の高解像度静止画像を連結してビデオビットストリームを生成する段階と、オーディオ部分を符号化することによりオーディオビットストリームを生成する段階と、ビデオビットストリームおよびオーディオビットストリームを多重化してマルチメディアスライドショーを生成する段階と、を有してなる。
【0017】
本発明のさらなる態様によると、スライドショーを制作するシステムが提供される。このシステムは、複数のデジタル画像をアクセスする手段と、複数のデジタル画像の各々を符号化して、標準解像度の画像部分と高解像度の画像部分を生成する手段と、それぞれ対応する標準および高解像度の画像部分を多重化して単一の高解像度静止画像を生成する手段と、各高解像度静止画像について時間パラメータを決定する手段と、該複数の高解像度静止画像を連結して、決定された時間パラメータに従って無声スライドショーを生成する手段と、を含んでなる。
【0018】
本発明のさらなる一態様によると、マルチメディアスライドショーを制作するシステムが提供される。該システムは、複数のデジタル画像を選択する手段と、複数のデジタル画像の各々を符号化して標準解像度画像部分および高解像度画像部分を生成するための手段と、それぞれ対応する標準および高解像度画像部分を多重化して単一の高解像度静止画像を生成する手段と、各高解像度静止画像について時間パラメータを決定する手段と、複数のデジタル画像のうちの少なくとも1つについてオーディオ部分を選択する手段と、該複数の高解像度静止画像を連結してビデオビットストリームを生成する手段と、オーディオ部分を符号化することによりオーディオビットストリームを生成する手段と、ビデオビットストリームおよびオーディオビットストリームを多重化してマルチメディアスライドショーを生成する手段と、を含んでなる。
【発明を実施するための最良の形態】
【0019】
発明の上述のおよびその他の目的、特徴および利点は、添付図面に例示されている通り、本発明の好ましい実施形態についての以下のさらに具体的な説明から明らかになることだろう。
【0020】
以下に記すのは、図面を参照した本発明の好ましい実施形態の詳細な説明である。なお図面中、同じ参照番号は、複数の図において同じ構成要素を示している。
【0021】
一般に、本発明は、画像の強調および制作と、オーディオ制作と、単一の高解像度静止画像の制作と、いくつかの画像を順次表示する無声スライドショーの制作と、オーディオを伴うマルチメディアスライドショーの制作、という特徴を含む、ソフトウェア/ハードウェアプレイヤを備えるコンピュータシステムまたはVCD/DVDプレイヤで再生することのできる高解像度マルチメディアプログラムとして、デジタルオーディオクリップおよび画像を制作するシステムおよび方法を提供する。
【0022】
本発明は、以下のような利点を有する。すなわち、本発明のマルチメディア表現およびエンタテインメントの質は、画像の強調および制作、オーディオ制作、高解像度静止画の制作、および組合せ型オーディオおよびビデオ符号化によって強調される。本発明のビット割当て方式を用いることにより、本発明は、より低コストの媒体(すなわちコンパクトディスク対DVD)、デバイス(CDライタ対DVDライタ)および技術(MPEG−1対MPEG−2)を使用して、DVDと類似の空間解像度を提供する。本発明の場合、符号化されたビットストリームをVCD/DVDプレイヤで再生することができる。さらに、高解像度プログラムは、標準解像度のものよりも約4倍高い解像度を有し、これらは、画像表現品質を大幅に向上させる。
【0023】
本発明による好ましい実施形態は、標準的にソフトウェアプログラムとして実現されることになるということで説明するという点を指摘しておく。当業者であれば、かかるソフトウェアと均等物をハードウェアの形でも構築できるということを認識するだろう。画像操作アルゴリズムおよびシステムは周知であることから、本発明の説明は、特に、本発明によるシステムおよび方法の一部をなすかまたはそれとより直接的に共働するアルゴリズムおよびシステムに向けられることになる。本明細書で具体的に示されず又説明されていないこのようなアルゴリズムおよびシステムのその他の面およびそれに関与する画像信号を生成しその他の形で処理するためのハードウェアおよび/またはソフトウェアは、当該技術分野で既知のかかるシステム、アルゴリズム、コンポーネントおよび素子の中から選択可能である。後述の構成要素の中で本発明に従って記述されている通りのシステムを仮定した場合、発明の実現にとって有用であるが本明細書に具体的に示されたり示唆または記述されたりしていないソフトウェアは、従来通りのものであり、かかる技術分野の現状の範囲内に入るものである。
【0024】
本明細書で使用されているように、コンピュータプログラムは、例えば、(ハードドライブまたはフロッピーディスクといった)磁気ディスクまたは磁気テープといった磁気記憶媒体と、光ディスク、光学テープまたは機械読取り可能なバーコードといった光学記憶媒体と、ランダムアクセスメモリ(RAM)または読取り専用メモリ(ROM)といった固体電子記憶デバイスと、またはコンピュータプログラムを記憶するために利用されるその他のあらゆる物理的デバイスまたは媒体を含むことのできるコンピュータ読取り可能な記憶媒体の中に記憶できるという点にも留意すべきである。
【0025】
さらに、本発明は好ましくは、パーソナルコンピュータといった周知のあらゆるコンピュータシステムで利用されるという点も指摘しておく。したがって、かかるコンピュータシステムについて、ここでさらに詳しく論述することはしない。又、(例えばデジタルカメラにより)コンピュータシステムに画像を直接入力するかまたは(例えばハロゲン化銀プリントまたはネガの走査などといった原稿の走査により)コンピュータシステムに入力する前にデジタル化することができるということを指摘しておくことも有益である。
【0026】
スライドショー(Slide show またはslideshow)が、画像のコレクションであることを指摘しておく。このスライドショーは又、電子フォトアルバム、デジタルフォトアルバムまたはマルチメディアアルバムと称することもできる。かかるスライドショー/アルバムは、アルバムのコンテキストやプレゼンテーションを強調するため、ビデオクリップ、オーディオクリップ、音声コメント、テキスト、ミュージッククリップ等を含むことができる。かくして、スライドショー/アルバムは、マルチメディアスライドショーまたはマルチメディアアルバムと呼ぶことができる。スライドショーの各「スライド」は、スライドショーが順次一連の静止画像および/またはビデオクリップを表示する、画像および/またはビデオクリップのコレクションの1つを示す、1つのスクリーンまたはディスプレイに対応する。
【0027】
図1を参照すると、本発明を実施するためのシステム110が示されている。システム110は好ましい実施形態を例示する目的で示されているが、本発明は、このシステム110に制限されるわけではなく、家庭用コンピュータ、キオスク、小売りまたは卸売りの現像設備またはデジタル画像処理用のその他のあらゆるシステムといった任意の電子処理システムでよい。システム110は、ソフトウェアプログラムを受信し処理するためおよびその他の処理機能を実施するためのマイクロプロッセッサベースのユニット112を含む。グラフィカルユーザインタフェース等を用いて、ソフトウェアと結びつけられたユーザ関連情報を表現するために、マイクロプロセッサベースのユニット112に対し、ディスプレイ114が電気的に接続される。ユーザがソフトウェアに対し情報を入力できるようにするため、マイクロプロセッサベースのユニット112に対しキーボード116を接続することができる。入力にキーボード116を用いる代わりに、当業者にとって周知のように、ディスプレイ114上でセレクタ120を移動させるためおよびセレクタ120が上にオーバーレイする項目を選択するために、マウス118またはその他の入力デバイスを使用することができる。
【0028】
ソフトウェアプログラムを標準的に含むコンパクトディスク読取り専用メモリ(CD−ROM)が、マイクロプロセッサベースのユニット112に対しソフトウェアプログラムおよびその他の情報を入力する手段を提供する目的で、マイクロプロセッサベースのユニットに挿入される。さらに、フロッピーディスク126も又ソフトウェアプログラムを含むことができ、ソフトウェアプログラムの入力のためにマイクロプロセッサベースのユニット112に挿入される。あるいは、コンパクトディスク読取り専用メモリ(CD−ROM)124またはフロッピーディスク126を、マイクロプロセッサベースのユニット112と電気的に接続する外部のディスクドライブユニット122に挿入することもできる。さらには、ソフトウェアプログラムを内部に記憶するため、当該技術分野において周知であるように、マイクロプロセッサベースのユニット112をプログラミングすることができる。マイクロプロセッサベースのユニット112は、又、1つまたは複数のコンピュータまたはその他のシステム125の外部ネットワークに対するインターネット接続、ローカルエリアネットワークまたは電話回線といったネットワーク接続127を備えることもできる。システム110からの出力のハードコピーを印刷するため、マイクロプロセッサベースのユニット112に対しプリンタ128を接続することもできる。
【0029】
画像は、従来知られていたように、カード130内に電子的に具現されたデジタル画像を含むPCMCIAカード(パーソナルコンピュータメモリーカード国際協会の仕様に基づく)といったパーソナルコンピュータカード(PCカード)130を用いて、ディスプレイ114に表示することができる。PCカード130は、究極、ディスプレイ114上での画像の視覚的表示を可能にするため、マイクロプロセッサベースのユニット112に挿入される。あるいは、PCカード130を、マイクロプロセッサベースのユニット112と接続される外部のPCカード読取り装置132に挿入することができる。コンパクトディスク124、フロッピーディスク126またはネットワーク接続127を用いて、システム10に対し画像を入力することもできる。PCカード130、フロッピーディスク126またはコンパクトディスク124に記憶されたまたはネットワーク接続127を通して入力されたあらゆる画像が、デジタルカメラ(図示せず)またはスキャナ(図示せず)といった、当業者にとって既知の種々の供給源から得たものとすることができる。画像は又、マイクロプロセッサベースのユニット112と接続されるカメラドッキングポート136を用いて、デジタルカメラ134から直接入力されてもよいし、又、マイクロプロセッサベースのユニット112へのケーブル接続138を用いてまたはマイクロプロセッサベースのユニット112に対し無線接続140を用いて、デジタルカメラ134から直接入力されてもよい。
【0030】
MPEG−1は、周知の規格である。MPEG−1を用いて、静止画(すなわちデジタル静止画)を符号化するためには、I−フレーム(イントラフレーム)しか符号化する必要がなく、P−フレーム(予測フレーム)もB−フレーム(双方向予測フレーム)も存在しない。復号バッファのアンダーフローおよびオーバーフローを確実に無くすためには、定ビットレートを維持すべく、パディング(padding)パケットを挿入する必要がある。パディングパケットは、復号器により無視されるスタッフィング(stuffing)バイドである全ての0xFF(全ての16進値の前には0xがつく)を含む。この結果、望ましくない状況が発生する。一方において、I−フレームの空間解像度は標準解像度に制限され、場合によってブロッキングアーチファクトを伴う。他方において、所要のビットレートを維持するために、追加のスタッフィングバイトを挿入しなければならない。本発明は、高解像度スチールのビデオCD2.0仕様によって達成されるI−フレームの解像度向上のために、スタッフィングバイトを採用する。I−フレームまでの動きに割当てられたビットをトレードすることにより、静止画およびマルチメディアスライドショーの空間解像度を4倍高い解像度で、符号化することができ、かくしてさらに高い表現品質が得られる。
【0031】
ここで図2を参考にしながら、本発明の方法について説明する。図2は、単一の混合解像度静止画、いくつかの静止画を順次表示する無声高解像度スライドショー、およびオーディオを伴うマルチメディア高解像度スライドショーとしての、デジタルオーディオクリップおよびデジタル画像の制作を図示する。より具体的には、図2に示すように、高解像度スライドショーを制作する方法は、一般に 1)画像の強調と制作、2)オーディオ制作、3)単一の混合解像度静止画の制作、4)いくつかの静止画像を順次表示する無声スライドショーの制作、および5)オーディオを伴うマルチメディアスライドショーの制作、と称する5つの段階を含む。制作されたスライドショーは、ソフトウェア/ハードウェアプレイヤを備えるコンピュータまたはVCD/DVDプレイヤで表現し/見直すことができる。
【0032】
単一の混合解像度静止画(すなわちデジタル静止画像)の符号化について、ここで、図2を参考にしながら説明する。参照番号210は、制作すべき複数(N)のデジタル画像を表す。画像強調および制作モジュール220(これについては以下でより具体的に記述する)を用いて、各画像210はまず最初にYUVカラー空間に変換され、4:2:0のフォーマットにサブサンプリングされ、8×8のブロックに分割され、DCT変換の後にハフマン符号化される。より具体的には、各チャンネルは、8×8ブロックに分割され、空間相関を除去すべく2D離散コサイン変換(DCT)により符号化される。さらに、量子化およびハフマン符号化により、シンボル冗長性が除去される。こうして、標準解像度のDCT符号化ピクチャ(画)230および高解像度のDCT符号化ピクチャ240が生成される。標準解像度230および高解像度240のDCT符号化ピクチャは、次にVCD仕様2.0に従って混合解像度静止画250として多重化/インタリーブされる。この混合解像度静止画250は、標準解像度230でのDCT符号化ピクチャ(画)よりも高い解像度を有し、したがって高解像度静止画250と称する。高解像度静止画250は、NTSCで704×480またはPALで704×576の空間解像度を有するVCD/DVDプレイヤを用いて、テレビにて見/表現することが可能である。
【0033】
タイミングパラメータ270が利用可能な場合、図2に示すように、N個の入力画像を、さらに単一の無声高解像度スライドショー280として制作することができる。(5秒といったタイミングパラメータ270のためのデフォルト値または予め定められた値を利用することができることを指摘しておく)。タイミングパラメータ270は、1つの画像がディスプレイ114上にとどまりかつオーディオビットストリームとビデオビットストリームとの間の同期を維持すべき、時間長を規定する。タイミングパラメータ270は、入力デバイス118、セレクタ120、キーボード116、ユーザ対話、パラメータファイルまたはオーディオ制作モジュール290を通して、規定することができる。定ビットレートを維持するためには、パディングパック260を、2つの高解像度静止画250の間に挿入し、これにより、次のピクチャ(画)に切換えられその次のピクチャがディスプレイ114に表示されるまでの規定の秒数だけ、ディスプレイ114に先行ピクチャが表示されるようにすることができる。パディングパック260は、スタッフィングバイト0xFFで埋められたパックである。スタッフィングバイトは、特定の意味をもたず、定ビットレートを維持するためのものである。パディングパックの数NPは、ディスプレイの秒数Tと、DCT符号化標準解像度ピクチャを保持するパックの数NNと、DCT符号化高解像度ピクチャ240を保持するパックの数NHと、により、以下のアルゴリズムに従って決定できる。
NP=T*75−(NN+NH)
なお上式中、秒は、75パックに相当する。
【0034】
タイミングパラメータ270は、各画像210について同じ値である必要はないことを指摘しておく。すなわち、各画像210がディスプレイ114に表示される時間は可変である。例えば、表示時間を無作為(ランダム)に決めることが望ましい場合がある。あるいは、画像のコンテンツに基づいて各画像用の表示時間を決めることが望ましい場合もあり、この場合、人間の画像は時間Time1の間表示され、景色の画像はTime1とは異なる時間Time2で表示される。
【0035】
さらに図2を参照すると、オーディオ206を含めて無声スライドショー280を強調し、これによりマルチメディアスライドショー320を生成することができる。このために、オーディオ206は、異なる範囲をもつ画像について選択された1つまたは複数のバックグラウンドミュージッククリップ206を含むことができる。例えば、1つのミュージッククリップを画像210(N=1〜10)に、画像210(N=11〜15)については無声、そしてもう1つのミュージッククリップを画像210(N=16〜30)にそれぞれ適用することができる。さらに、オーディオ206は、任意の画像210に適用する音声コメント206を含むことができる。例えば、ユーザは、特定の画像についての情報を記録するためマイクロホンに話を入力することができる。オーディオ206は、オーディオ制作モジュール290に転送される。オーディオ制作モジュール290からのタイミングパラメータ270は、無声スライドショー280を生成するために使用され、その290からの正規化されたオーディオは、オーディオビットストリーム310を生成するためにデジタルオーディオ符号化/圧縮モジュール300に送られる。無声スライドショー280からのビデオビットストリームおよびオーディオビットストリーム310は、オーディオを伴う単一のマルチメディアスライドショー320として多重化される。マルチメディアスライドショー320はソフトウェアから提供でき、あるいはそうでなければ、VCD/DVDプレイヤを用いたディスプレイ用のVCDまたはDVDにマルチメディアスライドショー320をバーンインすることもできる。Loui et alの名で2001年6月20日付けで提出され本出願の譲受人に対し譲渡された「マルチメディア使用可能ディスクを立案するためのシステムおよび方法」という名称の共通譲渡された米国特許出願第09/885,577号を参照されたい。
【0036】
図3は、より具体的に、画像強調制作モジュール200について示す。1つの目標は、正しい解像度をもつ画像データを作ることにあり、もう1つの目標は、画像表現の質を強調することにある。この目的のため、各画像210は、画像入力インタフェース211を介してコンピュータメモリに読み込まれる。画像入力インタフェース211は、一般に利用される画像ファイルフォーマット(例えばJPEG、GIF、TIFF、BMP等)や種々のデバイス(例えばハードディスク、メモリーカード、メモリースティック、フラッシュカード、コンパクトディスク、フロッピーディスク等)に記憶された画像データを受入れるように、構成されるべきである。各画像210はまず最初に適切な向き212に再方向付けされる(例えば肖像画または景色)。これは、ユーザ対話または画像解析を通して画像からの自動方式によって達成可能である。
【0037】
画質を強調するためには、画像に対し種々の画像強調アルゴリズム213が適用される。かかる画像強調の例としては、カラーバランス、雑音軽減、エッジ鮮鋭化、赤目検出および補正、トーンスケール調整、およびその他の標準的画像強調アルゴリズム等が含まれる。
【0038】
画像強調213が適用された後、その他のテクスチュアを複合画像214として画像上にオーバーレイすることができる。テクスチュアの例としては、バックグラウンドテクスチュア、画像用のフレーム修飾、会社ロゴなどが含まれる。画像コンテンツに対し、テキストコメント215(例えば題名、主題、人物、時、場所等)も付加することができる。そしてこの画像は、同じ画像コンテンツをもつ標準解像度画像と高解像度画像とに2回リサイジングされる(216)。各バージョンは、MPEG−1 I−フレーム符号化構文に従って別々に符号化される。上述のようにして、標準解像度230でのDCT符号化ピクチャ230と、高解像度でのDCT符号化ピクチャ240とが生み出される。
【0039】
図4は、画像強調操作213についてより具体的に示す。特に、画像強調213は好ましくは当初、非鮮鋭マスキングによる画像鮮鋭化410、すなわち、原画から画像のぼけたバージョンを削除することが含まれる。その後、好ましくは、強調された黒色プリントアルゴリズムを用いて、すなわち、高周波チャンネルの変化により示される雑音指数に基づき画像を適応的にフィルタすることによって、ノイズ軽減240が達成される。画像理解アルゴリズムを画像に適用して、赤目を検出し補正することができる(430)。さらに、画像を強調するために、トーンスケール調整440およびカラーバランス450を適用することもできる。
【0040】
ここで、図5を参照しながら、オーディオ組合せモジュール290について具体的に説明する。一般に、オーディオ組合せモジュール290は、多数のオーディオストリームを単一の正規化されたオーディオストリームに組合せ、オーディオ/ビデオ同期のためにタイミングパラメータを自動的に計算する。
【0041】
上述のように、オーディオ206は、1つまたは複数のバックグラウンドミュージッククリップおよび/または音声コメントを含むことができる。オーディオ抽出292は、外部デバイス(例えばハードディスク、コンパクトディスク、メモリカード、フロッピーディスク等)から、コンピュータメモリにデジタルオーディオサンプルを読み込む。デジタルオーディオ信号は、マイクロソフトウェーブファイル、MPEGオーディオファイル(階層I、IIおよびIII)、Apple/SGIAiffファイル、NeXT(Sun au/sndファイル、SoundBlaster vocファイル、Turtle beach Sample Vision smpファイルまたはストリーミングオーディオインローフォーマットといった種々のファイルフォーマットで記憶可能である。オーディオは、音声コメント、ミュージッククリップ、歌またはバックグラウンドサウンド等である。
【0042】
入力されたオーディオストリームは、例えばステレオ、16ビット/サンプル、44.1kHzといった正規化仕様に合わせ、オーディオ正規化294において正規化される。この正規化は、サンプリング速度の変更(例えば8kHzから44.1kHzへ)、サンプル精度の変更(例えば8ビット/サンプルから16ビット/サンプルへ)、チャンネル数の変更(例えばモノからステレオへ)、および/またはファイルフォーマットの変更を含むことができる。
【0043】
画像正規化294の後に続くのは、オーディオアラインメント296のステップである。より具体的には、オーディオアラインメントは、同じ時間的次元に沿って多数のオーディオストリームを登録し、タイミングパラメータ270を計算する。各画像210は、その対応するオーディオ/音声コメントが開始した時点で現れなければならず、各画像210は、オーディオ/音声コメントが終わるまで表示されなければならない。さらに、特定のバックグラウンドミュージッククリップ全体にわたり、可能なかぎり均等に画像を分布させるべきである。
【0044】
ここで、一例を参照しながら、オーディオアラインメントについてより具体的に説明する。なおこの例において、
iは、N個の入力画像210のための画像指標であり、
tiは、ディスプレイ上のi番目の画像についての秒単位の継続時間であり、
tdは、ディスプレイ上の1つの画像についての秒単位のデフォルト継続時間(例えば5秒)であり、
tmは、秒単位の最小継続時間であり(例えば0.5秒)、
tsは、ミュージッククリップのための継続時間であり、そして
aiは、i番目の画像上の音声コメントについての秒単位の継続時間である。
【0045】
複数(N)の画像についていかなるサウンドも(音楽も音声も)選択されない場合には、ti=td、i=1,…Nである。かくして、各画像210は、td秒間表示され、無声スライドショー280の持続時間はtd*N秒である。
【0046】
音声コメントが存在し、バックグラウンドミュージックは全く規定されていない場合、ある特定の画像についての継続時間は、その画像上の音声コメントの継続時間によって決定され、具体的には0<=ai<tdの場合ti=tdであり、そうでなければti=aiである。換言すると、1つの画像上に音声コメントが全く無いかまたはそのコメントの長さがデフォルト継続時間tdよりも短かい場合には、tiはデフォルト値tdをとる。そうでなければ、tiは実際の音声コメント継続時間をとる。すなわち音声コメントが存在するときにディスプレイ114に画像が表示される。
【0047】
単一の音楽または歌が存在し、いかなる音声コメントも存在しない場合、各画像は等しい時間長だけ表示され、具体的にはti=ts/Nである。多数のミュージッククリップが存在する場合、該ミュージッククリップは好ましくは、単一のミュージッククリップとしてまず連結(concatenate)される。残りは、単一のバックグラウンドミュージッククリップの場合にならう。
【0048】
複数の画像について、ミュージッククリップおよび音声コメントの両方が特定されている場合、考えられる処理が3つある。(1)全ての音声コメントについての合計継続時間がミュージッククリップの時間よりも長い場合、オーディオストリームは同じミュージッククリップ(またはゼロオーディオサンプル)でパディングされる。残りは、コメントのみを伴う状況にならう。(2)長いミュージッククリップが選択された場合(すなわち、平均継続時間内で全ての音声コメントに合わせるのに十分なほど継続時間が長い場合)には、ti=ts/Nである。これは、ミュージッククリップのみの状況と類似している。(3)第3の処理は、具体的には一部の音声コメントが平均継続時間に比べ長い継続時間をもち、合計音声コメント継続時間がミュージッククリップの継続時間より短かい場合であり、幾分複雑になる。この処理では、一度に1つの継続時間を1つの画像について割当てるために、好ましくは、再帰的方法が採用される。1つの画像は、コメント継続時間またはデフォルト継続時間のいずれかをとる。N個の画像のうちの1つに割当てられた時間は、残りの(N−1)個の画像のために利用可能な合計時間から、差し引かれる。処理は、全ての画像に継続時間が割当てられるまで繰り返される。
【0049】
オーディオアライメント296が完了した後、異なるオーディオストリームからのオーディオサンプルは、オーディオ組合せモジュール298で特定された強調を伴った単一ストリームとして組合わされる。各時間インスタンスにおいて、オーディオサンプルxは、音声コメントx1とバックグラウンドミュージック/歌x2とのリニアな組合せとして取り出され、ここに
x=(a)(x1)+(1−a)(x2)
である。なお上式中、aは、0と1の間の重みである。音声コメントが存在する場合、バックグラウンドミュージック/歌の音量は低下させられて、フォアグラウンド音声コメントが強調される。
【0050】
オーディオ組合せの例が図6に示されている。音声コメント222からのオーディオサンプルが、組合わされたオーディオストリーム226の中で強調される。バックグラウンドミュージックの音量は、音声コメントが存在するとき(標準から)低下させられ、音声コメントが完了した後、標準まで上げられる。オーディオサンプルの遷移は、平滑な遷移として、低から高へおよび高から低に漸進的に実施できる。
【0051】
したがって、オーディオ組合せモジュール290は、正規化されたオーディオを提供し、このオーディオはデジタルオーディオ符号化/圧縮モジュール300まで移行し、オーディオビットストリーム310を生成する。
【0052】
ここで図7を参照すると、オーディオ制作の一例が示されている。図7は、複数(6個)の入力画像210(N=1〜6)を示す。音声コメント222が、画像1、2、4および6に加えられる。2つのミュージック/歌クリップ224、つまり画像1〜2上のものと画像4〜5上のものが特定されている。この例については、(i)画像3について特定されたオーディオは全く無く、(ii)画像6についてのみ音声コメントが存在し、(iii)画像5についてのみミュージッククリップが存在し、(iv)画像1、2および4について音声コメントおよびミュージッククリップの両方が存在する。より具体的には、ミュージッククリップ224−1は、画像1および2がディスプレイ上にあるときに再生される。音楽の音量は、音声コメントが画像1および2の表示中に再生される場合に、低下させられる。画像3は、全くオーディオ無しで表現され、デフォルト継続時間によって規定されるたtd秒間とどまる。ミュージッククリップ224−2は、ディスプレイ114上で画像4および5が表示されるときに再生される。画像6は、ディスプレイ114上でtd秒間表示され、最初のa6秒は音声コメントを伴い、残りは無声である。より具体的には、参照番号226は、ミュージッククリップ全体にわたり音声コメントを伴う組合せ型オーディオが存在する時間を表し、参照番号228は、オーディオが全く存在しない時間(すなわち音声コメントもミュージッククリップも無い)を表す。
【0053】
図7に例示されている各画像が、図7の時間線によって示されるように、等しい時間長で表示されている、という点に留意されたい。しかしながら、上述のように、本発明は、各画像についての表示時間を可変にして実施することができる。
【0054】
本発明のシステム110は、デジタルカメラ、PDA(携帯端末)または携帯/自動車電話でありうる。例えば、図8は、ディスプレイ502および選択部504を有するデジタルカメラ500を示す。デジタルカメラ500がマイクロプロセッサ(CPU)、メモリおよびオーディオ機能をもつ場合、それは、本発明の方法を実施できる。同様に、図9は、ディスプレイ508および選択部510をもつ携帯/自動車電話を示す。携帯/自動車電話506がマイクロプロセッサ(CPU)、メモリおよびオーディオ機能をもつ場合、それは、同じく、本発明の方法を実施することができる。通信は、例えば無線ネットワーク、インターネットまたは電話回線といった当業者にとって既知のネットワーク上で行うことができる。
【図面の簡単な説明】
【0055】
【図1】本発明によるシステムの特徴を一般的に示す図である。
【図2】単一の混合解像度の静止画、いくつかの静止画像を順次表示する無声高解像度スライドショーおよびオーディオを伴うマルチメディア高解像度スライドショーとしてのデジタルオーディオクリップおよびデジタル画像の制作を示す図である。
【図3】静止画像の制作を示すブロック図である。
【図4】各種画像強調操作を示す図である。
【図5】デジタル音楽および音声コメントの制作を示すブロック図である。
【図6】オーディオ組合せおよび音声コメントおよびバックグラウンドミュージックを示す図である。
【図7】本発明によるオーディオ制作の例を示す図である。
【図8】本発明の方法を実践するのに用いることのできるデジタルカメラを一般的に示す図である。
【図9】本発明の方法を実践するのに用いることのできる携帯/自動車電話を一般的に示す図である。
【符号の説明】
【0056】
110…システム
112…マイクロプロセッサベースのユニット
114…ディスプレイ
116…キーボード
118…マウス(入力デバイス)
120…ディスプレイ上のセレクタ
122…ディスクドライブユニット
124…コンパクトディスク読取り専用メモリ
125…外部ネットワーク
126…フロッピーディスク
127…ネットワーク接続
128…プリンタ
130…PCカード
132…PCカード読取り装置
134…デジタルカメラ
136…デジタルカメラドッキングポート
138…ケーブル接続
140…無線接続
206…デジタルオーディオ(例えばミュージッククリップまたは音声コメント)
210…デジタル画像
211…画像入力インタフェース
212…画像方向付け
213…画像強調
214…画像制作/複合
215…テキストコメント
216…画像リサイズ決定
220…画像強調の制作モジュール
222…音声コメント
224…ミュージッククリップ
226…ミュージッククリップ上の音声コメントを伴う組合せ型オーディオ
228…無声オーディオ
230…標準解像度のDCT符号化ピクチャ
240…高解像度のDCT符号化ピクチャ
250…混合解像度高解像度静止画
260…パディングパック
270…タイミングパラメータ
280…無声スライドショー
290…オーディオ強調モジュール
292…オーディオ抽出
294…オーディオ正規化
296…オーディオアラインメント
298…オーディオ組合せモジュール
300…デジタルオーディオ符号化モジュール
310…オーディオビットストリーム
320…マルチメディアスライドショー、オーディオ付き
410…エッジ鮮鋭化
420…雑音軽減
430…赤目検出および補正
440…トーンスケール調整
450…カラーバランス
500…デジタルカメラ
502…ディスプレイ
504…選択部
506…携帯/自動車電話
508…ディスプレイ
510…選択部
【出願人】 【識別番号】590000846
【氏名又は名称】イーストマン コダック カンパニー
【出願日】 平成15年12月11日(2003.12.11)
【代理人】 【識別番号】100099759
【弁理士】
【氏名又は名称】青木 篤

【識別番号】100092624
【弁理士】
【氏名又は名称】鶴田 準一

【識別番号】100102819
【弁理士】
【氏名又は名称】島田 哲郎

【識別番号】100108383
【弁理士】
【氏名又は名称】下道 晶久

【識別番号】100082898
【弁理士】
【氏名又は名称】西山 雅也

【公開番号】 特開2004−194338(P2004−194338A)
【公開日】 平成16年7月8日(2004.7.8)
【出願番号】 特願2003−413609(P2003−413609)