トップ :: A 生活必需品 :: A61 医学または獣医学;衛生学




【発明の名称】 視覚的に聴覚を補助するシステムおよび方法並びに視覚的に聴覚を補助するための制御プログラムを記録した記録媒体
【発明者】 【氏名】中村 章

【氏名】藤井 真人

【氏名】都木 徹

【氏名】曽根原 源

【氏名】井口 和久

【氏名】野尻 裕司

【要約】 【課題】唇の動きや手話を表現した映像を音声情報に併せて自動的に高品質に合成し、マルチモーダル的に提示すること。

【解決手段】予め唇の動きや手話の動きを撮影した映像を、単音節、あるいは単語、あるいは文章にごとに動画素片データベース部4に収録しておき、テキスト文作成部3から供給されるテキストに対応して動画素片検出部5により動画素片データベース部4から該当の動画素片を検出し、検出したこれら動画素片を基に動きベクトル検出系6、7、8により個々の動画素片の接合部分における映像の動きベクトルを検出し、フィールド内挿部9により個々の動画素片の接合部分において内挿するフィールド枚数と内挿位置を、映像の動きべクトルを基に可変にすることで、動画素片を映像の流れに自然性を保ったまま、スムーズにつなぎ合わせ合成する。合成した動画と音声出力との同期も行う。
【特許請求の範囲】
【請求項1】 予め唇の動きや手話の動きなどの視覚情報を撮影した映像を、単音節、あるいは単語、あるいは文章ごとにそれぞれ動画素片としてデータベース化して収録した動画素片記憶手段と、音声入力または文字入力に応じてテキスト文を作成するテキスト文作成手段と、該テキスト文作成手段から入力する前記テキスト文に対応して前記動画素片記憶手段に収録された前記動画素片の中から必要な動画素片を選択する動画素片検索手段と、該動画素片検索手段で選択された各動画素片の接合部分の映像の動きべクトルを検出する動きベクトル検出手段と、該動きベクトル検出手段で検出された前記動きベクトルを基に、前記動画素片検索手段で選択された各動画素片をフィールド内挿処理により映像の流れに自然性を保ったまま、つなぎ合わせて一連の動画を合成するフィールド内挿手段とを具備することを特徴とする視覚的に聴覚を補助するシステム。
【請求項2】 前記テキスト文作成手段は、音声信号を認識して文字コードを生成する音声認識手段を有することを特徴とする請求項1に記載の視覚的に聴覚を補助するシステム。
【請求項3】 前記動画素片記憶手段に予め蓄えられた単音節、単語、もしくは文章等を発声した唇の動き、または手話映像を表した動画素片に対応した音声をそれぞれ音声素片としてデータベース化して予め蓄えた音声素片記憶手段と、前記動画素片記憶手段の中から前記動画素片検索手段により選択された各動画素片に対応した音声素片を前記音声素片記憶手段に蓄えられている音声素片の中から選択する音声素片検索手段と、該音声素片検索手段で選択された前記音声素片をつなぎ合せた一連の合成音声を、前記フィールド内挿手段から出力する前記動画素片をつなぎ合せた一連の動画に同期させて出力させる音声映像同期手段とを有することを特徴とする請求項1または2に記載の視覚的に聴覚を補助するシステム。
【請求項4】 前記音声素片検索手段で選択された複数の音声素片を接続して合成音声を生成する際に、各該音声素片を接続する際の不連続による音質劣化を防ぎ原音声の持っている自然性や個人性に影響を与えずにイントネーションやアクセント等を付加して音声の合成を行う音声合成手段を前記音声素片検索手段の後段に有することを特徴とする請求項3に記載の視覚的に聴覚を補助するシステム。
【請求項5】 前記フィールド内挿手段は、前記動きベクトル検出手段で検出された各動画素片の接合部分の映像の動きべクトルを基に、各動画素片に内挿するフィールドの枚数と内挿位置を可変にすることで、動画素片のつなぎ合わせ部分をスムーズにすることを可能とすることを特徴とする請求項1ないし4のいずれかに記載の視覚的に聴覚を補助するシステム。
【請求項6】 前記フィールド内挿手段は、個々の動画素片の接合部分の映像の流れに自然性を保たせるため、隣り合う動画素片の接合部分に内挿する幾枚かのフィールドの枚数に対応して、該動画素片の隣と隣接しない中間部分においてフィールド数を減じる内挿を行い、全体のフィールド数を一定に保つことを可能とすることを特徴とする請求項5に記載の視覚的に聴覚を補助するシステム。
【請求項7】 前記フィールド内挿手段は、唇の動きを表した一連の動画を合成する際、映像の内挿位置を原画と比べて映像と音声のズレを人の検知限の範囲内に設定することにより、一連の動画と音声のタイミングのズレをリップシンクの検知限以下に抑えることを可能とすることを特徴とする請求項5または6に記載の視覚的に聴覚を補助するシステム。
【請求項8】 予め唇の動きや手話の動きなどの視覚情報を撮影した映像を、単音節、あるいは単語、あるいは文章ごとにそれぞれ動画素片として記憶手段に収録しておき、入力される音声情報やテキストに対応させて、前記記憶手段から読み出した複数の前記動画素片を映像の流れに自然性を保ったまま、つなぎ合わせて一連の視覚情報の動画を合成することを特徴とする視覚的に聴覚を補助する方法。
【請求項9】 音声情報に併せて、自動的に唇の動きを表した映像や手話を表現した映像などの視覚情報をマルチモーダル的に提示することを特徴とする請求項8に記載の視覚的に聴覚を補助する方法。
【請求項10】 前記記憶手段に予めデータべース化してある前記動画素片の中から、必要な動画素片を選択し、選択した各動画素片の接合部分の映像の動きべクトルを基に、該動画素片を自然性を保ったまま、つなぎ合わせて一連の動画を合成することを特徴とする請求項8または9に記載の視覚的に聴覚を補助する方法。
【請求項11】 前記記憶手段から選択した前記動画素片を基に一連の動画を生成する際に、個々の動画素片の接合部分において内挿するフィールド数について、各動画素片の接合部分の映像の動きべクトルを基に、内挿する枚数と内挿位置を可変にすることで、つなぎ合わせ部分をスムーズにすることを可能とすることを特徴とする請求項10に記載の視覚的に聴覚を補助する方法。
【請求項12】 前記記憶手段から選択した前記動画素片を基に一連の動画を生成する際に、個々の動画素片の接合部分の映像の流れに自然性を保たせるため、隣り合う動画素片の接合部分に内挿する幾枚かのフィールドの枚数に対応して、該動画素片の隣と隣接しない中間部分において、フィールド数を減じる内挿を行い、全体のフィールド数を一定に保つことを可能とすることを特徴とする請求項11に記載の視覚的に聴覚を補助する方法。
【請求項13】 唇の動きを表した一連の動画を合成する際、映像の内挿位置を原画と比べて映像と音声のズレを人の検知限の範囲内に設定することにより、一連の動画と音声のタイミングのズレをリップシンクの検知限以下に抑えることを可能とすることを特徴とする請求項11または12に記載の視覚的に聴覚を補助する方法。
【請求項14】 コンピュータによって視覚的に聴覚を補助するための制御プログラムを記録した記録媒体であって、該制御プラグラムはコンピュータに、予め唇の動きや手話の動きなどの視覚情報を撮影した映像を、単音節、あるいは単語、あるいは文章ごとにそれぞれ動画素片としてデータベース化して動画素片記憶手段に予め収録させ、音声入力または文字入力に応じてテキスト文を作成させ、該テキスト文に対応して前記動画素片記憶手段に収録された前記動画素片の中から必要な動画素片を選択させ、該選択された各動画素片の接合部分の映像の動きべクトルを検出させ、該検出された動きベクトルを基に、前記選択された各動画素片をフィールド内挿処理により映像の流れに自然性を保ったまま、つなぎ合わせて一連の動画を合成させることを特徴とする視覚的に聴覚を補助するための制御プログラムを記録した記録媒体。
【請求項15】 前記制御プログラムはコンピュータに、入力する音声信号を認識させて文字コードを生成させることを特徴とする請求項14に記載の視覚的に聴覚を補助するための制御プログラムを記録した記録媒体。
【請求項16】 前記制御プログラムはコンピュータに、前記動画素片記憶手段に予め蓄えた単音節、単語、もしくは文章等を発声した唇の動き、または手話映像を表した動画素片に対応した音声をそれぞれ音声素片としてデータベース化して音声素片記憶手段に予め蓄えさせ、前記動画素片記憶手段の中から選択した各動画素片に対応した音声素片を前記音声素片記憶手段に蓄えられている音声素片の中から選択させ、該選択された前記音声素片をつなぎ合せた一連の合成音声を、前記動画素片をつなぎ合せた一連の動画に同期させて出力させることを特徴とする請求項14または15に記載の視覚的に聴覚を補助するための制御プログラムを記録した記録媒体。
【請求項17】 前記制御プログラムはコンピュータに、複数の音声素片を接続して合成音声を生成する際に、各該音声素片を接続する際の不連続による音質劣化を防ぎ原音声の持っている自然性や個人性に影響を与えずにイントネーションやアクセント等を付加して音声の合成を行わせることを特徴とする請求項16に記載の視覚的に聴覚を補助するための制御プログラムを記録した記録媒体。
【請求項18】 前記制御プログラムはコンピュータに、各動画素片の接合部分の映像の動きべクトルを基に、各動画素片に内挿するフィールドの枚数と内挿位置を可変にさせることを特徴とする請求項14ないし17のいずれかに記載の視覚的に聴覚を補助するための制御プログラムを記録した記録媒体。
【請求項19】 前記制御プログラムはコンピュータに、隣り合う動画素片の接合部分に内挿する幾枚かのフィールドの枚数に対応して、該動画素片の隣と隣接しない中間部分においてフィールド数を減じる内挿を行わせて、全体のフィールド数を一定に保たせることを特徴とする請求項18に記載の視覚的に聴覚を補助するための制御プログラムを記録した記録媒体。
【請求項20】 前記制御プログラムはコンピュータに、唇の動きを表した一連の動画を合成する際に、映像の内挿位置を原画と比べて映像と音声のズレを人の検知限の範囲内に設定させて、一連の動画と音声のタイミングのズレをリップシンクの検知限以下に抑えさせることを特徴とする請求項18または請求項19に記載の視覚的に聴覚を補助するための制御プログラムを記録した記録媒体。
【発明の詳細な説明】【0001】
【発明の属する技術分野】本発明は、視覚的に聴覚を補助するシステムおよび方法並びに視覚的に聴覚を補助するための制御プログラムを記録した記録媒体に関し、特に映像と音を有するメディア(例えば、テレビジョン、VTR(ビデオ・テープ・レコーダ)、DVD(ディジタル・ビデオ・ディスク)のような映音記録メディア、コンピュータ上での動画音響再生等)や医療機器等、及びテレビ電話等の通信機器等において、加齢ないしは、何らかの聴覚的な障害により、ヒアリングロス(難聴)が生じた者に対し、音声情報に併せて、唇の動き(リップリーディングを行うため)や手話などの視覚情報をマルチモーダル的に提示することにより、その音声情報をより理解しやすくする技術に関する。
【0002】本発明により、唇の動きや手話などの動画を高品質に生成するため、単音節、あるいは単語、あるいは文章を発声したもしくは表現した、唇の動きや手話などの幾つかの動画素片(ここで、単音節、単語、あるいは文章を発声した唇の動きや、それらを表現した手話の動き等のそれぞれを動画素片と呼ぶこととする)を基に自然性を保ったまま、唇の動きや手話などの動画像を合成することが可能となる。また、本発明を用いれば、例えば放送番組プログラムの編集等においても、幾つかの動画素片から、自然性を保ったまま高品質に、一連の動画を合成する等の利用分野への適用も可能となる。
【0003】
【従来の技術】現在、この種の視覚的に聴覚を補助する方法としては、発生する音声の内容に応じて自動的に高品質に唇の動き映像や手話映像を合成して表示することが困難であったため、直接、アナウンサーや手話通訳者などの健聴者がその伝達すべき内容を喋り、唇を動かしたり、手話を実際に行うなどの人海戦術に頼っている。
【0004】一方、唇の動き等を数式によりモデル化し、1枚づつ映像を合成して、アニメーションにする研究も進められている(文献1:Takaaki Kuratate(倉立 尚明)et al.”Facial Animation from 3D Kinematics ”(三次元運動学からの顔のアニメーション)、日本音響学会講演論文集、1−P−10、pp323〜324、平成9年9月、など)。手話に関しても、基本的には唇の動きを表現したアニメーションの場合と同様で、各関節における動きをモデル化し、1枚ずつ映像を合成して、アニメーションにする研究も進められている(文献2:池田健 他・NEWS・「手話音声対話支援システムの初期バージョンを開発」、電子情報通信学会誌、pp.1001、Vol.80、No.9 1997、など)。
【0005】
【発明が解決しようとする課題】加齢ないしは何らかの聴覚的な障害により、聞こえ(聴覚)の低下した者にとって、唇の動きを表した映像(リップリーデイングを行うため)や手話を表現した映像などの聴覚特性の劣化を補う視覚情報を、音声情報に併せてマルチモーダル的に提示されれば、その音声情報の理解がより向上する。
【0006】しかしながら、従来技術では、これらの視覚的に聴覚を補助する動画を高品質に合成することが困難であり、そのため上述のように直接、人がその内容を喋り、唇を動かしたり、手話を実際的に行うなど、人海戦術に頼っている。
【0007】また上述のように、一部、唇の動きや手話等を数式によりモデル化し、1枚づつ映像を合成して、アニメーションにする研究も進められている(上記の文献1、文献2など)が、この様な従来手法では、モデル化により1枚づつ映像を合成し、アニメーション化するために、1枚の映像を合成するのに多くの時間を要し、また、現段階において、唇の動きや手話等のモデル化が完全ではなく、唇の動きや手話等の動きに自然性が欠ける等の解決すべき課題がある。また、唇の動きを表現したアニメーション等においては、音声と唇の動きのリップシンク(唇の映像と音声の再生時刻を一致させる)を取ることが難しく、アニメーション化するにあたり、このリップシンクの部分に多くの時間を費やしているという解決すべき課題がある。
【0008】本発明の目的は、従来技術の上述のような課題を解決し、自動的に唇の動きや手話などの動画を自然の滑らかさで高品質に、かつ効率よく生成することのできる視覚的に聴覚を補助するシステムおよび方法並びに視覚的に聴覚を補助するための制御プログラムを記録した記録媒体を提供することにある。
【0009】
【課題を解決するための手段】上記目的を達成するため、本発明は、具体的には、予め唇の動きや手話の動きを実際に撮影した映像を、単音節、あるいは単語、あるいは文章ごとに動画素片として収録し、データべースとして記憶手段に蓄積しておく。これらの動画素片を映像の流れに自然性を保ったまま、つなぎ合わせて合成することで、高品質に視覚情報を提示可能とする。また、個々の動画素片の接合部分において内挿するフイールド数について、映像の動きべクトルの値に応じて、内挿する枚数と内挿位置を可変にすることで、動画素片のつなぎ合わせ部分をよりスムーズにすることを可能とする。この場合、映像の内挿位置を原画と比べて映像と音声のズレの検知限(文献3:赤井田 卓郎 他「リップシンク〜映像と音声のタイミング〜」、NHK技研だより、11〜18頁、1997年5月参照)の範囲内に設定でき、合成映像と音声のタイミングをリップシンクの検知限以下に抑え、一連の動画を合成することが可能となる。
【0010】本発明では、唇の動きや手話の動きを前述した従来のアニメーションにより行った場合に比べて、一連の動画の作成に要する時間が少なく、また、唇の動きや手話等のモデル化の不完全性から起こる唇の動きや手話等の動き等に不自然性がない。また、唇の動きを表現した一連の動画を合成する場合においては、音声と唇の動きのリップシンクを取ることが容易に出来る。
【0011】さらに詳しくは、請求項1のシステムの発明は、予め唇の動きや手話の動きなどの視覚情報を撮影した映像を、単音節、あるいは単語、あるいは文章ごとにそれぞれ動画素片としてデータベース化して収録した動画素片記憶手段と、音声入力または文字入力に応じてテキスト文を作成するテキスト文作成手段と、該テキスト文作成手段から入力する前記テキスト文に対応して前記動画素片記憶手段に収録された前記動画素片の中から必要な動画素片を選択する動画素片検索手段と、該動画素片検索手段で選択された各動画素片の接合部分の映像の動きべクトルを検出する動きベクトル検出手段と、該動きベクトル検出手段で検出された前記動きベクトルを基に、前記動画素片検索手段で選択された各動画素片をフィールド内挿処理により映像の流れに自然性を保ったまま、つなぎ合わせて一連の動画を合成するフィールド内挿手段とを具備することを特徴とする。
【0012】ここで、前記テキスト文作成手段は、音声信号を認識して文字コードを生成する音声認識手段を有することができる。
【0013】また、前記動画素片記憶手段に予め蓄えられた単音節、単語、もしくは文章等を発声した唇の動き、または手話映像を表した動画素片に対応した音声をそれぞれ音声素片としてデータベース化して予め蓄えた音声素片記憶手段と、前記動画素片記憶手段の中から前記動画素片検索手段により選択された各動画素片に対応した音声素片を前記音声素片記憶手段に蓄えられている音声素片の中から選択する音声素片検索手段と、該音声素片検索手段で選択された前記音声素片をつなぎ合せた一連の合成音声を、前記フィールド内挿手段から出力する前記動画素片をつなぎ合せた一連の動画に同期させて出力させる音声映像同期手段とを有することができる。
【0014】更に、前記音声素片検索手段で選択された複数の音声素片を接続して合成音声を生成する際に、各該音声素片を接続する際の不連続による音質劣化を防ぎ原音声の持っている自然性や個人性に影響を与えずにイントネーションやアクセント等を付加して音声の合成を行う音声合成手段を前記音声素片検索手段の後段に有することができる。
【0015】更に、前記フィールド内挿手段は、前記動きベクトル検出手段で検出された各動画素片の接合部分の映像の動きべクトルを基に、各動画素片に内挿するフィールドの枚数と内挿位置を可変にすることで、動画素片のつなぎ合わせ部分をスムーズにすることを可能とすることができる。
【0016】更に、前記フィールド内挿手段は、個々の動画素片の接合部分の映像の流れに自然性を保たせるため、隣り合う動画素片の接合部分に内挿する幾枚かのフィールドの枚数に対応して、該動画素片の隣と隣接しない中間部分においてフィールド数を減じる内挿を行い、全体のフィールド数を一定に保つことを可能とすることができる。
【0017】更に、前記フィールド内挿手段は、唇の動きを表した一連の動画を合成する際、映像の内挿位置を原画と比べて映像と音声のズレを人の検知限の範囲内に設定することにより、一連の動画と音声のタイミングのズレをリップシンクの検知限以下に抑えることを可能とすることができる。
【0018】請求項8の方法の発明は、予め唇の動きや手話の動きなどの視覚情報を撮影した映像を、単音節、あるいは単語、あるいは文章ごとにそれぞれ動画素片として記憶手段に収録しておき、入力される音声情報やテキストに対応させて、前記記憶手段から読み出した複数の前記動画素片を映像の流れに自然性を保ったまま、つなぎ合わせて一連の視覚情報の動画を合成することを特徴とする。
【0019】ここで、音声情報に併せて、自動的に唇の動きを表した映像や手話を表現した映像などの視覚情報をマルチモーダル的に提示するとすることができる。
【0020】また、前記記憶手段に予めデータべース化してある前記動画素片の中から、必要な動画素片を選択し、選択した各動画素片の接合部分の映像の動きべクトルを基に、該動画素片を自然性を保ったまま、つなぎ合わせて一連の動画を合成するとすることができる。
【0021】更に、前記記憶手段から選択した前記動画素片を基に一連の動画を生成する際に、個々の動画素片の接合部分において内挿するフィールド数について、各動画素片の接合部分の映像の動きべクトルを基に、内挿する枚数と内挿位置を可変にすることで、つなぎ合わせ部分をスムーズにすることを可能とすることができる。
【0022】更に、前記記憶手段から選択した前記動画素片を基に一連の動画を生成する際に、個々の動画素片の接合部分の映像の流れに自然性を保たせるため、隣り合う動画素片の接合部分に内挿する幾枚かのフィールドの枚数に対応して、該動画素片の隣と隣接しない中間部分において、フィールド数を減じる内挿を行い、全体のフィールド数を一定に保つことを可能とすることができる。
【0023】更に、唇の動きを表した一連の動画を合成する際、映像の内挿位置を原画と比べて映像と音声のズレを人の検知限の範囲内に設定することにより、一連の動画と音声のタイミングのズレをリップシンクの検知限以下に抑えることを可能とすることができる。
【0024】請求項14の記録媒体の発明は、コンピュータによって視覚的に聴覚を補助するための制御プログラムを記録した記録媒体であって、該制御プラグラムはコンピュータに、予め唇の動きや手話の動きなどの視覚情報を撮影した映像を、単音節、あるいは単語、あるいは文章ごとにそれぞれ動画素片としてデータベース化して動画素片記憶手段に予め収録させ、音声入力または文字入力に応じてテキスト文を作成させ、該テキスト文に対応して前記動画素片記憶手段に収録された前記動画素片の中から必要な動画素片を選択させ、該選択された各動画素片の接合部分の映像の動きべクトルを検出させ、該検出された動きベクトルを基に、前記選択された各動画素片をフィールド内挿処理により映像の流れに自然性を保ったまま、つなぎ合わせて一連の動画を合成させることを特徴とする。
【0025】
【発明の実施の形態】以下、図面を参照して本発明の実施の形態を詳細に説明する。
【0026】なお、本発明は、複数の機器から構成されるシステムに適用しても、1つの機器からなる装置に適用してもよい。また、本発明の目的は、以下に説明する実施の形態の機能を実現するソフトウエアのプログラムコードを記録した記録媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記録媒体に格納されたプログラムコードを読み出し、実行することによっても、達成される。この場合、記録媒体から読み出されたプログラムコード自体が以下に説明する実施の形態の機能を実現することになり、そのプログラムコードを記録した記録媒体は本発明を構成することになる。そのプログラムコードを記録し、また、データベース部やテーブル等の変数データを記録する記録媒体としては、例えばフロッピディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどを用いことができる。
【0027】図1は本発明の一実施形態の視覚的聴覚補助システムの構成を機能ブロックで示した図である。以下、図1のブロックの処理の流れに沿って本発明の実施形態を説明する。動画素片、及び合成映像はハイビジョン、NTSC、PAL等の各種テレビジョン方式に適応可能であるが、図1の例示では、代表例としてハイビジョン(高品位テレビジョン、高精細度テレビジョン)についての場合を示す。
【0028】(S1)まず、準備工程として、単音節、もしくは単語、もしくは文章等を発声した唇の動き等を撮影した動画素片をデータべースとして動画素片データベース部4に予め蓄えておく。更に詳しくは、この動画素片データベース部4は単音節、もしくは単語、もしくは文章毎の文字コード(テキスト文)とその文字コードに対応する動画素片をセットにして予め記憶する。ここで、単音節、単語、あるいは文章を発声した唇の動きや、それらを表現した手話の動き等のそれぞれを動画素片と呼ぶこととする。手話等の映像を合成するには、単音節、もしくは単語、もしくは文章等を表現した手話映像を動画素片として動画素片データベース部4に蓄えておく。
【0029】(S2)上記S1の工程で動画素片データベース部4に予め蓄えた、単音節、単語、もしくは文章等を発声した唇の動きを表した動画素片に対応した音声、または、単音節、単語、もしくは文章等を表現した手話映像の動画素片に対応した音声を音声素片データベース部12に予め蓄えておく。これらの動画素片に対応したそれぞれの音声を音声素片と呼ぶこととする。
【0030】(S3)そして、使用時には、マイクロホンや受信機等の音声入力手段(図示しない)から入力するアナログ入力音(音声)をA/D(アナログ・ディジタル)変換部1によりA/D変換(16ビット、48kHzサンプル)する。
【0031】(S4)ディジタル信号に変換された入力音声を音声認識部2において単音節、あるいは単語、あるいは文章毎に認識する。認識されたそれぞれの音声を音声素片と呼ぶことにする。
【0032】(S5)入力した音声素片からテキスト文をテキスト文作成部3において作成し、文字コード化を行う。ここで、予めテキスト文として、入力可能な場合(例えば、一部のテレビ番組等)には、キーボードや文字認識装置(OCR)等の文字入力手段(図示しない)から文字コードとしてテキスト文作成部3を通じて装置内に入力する。
【0033】(S6)テキスト文作成部3から転送されるテキスト文(文字コード)に従って、そのテキスト文に対応する動画素片を動画素片データベース部4に蓄えられている動画素片の中から動画素片検索部5により検索し、検索した適切な動画素片を前処理部6へ転送する。動画素片検索部5は、この検索の順番として、まずテキスト文に適合した文章等を発声した(または手話を表現した)動画素片が、動画素片データベース部4内にあるか否かを検索する。無い場合には、単語を発声した(または手話を表現した)動画素片があるかどうか検索する。その動画素片が動画素片データベース部4内に無い場合には、動画素片検索部5は、単音節を発声した(または手話を表現した)動画素片を動画素片データベース部4内から検索する。
【0034】(S7)上記S6の工程で得られた動画素片に対応した音声素片を音声素片データベース部12から音声素片検索部13により選択し、例えば特開平2−47700号公報等に開示されている公知の音声合成方法により、その選択された音声素片を接続して合成音声を作り、生成した合成音声を音声出力バッファ14へ転送する。
【0035】上記特開平2−47700号公報に記載された音声合成方法は、出力音声情報に基づき単位音声情報および韻律情報を定め、予め記憶された単位音声データの中から上記定められた単位音声情報に基づき、当該単位音声に対応する単位音声データ(上記音声素片に相当)を選択し、当該選択された単位音声データからピッチ周期、スペクトル包絡、ホルマント軌跡および単位音声波形の各々を算出または抽出し、当該算出または抽出された単位音声波形を接続するため、および上記韻律情報を付加するために、上記算出または抽出されたピッチ周期を変更し、当該変更されたピッチ周期においてピッチ変更によるスペクトル包絡を算出し、該ピッチ変更によるスペクトル包絡と上記算出または抽出されたスペクトル包絡とに基づき第1のスペクトル変化分を算出し、上記算出または抽出された単位音声波形を接続するために上記算出または抽出されたホルマント軌跡を変更し、当該変更されたホルマント軌跡に基づいてホルマント変更によるスペクトル包絡を算出し、該ホルマント変更によるスペクトル包絡と前記算出または抽出されたスペクトル包絡に基づき第2のスペクトル変化分を算出し、上記第1および第2のスペクトル変化分に基づき上記ピッチ周期の変更にかかる単位音声波形のスペクトル包絡を変更し、当該スペクトル包絡を変更した上記単位音声波形を接続した後、接続された音声を出力することを特徴としている。以上の手順により、この音声合成方法によれば、予め記憶された単位音声を接続する際の不連続による音質劣化を防ぎ原音声の持っている自然性や個人性に影響を与えずにイントネーションやアクセント等を付加して音声の合成ができる。
【0036】(S8)次に、動画素片検索部5から転送された動画素片に対する動きべクトル検出・割付のための前処理を前処理部6で行う。具体的には、前処理部6において、動画素片の映像信号を例えばインターレースの1125/60/2:1からノンインターレースの652/60/1:1に変換する。前処理部6で前処理を施された映像信号は動き検出部7とベクトル検出割り付け部8とに送られる。
【0037】(S9)動き検出部7では、例えば、勾配法に基づく初期偏位べクトル(例えば、候補べクトル8種、ブロックサイズ:8画素、8ライン)を用いた反復勾配法(例えば、最大反復回数:2回、ブロックサイズ:8画素、8ライン)により、映像の動きべクトルを求める。
【0038】(S10)ベクトル検出割り付け部8では、入力画像と時間的タイミングの異なるフィールドを新たに内挿するため、入力映像信号から動き検出部7で検出した上記動きべクトルを、新たに内挿するフィールド上に割り当てる。
【0039】(S11)動画素片検出部5から送られてくる動画素片の入力映像に対して、図2、図3の示す後述の動画素片の合成手法に従って、任意の時間位置のフィールドをフィールド内挿部9において内挿する。すなわち、フィールド内挿部9は、ベクトル検出割り付け部8から割り当てられた各動画素片の接合部分の映像の動きべクトルの値に応じて、個々の動画素片の接合部分において内挿するフィールドの枚数とその内挿位置を可変にすることで、動画素片のつなぎ合わせ部分をよりスムーズにする。
【0040】(S12)具体的には、動き検出部7において、動きべクトルがある一定値以下(動画の種類にも依存するが、例えば、フィールド間で、ある画素の移動量が50画素)の場合には、図2に示すように、動画素片の隣接した2枚(ある動画素片の最後の映像 + 次の動画素片の最初の映像)のフィールドにより映像素片の合成を行う。
【0041】一方、動き検出部7において、動きべクトルがある値以上の場合には、映像の流れが不自然にならないように、隣接した4枚もしくはそれ以上の複数枚のフィールドから映像素片の合成(図3参照)を行う。動画の種類にも依存するが、例えば、フィールド間で、ある画素の移動量が50〜70画素の場合には隣接した4枚のフィールドを用い、70画素以上の場合には隣接した6枚もしくはそれ以上の枚数のフィールドを用いる。
【0042】例えば、ある動画素片の最後の映像が唇が閉じていて、その次に来る動画素片の最初の映像が唇が開いている場合、隣接した2枚(ある動画素片の最後の映像+次の動画素片の最初の映像)のフィールドのみで中間の映像を内挿しようとすると、映像の流れが不自然になることがある。そこで、映像の動きべクトルが、ある一定値以上の時、隣接した4枚もしくはそれ以上の複数枚のフィールドから、中間の内挿位置の映像を作り出し、映像の流れをスムーズにする。
【0043】更に、個々の動画素片の接合部分の映像の流れに自然性を保たせるため、隣り合う動画素片の接合部分に内挿する幾枚かのフィールドの枚数に対応して、当該動画素片の隣と隣接しない中間部分において、フィールド数を減じる内挿を行い、全体のフィールド数を一定に保つ。
【0044】(S13)フィールド内挿部9で上記のようにフィールド内挿処理を施された映像信号はD/A変換部10へ送られてアナログ信号化され、合成した唇の動き映像、もしくは手話映像としてモニター(図示しない)へ出力される。一方、音声出力バッファ14から読み出された音声信号もD/A変換部11へ送られてアナログ信号化され、音声出力としてスピーカ(図示しない)へ出力される。この時、映像のD/A変換部10と音のD/A変換部11とを同期し、音声情報に併せ、合成映像を出力する。
【0045】以上の処理により、本発明によれば、ごく自然でスムーズな合成映像と、良好なリップシンクをとる(映像と音声の再生時刻を一致させる)ことができる。
【0046】図2は、図1の視覚的聴覚補助システムで実行される本発明に係る動画素片の合成手法の一具体例を示す。図2の事例では、隣接した2枚(ある動画素片の最後の映像 + 次の動画素片の最初の映像)のフィールドのみで中間の映像を内挿する場合を示す。本例では、7フィールドからなる動画素片(動画素片a)の次に9フィールドからなる動画素片(動画素片b)、次に8フィールドからなる動画素片(動画素片c)、・・・の順番で動画素片を合成し、一連の動画をつくり出す場合である。
【0047】(t1)動画素片aの第1フィールドをそのまま用いる。
【0048】(t2)動画素片aの第2、3、4、5、6フィールドの5枚の映像を基に4枚に映像を合成する(2′、3′、4、5′フィールド)。
【0049】(t3)動画素片aの第7フィールドと動画素片bの第1フィールドから、3枚の映像を合成する(6′、7′、1′フィールド)。
【0050】(t4)動画素片bの第2、3、4、5、6、7、8フィールドの7枚の映像を基に6枚に映像を合成する(2′、3′、4′、5′、6′、7′フィールド)。
【0051】(t5)動画素片bの第9フィールドと動画素片cの第1フィールドから、3枚の映像を合成する(8′、9′、1′フィールド)。
【0052】(t6)以下、同様にして一連の動画を合成していく。
【0053】図3は、図1の視覚的聴覚補助システムで実行される本発明に係る動画素片の合成手法の他の具体例を示す。図3に示す動画素片の合成方法は、映像の動きべクトルが、ある一定値以上で、映像の流れが不自然にならないように、隣接した4枚もしくはそれ以上の複数枚のフィールドから、中間の内挿位置の映像を作り出す場合を示す。動画素片aから動画素片bにかけては隣接する4枚の映像から合成する場合、動画素片bから動画素片cにかけては隣接する6枚の映像から一連の動画をつくり出す場合を示す。
【0054】(T1)動画素片aの第1フィールドをそのまま用いる。
【0055】(T2)動画素片aの第2、3、4、5フィールドの4枚の映像を基に3枚の映像を合成する(2′、3′、4′フィールド)。
【0056】(T3)動画素片aの第6、7フィールドと動画素片bの第1、2フィールドの4枚の映像から、5枚の映像を合成する(5′、6′、7′、1′、2′フィールド)。
【0057】(T4)動画素片bの第3、4、5、6フィールドの4枚の映像を基に3枚の映像を合成する(3′、4′、5′フィールド)。
【0058】(T5)動画素片bの第7、8、9フィールドと動画素片cの第1、2、3フィールドの6枚の映像を基に、7枚の映像を合成する(6′、7′、8′、9′、1′、2′、3′フィールド)。
【0059】(T6)以下、同様にして一連の動画を合成していく。
【0060】上述したように、動画素片の合成部分において内挿するフィールド数について、映像の動きべクトルの値に応じて、内挿する枚数と内挿位置を可変にすることにより、つなぎ合わせ部分をより滑らかにすることが可能となる。また、本手法により、合成する映像の内挿位置が原画と比べて±1フィールド以下となる。本実施形態においては、音声は原画と同じタイミングで合成されるので、映像と音声のズレの検知限(映像に対して音声の進みが1.4フレーム、映像に対して音声の遅れが3.7フレーム:上記の文献3を参照)の範囲内に設定でき、合成映像と音声のタイミングをリップシンクの検知限以下に抑え、一連の動画を合成することが可能となる。
【0061】図4には、本発明に係る、フィールドの内挿位置の決め方を示す。以下、この例にそって説明する。
【0062】原画のフィールド数:M、合成するフィールド数:Nとすると、図4の(a)にM≦Nの場合、図4の(b)にM>Nの場合を示している。この両者の内挿位置の決定方法は同一であり、以下に示す手順で内挿位置を決定する。
【0063】(a)原画のフィールドを、O1 、O2 、…、Oi 、Oi+1 、…、Om とする。
【0064】(b)合成するフィールドを、C1 、C2 、…、Cj 、Cj+1 、…、Cn とする。
【0065】(c)各フレームCj に対して、次式(1)
【0066】
【数1】

【0067】を満足するiをiopt とし、フレームCj は入力フレームO(iopt)-1とOioptの間に位置するものと考える。
【0068】この時、O(iopt)-1からの内挿位置(Pj )を次式(2)より演算して与える。
【0069】
【数2】

【0070】(d)以上の内挿処理を、図2、図3に示した映像素片の合成手法に従って、映像を合成していく。
【0071】
【発明の効果】以上説明したように、本発明によれば、映像を伴ったメディア(例えば、テレビジョン、VTR、DVDのような映像音声記録メディア、コンピュータ上での動画再生等)や医療機器等、及びテレビ電話等の通信機器等において、加齢ないしは、何らかの聴覚的な障害により、ヒアリングロス(難聴)が生じた者に対し、音声情報に併せて、唇の動き(リップリーディングを行うため)や手話などの視覚情報をマルチモーダル的に映像で提示することにより、その音声情報の内容をより正確に理解しやすくすることが可能となる。
【0072】特に、本発明によれば、動画素片を映像の流れに自然性を保ったまま、つなぎ合わせて合成することで、高品質に視覚情報を提示可能とし、また、個々の動画素片の接合部分において内挿するフイールド数について、映像の動きべクトルの値に応じて、内挿する枚数と内挿位置を可変にすることで、動画素片のつなぎ合わせ部分をよりスムーズにすることを可能とする。この場合、映像の内挿位置を原画と比べて映像と音声のズレの検知限(文献3)の範囲内に設定でき、合成映像と音声のタイミングをリップシンクの検知限以下に抑え、一連の動画を合成することが可能となる。また、本発明によれば、唇の動きや手話の動きを前述した従来のアニメーションにより行った場合に比べて、一連の動画の作成に要する時間が少なく、また、唇の動きや手話等のモデル化の不完全性から起こる唇の動きや手話等の動き等に不自然性がない。また、唇の動きを表現した一連の動画を合成する場合においては、音声と唇の動きのリップシンクを取ることが容易に出来る。
【0073】更にまた、本発明を用いれば、例えば放送番組プログラムの編集等においても、幾つかの動画素片から、自然性を保ったまま高品質に、一連の動画を合成する等の利用分野への適用も可能となる。
【出願人】 【識別番号】000004352
【氏名又は名称】日本放送協会
【出願日】 平成10年(1998)2月13日
【代理人】 【弁理士】
【氏名又は名称】谷 義一 (外3名)
【公開番号】 特開平11−226050
【公開日】 平成11年(1999)8月24日
【出願番号】 特願平10−31421