| 【発明の名称】 |
動画再生装置及び動画再生方法 |
| 【発明者】 |
【氏名】加福 滋
|
| 【要約】 |
【課題】動画と一緒に記録された音響データに対して特徴パラメータ抽出を行い、その特徴パラメータの類似度から二つの動画の同期を行う。
【構成】音声付き動画ファイルを入力する入力手段(2)、音声付き動画ファイルの音響データの特徴パラメータを抽出する抽出手段(3)、抽出手段によって抽出された特徴パラメータにラベル付けし該ラベルの情報からなる、当該音声付き動画ファイルに対応した音響ラベルファイルを生成する生成手段(3)、入力手段によって入力された二つの音声付き動画ファイルを記憶すると共に生成手段によって生成された二つの音声付き動画ファイルの各々に対応する二つの音響ラベルファイルを記憶する記憶手段(5、6)、二つの音響ラベルファイルに含まれるラベルの情報を比較対照して二つの音声付き動画ファイルのフレームを同期させて再生する同期再生手段(8、9)を備える。 |
【特許請求の範囲】
【請求項1】 音声付き動画ファイルを入力する入力手段と、 前記音声付き動画ファイルの音響データの特徴パラメータを抽出する抽出手段と、 前記抽出手段によって抽出された特徴パラメータにラベル付けし、該ラベルの情報からなる、当該音声付き動画ファイルに対応した音響ラベルファイルを生成する生成手段と、 少なくとも前記入力手段によって入力された二つの音声付き動画ファイルを記憶すると共に、前記生成手段によって生成された前記二つの音声付き動画ファイルの各々に対応する二つの音響ラベルファイルを記憶する記憶手段と、 前記二つの音響ラベルファイルに含まれるラベルの情報を比較対照して前記二つの音声付き動画ファイルのフレームを同期させて再生する同期再生手段と を備えたことを特徴とする動画再生装置。 【請求項2】 音声付き動画ファイルを入力する入力工程と、 前記音声付き動画ファイルの音響データの特徴パラメータを抽出する抽出工程と、 前記抽出工程によって抽出された特徴パラメータにラベル付けし、該ラベルの情報からなる、当該音声付き動画ファイルに対応した音響ラベルファイルを生成する生成工程と、 少なくとも前記入力工程によって入力された二つの音声付き動画ファイルを記憶すると共に、前記生成工程によって生成された前記二つの音声付き動画ファイルの各々に対応する二つの音響ラベルファイルを記憶する記憶工程と、 前記二つの音響ラベルファイルに含まれるラベルの情報を比較対照して前記二つの音声付き動画ファイルのフレームを同期させて再生する同期再生工程と を含むことを特徴とする動画再生方法。
|
【発明の詳細な説明】【技術分野】 【0001】 本発明は、動画再生装置及び動画再生方法に関し、たとえば、ゴルフのスイング等を撮影した二つの動画を同時に再生して見比べることができる動画再生装置及び動画再生方法に関する。 【背景技術】 【0002】 従来のこの種の動画再生装置としては、たとえば、下記の特許文献1に記載された「画像記録再生装置及びその画像記録再生方法」が知られている。以下、この技術を従来技術1ということにすると、この従来技術1では、二つの動画の各々の再生開始点を人為的に指定し、各画像の再生開始点を揃えて同時に再生するようにしている。したがって、二つの画像を、たとえば、手本となるインストラクターの動画と比較対称のレッスン対象者の動画とすれば、両者のスイングの違い等を視覚的に見分けることができ、効果的なレッスンを行うことができる。 【0003】 上記の従来技術1の欠点は、二つの動画の再生開始点を“人為的”に指定するので、手間がかかって面倒を否めない点にある。そこで、下記の特許文献2に記載された「動画像の再生方法及び動画像の再生システム」では、以下のとおり、再生開始点の指定を自動的に行うようにしている。以下、この技術を従来技術2ということにする。 【0004】 すなわち、従来技術2では、動画Aの参照フレームに対する動画Bの各フレームの類似度を算出すると共に、この類似度に基づいて動画Bの被参照フレームを決定し、前記参照フレームと前記被参照フレームとをそれぞれ再生開始点として、それらの再生開始点から動画Aと動画Bとを同時に再生するようにしている。 【0005】 ここで、従来技術2における「類似度」は、類似度算出部(文献中の類似度算出部21を参照)によって算出される。この類似度算出部では、二つの動画の各フレームの色の特徴から類似度Sを算出している。また、1フレームの音の強弱データについての絶対差分値から類似度Sを求めてよい旨の記載もある。 【0006】 【特許文献1】特開平10−145724号公報 【特許文献2】特開平8−106543号公報 【発明の開示】 【発明が解決しようとする課題】 【0007】 しかしながら、上記の従来技術2にあっては、再生開始点の指定を自動的に行うことができ、手間を軽減して操作の簡略化を図ることができる点で優れているものの、以下の点で解決すべき問題点がある。 【0008】 たとえば、ゴルフのスイングにおいては、アドレス、バックスイング、ダウンスイング、インパクト、フォロースイングといったいくつかの過程を辿り、各々の過程毎に二つの画像間の同期を取らなければならないものの、色の特徴は、これらの過程でそれほど大きく変化しないため、過程毎のシーンを特定することができない。したがって、二つの動画の、たとえば、インパクトの瞬間を取り出してそれらを同期させることができない。 【0009】 なお、従来技術2においては、「音の強弱データについての絶対差分値から類似度Sを求める」旨の記載があり、この記載から、大きな音が記録されたフレーム同士を同期させることができると解されるが、「大きな音」はインパクトの音だけでなく、その他の音(歓声や拍手等の雑音)も含まれるので、「音の強弱データ」だけでは、必ずしもインパクトの瞬間等の期待したシーンの同期効果を得ることができない。 【0010】 そこで、本発明は、動画と一緒に記録された音響データの特徴パラメータを抽出し、その特徴パラメータの類似度に基づいて二つの動画の同期再生を行うようにした動画再生装置及び動画再生方法を提供することにある。 【課題を解決するための手段】 【0011】 請求項1記載の発明は、音声付き動画ファイルを入力する入力手段と、前記音声付き動画ファイルの音響データの特徴パラメータを抽出する抽出手段と、前記抽出手段によって抽出された特徴パラメータにラベル付けし、該ラベルの情報からなる、当該音声付き動画ファイルに対応した音響ラベルファイルを生成する生成手段と、少なくとも前記入力手段によって入力された二つの音声付き動画ファイルを記憶すると共に、前記生成手段によって生成された前記二つの音声付き動画ファイルの各々に対応する二つの音響ラベルファイルを記憶する記憶手段と、前記二つの音響ラベルファイルに含まれるラベルの情報を比較対照して前記二つの音声付き動画ファイルのフレームを同期させて再生する同期再生手段とを備えたことを特徴とする動画再生装置である。 請求項2記載の発明は、音声付き動画ファイルを入力する入力工程と、前記音声付き動画ファイルの音響データの特徴パラメータを抽出する抽出工程と、前記抽出工程によって抽出された特徴パラメータにラベル付けし、該ラベルの情報からなる、当該音声付き動画ファイルに対応した音響ラベルファイルを生成する生成工程と、少なくとも前記入力工程によって入力された二つの音声付き動画ファイルを記憶すると共に、前記生成工程によって生成された前記二つの音声付き動画ファイルの各々に対応する二つの音響ラベルファイルを記憶する記憶工程と、前記二つの音響ラベルファイルに含まれるラベルの情報を比較対照して前記二つの音声付き動画ファイルのフレームを同期させて再生する同期再生工程とを含むことを特徴とする動画再生方法である。 【発明の効果】 【0012】 本発明では、動画と一緒に記録された音響データの類似度から二つの動画の同期再生を行うようにしたので、たとえば、ゴルフのレッスンビデオ等の動画再生に適用した場合には、インストラクターの動画とレッスン対象者の動画の双方について、インパクト音やスイングの風切り音等を手がかりにして、これら二つの動画を同期させて同時再生することが可能となり、効果的なレッスンを行うことができるようになる。 【発明を実施するための最良の形態】 【0013】 以下、本発明の実施形態を、図面を参照しながら説明する。なお、以下の説明における様々な細部の特定ないし実例および数値や文字列その他の記号の例示は、本発明の思想を明瞭にするための、あくまでも参考であって、それらのすべてまたは一部によって本発明の思想が限定されないことは明らかである。また、周知の手法、周知の手順、周知のアーキテクチャおよび周知の回路構成等(以下「周知事項」)についてはその細部にわたる説明を避けるが、これも説明を簡潔にするためであって、これら周知事項のすべてまたは一部を意図的に排除するものではない。かかる周知事項は本発明の出願時点で当業者の知り得るところであるので、以下の説明に当然含まれている。 【0014】 図1は、実施形態における動画再生装置の構成図である。この図において、動画再生装置1は、音声付き動画入力部2、音響ラベル作成部3、振り分け部4、手本データ記憶部5、比較データ記憶部6、データ読み出し部7、フレーム同期部8、合成動画再生部9、表示部10及び音声出力部11を備える。 【0015】 各部の詳細を説明すると、まず、音声付き動画入力部2は、たとえば、ゴルフのスイング等を撮影した音声付きの動画ファイルを取り込むための部分であり、具体的には、ビデオカメラ、あるいは、それに相当する機能を有する部分である。又は、別途にビデオカメラ等で撮影された音声付き動画ファイルを記録するハードディスク等の蓄積手段、もしくは、ネットワーク等の通信手段を介して当該音声付き動画ファイルを取り込む部分である。 【0016】 この音声付き動画入力部2によって入力される「音声付き動画ファイル」は、少なくとも次の二つの動画である。すなわち、一の動画は手本となる音声付き手本動画であり、二の動画は、この音声付き手本動画と比較される音声付き比較動画である。ここで、ゴルフスイングを例にすると、上記の一の動画(音声付き手本動画)は、インストラクター等のスイングを音声付きで記録した動画であり、二の動画(音声付き比較動画)は、レッスン対象者のスイングを音声付きで記録した動画である。 【0017】 上記の音声付き動画入力部2によって入力された音声付き動画ファイル(音声付き手本動画ファイルと音声付き比較動画ファイル)は、音響ラベル作成部3と振り分け部4に供給される。 【0018】 音響ラベル作成部3は、予め音響ラベルを付された音響サンプルを有している。 図2は、動画ファイルと音響ラベルの概念図である。この図において、上段には、左から右へと時間順に並ぶ動画ファイルの各フレーム画像が描かれている。ここでは、ゴルフスイングの動画ファイルを例にしており、この場合、各フレーム画像は、アドレス、バックスイング、ダウンスイング、インパクト、フォロースルーなどの過程に分けることができる。 【0019】 同図において、中段には、動画と一緒に記録された音響データの波形が模式的に示されている。この波形は、ほぼ背景ノイズだけの無音部分と、たとえば、ゴルフクラブの風切り音やインパクト瞬間の打球音などからなる有音部分とからなる。 【0020】 たとえば、図示の例では、アドレスからバックスイング完了までの無音部分が「ラベル1」としてラベル付けされている。また、続くダウンスイングの風切り音が「ラベル2」としてラベル付けされている。さらに、インパクトの打球音が「ラベル3」としてラベル付けされている。また、インパクト直後のフォロースルーの風切り音が「ラベル4及びラベル5」としてラベル付けされている。そして、最後のフォロースルーの無音部分が「ラベル6」としてラベル付けされている。 【0021】 これらのラベル名は、一つの音響データにつき重複しない名前であればよく、図示の例のような連番(“ラベル1”〜“ラベル6”)であってもよいが、各々の特徴パラメータの意味を表す、人為的に入力された明示的名称又はそれに相当する文字列であってもよい。たとえば、図示の例では、ラベル1の明示的名称として“silA”、ラベル2の明示的名称として“swing”、ラベル3の明示的名称として“impact”、ラベル4の明示的名称として“clubA”、ラベル5の明示的名称として“clubB”、ラベル6の明示的名称として“silB”が付加されている。これらの明示的名称の意味は、“silA”と“silB”が無音を表し、“swing”がダウンスイングの風切り音、“impact”がインパクト音、“clubA”と“clubB”がそれぞれインパクト直後の風切り音を表している。 【0022】 音声ラベル作成部3は、このようなラベル付けをされた多数の音響サンプルに対して音声分析を行うことにより各ラベルに対応する特徴パラメータを抽出し、入力されたラベル無し音響データについてこれらの特徴パラメータに対応する箇所を探索して対応する部分にラベル付けを行う機能を有している。 【0023】 ここで、音声分析手法、つまり、音響データに対する特徴パラメータの抽出手法としては、たとえば、フィルタバンク分析(filter bank analysis)や線形予測符号化(linear predictive cording)などの様々な手法が知られている。音響ラベル作成部3に適用する手法としては、特にそれに限定されないが、たとえば、フィルタバンク分析を使用することにすると、この分析手法では、FFT(Fast Fourier Transform:高速フーリエ変換)によるスペクトルを元に、メルスケール上に等間隔に配置された帯域フィルタバンクの出力を抽出し、この出力を対数変換して、逆フーリエ変換することによってMFCC(メル周波数ケプストラム係数:Mel Frequency Cepstrum Coefficient)と呼ばれる、音響データに対する特徴パラメータを抽出する。 【0024】 このように音響ラベル作成部3は、供給された動画の音響データの特徴パラメータを抽出し、対応する音響ラベルファイルを生成する。この音響ラベルファイルは、供給された動画(音声付き手本動画ファイル5aと音声付き比較動画ファイル6a)の各々について一つずつ生成される。すなわち、音声付き手本動画ファイル5aの音響ラベルファイル(以下、手本音響ラベルファイル5b)と、音声付き比較動画ファイル6aの音響ラベルファイル(以下、比較音響ラベルファイル6b)とが生成される。 【0025】 振り分け部4は、上記の音声付き動画入力部2によって入力された音声付き動画ファイル(音声付き手本動画ファイル5a/音声付き比較動画ファイル6a)と、上記の音響ラベル作成部3によって生成された音響ラベルファイル(手本音響ラベルファイル5b/比較音響ラベルファイル6b)とを、ユーザ指定に基づいて、それぞれ手本データ記憶部5と比較データ記憶部6に振り分けて供給する部分である。 【0026】 すなわち、ユーザ指定が「手本動画」である場合には、上記の音声付き動画入力部2によって入力された音声付き動画ファイル(この場合は音声付き手本動画ファイル5a)と、上記の音響ラベル作成部3によって生成された音響ラベルファイル(この場合は手本音響ラベルファイル5b)とを手本データ記憶部5に供給し、一方、ユーザ指定が「比較動画」である場合には、上記の音声付き動画入力部2によって入力された音声付き動画ファイル(この場合は音声付き比較動画ファイル6a)と、上記の音響ラベル作成部3によって生成された音響ラベルファイル(この場合は比較音響ラベルファイル6b)とを比較データ記憶部6に供給する。 【0027】 手本データ記憶部5と比較データ記憶部6は、いずれもハードディスクや不揮発性半導体記憶装置あるいは磁気ディスク等から構成された大容量の記憶装置である。なお、図では、手本データ記憶部5と比較データ記憶部6を別体として描いているが、これは、手本データの記憶空間と比較データの記憶空間が各々独立していればよいことを概念的に示したものであり、必ずしも物理的に別体となっている必要はない。 【0028】 データ読み出し部7は、ユーザによる再生指示に応答して、手本データ記憶部5と比較データ記憶部6から手本データと比較データとを読み出す部分であり、読み出された手本データと比較データは、フレーム同期部8に供給される。 【0029】 フレーム同期部8は、手本データ記憶部5と比較データ記憶部6から読み出された手本データ及び比較データに基づいて、二つの動画(音声付き手本動画ファイル5a/音声付き比較動画ファイル6a)のフレーム同期を取る部分であり、このフレーム同期は、各々の動画ファイル5a、6aに対応した音響ラベルファイル5b、6bの特徴パラメータを比較照合することによって行われる。 【0030】 図3は、音響ラベルファイルの概念図であり、(a)は手本音響ラベルファイル5bを示し、(b)は比較音響ラベルファイル6bを示している。図において、特に限定しないが、手本音響ラベルファイル5bと比較音響ラベルファイル6bは、それぞれ前記のラベル1〜6の順番に沿った6つの行からなるテキストファイルである。各行の書式は「Fs Fe Lname」であり、FsとFeは、その音響ラベルに対応する動画ファイルのフレーム番号、Lnameはラベル名(たとえば、前記の明示的名称)である。ただし、Fsは、そのLnameで示された音の開始フレーム番号であり、Feは、そのLnameで示された音の終了フレーム番号である。 【0031】 たとえば、手本音響ラベルファイル5bの1行目は「0 38 silA」となっており、この意味は、音声付き手本動画ファイル5aにおけるラベル名“silA”に対応したフレームは“フレーム0”から“フレーム38”までであることを示している。同様に、手本音響ラベルファイル5bの2行目は「38 52 swing」となっており、この意味は、音声付き手本動画ファイル5aにおけるラベル名“swing”に対応したフレームは“フレーム38”から“フレーム52”までであることを示している。 【0032】 このことは、比較音響ラベルファイル6bについても同じであり、たとえば、比較音響ラベルファイル6bの1行目は「0 52 silA」となっており、この意味は、音声付き比較動画ファイル6aにおけるラベル名“silA”に対応したフレームは“フレーム0”から“フレーム52”までであることを示している。同様に、比較音響ラベルファイル6bの2行目は「52 64 swing」となっており、この意味は、音声付き比較動画ファイル6aにおけるラベル名“swing”に対応したフレームは“フレーム52”から“フレーム64”までであることを示している。 【0033】 図示の二つの音響ラベルファイル(手本音響ラベルファイル5bと比較音響ラベルファイル6b)を見比べると、いずれも同一のラベル名が並んでおり、ラベル名毎の開始フレーム番号(Fs)と終了フレーム番号(Fe)の双方またはいずれか一方が相違している。前記のフレーム同期部8で、二つの音響ラベルファイルのラベル名を照合し、同一ラベル名行の開始フレーム番号(Fs)と終了フレーム番号(Fe)を、二つの動画ファイル(音声付き手本動画ファイル5a/音声付き比較動画ファイル6a)で一致させるように各動画ファイルのフレームを同期させることにより、二つの動画ファイルの注目フレーム(たとえば、インパクトの瞬間等)を同時に再生することが可能になる。 【0034】 図4は、フレーム同期の概念図である。この図において、縦軸は基準側動画のフレーム番号i、横軸は再生速度調整側動画のフレーム番号jを示している。たとえば、基準側動画を音声付き手本動画ファイル5aとし、再生速度調整側動画を音声付き比較動画ファイル6aとすると、この場合、音声付き手本動画ファイル5aの注目フレーム(たとえば、インパクトの瞬間)と音声付き比較動画ファイル6aの当該注目フレームとが一致するように、音声付き比較動画ファイル6aの再生速度が調節(フレーム間引きやフレーム補間)される。 【0035】 図において、図中の実線は再生速度を調整しない場合のものであり、この場合、基準側動画の再生フレーム番号と再生速度調整側動画の再生フレーム番号とが一対一に対応している。一方、図中の一点鎖線は再生速度を調整した場合のものであり、この場合、たとえば、基準側動画のフレーム4を再生中、再生速度調整側動画のフレーム5が再生されており、以降同様に、基準側動画のフレーム5→再生速度調整側動画のフレーム6、基準側動画のフレーム6→再生速度調整側動画のフレーム7、基準側動画のフレーム7→再生速度調整側動画のフレーム8・・・・というように、再生速度調整側動画のフレーム番号が一つずれて再生されている。 【0036】 このように、フレーム同期部8においては、基準側動画のフレーム番号iに対して、再生速度調整側動画のフレーム番号jを同期して再生するように指定するが、これらのiやjは、もっぱら、音声付き手本動画ファイル5aと音声付き比較動画ファイル6aの音響データに対する特徴パラメータ(前記のラベル1〜6参照)に基づいて決定される。つまり、簡単に言えば、音声付き手本動画ファイル5aの注目フレーム(たとえば、インパクトの瞬間)と音声付き比較動画ファイル6aの当該注目フレームとが一致するように、i及びjが決定されるのである。 【0037】 合成動画再生部9は、フレーム同期部8によって決定されたi及びjに基づき、音声付き手本動画ファイル5aと音声付き比較動画ファイル6aの各フレームを一つの画面に合成して再生する。表示部10は、その合成画像を表示し、音声出力部11は、基準側動画(音声付き手本動画ファイル5a又は音声付き比較動画ファイル6a)の音響データを出力する。 【0038】 図5は、合成画像の表示例を示す図であり、左側に手本画像が右側に比較画像が同時に表示されている。この表示例で示すように、本実施形態では、動画と一緒に記録された音響データの特徴パラメータ抽出を行い、その特徴パラメータの類似度から二つの動画の同期をとるようにしたので、たとえば、注目すべきインパクトの瞬間を一つの画面に同時に表示することができるようになり、インストラクターのスイングとレッスン対象者のスイングとを見比べることができ、より効果的なレッスンを行うことができるようになる。 【0039】 なお、以上の説明では、ゴルフレッスンに適用する例を示したが、この用途に限定されない。要は、時間軸上の要所要所で特徴的な音を発する様々な動画の比較であれば、如何なるものであっても適用することが可能である。 【0040】 また、以上の説明では、複数の音声付き比較動画ファイル(ゴルフレッスンを例にすれば、インストラクター毎の複数の音声付き比較動画ファイル)を収集し、それらを総合的に分析して、一つの比較音響ラベルファイル6bを生成しているが、これに限定されない。予め分析を外部で済ませ、その結果の特徴パラメターのみを持つようにしてもよい。この場合、図1の音響ラベル作成部3の分析に相当する機能を有する任意の外部機器(たとえば、パーソナルコンピュータ等)において、上記の分析処理を行うようにしてもよい。 【図面の簡単な説明】 【0041】 【図1】実施形態における動画再生装置の構成図である。 【図2】動画ファイルと音響ラベルの概念図である。 【図3】音響ラベルファイルの概念図である。 【図4】フレーム同期の概念図である。 【図5】合成画像の表示例を示す図である。 【符号の説明】 【0042】 1 動画再生装置 2 音声付き動画入力部(入力手段) 3 音響ラベル作成部(抽出手段、生成手段) 5 手本データ記憶部(記憶手段) 5a 音声付き手本動画ファイル(音声付き動画ファイル) 5b 手本音響ラベルファイル(音響ラベルファイル) 6 比較データ記憶部(記憶手段) 6a 音声付き比較動画ファイル(音声付き動画ファイル) 6b 比較音響ラベルファイル(音響ラベルファイル) 8 フレーム同期部(同期再生手段) 9 合成画像再生部(同期再生手段)
|
| 【出願人】 |
【識別番号】000001443 【氏名又は名称】カシオ計算機株式会社
|
| 【出願日】 |
平成18年8月11日(2006.8.11) |
| 【代理人】 |
【識別番号】100096699 【弁理士】 【氏名又は名称】鹿嶋 英實
|
| 【公開番号】 |
特開2008−47998(P2008−47998A) |
| 【公開日】 |
平成20年2月28日(2008.2.28) |
| 【出願番号】 |
特願2006−219227(P2006−219227) |
|