トップ :: H 電気 :: H04 電気通信技術




【発明の名称】 情報処理装置
【発明者】 【氏名】辰巳 宴克

【要約】 【課題】複数のユーザが多地点間でテレビ電話を行う場合において、通話状況に応じて表示部に表示されるユーザの画像の配置を好適に制御することができるようにする。

【構成】本発明に係る情報処理装置に適用可能な携帯電話機において、音声認識機能41は、複数の携帯電話機から画像信号および音声信号をそれぞれ取得し、取得された音声信号に基づいて音声認識処理を行い、液晶ディスプレイは複数の画像信号に基づく画像を表示し、解析機能42は、音声認識された発言に基づいて所定の解析を行い、その解析結果に基づいて、液晶ディスプレイに表示される複数の画像信号に基づく画像の配置に関する優先度を算出し、画像配置制御機能44は、解析機能42により算出された優先度に応じて、液晶ディスプレイに表示される複数の画像信号に基づく画像の配置を制御する。
【特許請求の範囲】
【請求項1】
無線通信を介して多地点間においてテレビ電話を行う情報処理装置において、
複数の前記情報処理装置から画像信号および音声信号をそれぞれ取得し、取得された前記音声信号に基づいて音声認識処理を行う音声認識手段と、
複数の前記画像信号に基づく画像を表示する表示手段と、
前記音声認識手段により音声認識された発言に基づいて所定の解析を行い、その解析結果に基づいて、前記表示手段により表示される複数の前記画像信号に基づく画像の配置に関する優先度を算出する解析手段と、
前記解析手段により算出された前記優先度に応じて、前記表示手段により表示される複数の前記画像信号に基づく画像の配置を制御する制御手段とを備えることを特徴とする情報処理装置。
【請求項2】
前記解析手段による解析結果には、発言回数、キーワードの発言回数、名前を呼ばれる回数、返事をした回数のうちの少なくともいずれかが含まれることを特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記制御手段は、前記優先度が高いほど、前記表示手段により表示される複数の前記画像信号に基づく画像を拡大して配置するように制御することを特徴とする請求項1に記載の情報処理装置。
【請求項4】
前記解析手段による解析結果を記憶する記憶手段をさらに備えることを特徴とする請求項1に記載の情報処理装置。
【発明の詳細な説明】【技術分野】
【0001】
本発明は情報処理装置に係り、特に、テレビ電話を行うことができるようにした情報処理装置に関する。
【背景技術】
【0002】
近年、大容量の画像データや音声データを、インターネットを介してユーザ同士の間でやり取りするテレビ電話システムが知られている。
【0003】
例えばユーザAとユーザBとの間でテレビ電話システムを利用する場合、ユーザAのコンピュータAでは、ユーザBのコンピュータBから送信されてきたユーザBの画像が表示され、音声が出力される。また、ユーザBのコンピュータBでは、ユーザAのコンピュータAから送信されてきたユーザAの画像が表示され、音声が出力される。これにより、ユーザAとユーザBとの間で、画像と音声によるコミュニケーションを図ることができる。なお、このテレビ電話システムは、1対1のみならず、1対複数にも適用することが可能である。
【0004】
また、画像と音声によるコミュニケーションを図る方法として、テレビ電話システム以外にも、テレビ会議システムなどが知られている。
【0005】
1対複数で画像と音声によるコミュニケーションを図るテレビ会議システムにおいては、端末からのコマンドに応じて、予め蓄積された映像資料を読み出し、各端末からの映像とともに1つの映像に合成することにより、端末からの映像とともに、蓄積された資料映像や過去の映像などを所望の形態で表示利用したり、会議履歴を蓄積して所望の形態で表示し閲覧したりすることができる技術が提案されている(例えば、特許文献1参照)。
【0006】
一方、携帯電話機においても、近年、基地局などを介して無線通信により携帯電話機間でテレビ電話を行う技術が提案されている。特に、携帯電話機間においては、現在、1対1のテレビ電話が実用化されている。
【特許文献1】特開2001−313915号公報
【発明の開示】
【発明が解決しようとする課題】
【0007】
しかしながら、携帯電話機において1対複数のテレビ電話を行う場合(すなわち、多地点間でのテレビ電話を行う場合)、携帯電話機に設けられた表示部の大きさは限定されているため、通話の相手の顔を表示部にすべて表示しようとすると、1人当たりに割り当てられる表示面積が小さくなってしまい、通話の相手の顔を表示しても誰であるかを判別することが困難であるという課題があった。
【0008】
このような課題は、特許文献1に提案されている技術によっても解決することはできない。
【0009】
本発明は、このような状況に鑑みてなされてものであり、複数のユーザが多地点間でテレビ電話を行う場合において、通話状況に応じて表示部に表示されるユーザの画像の配置を好適に制御することができる情報処理装置を提供することを目的とする。
【課題を解決するための手段】
【0010】
本発明の情報処理装置は、上述した課題を解決するために、複数の情報処理装置から画像信号および音声信号をそれぞれ取得し、取得された音声信号に基づいて音声認識処理を行う音声認識手段と、複数の画像信号に基づく画像を表示する表示手段と、音声認識手段により音声認識された発言に基づいて所定の解析を行い、その解析結果に基づいて、表示手段により表示される複数の画像信号に基づく画像の配置に関する優先度を算出する解析手段と、解析手段により算出された優先度に応じて、表示手段により表示される複数の画像信号に基づく画像の配置を制御する制御手段とを備えることを特徴とする。
【0011】
本発明の情報処理装置においては、複数の情報処理装置から画像信号および音声信号がそれぞれ取得され、取得された音声信号に基づいて音声認識処理が行われ、複数の画像信号に基づく画像が表示され、音声認識された発言に基づいて所定の解析が行われ、その解析結果に基づいて、表示される複数の画像信号に基づく画像の配置に関する優先度が算出され、算出された優先度に応じて、表示される複数の画像信号に基づく画像の配置が制御される。
【発明の効果】
【0012】
本発明によれば、複数のユーザが多地点間でテレビ電話を行う場合において、通話状況に応じて表示部に表示されるユーザの画像の配置を好適に制御することができる。
【発明を実施するための最良の形態】
【0013】
以下、本発明の実施の形態について、図面を参照しながら説明する。
【0014】
図1は、本発明に係る情報処理装置として適用可能な携帯電話機1の内部の構成を表している。
【0015】
図1に示されるように、携帯電話機1は、携帯電話機1の各部を統括的に制御する主制御部21に対して、電源回路部22、操作入力制御部23、画像エンコーダ24、カメラインタフェース部25、LCD(Liquid Crystal Display)制御部26、多重分離部28、変復調回路部29、音声コーデック30、記憶部37、および音楽制御部38がメインバス31を介して互いに接続されるとともに、画像エンコーダ24、画像デコーダ27、多重分離部28、変復調回路部29、音声コーデック30、および記録再生部35が同期バス32を介して互いに接続されて構成される。
【0016】
電源回路部22は、ユーザの操作により終話・電源キーがオン状態にされると、バッテリパックから各部に対して電力を供給することにより携帯電話機1を動作可能な状態に起動する。
【0017】
主制御部21は、CPU(Central Processing Unit)、ROM(Read Only Memory)、およびRAM(Random Access Memory)などからなり、CPUは、ROMに記憶されているプログラムまたは記憶部37からRAMにロードされた各種のアプリケーションプログラムに従って各種の処理を実行するとともに、種々の制御信号を生成し、各部に供給することにより携帯電話機1を統括的に制御する。RAMは、CPUが各種の処理を実行する上において必要なデータなどを適宜記憶する。
【0018】
なお、主制御部21には、現在の日付と時刻を計測するタイマが内蔵されている。
【0019】
ここで、CPUが実行する種々のアプリケーションプログラムは、ROMや記憶部37に予めインストールしておくことができる。また、CPUが実行する種々のアプリケーションプログラムは、図示せぬ基地局を介して通信によって携帯電話機1にダウンロードすることにより、記憶部37にインストールすることができる。さらに、CPUが実行する種々のアプリケーションプログラムは、メモリカード36に記録しておき、記録再生部35によって読み出して、記憶部37にインストールすることも可能である。
【0020】
携帯電話機1は、主制御部21の制御に基づいて、音声通話モード時にマイクロフォン15で集音した音声信号を音声コーデック30によってディジタル音声信号に変換、圧縮し、これを変復調回路部29でスペクトラム拡散処理し、送受信回路部33でディジタルアナログ変換処理及び周波数変換処理を施した後にアンテナ34を介して送信する。
【0021】
また、携帯電話機1は、音声通話モード時にアンテナ34で受信した受信信号を増幅して周波数変換処理及びアナログディジタル変換処理を施し、変復調回路部29でスペクトラム逆拡散処理し、音声コーデック30によって伸張し、アナログ音声信号に変換した後、変換されたアナログ音声信号をスピーカ16を介して出力する。
【0022】
携帯電話機1は、画像信号を送信しない場合には、CCDカメラ12で撮像した画像信号をカメラインタフェース部35及びLCD制御部36を介して液晶ディスプレイ13に直接表示する。
【0023】
携帯電話機1は、データ通信モード時(またはテレビ電話を行う際)に画像信号を送信する場合、CCDカメラ12で撮像された画像信号をカメラインタフェース部25を介して画像エンコーダ24に供給する。
【0024】
画像エンコーダ24は、CCDカメラ12から供給された画像信号を、例えばMPEG(Moving Picture Experts Group)4などの所定の符号化方式によって圧縮符号化することにより符号化画像信号に変換し、変換された符号化画像信号を多重分離部28に送出する。このとき同時に携帯電話機1は、CCDカメラ12で撮像中にマイクロフォン15で集音した音声を音声コーデック30を介してディジタルの音声信号として多重分離部28送出する。
【0025】
多重分離部28は、画像エンコーダ24から供給された符号化画像信号と音声コーデック30から供給された音声信号とを所定の方式で多重化し、その結果得られる多重化信号を変復調回路部29でスペクトラム拡散処理し、送受信回路部33でディジタルアナログ変換処理及び周波数変換処理を施した後にアンテナ34を介して送信する。
【0026】
また、携帯電話機2は、データ通信モード時(またはテレビ電話を行う際)に動画像ファイルのデータを受信する場合、アンテナ34を介して基地局(図示せず)から受信した受信信号を変復調回路部29でスペクトラム逆拡散処理し、その結果得られる多重化信号を多重分離部28に送出する。
【0027】
多重分離部28は、多重化信号を分離することにより符号化画像信号と音声信号とに分け、同期バス32を介して符号化画像信号を画像デコーダ27に供給すると共に音声信号を音声コーデック30に供給する。画像デコーダ27は、符号化画像信号をMPEG4などの所定の符号化方式に対応した復号化方式でデコードすることにより再生動画像信号を生成し、生成された再生動画像信号をLCD制御部36を介して液晶ディスプレイ13に供給する。これにより、例えば動画像ファイルに含まれる動画像データが表示される。
【0028】
このとき同時に音声コーデック30は、音声信号をアナログ音声信号に変換した後、これをスピーカ16に供給し、これにより、例えば、動画像ファイルに含まる音声信号が再生される。
【0029】
記憶部37は、例えば、電気的に書換えや消去が可能な不揮発性メモリであるフラッシュメモリ素子などからなり、主制御部21のCPUにより実行される種々のアプリケーションプログラムや種々のデータ群を格納している。また、記憶部37は、必要に応じて、ユーザの操作に応じて受信した電子メールや、受信したWebページなどにリンクされた動画像ファイルに含まれる動画像データなどを記憶する。
【0030】
音楽制御部38は、記憶部37に記憶されているオーディオデータの再生動作および一時停止動作や、巻戻し機能、早送り機能、音量ダウン動作、音量アップ動作などの実行を制御する。
【0031】
図2は、本発明に係る情報処理装置に適用可能な携帯電話機1が実行することが可能な機能的な構成を表している。
【0032】
音声認識機能41は、例えば図1の主制御部21などにより実現され、予め設定され所定の時間(例えば、5分間など)内で、音声コーデック30によって伸張された音声信号(ディジタル信号)を取得し、取得された伸張後の音声信号から無効な音およびノイズを除去するとともに、無効な音およびノイズが除去された後の音声信号に基づいて音声認識処理を実行する。すなわち、音声認識機能41は、無効な音およびノイズが除去された後の音声信号から特徴量を抽出し、抽出された特徴量に基づいて所定の単語列をテレビ電話の参加者の発言(音声)として選択し、選択されたテレビ電話の参加者の発言(音声)に関するデータである発言データを解析機能42に逐次供給する。
【0033】
解析機能42は、例えば図1の主制御部21などにより実現され、音声認識機能41から供給されたテレビ電話の参加者の発言データを逐次取得し、取得されたテレビ電話の参加者の発言データに基づいて、所定の解析(テレビ電話の参加者の発言回数やキーワードの発言回数などの解析)を行う。解析機能42は、その解析結果に基づいて、テレビ電話の参加者とその参加者の発言回数などが対応付けられて登録されている発言履歴データベース43を予め設定された所定の時間ごとに更新するとともに、更新された発言履歴データベース43を参照して、現在の通話状況に応じた、液晶ディスプレイ13に表示されるテレビ電話の参加者の画像の配置に関する優先度を算出し、算出された優先度に関するデータである優先度データを画像配置制御機能44に供給する。なお、発言履歴データベース43は、例えば図1の記憶部37などにより実現される。
【0034】
画像配置制御機能44は、例えば図1の主制御部21などにより実現され、解析機能42から供給された優先度データを取得し、取得された優先度データに基づいてテレビ電話を行う際に液晶ディスプレイ13に表示されるテレビ電話の参加者の画像の配置を制御するための画像配置制御信号を生成し、生成された画像配置制御信号をLCD制御部26に供給する。
【0035】
次に、図3のフローチャートは、図2の携帯電話機1における画像配置制御処理を示している。なお、この画像配置制御処理は、複数のユーザ(例えば、Aさん、Bさん、Cさん、およびDさんからなる4人のユーザ)によりテレビ電話(またはテレビ会議など)を開始するときに同時に並行して開始される。
【0036】
ステップS1において、音声認識機能41は、予め設定された所定の時間(例えば、5分間など)内で、音声コーデック30によって伸張された音声信号(ディジタル信号)を逐次取得する。なお、例えばAさん、Bさん、Cさん、およびDさんからなる4人のユーザの間でテレビ電話を行う際に、複数の携帯電話機1(他のユーザの携帯電話機1以外にも自分の携帯電話機1も含まれる)から取得される音声信号および画像信号には、少なくとも、どの携帯電話機1からの音声信号または画像信号であるかを示す制御情報(例えば、携帯電話機1の電話番号など)が付加されており、この制御情報に基づいて、テレビ電話を行っているどの携帯電話機1からの音声信号または画像信号であるかを判別することができる。
【0037】
ステップS2において、音声認識機能41は、取得された伸張後の音声信号から無効な音およびノイズを除去するとともに、無効な音およびノイズが除去された後の音声信号に基づいて音声認識処理を実行する。すなわち、音声認識機能41は、無効な音およびノイズが除去された後の音声信号から特徴量を抽出し、抽出された特徴量に基づいて所定の単語列をテレビ電話の参加者(Aさん、Bさん、Cさん、およびDさんのいずれか)の発言(音声)として選択する。
【0038】
例えばBさんからAさんに「XXですよね、Aさん」という発言がなされた場合、音声認識処理が実行されることで、4人のうちいずれかのテレビ電話の参加者の発言として「XXですよね、Aさん」が選択される。
【0039】
音声認識機能41は、選択されたテレビ電話の参加者の発言(音声)に関するデータである発言データを解析機能42に逐次供給する。この発言データには、例えば、4人のうちいずれかのテレビ電話の参加者の発言として選択された「XXですよね、Aさん」に関するデータや、どの携帯電話機1からの音声信号であるかを示す制御情報(例えば、携帯電話機1の電話番号など)が含まれる。
【0040】
ステップS3において、解析機能42は、音声認識機能41から供給されたテレビ電話の参加者の発言データを逐次取得し、取得されたテレビ電話の参加者の発言データに基づいて、所定の解析(テレビ電話の参加者の発言回数やキーワードの発言回数などの解析)を行う。
【0041】
具体的には、まず、解析機能42は、取得されたテレビ電話の参加者の発言データに基づいてテレビ電話の参加者を特定する。すなわち、例えば図4に示されるように、BさんからAさんに「XXですよね、Aさん」という発言がなされた場合に、その後、AさんからBさんに「はい、そうです。」という発言(応答)がなされると、発言(応答)をしたテレビ電話の参加者が「Aさん」であるということを特定することができる。同様の処理により、Bさん、Cさん、およびDさんを特定することができる。
【0042】
図4は、テレビ電話に参加しているユーザの所有する携帯電話機1の電話番号と参加者名の対応関係を表している。
【0043】
図4のテーブルの第1列目乃至第2列目には、左から順に、「電話番号」および「参加者名」が記載されており、それぞれ、テレビ電話に参加している参加者(ユーザ)の所有する携帯電話機1の電話番号、および、その携帯電話機1の電話番号に対応する参加者名を示している。
【0044】
図4のテーブルの第1行目は、「電話番号」が「090−2345−××××」であり、テレビ電話に参加しているユーザの所有する携帯電話機1の電話番号が「090−2345−××××」であることを示している。「参加者名」は「A」であり、その携帯電話機1の電話番号(「090−2345−××××」)に対応する参加者名が「A」であることを示している。
【0045】
図4のテーブルの第2行目は、「電話番号」が「090−7523−××××」であり、テレビ電話に参加しているユーザの所有する携帯電話機1の電話番号が「090−7523−××××」であることを示している。「参加者名」は「B」であり、その携帯電話機1の電話番号(「090−7523−××××」)に対応する参加者名が「B」であることを示している。
【0046】
なお、図4のテーブルの第3行目乃至第4行目についても同様であり、その説明は繰り返しになるので省略する。
【0047】
次に、解析機能42は、取得されたテレビ電話の参加者の発言データに含まれる制御情報(例えば、携帯電話機1の電話番号など)に基づいて、テレビ電話の参加者のうち、現在の話者を特定する。例えばテレビ電話の参加者のうち、現在の話者がAさん(電話番号が「090−2345−××××」の携帯電話機1を所有するユーザ)である場合、テレビ電話の参加者の発言データに含まれる制御情報(「090−2345−××××」の携帯電話機1の電話番号)に基づいて、現在の話者がAさんであると特定される。
【0048】
図5は、テレビ電話に参加しているユーザの所有する携帯電話機1の電話番号、参加者名、および発言中である話者の対応関係を表している。なお、図5のテーブルの第1列目および第2列目の「電話番号」および「参加者名」は、図4のテーブルの第1列目および第2列目の「電話番号」および「参加者名」と同様であり、その説明は繰り返しになるので省略する。
【0049】
図5のテーブルの第3列目には、「発言中」が記載されており、現在の発言中である話者であるか否かを示している。
【0050】
図5のテーブルの第1行目の場合、「発言中」は「○」であり、参加者名「A」であるユーザが現在の発言中である話者であることを示している。
【0051】
図5のテーブルの第2行目の場合、「発言中」は「―」であり、参加者名「B」であるユーザが現在の発言中である話者ではないことを示している。
【0052】
なお、図5のテーブルの第3行目乃至第4行目についても同様であり、その説明は繰り返しになるので省略する。
【0053】
勿論、テレビ電話の参加者のうち、現在の話者が複数(例えば、2人など)存在する場合、テレビ電話の参加者の発言データに含まれる制御情報に基づいて、複数の参加者が現在の話者として特定される。
【0054】
さらに、解析機能42は、取得されたテレビ電話の参加者の発言データに基づいて、予め設定された所定の時間内での、4人の参加者A乃至Dの発言回数、キーワードの発言回数、名前を呼ばれる回数、および返事(相槌を含む)をした回数などを解析する。これにより、話者以外であっても、例えば発言回数、キーワードの発言回数、および名前を呼ばれる回数が多ければ会話の中心人物(または会話の中心人物に近い人)と認識することができるし、また、返事をした回数が多ければ会話の中で相手役になっていると認識することができる。
【0055】
なお、キーワードは、テレビ電話による会話の内容で繰り返し使用される単語をキーワードとするようにしてもよいし、ユーザの好みに応じて、予め設定するようにしてもよい。
【0056】
図6は、テレビ電話に参加しているユーザの所有する携帯電話機1の電話番号、参加者名、発言中である話者、発言回数、キーワードの発言回数、名前を呼ばれる回数、および返事をした回数の対応関係を表している。なお、図6のテーブルの第1列目乃至第3列目の「電話番号」、「参加者名」、および「発言中」は、図5のテーブルの第1列目乃至第3列目の「電話番号」、「参加者名」、および「発言中」と同様であり、その説明は繰り返しになるので省略する。
【0057】
図6のテーブルの第4列目乃至8列目には、左から順に、「発言回数」、「キーワードの発言回数」、「名前を呼ばれる回数」、および「返事をした回数」が記載されており、それぞれ、テレビ電話の参加者が会話中に発言した回数、テレビ電話を行う際の所定のテーマに関するキーワードを発言した回数、他の参加者から名前が呼ばれた回数、および、他の参加者に対して返事をした回数を示している。
【0058】
図6のテーブルの第1行目の場合、「発言回数」は「7」であり、テレビ電話の参加者(参加者A)が会話中に発言した回数が「7」であることを示している。「キーワードの発言回数」は「3」であり、テレビ電話を行う際の所定のテーマに関するキーワードを発言した回数が「3」であることを示している。「名前を呼ばれる回数」は「6」であり、他の参加者から名前(「Aさん」という名前)が呼ばれた回数が「6」であることを示している。「返事をした回数」は「5」であり、他の参加者に対して返事をした回数が「5」であることを示している。
【0059】
図6のテーブルの第2行目の場合、「発言回数」は「1」であり、テレビ電話の参加者(参加者B)が会話中に発言した回数が「1」であることを示している。「キーワードの発言回数」は「1」であり、テレビ電話を行う際の所定のテーマに関するキーワードを発言した回数が「1」であることを示している。「名前を呼ばれる回数」は「2」であり、他の参加者から名前(「Aさん」という名前)が呼ばれた回数が「2」であることを示している。「返事をした回数」は「2」であり、他の参加者に対して返事をした回数が「2」であることを示している。
【0060】
なお、図6のテーブルの第3行目乃至第4行目についても同様であり、その説明は繰り返しになるので省略する。
【0061】
ステップS4において、解析機能42は、予め設定された所定の時間ごとに、その解析結果に基づいて、テレビ電話の参加者と発言回数などが対応付けられて登録されている発言履歴データベース43を更新する。
【0062】
例えば、A乃至Dの4人でテレビ電話を行った際に、図6のテーブルに示されるような解析結果に基づいて発言履歴データベース43を更新する場合、図7に示されるように発言履歴データベース43が更新される。
【0063】
なお、例えば参加者A乃至Dの4人でのテレビ電話が開始されると、予め設定された所定の時間ごとに画像配置制御処理が繰り返され、図7に示されるように発言履歴データベース43が更新された後、予め設定された所定の時間が経過すると、例えば図8に示されるように発言履歴データベース43が更新される。
【0064】
図8の例の場合、参加者名「D」であるユーザが現在の発言中である話者であり、その他の「発言回数」、「キーワードの発言回数」、「名前を呼ばれる回数」、および「返事をした回数」がそれぞれ更新されている。
【0065】
なお、本発明の実施形態においては、予め設定された所定の時間内に取得された音声信号に基づいて音声認識処理を行い、音声認識された発言(音声)を一括して解析し、その解析結果に基づいて、テレビ電話の参加者と発言回数などが対応付けられて登録されている発言履歴データベース43を予め設定された所定の時間ごとに一括して更新するようにしたが、このような場合に限られず、逐次取得された音声信号に基づいて逐次音声認識処理を行い、音声認識された発言(音声)を逐次解析し、発言履歴データベース43を逐次更新するようにしてもよい。
【0066】
ステップS5において、解析機能42は、更新された発言履歴データベース43を参照して、現在の通話状況に応じた、液晶ディスプレイ13に表示されるテレビ電話の参加者(例えばA乃至D)の画像の配置に関する優先度(すなわち、参加者A乃至Dの4人でのテレビ電話において会話の頻度と重要度などが高いため、液晶ディスプレイ13に表示画面において優先的に表示する度合い)を算出する。
【0067】
具体的には、図7の例の場合、参加者Aが現在発言中である話者であることから、例えば参加者A乃至Dの4人のうち、参加者Aについて最も高く優先度が算出され、残りの参加者C、D、Bの順で優先度が低く算出される(参加者Bが最も優先度が低く算出される)。この優先度の算出に際して、発言回数や返事をした回数などを単純に加算するようにしてもよいし、それぞれの回数ごとに重み付けを行った後加算するようにしてもよい。
【0068】
解析機能42は、算出された優先度に関するデータである優先度データを画像配置制御機能44に供給する。
【0069】
ステップS6において、画像配置制御機能44は、解析機能42から供給された優先度データを取得し、取得された優先度データに基づいて、テレビ電話を行う際に液晶ディスプレイ13に表示される参加者(図7の例の場合、A乃至D)の画像の配置を制御するための画像配置制御信号を生成し、生成された画像配置制御信号をLCD制御部26に供給する。
【0070】
例えば図7の例の場合、参加者Aが現在発言中である話者であることから、参加者A乃至Dの4人のうち、参加者Aについて最も高く優先度が算出され、例えば図9に示されるように、参加者Aの画像がメインX−1に表示される一方、他の参加者B乃至DがメインX−1の下のサブX−2乃至4で表示されるように参加者の画像の配置を制御するための画像配置制御信号が生成される。
【0071】
LCD制御部26は、画像デコーダ27から供給された複数のデコード後の画像信号を取得し、画像配置制御機能44から供給された画像配置制御信号に基づいて、取得された複数のデコード後の画像信号に基づく参加者(例えばA乃至D)の画像を所望の位置に配置させて液晶ディスプレイ13に表示させる。
【0072】
ステップS7において、液晶ディスプレイ13は、LCD制御部26の制御に従い、図9に示されるように、複数のデコード後の画像信号に基づく参加者(例えばA乃至D)の画像を予め設定された所定の時間ごとに更新して表示する。
【0073】
これにより、ユーザは、テレビ電話において会話の中心となっているユーザ(あるいは、発言中のユーザ)の顔を容易に判別することができ、テレビ電話において会話の中心となっているユーザ(あるいは、発言中のユーザ)が誰であるかを容易に認識することができる。
【0074】
なお、ステップS6および7において、例えば図7の例の場合、参加者Aが現在発言中である話者であり、参加者Aについて最も高く優先度が算出され、その次に参加者C、D、Bの順で高く優先度が算出されることから、例えば図10に示されるように、参加者Aの画像がメインX−1に表示され、参加者Cの画像がメインX−1の下の少し大きめのサブX−2に表示され、参加者Dの画像がメインX−1の下の少し大きめのサブX−3で表示され、そして、参加者Bの画像がメインX−1の下の少し大きめのサブX−4で表示されるように参加者の画像の配置を制御するための画像配置制御信号が生成されるようにしてもよい。
【0075】
また、例えば10人でテレビ電話を行う場合、参加者Aが他の参加者から呼ばれる回数が多く、参加者Aを中心に会話が成立していると認識されるときには、例えば図11に示されるように、参加者Aの画像がメインX−4に表示され、参加者Aの会話の相手をしていると認識される優先度の高い他の参加者(B乃至G)の画像がサブX−1乃至X−3およびX−5乃至X−7に表示されるように参加者の画像の配置を制御するための画像配置制御信号が生成されるようにしてもよい。
【0076】
その後、処理はステップS1に戻り、ステップS1以降の処理が繰り返される。
【0077】
本発明の実施形態においては、複数の携帯電話機1から取得された音声信号に基づいて音声認識処理を行うとともに、音声認識された発言に関するデータである発言データに基づいて所定の解析を行い、その解析結果に基づいて液晶ディスプレイ13に表示されるテレビ電話の参加者の画像の配置に関する優先度を算出し、算出された優先度に基づいて、液晶ディスプレイ13に表示される参加者の画像の配置を制御するようにしたので、複数のユーザが多地点間でテレビ電話を行う場合において、通話状況に応じて表示部(液晶ディスプレイ13)に表示されるユーザの画像の配置を好適に制御することができる。これにより、携帯電話機1のように表示部の大きさが限られる場合であっても、ユーザは、テレビ電話において会話の中心となっているユーザ(あるいは、発言中のユーザ)の顔を容易に判別することができ、テレビ電話において会話の中心となっているユーザ(あるいは、発言中のユーザ)が誰であるかを容易に認識することができる。従って、テレビ電話を行う場合における利便性を向上させることができる。
【0078】
なお、「通話状況」とは、複数のユーザにより行われるテレビ電話における種々の状況、例えば現在の発言者が誰であるのか、その発言者の発言回数はどれくらいか、会話の中心人物は誰か、会話の内容はどのような内容であるかなどに関する状況と定義する。
【0079】
また、図3を参照して説明した画像配置制御処理においては、予め設定された所定の時間(例えば、5分間など)ごとに、現在の通話状況に応じて、液晶ディスプレイ13に表示される参加者の画像の配置を制御するようにしたが、テレビ電話を行う際の内容や参加者に応じて画像配置制御処理を繰り返す所定の時間を変更するようにしてもよい。
【0080】
なお、本発明は、携帯電話機1以外にも、PDA(Personal Digital Assistant)、パーソナルコンピュータ、その他の情報処理装置にも適用することができる。
【0081】
また、本発明の実施形態において説明した一連の処理は、ソフトウェアにより実行させることもできるが、ハードウェアにより実行させることもできる。
【0082】
さらに、本発明の実施形態では、フローチャートのステップは、記載された順序に沿って時系列的に行われる処理の例を示したが、必ずしも時系列的に処理されなくとも、並列的あるいは個別実行される処理をも含むものである。
【図面の簡単な説明】
【0083】
【図1】本発明に係る情報処理装置に適用可能な携帯電話機の内部の構成を示すブロック図。
【図2】本発明に係る情報処理装置に適用可能な携帯電話機が実行することができる機能的な構成を示すブロック図。
【図3】図2の携帯電話機における画像配置制御処理を説明するフローチャート。
【図4】テレビ電話に参加しているユーザの所有する携帯電話機の電話番号、および参加者名の対応関係を示す図。
【図5】テレビ電話に参加しているユーザの所有する携帯電話機の電話番号、参加者名、および発言中である話者の対応関係を示す図。
【図6】テレビ電話に参加しているユーザの所有する携帯電話機の電話番号、参加者名、発言中である話者、発言回数、キーワードの発言回数、名前を呼ばれる回数、および返事をした回数の対応関係を示す図。
【図7】図2の発言履歴データベースの構成例を示す図。
【図8】図2の発言履歴データベースの他の構成例を示す図。
【図9】図1の液晶ディスプレイに表示される参加者の画像の配置例を示す図。
【図10】図1の液晶ディスプレイに表示される参加者の画像の他の配置例を示す図。
【図11】図1の液晶ディスプレイに表示される参加者の画像の他の配置例を示す図。
【符号の説明】
【0084】
1…携帯電話機、11…操作キー、12…CCDカメラ、13…液晶ディスプレイ、14…サブディスプレイ、15…マイクロフォン、16…スピーカ、21…主制御部、22…電源回路、23…操作入力制御部、24…画像エンコーダ、25…カメラI/F部、26…LCD制御部、27…画像デコーダ、28…多重分離部、29…変復調回路部、30…音声コーデック、31…メインバス、32…同期バス、33…送受信回路部、34…アンテナ、35…記録再生部、36…メモリカード、37…記憶部、38…音楽制御部、41…音声認識機能、42…解析機能、43…発言履歴データベース、44…画像配置制御機能。
【出願人】 【識別番号】000003078
【氏名又は名称】株式会社東芝
【出願日】 平成18年8月11日(2006.8.11)
【代理人】 【識別番号】100078765
【弁理士】
【氏名又は名称】波多野 久

【識別番号】100078802
【弁理士】
【氏名又は名称】関口 俊三

【識別番号】100077757
【弁理士】
【氏名又は名称】猿渡 章雄

【識別番号】100122253
【弁理士】
【氏名又は名称】古川 潤一


【公開番号】 特開2008−48030(P2008−48030A)
【公開日】 平成20年2月28日(2008.2.28)
【出願番号】 特願2006−219778(P2006−219778)