トップ :: G 物理学 :: G10 楽器;音響




【発明の名称】 感情検出方法及び感情検出装置ならびに記録媒体
【発明者】 【氏名】光吉 俊二

【要約】 【課題】本発明は被験者である人間の感情をより正確に検出可能な感情検出方法及び感情検出装置ならびに記録媒体を提供することを目的とする。

【解決手段】被験者の感情を検出するための感情検出方法であって、音声信号を入力し、入力した音声信号から音声の強度,音声の出現速度を表すテンポ及び音声の各単語内の強度変化パターンを表す抑揚をそれぞれ検出し、検出された音声の強度,音声のテンポ及び音声の抑揚のそれぞれについて変化量を求め、求めた変化量に基づいて、少なくとも怒り,悲しみ及び喜びのそれぞれの感情状態を表す信号を生成することを特徴とする。
【特許請求の範囲】
【請求項1】 被験者の感情を検出するための感情検出方法であって、音声信号を入力し、入力した音声信号から音声の強度,音声の出現速度を表すテンポ及び音声の各単語内の強度変化パターンを表す抑揚をそれぞれ検出し、検出された音声の強度,音声のテンポ及び音声の抑揚のそれぞれについて変化量を求め、求めた変化量に基づいて、少なくとも怒り,悲しみ及び喜びのそれぞれの感情状態を表す信号を生成することを特徴とする感情検出方法。
【請求項2】 被験者の感情を検出するための感情検出装置であって、音声信号を入力する音声入力手段と、前記音声入力手段が入力した音声信号から音声の強度を検出する強度検出手段と、前記音声入力手段が入力した音声信号から音声の出現速度をテンポとして検出するテンポ検出手段と、前記音声入力手段が入力した音声信号から音声の単語内の強度変化パターンを表す抑揚を検出する抑揚検出手段と、前記強度検出手段が検出した音声の強度,前記テンポ検出手段が検出した音声のテンポ及び前記抑揚検出手段が検出した音声の抑揚のそれぞれについて変化量を求める変化量検出手段と、前記変化量検出手段が検出した変化量に基づいて、少なくとも怒り,悲しみ及び喜びのそれぞれの感情状態を表す信号を出力する感情検出手段とを設けたことを特徴とする感情検出装置。
【請求項3】 請求項2の感情検出装置において、前記抑揚検出手段に、単語毎に分離されて入力される音声信号から特定の周波数成分を抽出するバンドパスフィルタ手段と、前記バンドパスフィルタ手段により抽出された信号のパワースペクトルをその強度に基づいて複数の領域に分離する領域分離手段と、前記領域分離手段により分離された複数の領域の各々の中心位置の時間間隔に基づいて抑揚の値を算出する抑揚計算手段とを設けたことを特徴とする感情検出装置。
【請求項4】 請求項2の感情検出装置において、被験者の少なくとも顔の画像情報を入力する撮像手段と、前記撮像手段が入力した画像情報から顔面各部に関する位置情報を検出する画像認識手段と、顔面各部の特徴量の基準情報を保持する画像基準情報保持手段と、前記画像認識手段の検出した位置情報と前記画像基準情報保持手段の保持する基準情報とに基づいて画像特徴量を検出する画像特徴量検出手段とを更に設けるとともに、前記感情検出手段が、前記画像特徴量検出手段の検出した画像特徴量の変化に応じて感情状態を推定することを特徴とする感情検出装置。
【請求項5】 請求項2の感情検出装置において、前記感情検出手段の検出した感情状態の情報を逐次入力して蓄積する感情情報蓄積手段と、前記感情情報蓄積手段に蓄積された過去の感情状態の情報のうち、記憶時点から所定の時間が経過した情報を削除するとともに、削除対象の情報のうち、少なくとも感情変化が所定以上に大きい情報及び予め定めた変化パターンに適合する情報については削除対象から除外する忘却処理手段とを更に設けたことを特徴とする感情検出装置。
【請求項6】 請求項5の感情検出装置において、被験者の発した音声もしくは被験者の入力した文字の情報を処理して文法解析を行い文章の意味を表す発言情報を生成する文章認識手段と、前記文章認識手段の生成した発言情報を、前記感情状態の情報と同期した状態で感情情報蓄積手段に蓄積する蓄積制御手段とを更に設けたことを特徴とする感情検出装置。
【請求項7】 請求項2の感情検出装置において、検出された感情状態に基づいて基準無音時間を決定する無音時間決定手段と、前記無音時間決定手段の決定した基準無音時間を利用して、音声の文章の区切りを検出する文章区切り検出手段とを更に設けたことを特徴とする感情検出装置。
【請求項8】 被験者の感情を検出するための計算機で実行可能な感情検出プログラムを記録した記録媒体であって、前記感情検出プログラムには、音声信号を入力する手順と、入力した音声信号から音声の強度,音声の出現速度を表すテンポ及び音声の各単語内の強度変化パターンを表す抑揚をそれぞれ検出する手順と、検出された音声の強度,音声のテンポ及び音声の抑揚のそれぞれについて変化量を求める手順と、求めた変化量に基づいて、少なくとも怒り,悲しみ及び喜びのそれぞれの感情状態を表す信号を生成する手順とを設けたことを特徴とする記録媒体。
【発明の詳細な説明】【0001】
【発明の属する技術分野】本発明は、人間の感情を検出するために用いる感情検出方法及び感情検出装置ならびに記録媒体に関する。本発明は、医療分野における感情検出にも利用できるし、人工知能や人工感性の一部分として様々なシステムに利用することもできる。
【0002】
【従来の技術】本発明に関連のある従来技術は、例えば特開平5−12023号公報,特開平9−22296号公報及び特開平11−119791号公報に開示されている。特開平5−12023号公報においては、音声の特徴量として、音声の継続時間,音声のフォルマント周波数及び音声の周波数毎の強度をそれぞれ検出している。また、各々の特徴量について基準信号とのずれを検出し、検出したずれ量からファジー推論により感情の検出を行うことを開示している。
【0003】特開平9−22296号公報においては、音声の特徴量として、音声の発生速度(単位時間あたりのモーラ数),音声ピッチ周波数,音量及び音声スペクトルを検出している。また、検出した音声の特徴量と、HMM(隠れマルコフモデル:Hidden Markov Model)の統計処理を行った結果とを用いて感情を検出することを開示している。
【0004】特開平11−119791号公報においては、HMMを用いて音素スペクトルの遷移状態の確率に基づいて感情を検出することを開示している。
【0005】
【発明が解決しようとする課題】しかしながら、従来の感情検出方法では感情の検出精度が低く、特定の限定された言葉について感情を検出できたとしても、実際の人間の感情を正確に検出できるものではない。従って、例えば比較的単純なゲーム装置の限定的な用途においてのみ感情検出方法が実用化されているのが実情である。
【0006】本発明は、被験者である人間の感情をより正確に検出可能な感情検出方法及び感情検出装置ならびに記録媒体を提供することを目的とする。
【0007】
【課題を解決するための手段】請求項1は、被験者の感情を検出するための感情検出方法であって、音声信号を入力し、入力した音声信号から音声の強度,音声の出現速度を表すテンポ及び音声の各単語内の強度変化パターンを表す抑揚をそれぞれ検出し、検出された音声の強度,音声のテンポ及び音声の抑揚のそれぞれについて変化量を求め、求めた変化量に基づいて、少なくとも怒り,悲しみ及び喜びのそれぞれの感情状態を表す信号を生成することを特徴とする。
【0008】請求項1においては、被験者から入力される音声の強度,テンポ及び抑揚の各々の変化量を怒り,悲しみ及び喜びのそれぞれの感情状態に対応付けて感情を検出している。このような方法を用いることにより、従来よりも正確に感情を検出することが可能である。請求項2は、被験者の感情を検出するための感情検出装置であって、音声信号を入力する音声入力手段と、前記音声入力手段が入力した音声信号から音声の強度を検出する強度検出手段と、前記音声入力手段が入力した音声信号から音声の出現速度をテンポとして検出するテンポ検出手段と、前記音声入力手段が入力した音声信号から音声の単語内の強度変化パターンを表す抑揚を検出する抑揚検出手段と、前記強度検出手段が検出した音声の強度,前記テンポ検出手段が検出した音声のテンポ及び前記抑揚検出手段が検出した音声の抑揚のそれぞれについて変化量を求める変化量検出手段と、前記変化量検出手段が検出した変化量に基づいて、少なくとも怒り,悲しみ及び喜びのそれぞれの感情状態を表す信号を出力する感情検出手段とを設けたことを特徴とする。
【0009】請求項2の感情検出装置においては、音声入力手段,強度検出手段,テンポ検出手段,抑揚検出手段,変化量検出手段及び感情検出手段を設けることにより、請求項1の感情検出方法を実施することができる。請求項3は、請求項2の感情検出装置において、前記抑揚検出手段に、単語毎に分離されて入力される音声信号から特定の周波数成分を抽出するバンドパスフィルタ手段と、前記バンドパスフィルタ手段により抽出された信号のパワースペクトルをその強度に基づいて複数の領域に分離する領域分離手段と、前記領域分離手段により分離された複数の領域の各々の中心位置の時間間隔に基づいて抑揚の値を算出する抑揚計算手段とを設けたことを特徴とする。
【0010】バンドパスフィルタ手段は、単語毎に分離されて入力される音声信号から特定の周波数成分を抽出する。領域分離手段は、検出されたパワースペクトルをその強度に基づいて複数の領域に分離する。抑揚計算手段は、前記領域分離手段により分離された複数の領域の各々の中心位置の時間間隔に基づいて抑揚の値を算出する。
【0011】請求項3においては、音声の特定の周波数成分に関する単語内のエネルギー分布パターンを複数の領域の間隔を表す時間の値として検出し、その時間の長さを抑揚として利用している。請求項4は、請求項2の感情検出装置において、被験者の少なくとも顔の画像情報を入力する撮像手段と、前記撮像手段が入力した画像情報から顔面各部に関する位置情報を検出する画像認識手段と、顔面各部の特徴量の基準情報を保持する画像基準情報保持手段と、前記画像認識手段の検出した位置情報と前記画像基準情報保持手段の保持する基準情報とに基づいて画像特徴量を検出する画像特徴量検出手段とを更に設けるとともに、前記感情検出手段が、前記画像特徴量検出手段の検出した画像特徴量の変化に応じて感情状態を推定することを特徴とする。
【0012】請求項4においては、音声だけでなく、被験者の顔の表情に基づいて感情状態を推定している。一般に、人間の感情状態はその人の顔の表情に反映されるので、顔の表情を検出することにより感情状態を把握することができる。そこで、請求項4では、前記感情検出手段は画像特徴量検出手段の検出した画像特徴量の変化に基づいて感情状態を推定している。
【0013】請求項5は、請求項2の感情検出装置において、前記感情検出手段の検出した感情状態の情報を逐次入力して蓄積する感情情報蓄積手段と、前記感情情報蓄積手段に蓄積された過去の感情状態の情報のうち、記憶時点から所定の時間が経過した情報を削除するとともに、削除対象の情報のうち、少なくとも感情変化が所定以上に大きい情報及び予め定めた変化パターンに適合する情報については削除対象から除外する忘却処理手段とを更に設けたことを特徴とする。
【0014】請求項5においては、検出された過去の感情状態の情報を感情情報蓄積手段に蓄積しておくことができる。また、検出してから長い時間の経過した古い情報については感情情報蓄積手段から自動的に削除されるので、感情情報蓄積手段に必要とされる記憶容量を減らすことができる。
【0015】但し、感情変化が所定以上に大きい情報や、予め定めた変化パターンに適合する情報のように特徴的な情報については削除対象から自動的に除外される。このため、特徴的な情報は古くなってもそのまま感情情報蓄積手段に保持される。従って、人間の記憶と同じように、後で役に立つ印象的な情報については古くなっても感情情報蓄積手段から読み出して再生することができる。
【0016】請求項6は、請求項5の感情検出装置において、被験者の発した音声もしくは被験者の入力した文字の情報を処理して文法解析を行い文章の意味を表す発言情報を生成する文章認識手段と、前記文章認識手段の生成した発言情報を、前記感情状態の情報と同期した状態で感情情報蓄積手段に蓄積する蓄積制御手段とを更に設けたことを特徴とする。
【0017】文章認識手段は、被験者の発した音声もしくは被験者がキーボードなどを用いて入力した文字の情報を処理して文法解析を行い文章の意味を表す発言情報を生成する。文法解析により、例えば「5W3H」、すなわち「誰が」,「何を」,「いつ」,「どこで」,「なぜ」,「どうやって」,「どのくらい」,「いくら」を表す発言情報を得ることができる。
【0018】蓄積制御手段は、前記文章認識手段の生成した発言情報を、前記感情状態の情報と同期した状態で感情情報蓄積手段に蓄積する。請求項6においては、感情情報蓄積手段を参照することにより、過去の任意の時点における感情情報だけでなく、そのときの状況を表す発言情報を取り出すことができる。
【0019】感情情報蓄積手段に保持された情報については、様々な用途で利用することができる。例えば、感情検出装置自体の感情推定機能が不正確であった場合には、感情情報蓄積手段に保持された過去の検出結果に基づいて感情推定に利用されるデータベースを修正することができる。
【0020】請求項7は、請求項2の感情検出装置において、検出された感情状態に基づいて基準無音時間を決定する無音時間決定手段と、前記無音時間決定手段の決定した基準無音時間を利用して、音声の文章の区切りを検出する文章区切り検出手段とを更に設けたことを特徴とする。音声の認識や感情の検出などを行う場合には、文章毎の区切りを検出してそれぞれの文章を抽出する必要がある。一般的には、文章と文章との区切りには無音区間が存在するので、無音区間が現れたタイミングで複数の文章を分離すればよい。
【0021】しかしながら、無音区間の長さは一定ではない。特に、話者の感情の状態に対応して無音区間の長さは変化する。このため、無音区間の判定のために一定の閾値を割り当てた場合には、文章の区切りの検出に失敗する可能性が高くなる。請求項7においては、例えば直前に検出された感情状態を利用して基準無音時間を決定し、この基準無音時間を用いて音声の文章の区切りを検出するので、話者の感情が変化した場合であっても正しく文章の区切りを検出できる。
【0022】請求項8は、被験者の感情を検出するための計算機で実行可能な感情検出プログラムを記録した記録媒体であって、前記感情検出プログラムに音声信号を入力する手順と、入力した音声信号から音声の強度,音声の出現速度を表すテンポ及び音声の各単語内の強度変化パターンを表す抑揚をそれぞれ検出する手順と、検出された音声の強度,音声のテンポ及び音声の抑揚のそれぞれについて変化量を求める手順と、求めた変化量に基づいて、少なくとも怒り,悲しみ及び喜びのそれぞれの感情状態を表す信号を生成する手順とを設けたことを特徴とする。
【0023】請求項8の記録媒体に記録された感情検出プログラムを計算機を用いて実行することにより、請求項1の感情検出方法を実施することができる。
【0024】
【発明の実施の形態】本発明の感情検出方法及び感情検出装置の1つの実施の形態について、図1〜図6を参照して説明する。この形態は全ての請求項に対応する。
【0025】図1は、この形態の感情検出装置の構成を示すブロック図である。図2は抑揚検出部の構成を示すブロック図である。図3は感情の状態の変化と音声の強度,テンポ及び抑揚との関係を示すグラフである。図4は抑揚検出部における音声信号処理の過程を示すタイムチャートである。図5は忘却処理部の動作を示すフローチャートである。図6は感情感性記憶DBに記憶された情報の構成例を示す模式図である。
【0026】この形態では、請求項2の音声入力手段,強度検出手段,テンポ検出手段,抑揚検出手段,変化量検出手段及び感情検出手段は、それぞれマイク11,強度検出部17,テンポ検出部18,抑揚検出部19,感情変化検出部22及び音声感情検出部23に対応する。また、請求項3のバンドパスフィルタ手段,領域分離手段及び抑揚計算手段は、それぞれバンドパスフィルタ51,比較部53及び領域間隔検出部55に対応する。請求項4の撮像手段,画像認識手段,画像基準情報保持手段,画像特徴量検出手段及び感情検出手段は、それぞれテレビカメラ31,画像認識部32,顔パターンDB33,顔感情検出部34及び顔感情検出部34に対応する。
【0027】更に、請求項5の感情情報蓄積手段及び忘却処理手段はそれぞれ感情感性記憶DB41及び忘却処理部42に対応する。請求項6の文章認識手段及び蓄積制御手段は、それぞれ文章認識部26及び同期処理部43に対応する。請求項7の無音時間決定手段及び文章区切り検出手段は文章検出部16に対応する。図1を参照すると、この感情検出装置にはマイク11,A/D変換器12,信号処理部13,音声認識部20,強度検出部17,テンポ検出部18,抑揚検出部19,一時記憶部21,感情変化検出部22,音声感情検出部23,感情パターンDB(データベースの略:以下同様)24,キーボード25,文章認識部26,テレビカメラ31,画像認識部32,顔パターンDB33,顔感情検出部34,文字認識部39,感情感性記憶DB41,忘却処理部42,同期処理部43,人間性情報DB44,個人情報DB45,専門情報DB46及び感情認識部60が備わっている。
【0028】また、音声認識部20には信号処理部13,音素検出部14,単語検出部15及び文章検出部16が設けてある。音声認識部20には、市販の音声認識(事前言語)デバイスの機能も含まれている。図1において、音声認識部20,強度検出部17,テンポ検出部18,抑揚検出部19,一時記憶部21,感情変化検出部22及び音声感情検出部23は、音声から感情を検出するための回路である。
【0029】この感情検出装置は、感情の検出対象となる相手の人間の情報を読み取るための入力手段として、マイク11,キーボード25及びテレビカメラ31を備えている。すなわち、マイク11から入力される音声,キーボード25から入力される文字情報及びテレビカメラ31から入力される顔の表情などの情報を利用して相手の人間の感情を検出する。
【0030】なお、実際にはマイク11から入力される音声だけに基づいて感情を検出することも可能であり、キーボード25から入力される文字情報だけに基づいて感情を検出することも可能であり、テレビカメラ31から入力される顔の表情だけに基づいて相手の人間の感情を検出することも可能である。しかし、複数の情報源から得られる情報を総合的に判断した方が感情の検出精度を高めるうえで効果的である。
【0031】まず、音声に関する処理について説明する。マイク11から入力された音声信号は、A/D変換器12でサンプリングされ、ディジタル信号に変換される。A/D変換器12の出力に得られる音声のディジタル信号は、音声認識部20に入力される。
【0032】信号処理部13は、音声の強度検出に必要な周波数成分を抽出する。強度検出部17は、信号処理部13の抽出した信号からその強度を検出する。例えば、音声信号の振幅の大きさを平均化した結果を強度として利用することができる。音声の強度を検出するための平均化の周期については、例えば10秒程度に定める。但し、10秒以内であっても文章毎の区切りを検出した場合には、文章の最初から区切りを検出した時点までの平均化を行う。すなわち、音声の文章毎にそれぞれの強度を検出する。
【0033】音声認識部20に備わった音素検出部14は、入力される音声の音素毎の区切りを検出する。例えば、「今日はいい天気ですね」の文章が音声で入力された場合には、「きょ/う/は/い/い/て/ん/き/で/す/ね」のように音素毎の区切りを検出する。また、音声認識部20に備わった単語検出部15は、入力される音声の単語毎の区切りを検出する。例えば、「今日はいい天気ですね」の文章が音声で入力された場合には、「きょう/は/いい/てんき/ですね」のように単語毎の区切りを検出する。
【0034】また、音声認識部20に備わった文章検出部16は、入力される音声の文章毎の区切りを検出する。特定の長さ以上の無音状態を検出した場合に、文章毎の区切りが現れたものとみなす。無音状態の長さの閾値には、(0.1〜2)秒程度の値が割り当てられる。また、この閾値は一定ではなく、直前に検出された感情の状態を反映するように自動的に変更される。
【0035】テンポ検出部18は、音素検出部14から出力される音素毎の区切りの信号を入力して、単位時間に現れた音素の数をテンポとして検出する。テンポの検出周期については、例えば10秒程度の時間が割り当てられる。しかし、文章の区切りを検出した場合には、10秒以内であってもその時点までで音素数のカウントを中止してテンポの値を計算する。つまり、文章毎にテンポが検出される。
【0036】抑揚検出部19には、単語検出部15が区切りを検出した単語毎に区分されて、音声信号が入力される。抑揚検出部19は、入力される音声信号から各単語内及び文章検出部16における文章毎の区切り内の音声の強度変化パターンを表す抑揚を検出する。これにより、抑揚検出部19は区切りの中での特徴的な強度パターンを検出する。
【0037】抑揚検出部19の内部には、図2に示すように、バンドパスフィルタ51,絶対値変換部52,比較部53,領域中心検出部54及び領域間隔検出部55が備わっている。また、抑揚検出部19における各部の信号SG1,SG2,SG3,SG4の波形の例が図4に示されている。なお、図4における各信号の縦軸は振幅又は強度を表している。また、図4の例では音声から取り出された1つの単語の長さが約1.2秒になっている。
【0038】バンドパスフィルタ51は、入力された信号SG1の中から抑揚の検出に必要な周波数成分だけを抽出する。この例では、800Hz〜1200Hzの範囲内の周波数成分だけがバンドパスフィルタ51の出力に信号SG2として現れる。図4を参照すると、単語内の抑揚による強度変化のパターンが信号SG2に現れていることが分かる。
【0039】信号の計算処理を容易にするために、抑揚検出部19には絶対値変換部52を設けてある。絶対値変換部52は、入力される信号の振幅をその絶対値に変換する。従って、絶対値変換部52の出力には図4に示す信号SG3が現れる。比較部53は、信号SG3の大きさを閾値と比較して閾値よりも大きい成分だけを信号SG4として出力する。すなわち、比較部53は信号SG3のパワースペクトルの中で値の大きな成分だけを出力する。なお、比較部53に印加する閾値については、判別分析法と呼ばれる方法を用いて適応的に決定している。
【0040】図4を参照すると、信号SG4には音声の単語における抑揚パターンに相当する2つの領域A1,A2が明確に現れている。領域中心検出部54は、2つの領域A1,A2のそれぞれの中心に相当する位置が現れた時間t1,t2を検出する。領域間隔検出部55は、領域中心検出部54の検出した2つの時間t1,t2に関する時間差を領域間隔Tyとして検出する。この領域間隔Tyの値は、音声の単語における抑揚パターンに相当する。実際には、領域間隔Tyの値を平均化した結果を抑揚の値として利用している。
【0041】なお、1つの単語の中で信号SG4に3つ以上の領域が現れる場合もある。3つ以上の領域が現れた場合には、互いに隣接する2つの領域について領域間隔Tyをそれぞれ計算し、求められた複数の領域間隔Tyを平均化した結果を抑揚の値として利用する。人間の感情の状態は、例えば図3に示すように変化する。また、怒り,悲しみ,喜びなどの感情を正しく把握するためには、強度,テンポ,抑揚のような特徴量の変化を検出することが重要である。
【0042】図1に示す感情検出装置においては、過去の特徴量の参照を可能にするため、強度検出部17が出力する強度,テンポ検出部18が出力するテンポ及び抑揚検出部19が出力する抑揚の値を一時的に一時記憶部21に記憶しておく。また、感情変化検出部22は、強度検出部17が出力する現在の強度,テンポ検出部18が出力する現在のテンポ及び抑揚検出部19が出力する現在の抑揚の値と、一時記憶部21に保持された過去の(現在よりも少し前の時刻の)強度,テンポ及び抑揚の値とを入力して、感情状態の変化を検出する。つまり、音声の強度の変化,テンポの変化及び抑揚の変化をそれぞれ検出する。
【0043】音声感情検出部23は、感情変化検出部22が出力する音声の強度の変化,テンポの変化及び抑揚の変化を入力し、現在の感情の状態を推定する。感情の状態として、この例では怒り,悲しみ及び喜びの3種類の状態をそれぞれ推定している。
【0044】感情パターンDB24には、音声の強度の変化,テンポの変化及び抑揚の変化のパターンと怒りの状態とを関連付ける情報と、音声の強度の変化,テンポの変化及び抑揚の変化のパターンと悲しみの状態とを関連付ける情報と、音声の強度の変化,テンポの変化及び抑揚の変化のパターンと喜びの状態とを関連付ける情報とが予め保持されている。
【0045】音声感情検出部23は、感情パターンDB24に保持された情報を推定規則として参照しながら、感情変化検出部22が出力する強度の変化,テンポの変化及び抑揚の変化のパターンに基づいて現在の感情の状態を推定する。音声感情検出部23によって推定された怒り,悲しみ及び喜びの3種類の各々の状態を表す情報は、感情認識部60及び感情感性記憶DB41に入力される。感情感性記憶DB41は、音声感情検出部23から入力される現在の感情の状態を逐次記憶され、蓄積される。
【0046】従って、感情感性記憶DB41に記憶された情報を読み出すことにより、過去の感情の状態を再生することができる。一方、音声としてマイク11から入力された文章の内容(相手の発言内容)は、文章認識部26で認識される。文章認識部26の入力には、音声認識部20で認識された各音素に対応する文字情報や、単語の区切り及び文章の区切りを表す情報が入力される。また、キーボード25から入力された文字情報も文章認識部26に入力される。
【0047】文章認識部26は、入力される文字列の単語毎の認識及び構文解析を行い、文章の内容を自然言語として把握する。実際には、「5W3H」、すなわち「誰が」,「何を」,「いつ」,「どこで」,「なぜ」,「どうやって」,「どのくらい」,「いくら」を表す発言情報を認識する。文章認識部26が認識した発言情報は感情認識部60に入力される。
【0048】次に、相手の顔の表情から感情を検出するための処理について説明する。テレビカメラ31は、図1の感情検出装置の被験者となる人間の少なくとも顔の部分を撮影する。テレビカメラ31の撮影した画像、すなわち人間の顔の表情が含まれる画像が画像認識部32に入力される。なお、テレビカメラ31の撮影した画像の情報は文字認識部39に入力される。すなわち、文章の映像をテレビカメラ31で撮影した場合には、文字認識部39は撮影された映像から文章の各文字を認識する。文字認識部39の認識した文字情報は文章認識部26に入力される。
【0049】画像認識部32は、入力される画像の中から特徴的な要素を認識する。具体的には、被験者の顔における目,口,眉毛,頬骨の部分をそれぞれ認識し、顔の中における目,口,眉毛,頬骨のそれぞれの相対的な位置を検出する。また、画像認識部32は顔の表情の変化に伴う目,口,眉毛,頬骨のそれぞれの位置の変化及び首を振るなどの表現を検出するために位置の追跡を常に行う。
【0050】顔パターンDB33には、顔の中における目,口,眉毛,頬骨のそれぞれの位置に関する基準位置の情報(被験者の平常時の顔の表情に相当する情報)が予め保持されている。なお、顔パターンDB33の内容を任意に変更することも可能である。また、顔パターンDB33には顔の表情の変化と6種類の感情(喜び,怒り,悲しみ,恐れ,楽しみ,驚き)のそれぞれとの対応関係を表す規則情報が予め保持されている。
【0051】顔感情検出部34は、画像認識部32が認識した目,口,眉毛,頬骨のそれぞれの位置と顔パターンDB33に保持された基準位置の情報とを用いて特徴量、すなわち平常時の位置に対する表情の違いを検出する。また、顔感情検出部34は検出した特徴量の変化量及び変化の速さと、顔パターンDB33に保持された規則情報とに基づいて、6種類の感情(喜び,怒り,悲しみ,恐れ,楽しみ,驚き)のそれぞれの状態を推定する。推定された6種類の感情の状態を表す情報は、顔感情検出部34から出力されて感情認識部60及び感情感性記憶DB41に入力される。
【0052】感情認識部60は、音声感情検出部23から入力される感情(怒り,悲しみ,喜び)の状態を表す情報と、文章認識部26から入力される発言情報と、顔感情検出部34から入力される感情(喜び,怒り,悲しみ,恐れ,楽しみ,驚き)の状態を表す情報とを総合的に判断して最終的な感情の状態を推定する。発言情報については、その文章の内容(5W3H)を予め定めた規則に従って判断することにより、発言情報に含まれている感情(喜び,怒り,悲しみ,恐れ,楽しみ,驚き)の状態を推定することができる。
【0053】音声感情検出部23が音声から推定した感情の状態を表す情報と、文章認識部26が音声又はキーボード25から入力された文字から認識した発言内容の情報と、顔感情検出部34が顔の表情から推定した感情の状態を表す情報とが、それぞれ感情感性記憶DB41に入力されて逐次記憶される。感情感性記憶DB41に記憶されたそれぞれの情報には、それが検出された時刻あるいは時間ならびに年月日が付加される。
【0054】感情感性記憶DB41に入力される情報のうち、音声感情検出部23から入力される感情の情報と、文章認識部26から入力される発言内容の情報と、顔感情検出部34から入力される感情の情報とは互いに関連付けて把握しなければならない。そこで、同期処理部43は感情感性記憶DB41に蓄積された複数種類の情報を、それらの検出された時間(入力された時間)及び年月日によって互いに関連付ける。例えば、図6に示されるように、音声感情検出部23の推定した怒り,悲しみ及び喜びの感情の状態を表す情報と発言の内容(5W3H)の情報とを、それらの時間によって互いに関連付ける。
【0055】ところで、感情感性記憶DB41には比較的大量の情報を蓄積できる十分な記憶容量が備わっている。しかしながら、記憶容量には限りがあるのでこの装置を長期間に渡って使い続けるためには蓄積する情報の量を抑制する必要がある。
【0056】そこで、忘却処理部42が設けてある。忘却処理部42は、古くなった情報を感情感性記憶DB41上から自動的に削除する。但し、特定の条件に適合する情報については古くなった場合でも削除せずに保存される。忘却処理部42の動作について、図5を参照しながら説明する。図5のステップS11においては、感情感性記憶DB41に蓄積されている多数のデータのそれぞれについて、記憶された時刻(あるいは検出された時刻)及び年月日の情報を参照する。
【0057】ステップS12では、現在の時刻とステップS11で参照したデータの時刻とに基づいて、該当するデータが記憶されてから予め定めた一定の期間が経過したか否かを識別する。記憶してから一定の期間が経過した古いデータを処理する場合には、ステップS13以降の処理に進む。一定の期間が経過していない比較的新しいデータについては、そのまま保存される。
【0058】ステップS13では、データが感情の状態を表す情報である場合に、その感情の変化量(前後の感情との違い)を調べる。感情の変化量が予め定めた閾値を超える場合にはステップS13からS17に進むので、そのデータが古い場合であってもそのままデータは保存される。感情の変化量が閾値以下の場合には、ステップS13からS14に進む。
【0059】ステップS14では、そのデータに関する感情のパターンを検出し、そのパターンが予め定めた特定のパターンと一致するか否かを識別する。すなわち、複数の感情の状態及び発言内容の組み合わせが、「印象が強い」状態を表す特定のパターンと一致するか否かを調べる。検出したパターンが特定のパターンと一致した場合には、ステップS14からS17に進むので、そのデータが古い場合であってもそのままデータは保存される。パターンが一致しない場合にはステップS14からS15に進む。
【0060】ステップS15では、データが発言内容である場合に、その内容と予め定めた発言内容(印象に残りやすい発言)とが一致するか否かを識別する。なお、完全に一致しなくても、類似性が高い場合には「一致」とみなすこともできる。データの発言内容が予め定めた発言内容と一致した場合には、ステップS15からS17に進むので、そのデータが古い場合であっても、そのままデータは保存される。
【0061】ステップS15で一致しない場合には、ステップSS16において当該データは削除される。上記の処理は感情感性記憶DB41上の全てのデータについて実行される。また、図5に示す忘却処理は定期的に繰り返し実行される。この忘却処理を実行留周期については、個人の個性として任意に変更することができる。なお、ステップS14,S15では予め容易されたパターンDB(図示せず)を参照して処理を行う。このパターンDBについては、入力情報を学習することにより自動的に内容が更新される。
【0062】なお、図5では処理を簡略化して表してある。実際には、感情の変化量,感情のパターン及び発言の内容の全てを総合的に判断する。すなわち、感情の変化量が大きい情報と、感情のパターンが一致した情報と、発言内容が同一もしくは近似する情報とが存在する場合には、総合的に優先順位を判断する。具体的には、発言内容が同一もしくは近似する情報の優先順位が最も大きく、感情のパターンが一致した情報の優先順位が2番目に高く、感情の変化量が大きい情報の優先順位は低い。従って、発言内容が同一もしくは近似する情報は忘却処理で削除されにくく、古くなっても記憶として残る。
【0063】上記のような忘却処理部42の処理によって、感情感性記憶DB41上の古くなったデータについては、感情の変化が大きいもの、「印象が強い」とみなされるパターンであるもの、幾度も入力を繰り返されたもの、及び発言の内容が印象に残りやすいもののみがその強度と内容に合わせて順位をつけてそのまま保存される。その結果、感情感性記憶DB41上の古いデータについては、一部分のみが残った不完全なデータとなる。このようなデータは、人間の記憶における過去の曖昧な記憶と同じような内容になる。
【0064】感情感性記憶DB41に蓄積された過去の感情の状態及び発言内容を読み出してデータを分析することにより、例えばこの感情検出装置が正しく動作しているか否かを判断したり、感情の推定に利用される各部のデータベースの内容を改良するように更新することも可能になる。感情感性記憶DB41に蓄積されたデータについては、その内容に応じて更に振り分けられ、人間性情報DB44,個人情報DB45又は専門情報DB46に記憶される。
【0065】人間性情報DB44には、性別,年齢,攻撃性,協調性,現在の感情などのように被験者の性格を決定付ける情報や行動の決定パターンの情報が保持される。また、個人情報DB45には、個人の住所,現在の状況,環境,発言内容(5W3H)などの情報が保持される。専門情報DB46には、職業,経歴,職業適性格,職業的行動決定パターンなどの情報が保持される。
【0066】人間性情報DB44,個人情報DB45及び専門情報DB46から出力されるのは、個人のモラルパターン情報である。このモラルパターン情報と過去の相手の感情とに基づいて相手の感性を察知することができる。なお、図1に示す感情検出装置の機能をコンピュータのソフトウェアにより実現する場合には、コンピュータが実行するプログラム及び必要なデータを、例えばCD−ROMなどの記録媒体に記録しておけばよい。
【0067】なお、図1に示すマイク11を電話機の受話器に置き換えてもよいし、文字などの情報を入力する手段としてマウスを設けてもよい。また、図1に示すテレビカメラ31については、光学式カメラ,ディジタルカメラ,CCDカメラのような様々な撮像手段のいずれでも置き換えることができる。
【0068】
【発明の効果】本発明の感情検出方法及び感情検出装置ならびに記録媒体によれば、より正確に被験者の感情を検出することができる。
【出願人】 【識別番号】500430877
【氏名又は名称】株式会社エイ・ジー・アイ
【出願日】 平成12年9月13日(2000.9.13)
【代理人】 【識別番号】100072718
【弁理士】
【氏名又は名称】古谷 史旺
【公開番号】 特開2002−91482(P2002−91482A)
【公開日】 平成14年3月27日(2002.3.27)
【出願番号】 特願2000−278397(P2000−278397)