| 【発明の名称】 |
ボディランゲージロボット、ボディランゲージロボットの制御方法及び制御プログラム |
| 【発明者】 |
【氏名】森川 仁志
|
| 【要約】 |
【課題】ジェスチャーを交えながらユーザと会話することができるようにする。
【解決手段】会話集データベース1から音声認識処理部6により解析された言葉に応答する台詞を表現する音声データを検索する音声データ検索部7と、ジェスチャーデータベース3から台詞に対応するジェスチャーを実現する制御データを検索する制御データ検索部8とを設け、音声再生部9が音声データ検索部7により検索された音声データにしたがって音声を出力し、体制御部10が制御データ検索部8により検索された制御データにしたがって体を動かすようにする。 |
【特許請求の範囲】
【請求項1】 ユーザの言葉に応答する台詞を表現する台詞データを記憶している台詞データ記憶手段と、ユーザの言葉に応答する台詞に対応するジェスチャーを実現する制御データを記憶している制御データ記憶手段と、ユーザが発している音声を入力する音声入力手段と、上記音声入力手段により入力された音声に対する音声認識処理を実施して、その音声内容であるユーザの言葉を解析する言葉解析手段と、上記台詞データ記憶手段から上記言葉解析手段により解析された言葉に応答する台詞を表現する台詞データを検索するとともに、上記制御データ記憶手段から上記台詞に対応するジェスチャーを実現する制御データを検索する検索手段と、上記検索手段により検索された台詞データにしたがって台詞を出力する台詞出力手段と、上記検索手段により検索された制御データにしたがって体を動かす体制御手段とを備えたボディランゲージロボット。 【請求項2】 言葉解析手段により解析された言葉の発話速度を検出する発話速度検出手段を設け、台詞出力手段が上記発話速度検出手段により検出された発話速度に応じた速度で台詞を出力し、体制御手段が上記発話速度検出手段により検出された発話速度に応じた速度で体を動かすことを特徴とする請求項1記載のボディランゲージロボット。 【請求項3】 ユーザの挙動を検出する挙動検出手段を設け、体制御手段が上記挙動検出手段により検出された挙動に応じて体の動きを調整することを特徴とする請求項1または請求項2記載のボディランゲージロボット。 【請求項4】 言葉解析手段により解析された言葉が台詞出力手段から出力された台詞を聞き取ることができない旨を示している場合、上記台詞出力手段が上記台詞を再出力するとともに、体制御手段が体を再度動かすことを特徴とする請求項1から請求項3のうちのいずれか1項記載のボディランゲージロボット。 【請求項5】 台詞出力手段が前回より大きな音で台詞を再出力するとともに、体制御手段が前回より大きく体を動かすことを特徴とする請求項4記載のボディランゲージロボット。 【請求項6】 台詞出力手段は、台詞を再出力する際、前回より台詞の出力速度を下げることを特徴とする請求項4記載のボディランゲージロボット。 【請求項7】 体制御手段は、体を再度動かす際、前回より体の動作速度を下げることを特徴とする請求項4記載のボディランゲージロボット。 【請求項8】 音声入力手段に対する音声の入力方向を検出する入力方向検出手段を設け、体制御手段が上記入力方向検出手段により検出された音声の入力方向に体を向けてから体を動かすことを特徴とする請求項1から請求項7のうちのいずれか1項記載のボディランゲージロボット。 【請求項9】 音声入力手段がユーザが発している音声を入力する音声入力ステップと、言葉解析手段が上記音声入力手段により入力された音声に対する音声認識処理を実施して、その音声内容であるユーザの言葉を解析する言葉解析ステップと、検索手段がユーザの言葉に応答する台詞を表現する台詞データを記憶している台詞データ記憶手段から上記言葉解析手段により解析された言葉に応答する台詞を表現する台詞データを検索するとともに、ユーザの言葉に応答する台詞に対応するジェスチャーを実現する制御データを記憶している制御データ記憶手段から上記台詞に対応するジェスチャーを実現する制御データを検索する検索ステップと、台詞出力手段が上記検索手段により検索された台詞データにしたがって台詞を出力する台詞出力ステップと、体制御手段が上記検索手段により検索された制御データにしたがって体を動かす制御ステップとを備えたボディランゲージロボットの制御方法。 【請求項10】 ユーザが発している音声を入力する音声入力処理手順と、上記音声入力処理手順により入力された音声に対する音声認識処理を実施して、その音声内容であるユーザの言葉を解析する言葉解析処理手順と、ユーザの言葉に応答する台詞を表現する台詞データを記憶している台詞データ記憶手段から上記言葉解析処理手順により解析された言葉に応答する台詞を表現する台詞データを検索するとともに、ユーザの言葉に応答する台詞に対応するジェスチャーを実現する制御データを記憶している制御データ記憶手段から上記台詞に対応するジェスチャーを実現する制御データを検索する検索処理手順と、上記検索処理手順により検索された台詞データにしたがって台詞を出力する台詞出力処理手順と、上記検索処理手順により検索された制御データにしたがって体を動かす体制御処理手順とをコンピュータに実行させるためのボディランゲージロボットの制御プログラム。
|
【発明の詳細な説明】【技術分野】 【0001】 この発明は、ジェスチャーを交えながらユーザと会話するボディランゲージロボットと、そのボディランゲージロボットの制御方法及び制御プログラムとに関するものである。 【背景技術】 【0002】 現在、ジェスチャーを交えながらユーザと会話するボディランゲージロボットは開発されていないが、ユーザと会話する会話ロボットは、例えば、以下の特許文献1に開示されている。 以下の特許文献1に開示されている会話ロボットは、親近感のある会話を実現するために、ユーザが話しかけてくると、ユーザの顔を認識し、体をユーザの顔の正面に向けてから、ユーザと会話するようにしている。 【0003】 【特許文献1】特開2004−34274号公報(段落番号[0018]から[0021]、図1) 【発明の開示】 【発明が解決しようとする課題】 【0004】 従来の会話ロボットは以上のように構成されているので、体をユーザの顔の正面に向けてからユーザと会話することができる。しかし、ユーザと会話する際、ロボットの台詞に対応するジェスチャーを交えることができないため、ユーザにロボットの台詞を感覚的に伝えることができず、ロボットが音声を出力するだけでは、ユーザと会話が成立しないことがあるなどの課題があった。 【0005】 この発明は上記のような課題を解決するためになされたもので、ジェスチャーを交えながらユーザと会話することができるボディランゲージロボット、ボディランゲージロボットの制御方法及び制御プログラムを得ることを目的とする。 【課題を解決するための手段】 【0006】 請求項1記載の発明に係るボディランゲージロボットは、ユーザの言葉に応答する台詞を表現する台詞データを記憶している台詞データ記憶手段と、ユーザの言葉に応答する台詞に対応するジェスチャーを実現する制御データを記憶している制御データ記憶手段と、ユーザが発している音声を入力する音声入力手段と、音声入力手段により入力された音声に対する音声認識処理を実施して、その音声内容であるユーザの言葉を解析する言葉解析手段と、台詞データ記憶手段から言葉解析手段により解析された言葉に応答する台詞を表現する台詞データを検索するとともに、制御データ記憶手段から上記台詞に対応するジェスチャーを実現する制御データを検索する検索手段と、検索手段により検索された台詞データにしたがって台詞を出力する台詞出力手段と、検索手段により検索された制御データにしたがって体を動かす体制御手段とを備えるようにしたものである。 【0007】 請求項1記載の発明によれば、ジェスチャーを交えながらユーザと会話することができる効果が得られる。 【0008】 請求項2記載の発明に係るボディランゲージロボットは、言葉解析手段により解析された言葉の発話速度を検出する発話速度検出手段を設け、台詞出力手段が発話速度検出手段により検出された発話速度に応じた速度で台詞を出力し、体制御手段が発話速度検出手段により検出された発話速度に応じた速度で体を動かすようにしたものである。 【0009】 請求項2記載の発明によれば、ユーザの発話に応じた速度でロボットが応答することができるようになり、その結果、例えば、ボディランゲージロボットが英会話のレッスンに使用されるような場合には、英会話の習熟度に応じた対応ができる効果が得られる。 【0010】 請求項3記載の発明に係るボディランゲージロボットは、ユーザの挙動を検出する挙動検出手段を設け、体制御手段が挙動検出手段により検出された挙動に応じて体の動きを調整するようにしたものである。 【0011】 請求項3記載の発明によれば、ロボットの挙動をユーザの挙動に近づけることができるようになり、その結果、ユーザとロボットの親近感を高めて、英会話などの学習効果を高めることができる効果が得られる。 【0012】 請求項4記載の発明に係るボディランゲージロボットは、言葉解析手段により解析された言葉が台詞出力手段から出力された台詞を聞き取ることができない旨を示している場合、台詞出力手段が上記台詞を再出力するとともに、体制御手段が体を再度動かすようにしたものである。 【0013】 請求項4記載の発明によれば、ユーザがロボットの応答を確実に確認することができる効果が得られる。 【0014】 請求項5記載の発明に係るボディランゲージロボットは、台詞出力手段が前回より大きな音で台詞を再出力するとともに、体制御手段が前回より大きく体を動かすようにしたものである。 【0015】 請求項5記載の発明によれば、さらに、ユーザがロボットの応答を確実に確認することができる効果が得られる。 【0016】 請求項6記載の発明に係るボディランゲージロボットは、台詞出力手段が台詞を再出力する際、前回より台詞の出力速度を下げるようにしたものである。 【0017】 請求項6記載の発明によれば、さらに、ユーザがロボットの応答を確実に確認することができる効果が得られる。 【0018】 請求項7記載の発明に係るボディランゲージロボットは、体制御手段が体を再度動かす際、前回より体の動作速度を下げるように動作させるものである。 【0019】 請求項7記載の発明によれば、さらに、ユーザがロボットの応答を確実に確認することができる効果が得られる。 【0020】 請求項8記載の発明に係るボディランゲージロボットは、音声入力手段に対する音声の入力方向を検出する入力方向検出手段を設け、体制御手段が入力方向検出手段により検出された音声の入力方向に体を向けてから体を動かすようにしたものである。 【0021】 請求項8記載の発明によれば、ロボットに対する親近感を高めることができる効果が得られる。 【0022】 請求項9記載の発明に係るボディランゲージロボットの制御方法は、音声入力手段がユーザが発している音声を入力する音声入力ステップと、言葉解析手段が音声入力手段により入力された音声に対する音声認識処理を実施して、その音声内容であるユーザの言葉を解析する言葉解析ステップと、検索手段がユーザの言葉に応答する台詞を表現する台詞データを記憶している台詞データ記憶手段から言葉解析手段により解析された言葉に応答する台詞を表現する台詞データを検索するとともに、検索手段がユーザの言葉に応答する台詞に対応するジェスチャーを実現する制御データを記憶している制御データ記憶手段から上記台詞に対応するジェスチャーを実現する制御データを検索する検索ステップと、台詞出力手段が検索手段により検索された台詞データにしたがって台詞を出力する台詞出力ステップと、体制御手段が検索手段により検索された制御データにしたがって体を動かす制御ステップとを備えるようにしたものである。 【0023】 請求項9記載の発明によれば、ジェスチャーを交えながらユーザと会話することができる効果が得られる。 【0024】 請求項10記載の発明に係るボディランゲージロボットの制御プログラムは、ユーザが発している音声を入力する音声入力処理手順と、音声入力処理手順により入力された音声に対する音声認識処理を実施して、その音声内容であるユーザの言葉を解析する言葉解析処理手順と、ユーザの言葉に応答する台詞を表現する台詞データを記憶している台詞データ記憶手段から言葉解析処理手順により解析された言葉に応答する台詞を表現する台詞データを検索するとともに、ユーザの言葉に応答する台詞に対応するジェスチャーを実現する制御データを記憶している制御データ記憶手段から上記台詞に対応するジェスチャーを実現する制御データを検索する検索処理手順と、検索処理手順により検索された台詞データにしたがって台詞を出力する台詞出力処理手順と、検索処理手順により検索された制御データにしたがって体を動かす体制御処理手順とを備えるようにしたものである。 【0025】 請求項10記載の発明によれば、ジェスチャーを交えながらユーザと会話することができる効果が得られる。 【発明の効果】 【0026】 この発明によれば、ユーザの言葉に応答する台詞を表現する台詞データを記憶している台詞データ記憶手段と、ユーザの言葉に応答する台詞に対応するジェスチャーを実現する制御データを記憶している制御データ記憶手段と、台詞データ記憶手段から言葉解析手段により解析された言葉に応答する台詞を表現する台詞データを検索するとともに、制御データ記憶手段から台詞に対応するジェスチャーを実現する制御データを検索する検索手段とを設け、台詞出力手段が検索手段により検索された台詞データにしたがって台詞を出力し、体制御手段が検索手段により検索された制御データにしたがって体を動かすように構成したので、ジェスチャーを交えながらユーザと会話することができる効果がある。 【発明を実施するための最良の形態】 【0027】 実施の形態1. 図1はこの発明の実施の形態1によるボディランゲージロボットの内部を示す構成図であり、図1において、会話集データベース1はユーザの言葉に応答する台詞を表現する音声データ(台詞データ)を記憶しているメモリである。なお、会話集データベース1は台詞データ記憶手段を構成している。 対応関係データベース2はユーザの言葉に応答する台詞に対応するジェスチャー番号を記憶しているメモリである。 ジェスチャーデータベース3はジェスチャー番号に対応するジェスチャーを実現する制御データを記憶しているメモリである。 なお、対応関係データベース2及びジェスチャーデータベース3から制御データ記憶手段が構成されている。 図1では、会話集データベース1、対応関係データベース2及びジェスチャーデータベース3がボディランゲージロボットの内部に実装されているものを示しているが、会話集データベース1、対応関係データベース2及びジェスチャーデータベース3がボディランゲージロボットの外部に設置されていてもよい。 【0028】 マイク4はユーザが発している音声を入力して、その音声を音声入力部5に出力する。 音声入力部5はマイク4から出力された音声を示す音声信号を音声認識処理部6に出力する。 なお、マイク4及び音声入力部5から音声入力手段が構成されている。 【0029】 音声認識処理部6は音声入力部5から出力された音声信号に対する音声認識処理を実施して、その音声内容であるユーザの言葉を解析する。なお、音声認識処理部6は言葉解析手段を構成している。 音声データ検索部7は会話集データベース1に記憶されている音声データの中から、音声認識処理部6により解析された言葉に応答する台詞を表現する音声データを検索する処理を実施する。 制御データ検索部8は対応関係データベース2に記憶されているジェスチャー番号の中から、音声データ検索部7により検索された音声データが表現する台詞に対応するジェスチャー番号を検索したのち、ジェスチャーデータベース3に記憶されている制御データの中から、そのジェスチャー番号に対応するジェスチャーを実現する制御データを検索する処理を実施する。 なお、音声データ検索部7及び制御データ検索部8から検索手段が構成されている。 【0030】 音声再生部9はスピーカやアンプなどから構成されており、タイミング発生部11から出力されるタイミング信号に同期して、音声データ検索部7により検索された音声データを再生して、音声(台詞)を出力する処理を実施する。なお、音声再生部9は台詞出力手段を構成している。 体制御部10はタイミング発生部11から出力されるタイミング信号に同期して、制御データ検索部8により検索された制御データにしたがって例えばロボットの肩、肘、指、首などに搭載されているアクチュエータを制御することにより、例えばロボットの上肢、指や首などを動かす処理を実施する。なお、体制御部10は体制御手段を構成している。 タイミング発生部11は音声再生部9と体制御部10の同期を確立するために、タイミング信号(例えば、所定周波数のパルス信号や、開始トリガ信号など)を音声再生部9及び体制御部10に出力する。 【0031】 図1の例では、ボディランゲージロボットの構成要素である音声入力部5、音声認識処理部6、音声データ検索部7、制御データ検索部8、音声再生部9、体制御部10及びタイミング発生部11がそれぞれ専用のハードウェア(例えば、CPUなどのICを実装している半導体集積回路基板)で構成されていることを想定しているが、予め、音声入力部5、音声認識処理部6、音声データ検索部7、制御データ検索部8、音声再生部9、体制御部10及びタイミング発生部11の処理内容(音声入力処理手順、言葉解析処理手順、検索処理手順、台詞出力処理手順、体制御処理手順)を記述している制御プログラムをメモリに格納し、音声入力部5、音声認識処理部6、音声データ検索部7、制御データ検索部8、音声再生部9、体制御部10及びタイミング発生部11の代わりに、コンピュータのCPUが当該メモリに格納されている制御プログラムを実行するようにしてもよい。 【0032】 図2はこの発明の実施の形態1によるボディランゲージロボットを示す正面図であり、図3はこの発明の実施の形態1によるボディランゲージロボットを示す側面図である。 図2及び図3では、上肢、指や首を動かしてジェスチャーを行うボディランゲージロボットの例を示している。 図2,3において、ボディランゲージロボットの首22には、頭21を左右に回転させるアクチュエータや頭21を傾げさせるアクチュエータなどが搭載されている。 ボディランゲージロボットの上腕部23a,23bは一端が可動自在に肩関節部25a,25bに取り付けられており、下腕部24a,24bは一端が可動自在に肘関節部26a,26bに取り付けられている。 また、ボディランゲージロボットの指27a,27bは一端が可動自在に手首関節部28a,28bに取り付けられている。 【0033】 肩関節部25a,25bは体制御部10の指示の下、例えば、上腕部23a,23bを矢印A方向に回転させるアクチュエータや、上腕部23a,23bを矢印B方向にスイングさせるアクチュエータなどからなる機械要素である。 肘関節部26a,26bは体制御部10の指示の下、例えば、下腕部24a,24bを矢印C方向に回転させるアクチュエータなどからなる機械要素である。 手首関節部28a,28bは体制御部10の指示の下、例えば、指27a,27bを上げたり下げたりさせるアクチュエータなどからなる機械要素である。 なお、ボディランゲージロボットの胸部30にはマイク4が埋め込まれ、ボディランゲージロボットの口29には音声出力部9のスピーカが埋め込まれている。 ローラ31はロボットの向きや位置を変える脚部である。 【0034】 図4はこの発明の実施の形態1によるボディランゲージロボットの会話集データベース1に記憶されている台詞例を示す説明図である。 図5はこの発明の実施の形態1によるボディランゲージロボットの対応関係データベース2に記憶されている台詞とジェスチャー番号の対応関係例を示す説明図である。 図6はこの発明の実施の形態1によるボディランゲージロボットのジェスチャーデータベース3に記憶されているジェスチャー番号に対応するジェスチャー例を示す説明図である。 図7はこの発明の実施の形態1によるボディランゲージロボットの制御方法を示すフローチャートである。 【0035】 次に動作について説明する。 ユーザがボディランゲージロボットに向かって発話すると(ステップST1)、ボディランゲージロボットのマイク4がユーザの音声を入力して、その音声を音声入力部5に出力する(ステップST2)。 音声入力部5は、マイク4から音声を受けると、その音声を示す音声信号を音声認識処理部6に出力する(ステップST3)。 【0036】 音声認識処理部6は、音声入力部5から音声信号を受けると、その音声信号に対する音声認識処理を実施して、その音声内容であるユーザの言葉を解析する(ステップST4)。 ここで、図8は音声認識処理部6の内部を示す構成図である。 以下、図8を参照して、音声認識処理部6の処理内容を具体的に説明する。 【0037】 音声認識処理部6の特徴抽出部41は、音声入力部5から音声信号を受けると、その音声信号に対して、例えば、LPC分析を実行することにより、その音声信号の対数パワー、16次ケプストラム係数、Δ対数パワー及びΔ16次ケプストラム係数を含む34次元の特徴パラメータを抽出する。 音声認識処理部6の音素照合部42は、特徴抽出部41が特徴パラメータを抽出すると、HMMメモリ43に格納されている隠れマルコフモデル(隠れマルコフモデルは、複数の状態と、各状態間の遷移を示す弧とから構成されており、各弧には状態間の遷移確率と入力コード(特徴パラメータ)に対する出力確率が格納されている)を用いて音素照合処理を実施することにより、その特徴パラメータから音素データを生成する。 【0038】 音声認識処理部6の音声認識部44は、音素照合部42が音素データを生成すると、言語モデル格納部45に格納されている統計的言語モデルを参照して、例えば、One Pass DPアルゴリズムを実行する。 即ち、音声認識部43は、その音素データについて左から右方向に、後戻りなしに処理して、より高い生起確率の単語を音声認識結果(ユーザの言葉)に決定する音声認識処理を実施する。 【0039】 ここでは、音声認識処理部6が図8のように構成されている例を示したが、これはあくまでも一例であり、他の音声認識処理方法を用いて、ユーザの言葉を解析するようにしてもよいことは言うまでもない。 【0040】 音声データ検索部7は、音声認識処理部6がユーザの言葉を解析すると、会話集データベース1に記憶されている音声データの中から、ユーザの言葉に応答する台詞(ロボットの台詞)を表現する音声データを検索する(ステップST5)。 例えば、音声認識処理部6により解析されたユーザの言葉が“I'm fine thank you”であれば、図4に示すように、“What's up?”または“What's new?”が、ユーザの言葉に応答する台詞に相当する。 この例のように、ユーザの言葉に応答する台詞が複数存在する場合、いずれかの台詞をランダムに選択するようにしてもよいし、例えば、天気や気温などの周りの状況に応じて台詞の選択方法を決定してもよい。 ユーザの言葉に応答する台詞が存在しない場合(ステップST6)、ユーザの発話待ちの状態に戻る。 なお、台詞を表現する音声データは、音声再生部9が読み取り可能なデータ形式であれば、如何なるデータ形式でもよい。 【0041】 制御データ検索部8は、音声データ検索部7がユーザの言葉に応答する台詞を表現する音声データを検索すると(ステップST6)、図5の対応関係データベース2に記憶されているジェスチャー番号の中から、その音声データが表現する台詞(ロボットの台詞)に対応するジェスチャー番号を検索する(ステップST7)。 例えば、ロボットの台詞が“What's up?”であれば、ジェスチャー番号“7”を検索し、ロボットの台詞が“What's new?”であれば、ジェスチャー番号“8”を検索する。 また、ロボットの台詞が、例えば、“I'm fine?”であれば、ジェスチャー番号“5”とジェスチャー番号“15”を検索するが、このようにロボットの台詞に対応するジェスチャー番号が複数存在する場合、いずれかのジェスチャー番号をランダムに選択するようにしてもよいし、例えば、天気や気温などの周りの状況に応じてジェスチャー番号の選択方法を決定してもよい。 なお、制御データ検索部8は、音声データ検索部7によりロボットの台詞が無い音声データとして、例えば、“無音情報5”が検索されたような場合でも、その無音情報5に対応するジェスチャー番号“34”を検索する。 【0042】 また、制御データ検索部8は、ロボットの台詞に対応するジェスチャー番号を検索すると、図6のジェスチャーデータベース3に記憶されている制御データの中から、そのジェスチャー番号に対応するジェスチャーを実現する制御データを検索する(ステップST8)。 例えば、ロボットの台詞に対応するジェスチャー番号が“7”であれば、ジェスチャー「手のひらを上にして相手に手を向ける」を実現する制御データを検索する。 【0043】 なお、ジェスチャーを実現する制御データは、例えば、下記に示すように、実現するジェスチャーに応じて首22、肩関節部25a,25b、肘関節部26a,26b、手首関節部28a,28bなどのアクチュエータの回転角度を指示する指令値である。 (θ1,α1,α2,β1,β2,γ1,γ2) =(35°,82°,95°,45°,48°,68°,70°) ただし、θ1は首22の回転角度 α1,α2は肩関節部25a,25bの回転角度 β1,β2は肘関節部26a,26bの回転角度 γ1,γ2は手首関節部28a,28bの回転角度 【0044】 音声再生部9は、音声データ検索部7がユーザの言葉に応答する台詞を表現する音声データを検索すると、タイミング発生部11から出力されるタイミング信号に同期して、その音声データを再生することにより、スピーカからユーザに向けて音声(台詞)を出力する(ステップST9)。 体制御部10は、制御データ検索部8が制御データを検索し、音声再生部9が音声データの再生を開始すると、その音声再生部9における音声データの再生に合わせながら、ロボットの上肢、指や首などを動かすため、タイミング発生部11から出力されるタイミング信号に同期して、その制御データにしたがって首22、肩関節部25a,25b、肘関節部26a,26b、手首関節部28a,28bに搭載されているアクチュエータを制御することにより、ロボットの上肢、指や首などを動かす処理を実施する(ステップST10)。 ユーザとロボットの会話は、例えば、図示せぬスイッチでロボットの電源をオフしない限り、継続的に行われる(ステップST11)。 【0045】 以上で明らかなように、この実施の形態1によれば、ユーザの言葉に応答する台詞を表現する音声データを記憶している会話集データベース1と、ユーザの言葉に応答する台詞に対応するジェスチャーを実現する制御データを記憶しているジェスチャーデータベース3と、会話集データベース1から音声認識処理部6により解析された言葉に応答する台詞を表現する音声データを検索する音声データ検索部7と、ジェスチャーデータベース3から台詞に対応するジェスチャーを実現する制御データを検索する制御データ検索部8とを設け、音声再生部9が音声データ検索部7により検索された音声データにしたがって音声を出力し、体制御部10が制御データ検索部8により検索された制御データにしたがって体を動かすように構成したので、ジェスチャーを交えながらユーザと会話することができるようになり、その結果、ロボットが音声を出力するだけでは、伝えきれないニュアンスをユーザに伝えることができる。そのため、例えば、ボディランゲージロボットが英会話のレッスンに使用されるような場合には、英会話の習熟度を高めることができる効果を奏する。 【0046】 実施の形態2. 図9はこの発明の実施の形態2によるボディランゲージロボットの内部を示す構成図であり、図において、図1と同一符号は同一または相当部分を示すので説明を省略する。 発話速度検出部12は音声認識処理部6により解析された言葉の発話速度を検出する処理を実施する。なお、発話速度検出部12は発話速度検出手段を構成している。 【0047】 上記実施の形態1では、音声再生部9における音声データの再生速度と、体制御部10におけるアクチュエータの制御速度が予め調整されており、ユーザの言葉の発話速度にかかわらず、常に一定の速度で、音声データの再生やアクチュエータの制御が行われるものについて示したが、ユーザの言葉の発話速度に応じて音声データの再生速度やアクチュエータの制御速度を調整するようにしてもよい。 具体的には、以下の通りである。 【0048】 発話速度検出部12は、音声認識処理部6における音声認識処理を監視して、ユーザの言葉の発話速度Vを検出する。 即ち、発話速度検出部12は、音声認識処理部6における音声認識処理を監視して、ユーザの言葉の発話時間を計測する。 例えば、音声認識処理部6により解析されたユーザの言葉が“I'm fine thank you”であれば、“I'm fine thank you”の発話時間を計測する。ここでは、説明の便宜上、1.2秒であるとする。 【0049】 発話速度検出部12は、ユーザの言葉の発話時間を計測すると、下記に示すように、“I'm fine thank you”という言葉の基本発話時間(例えば、1.1秒に設定されているものとする)に対するユーザの発話時間の遅れ具合Rを計算する。 R=((基本発話時間−ユーザの発話時間)/基本発話時間)×100% =((1.2−1.1)/1.2)×100% =8.3% 発話速度検出部12は、言葉の基本発話時間に対するユーザの発話時間の遅れ具合Rを計算すると、下記に示すように、その言葉の基本発話速度Vrefに遅れ具合Rを乗算し、その乗算結果をユーザの言葉の発話速度Vとして、音声再生部9及び体制御部10に出力する。 V=Vref×R 【0050】 音声再生部9は、発話速度検出部12からユーザの言葉の発話速度Vを受けると、例えば、その発話速度Vに比例する再生速度で音声データを再生する。 体制御部10は、発話速度検出部12からユーザの言葉の発話速度Vを受けると、例えば、その発話速度Vに比例する制御速度でアクチュエータを制御する。 【0051】 ここでは、音声再生部9が発話速度検出部12により検出された発話速度Vに比例する再生速度で音声データを再生し、体制御部10が発話速度検出部12により検出された発話速度Vに比例する制御速度でアクチュエータを制御するものについて示したが、タイミング発生部11が発話速度検出部12により検出された発話速度Vに応じてタイミング信号のパルス発生周期を変更することにより、音声再生部9における音声データの再生速度及び体制御部10におけるアクチュエータの制御速度を変更するようにしてもよい。 例えば、タイミング発生部11から出力されるタイミング信号のパルス発生周期が長くなれば、音声再生部9における音声データの再生速度及び体制御部10におけるアクチュエータの制御速度が遅くなる。一方、タイミング発生部11から出力されるタイミング信号のパルス発生周期が短くなれば、音声再生部9における音声データの再生速度及び体制御部10におけるアクチュエータの制御速度が速くなる。 【0052】 以上で明らかなように、この実施の形態2によれば、音声認識処理部6により解析された言葉の発話速度を検出する発話速度検出部12設け、音声再生部9が発話速度検出部12により検出された発話速度Vに応じた速度で音声を再生し、体制御部10が発話速度検出部12により検出された発話速度Vに応じた速度でロボットの体を動かすように構成したので、ユーザの発話に応じた速度でロボットが応答することができるようになり、その結果、例えば、ボディランゲージロボットが英会話のレッスンに使用されるような場合には、英会話の習熟度に応じた対応ができる効果を奏する。 【0053】 実施の形態3. 図10はこの発明の実施の形態3によるボディランゲージロボットの内部を示す構成図であり、図において、図9と同一符号は同一または相当部分を示すので説明を省略する。 挙動検出部13は例えばユーザを撮影するカメラを実装しており、ユーザが発話しているとき(音声認識処理部6によりユーザの言葉が解析されているとき)、そのカメラの映像を解析してユーザの挙動を検出する処理を実施する。なお、挙動検出部13は挙動検出手段を構成している。 【0054】 上記実施の形態2では、体制御部10が発話速度検出部12により検出された発話速度Vに応じた速度でロボットの体を動かすものについて示したが、ユーザの挙動に応じてロボットのジェスチャーを調整するようにしてもよい。 具体的には、以下の通りである。 【0055】 挙動検出部13は、ユーザが発話しているとき(音声認識処理部6によりユーザの言葉が解析されているとき)、例えば、内蔵しているカメラがユーザを撮影すると、今回撮影されたカメラの映像と、前回撮影されたカメラの映像とを比較して、映像中のユーザの動きを検出する。 即ち、挙動検出部13は、双方の映像からユーザの映像部分を切り出し、例えば、2つのユーザの映像の重なり面積S1と、重なっていない面積S2とを算出する。 挙動検出部13は、映像の重なり面積S1と、重なっていない面積S2とを算出すると、下記に示すように、重なっていない面積S2の割合Cを計算する。 C=S2/(S1+S2) 挙動検出部13は、重なっていない面積S2の割合Cを計算すると、重なっていない面積S2の割合Cが大きいほど、ユーザの動きが大きいと判断し、その割合Cに比例する動き情報M(ユーザの動きの大きさを示す情報)を体制御部10に出力する。 【0056】 体制御部10は、上記実施の形態1,2と同様に、制御データ検索部8により検索された制御データにしたがってアクチュエータを制御するが、挙動検出部13から出力された動き情報Mが大きい程、ロボットの動きが大きくなるようにアクチュエータを制御する。 例えば、右手を上に10cm上げるようなジェスチャーを実現する制御データを受けているとき、動き情報Mが例えば“1.5”であれば、15cm(=10cm×1.5)上げるようなジェスチャーを実現する。 【0057】 以上で明らかなように、この実施の形態3によれば、ユーザの挙動を検出する挙動検出部13を設け、体制御部10が挙動検出部13により検出された挙動に応じて体の動きを調整するように構成したので、ロボットの挙動をユーザの挙動に近づけることができるようになり、その結果、ユーザとロボットの親近感を高めて、英会話などの学習効果を高めることができる効果を奏する。 【0058】 実施の形態4. 上記実施の形態1〜3では、音声再生部9が音声データ検索部7により検索された音声データにしたがって音声を出力するものについて示したが、音声再生部9が音声を出力したのち、再度、ユーザが発話して、音声認識処理部6により解析されたユーザの言葉が、音声再生部9から出力された音声を聞き取ることができない旨を示している場合、音声再生部9が上記音声を再出力し、体制御部10が前回と同一の動きを再現するようにしてもよい。 図11はこの発明の実施の形態4によるボディランゲージロボットの内部を示す構成図である。 【0059】 具体的には、以下の通りである。 音声再生部9が音声を出力したのち、ユーザがボディランゲージロボットに向かって発話すると、上記実施の形態1と同様に、ボディランゲージロボットのマイク4がユーザの音声を入力して、その音声を音声入力部5に出力する。 音声入力部5は、マイク4から音声を受けると、上記実施の形態1と同様に、その音声を示す音声信号を音声認識処理部6に出力する。 【0060】 音声認識処理部6は、音声入力部5から音声信号を受けると、上記実施の形態1と同様に、その音声信号に対する音声認識処理を実施して、その音声内容であるユーザの言葉を解析する。 音声認識処理部6は、ユーザの言葉が、例えば“音声を聞き取ることができない”(予め、設定されているNGの場合の言葉)旨を示している場合、図11に示すように、再出力指令を音声再生部9及び体制御部10に出力する。 【0061】 音声再生部9は、音声認識処理部6から再出力指令を受けると、前回出力した音声と同じ音声を再度出力する。なお、音声再生部9は、前回と同じ音声を再度出力する際、音声の聞き取りを容易にするため、前回より大きな音声で出力する。あるいは、前回より音声の出力速度を下げるようにする。 体制御部10は、音声認識処理部6から再出力指令を受けると、前回と同一の動きを再現する。なお、体制御部10は、前回と同一の動きを再現する際、前回より大きく体を動動作させるようにする。また、この際、前回より体の動作速度を下げるよう動作させ、ユーザがロボットの応答を確実に確認できるようにしてもよい。 【0062】 以上で明らかなように、この実施の形態4によれば、音声認識処理部6により解析された言葉が音声再生部9から出力された音声を聞き取ることができない旨を示している場合、音声再生部9が上記音声を再出力するとともに、体制御部10が体を再度動かすように構成したので、ユーザがロボットの応答を確実に確認することができる効果を奏する。 【0063】 実施の形態5. 図12はこの発明の実施の形態5によるボディランゲージロボットの内部を示す構成図であり、図13はこの発明の実施の形態5によるボディランゲージロボットの音声入力部14を示す構成図である。 図において、図11と同一符号は同一または相当部分を示すので説明を省略する。 音声入力部14は例えば相互に指向方向が異なる複数の指向性マイク14aと入力方向検出部14bから構成されており、複数の指向性マイク14aが音声を入力すると、入力方向検出部14bが複数の指向性マイク14aのうち、最も高い音圧を検出した指向性マイク14aの音声信号を音声認識処理部6に出力するとともに、その指向性マイク14aの指向方向を音声の入力方向として体制御部10に出力する処理を実施する。 なお、音声入力部14は音声入力手段及び入力方向検出手段を構成している。 【0064】 上記実施の形態1〜4では、体制御部10が制御データ検索部8により検索された制御データにしたがって体を動かすものについて示したが、音声入力部14の入力方向検出部14bが音声の入力方向を検出し、体制御部10が音声の入力方向にロボットの体を向けてから、制御データにしたがって体を動かすようにしてもよい。 具体的には、以下の通りである。 【0065】 音声入力部14には、図13に示すように、相互に指向方向が異なる複数の指向性マイク14aが実装されている。 音声入力部14における複数の指向性マイク14aは、ユーザがボディランゲージロボットに向かって発話すると、ユーザの音声を入力して、その音声信号を入力方向検出部14bに出力する。 ただし、複数の指向性マイク14aは相互に指向方向が異なるので、ユーザに正対する位置にある指向性マイク14aが最も高い音圧を検出する。 図13の例では、最も下に図示している指向性マイク14aが最も高い音圧を検出する。 【0066】 音声入力部14の入力方向検出部14bは、複数の指向性マイク14aから音声信号を受けると、それらの音声信号の音圧を相互に比較し、最も高い音圧を検出している指向性マイク14aを特定する。 入力方向検出部14bは、最も高い音圧を検出している指向性マイク14aを特定すると、その指向性マイク14aから出力された音声信号を音声認識処理部6に出力する。 また、入力方向検出部14bは、最も高い音圧を検出している指向性マイク14aの指向方向を音声の入力方向として体制御部10に出力する。 【0067】 体制御部10は、制御データ検索部8が制御データを検索すると、上記実施の形態1〜4と同様に、その制御データにしたがって体を動かすが、この実施の形態5では、音声入力部14の入力方向検出部14bから出力された音声の入力方向にロボットが正対するように、ロボットのローラ31を制御してから、その制御データにしたがってアクチュエータを制御して体を動かすようにする。 【0068】 以上で明らかなように、この実施の形態5によれば、音声の入力方向を検出する音声入力部14を設け、体制御部10が音声入力部14により検出された音声の入力方向に体を向けてから体を動かすように構成したので、ロボットに対する親近感を高めることができる効果を奏する。 【0069】 実施の形態6. 上記実施の形態1〜5では、ジェスチャーデータベース3がユーザの言葉に応答する台詞を表現する音声データ(ジェスチャー番号)に対応するジェスチャーを実現する制御データを記憶しているものについて示したが、ジェスチャーデータベース3がユーザの言葉に応答する台詞を表現する手話を実現する制御データを記憶するようにしてもよい。 この場合、体制御部10は、ロボットの手を動かして、音声再生部9が再生している音声と同じ意味を表現する手話(ジェスチャー)を行うことになる。 これにより、ユーザの耳に障害がある場合や、ユーザが手話を勉強する場合でも、ロボットを利用することができる効果を奏する。 【図面の簡単な説明】 【0070】 【図1】この発明の実施の形態1によるボディランゲージロボットの内部を示す構成図である。 【図2】この発明の実施の形態1によるボディランゲージロボットを示す正面図である。 【図3】この発明の実施の形態1によるボディランゲージロボットを示す側面図である。 【図4】この発明の実施の形態1によるボディランゲージロボットの会話集データベース1に記憶されている台詞例を示す説明図である。 【図5】この発明の実施の形態1によるボディランゲージロボットの対応関係データベース2に記憶されている台詞とジェスチャー番号の対応関係例を示す説明図である。 【図6】この発明の実施の形態1によるボディランゲージロボットのジェスチャーデータベース3に記憶されているジェスチャー番号に対応するジェスチャー例を示す説明図である。 【図7】この発明の実施の形態1によるボディランゲージロボットの制御方法を示すフローチャートである。 【図8】音声認識処理部6の内部を示す構成図である。 【図9】この発明の実施の形態2によるボディランゲージロボットの内部を示す構成図である。 【図10】この発明の実施の形態3によるボディランゲージロボットの内部を示す構成図である。 【図11】この発明の実施の形態4によるボディランゲージロボットの内部を示す構成図である。 【図12】この発明の実施の形態5によるボディランゲージロボットの内部を示す構成図である。 【図13】この発明の実施の形態5によるボディランゲージロボットの音声入力部14を示す構成図である。 【符号の説明】 【0071】 1 会話集データベース(台詞データ記憶手段) 2 対応関係データベース(制御データ記憶手段) 3 ジェスチャーデータベース(制御データ記憶手段) 4 マイク(音声入力手段) 5 音声入力部(音声入力手段) 6 音声認識処理部(言葉解析手段) 7 音声データ検索部(検索手段) 8 制御データ検索部(検索手段) 9 音声再生部(台詞出力手段) 10 体制御部(体制御手段) 11 タイミング発生部 12 発話速度検出部(発話速度検出手段) 13 挙動検出部(挙動検出手段) 14 音声入力部(音声入力手段、入力方向検出手段) 14a 指向性マイク 14b 入力方向検出部 21 頭 22 首 23a,23b 上腕部 24a,24b 下腕部 25a,25b 肩関節部 26a,26b 肘関節部 27a,27b 指 28a,28b 手首関節部 29 口 30 胸部 31 ローラ 41 特徴抽出部 42 音素照合部 43 HMMメモリ 44 音声認識部 45 言語モデル格納部
|
| 【出願人】 |
【識別番号】599108242 【氏名又は名称】Sky株式会社
|
| 【出願日】 |
平成19年1月10日(2007.1.10) |
| 【代理人】 |
【識別番号】100088605 【弁理士】 【氏名又は名称】加藤 公延
【識別番号】100123434 【弁理士】 【氏名又は名称】田澤 英昭
【識別番号】100101133 【弁理士】 【氏名又は名称】濱田 初音
|
| 【公開番号】 |
特開2008−168375(P2008−168375A) |
| 【公開日】 |
平成20年7月24日(2008.7.24) |
| 【出願番号】 |
特願2007−2736(P2007−2736) |
|