| 【発明の名称】 |
音声認識システム |
| 【発明者】 |
【氏名】宇佐美 彰規
|
| 【要約】 |
【課題】音声入力を受け付ける端末局等における音声認識に用いる語彙辞書に対する情報サイズ面での制約を低減できる音声認識システムを提供する。
【解決手段】この音声認識システムでは、音声認識に用いられる語彙辞書が複数の語彙辞書に分割された状態でサービスセンタ2に用意され、その分割された各語彙辞書が、通信回線を介して必要に応じてサービスセンタ2から実際に音声認識を行う車載システム1に必要に応じて送信されて、音声認識に用いられるようになっている。 |
【特許請求の範囲】
【請求項1】 基地局と、端末局とを備え、前記基地局は、前記端末局が行う音声認識に用いられる複数の語彙情報をそれぞれ備える複数の語彙辞書を格納するデータベース格納手段と、通信回線を介して前記端末局と接続可能であり、前記通信回線を介して前記端末局から送られてくる送信要求に応じて、前記語彙辞書を前記語彙辞書単位で前記データベース格納手段から読み出して前記通信回線を介して前記端末局に送信する情報処理手段と、を備え、前記端末局は、音声入力を受け付ける音声入力受付手段と、記憶内容の書き替えが可能な記憶手段と、前記通信回線を介して前記基地局と接続可能であり、前記通信回線を介して前記基地局に前記送信要求を送信するとともに、前記送信要求に応答して前記通信回線を介して前記基地局から送信されてきた前記語彙辞書を前記記憶手段に記憶させる一方、前記音声入力受付手段が受け付けた音声入力と前記記憶手段に記憶された前記語彙辞書に含まれる前記各語彙情報とを照合し、前記音声入力に対応する語彙情報を候補語彙情報として選出する音声認識手段と、を備えることを特徴とする音声認識システム。 【請求項2】 基地局と、端末局とを備え、前記基地局は、前記端末局が行う音声認識に用いられる複数の語彙情報をそれぞれ備える複数の語彙辞書を格納するデータベース格納手段と、通信回線を介して前記端末局と接続可能であり、前記通信回線を介して前記端末局から送られてくる送信要求に応じて、その送信要求に対応する前記語彙辞書を前記語彙辞書単位で前記データベース格納手段から読み出して前記通信回線を介して前記端末局に送信する情報処理手段と、を備え、前記端末局は、音声入力を受け付ける音声入力受付手段と、記憶内容の書き替えが可能な記憶手段と、前記通信回線を介して前記基地局と接続可能であり、前記通信回線を介して前記基地局から送信されてきた前記語彙辞書を前記記憶手段に記憶させる一方、前記音声入力受付手段が受け付けた音声入力と前記記憶手段に記憶された前記語彙辞書に含まれる前記各語彙情報とを照合し、前記音声入力に対応する語彙情報が前記記憶手段に記憶された前記語彙辞書内に存在する場合にはその対応する語彙情報を候補語彙情報として選出する一方、前記音声入力に対応する語彙情報が前記記憶手段に記憶された前記語彙辞書内に存在しない場合にはその音声入力に対応する語彙情報を含む可能性のある前記語彙辞書の送信を要求する前記要求信号を前記通信回線を介して前記基地局に送信し、その要求信号に応答して前記通信回線を介して前記基地局から送信されてきた前記語彙辞書に含まれる前記各語彙情報とを照合し、前記音声入力に対応する語彙情報を候補語彙情報として選出する音声認識手段と、を備えることを特徴とする音声認識システム。 【請求項3】 前記端末局は、移動体に搭載され、前記端末局は、前記移動体の現在位置を検出する位置検出手段をさらに備えており、前記端末局の前記音声認識手段は、前記位置検出手段が検出した前記現在位置を示す位置情報を、前記通信回線を介して前記基地局に送信するとともに、その位置情報の送信に応じて前記通信回線を介して前記基地局から送信されてきた前記語彙辞書を前記記憶手段に記憶させる機能をさらに備え、前記基地局の前記情報処理装置は、前記通信回線を介して前記位置情報が送られてくるのに応じて、その位置情報が示す前記現在位置に対応する前記語彙辞書を前記データベース格納手段から読み出して前記通信回線を介して前記端末局に送信する機能をさらに備えることを特徴とする請求項1または2に記載の音声認識システム。 【請求項4】 前記基地局の前記データベース格納手段は、格納されている前記各語彙辞書に含まれる複数の語彙情報のうちの地理的位置との関連性を有する地理関連語彙情報については、その関連性を示す地理的位置を特定するための位置特定情報をその地理関連語彙情報に関連付けて格納可能となっており、前記情報処理手段は、前記地理関連語彙情報を前記端末局に送信する際には、その地理関連語彙情報に関連付けられている前記位置特定情報も一緒に前記データベース格納手段から読み出して前記端末局に送信することを特徴とする請求項1ないし3のいずれかに記載の音声認識システム。 【請求項5】 前記データベース格納手段は、前記地理関連語彙情報に関連付けて、その地理関連語彙情報に関連する情報を通信ネットワークを介して取得するためのネットワーク接続サービス情報を格納可能であり、前記情報処理手段は、前記地理関連語彙情報を前記端末局に送信する際には、その地理関連語彙情報に関連付けられている前記ネットワーク接続サービス情報も一緒に前記データベース格納手段から読み出して前記端末局に送信することを特徴とする請求項4に記載の音声認識システム。 【請求項6】 前記音声認識システムは、車両に搭載されたナビゲーション装置に対する音声入力の音声認識のために用いられることを特徴とする請求項1ないし5のいずれかに記載の音声認識システム。 【請求項7】 車両に搭載されたナビゲーション装置に対する音声入力の音声認識のために用いられる音声認識システムであって、基地局と、端末局とを備え、前記基地局は、音声認識に用いられる複数の語彙情報を備える語彙辞書を格納するデータベース格納手段と、通信回線を介して前記端末局と接続可能であり、前記通信回線を介して前記端末局から送信されてくる音声信号の音声パターンを認識し、その音声パターンと前記データベース格納手段に格納されている前記語彙辞書に含まれる前記各語彙情報とを照合し、認識した前記音声パターンに対応する語彙情報を候補語彙情報として選出して前記通信回線を介して前記端末局に送信する音声認識手段と、を備え、前記端末局は、音声入力を受け付ける音声入力受付手段と、前記通信回線を介して前記基地局と接続可能であり、前記音声入力受付手段が受け付けた前記音声入力の前記音声信号を前記通信回線を介して前記基地局に送信する一方、前記通信回線を介して前記基地局から送信されてきた前記候補語彙情報を受信する情報処理手段と、を備えることを特徴とする音声認識システム。
|
【発明の詳細な説明】【0001】 【発明の属する技術分野】本発明は、音声認識システムに関するものである。 【0002】 【従来の技術】近年、音声認識システムを備えたナビゲーション装置が提案されている。このような従来のナビゲーション装置では、音声認識に用いられる語彙辞書等のデータベースを予めすべてナビゲーション装置内のデータベース格納手段に格納するようになっている。よって、このナビゲーション装置では、音声認識可能な語彙数を一定レベル以上にしようとすると、初期段階からナビゲーション装置内に一定の語彙レベル以上の語彙辞書を用意しておく必要があるが、一般に、音声認識に用いられるデータベースは情報サイズが大きく、データベース格納手段のコスト負担が大きいため、データベースの語彙辞書等の内容が可能な限り絞り込まれるようになっている。 【0003】 【発明が解決しようとする課題】このため、従来のナビゲーション装置では、語彙辞書に対する情報サイズ面での制約が大きいという問題がある。 【0004】そこで、本発明は前記問題点に鑑み、音声入力を受け付ける端末局等における音声認識に用いる語彙辞書に対する情報サイズ面での制約を低減できる音声認識システムを提供することを目的とする。 【0005】 【課題を解決するための手段】前記目的を達成するための技術的手段は、基地局と、端末局とを備え、前記基地局は、前記端末局が行う音声認識に用いられる複数の語彙情報をそれぞれ備える複数の語彙辞書を格納するデータベース格納手段と、通信回線を介して前記端末局と接続可能であり、前記通信回線を介して前記端末局から送られてくる送信要求に応じて、前記語彙辞書を前記語彙辞書単位で前記データベース格納手段から読み出して前記通信回線を介して前記端末局に送信する情報処理手段と、を備え、前記端末局は、音声入力を受け付ける音声入力受付手段と、記憶内容の書き替えが可能な記憶手段と、前記通信回線を介して前記基地局と接続可能であり、前記通信回線を介して前記基地局に前記送信要求を送信するとともに、前記送信要求に応答して前記通信回線を介して前記基地局から送信されてきた前記語彙辞書を前記記憶手段に記憶させる一方、前記音声入力受付手段が受け付けた音声入力と前記記憶手段に記憶された前記語彙辞書に含まれる前記各語彙情報とを照合し、前記音声入力に対応する語彙情報を候補語彙情報として選出する音声認識手段と、を備えることを特徴とする。 【0006】また、前記目的を達成するための技術的手段は、基地局と、端末局とを備え、前記基地局は、前記端末局が行う音声認識に用いられる複数の語彙情報をそれぞれ備える複数の語彙辞書を格納するデータベース格納手段と、通信回線を介して前記端末局と接続可能であり、前記通信回線を介して前記端末局から送られてくる送信要求に応じて、その送信要求に対応する前記語彙辞書を前記語彙辞書単位で前記データベース格納手段から読み出して前記通信回線を介して前記端末局に送信する情報処理手段と、を備え、前記端末局は、音声入力を受け付ける音声入力受付手段と、記憶内容の書き替えが可能な記憶手段と、前記通信回線を介して前記基地局と接続可能であり、前記通信回線を介して前記基地局から送信されてきた前記語彙辞書を前記記憶手段に記憶させる一方、前記音声入力受付手段が受け付けた音声入力と前記記憶手段に記憶された前記語彙辞書に含まれる前記各語彙情報とを照合し、前記音声入力に対応する語彙情報が前記記憶手段に記憶された前記語彙辞書内に存在する場合にはその対応する語彙情報を候補語彙情報として選出する一方、前記音声入力に対応する語彙情報が前記記憶手段に記憶された前記語彙辞書内に存在しない場合にはその音声入力に対応する語彙情報を含む可能性のある前記語彙辞書の送信を要求する前記要求信号を前記通信回線を介して前記基地局に送信し、その要求信号に応答して前記通信回線を介して前記基地局から送信されてきた前記語彙辞書に含まれる前記各語彙情報とを照合し、前記音声入力に対応する語彙情報を候補語彙情報として選出する音声認識手段と、を備えることを特徴とする。 【0007】さらに、好ましくは、前記端末局は、移動体に搭載され、前記端末局は、前記移動体の現在位置を検出する位置検出手段をさらに備えており、前記端末局の前記音声認識手段は、前記位置検出手段が検出した前記現在位置を示す位置情報を、前記通信回線を介して前記基地局に送信するとともに、その位置情報の送信に応じて前記通信回線を介して前記基地局から送信されてきた前記語彙辞書を前記記憶手段に記憶させる機能をさらに備え、前記基地局の前記情報処理装置は、前記通信回線を介して前記位置情報が送られてくるのに応じて、その位置情報が示す前記現在位置に対応する前記語彙辞書を前記データベース格納手段から読み出して前記通信回線を介して前記端末局に送信する機能をさらに備えるのがよい。 【0008】また、好ましくは、前記基地局の前記データベース格納手段は、格納されている前記各語彙辞書に含まれる複数の語彙情報のうちの地理的位置との関連性を有する地理関連語彙情報については、その関連性を示す地理的位置を特定するための位置特定情報をその地理関連語彙情報に関連付けて格納可能となっており、前記情報処理手段は、前記地理関連語彙情報を前記端末局に送信する際には、その地理関連語彙情報に関連付けられている前記位置特定情報も一緒に前記データベース格納手段から読み出して前記端末局に送信するのがよい。 【0009】さらに、好ましくは、前記データベース格納手段は、前記地理関連語彙情報に関連付けて、その地理関連語彙情報に関連する情報を通信ネットワークを介して取得するためのネットワーク接続サービス情報を格納可能であり、前記情報処理手段は、前記地理関連語彙情報を前記端末局に送信する際には、その地理関連語彙情報に関連付けられている前記ネットワーク接続サービス情報も一緒に前記データベース格納手段から読み出して前記端末局に送信するのがよい。 【0010】また、好ましくは、前記音声認識システムは、車両に搭載されたナビゲーション装置に対する音声入力の音声認識のために用いられるのがよい。 【0011】さらに、前記目的を達成するための技術的手段は、車両に搭載されたナビゲーション装置に対する音声入力の音声認識のために用いられる音声認識システムであって、基地局と、端末局とを備え、前記基地局は、音声認識に用いられる複数の語彙情報を備える語彙辞書を格納するデータベース格納手段と、通信回線を介して前記端末局と接続可能であり、前記通信回線を介して前記端末局から送信されてくる音声信号の音声パターンを認識し、その音声パターンと前記データベース格納手段に格納されている前記語彙辞書に含まれる前記各語彙情報とを照合し、認識した前記音声パターンに対応する語彙情報を候補語彙情報として選出して前記通信回線を介して前記端末局に送信する音声認識手段と、を備え、前記端末局は、音声入力を受け付ける音声入力受付手段と、前記通信回線を介して前記基地局と接続可能であり、前記音声入力受付手段が受け付けた前記音声入力の前記音声信号を前記通信回線を介して前記基地局に送信する一方、前記通信回線を介して前記基地局から送信されてきた前記候補語彙情報を受信する情報処理手段と、を備えることを特徴とする。 【0012】 【発明の実施の形態】<第1実施形態>図1および図2は、本発明の第1実施形態に係る音声認識システムのブロック図である。この音声認識システムは、図1および図2に示すように、車両に搭載される車載システム(端末局)1と、サービスセンタ(基地局)2とを備えている。 【0013】車載システム1は、後述するようにナビゲーション装置としての機能も有しており、この車載システム1への入力は、マイク11を介した音声入力あるいは操作入力部15を介した操作入力により行われるようになっており、この車載システム1からの出力は、スピーカ12を介した音声出力あるいは表示部16を介した表示出力により行われるようになっている。具体的な入力内容としては、例えば目的地の設定のための音声または操作による入力等が考えられ、出力内容としては、例えば目的地まので経路案内のための音声または画像による出力等が考えられる。 【0014】車載システム1は、図1に示すように、音声入力を受け付けるマイク(音声入力受付手段)11と、音声出力を行うスピーカ12と、音声認識および音声合成を司る音声処理ユニット13と、サービスセンタ2との間の通信処理およびナビゲーション処理を司るナビゲーションユニット14と、操作入力を受け付ける操作入力部15と、表示出力を行う表示部16と、通信部(携帯電話機等)17とを備えている。音声処理ユニット13は、記憶部(記憶手段)13a、音声認識部13bおよび音声合成部13cを備えている。ナビゲーションユニット14は、通信処理部14aおよびナビゲーション処理部(位置検出手段)14bを備えている。このような構成のうち、音声認識部13b、通信処理部14aおよび通信部17が、本発明に係る音声認識手段に対応している。 【0015】サービスセンタ2は、図2に示すように、通信部21、コンピュータ22およびデータベース格納装置(データベース格納手段)23を備えている。このうち、通信部21およびコンピュータ22が本発明に係る情報処理手段に対応している。 【0016】ここで、音声認識に用いられるデータベースは、大略的に、入力された音声入力の発音パターン(音声入力がどのような母音および子音の組み合わせで構成されているか)を認識するために用いられるパターン認識用データベースと、その認識した音声パターンに対応する単語(語彙)を認識するための語彙データベースとが含まれている。 【0017】そして、本実施形態では、これらのデータベースのうち、パターン認識用データベースは車載システム1の記憶部13aに初期段階から用意されるようになっているが、語彙データベースは、初期段階ではサービスセンタ2のデータベース格納装置23内に用意されており、その後、必要に応じて語彙データベースの必要部分がサービスセンタ2から車載システム1に適宜ダウンロードされるようになっている。 【0018】これに対応して、本実施形態では、語彙データベースが分離可能な複数の語彙辞書から構成されており、語彙辞書単位でダウンロード可能となっている。また、各語彙辞書には、複数の語彙情報が含まれている。各語彙情報は、その語彙情報が対応する単語の単語情報(その単語のテキストデータ等)等を含んでいる。 【0019】また、本実施形態では、サービスセンタ2のデータベース格納装置23には、格納されている各語彙辞書に含まれる複数の語彙情報のうちの地理的位置との関連性を有する地理関連語彙情報(例えば、地名や施設名を示す語彙情報)については、その関連性を示す地理的位置を特定するための位置特定情報(地図上の座標値や住所等)をその地理関連語彙情報に関連付けて格納可能となっている。 【0020】さらに、本実施形態では、データベース格納装置23には、各語彙辞書に含まれる地理関連語彙情報に関連付けて、その地理関連語彙情報に関連する情報を通信ネットワーク(インターネット等)を介して取得するためのネットワーク接続サービス情報(アドレス情報等)が格納可能となっている。 【0021】まず、サービスセンタ2の各構成について説明する。通信部21は、コンピュータ22の制御によって、通信回線(無線電話回線等を用いた通信ネットワーク等)を介して車載システム1と接続可能となっている。データベース格納装置23には、前述の語彙データベース、およびその語彙データベース内の地理関連語彙情報に関連付けられた位置特定情報およびネットワーク接続サービス情報などが格納されている。 【0022】コンピュータ22は、通信部21による通信回線を介して車載システム1から後述する送信要求が送信されてくると、その送信要求に対応する語彙辞書(あるいは送信要求に対応する語彙情報を含む(あるいは含む可能性のある)語彙辞書)をデータベース格納装置23から読み出して、通信部21による通信回線を介して車載システム1に送信する。 【0023】また、コンピュータ22は、通信部21による通信回線を介して車載システム1から車両の現在地位を示す後述する位置情報が送信されてくると、その位置情報が示す現在位置に対応する語彙辞書(あるいは現在位置に対応する語彙情報を含む語彙辞書)をデータベース格納装置23から読み出して、通信部21による通信回線を介して車載システム1に送信する。ここで、サービスセンサ2から車載システム1に送信される現在位置に対応する語彙辞書としては、例えば、その現在位置の地名や施設名等を示す語彙情報(あるいは地名や施設名等に関連する語意情報)を含む(あるいは含む可能性のある)語彙辞書が送信対象として選出される。 【0024】このコンピュータ22による語彙辞書の送信の際、その語彙辞書に含まれる地理関連語彙情報に位置特定情報およびネットワーク接続情報が関連付けられている場合には、その関連付けられている位置特定情報およびネットワーク接続情報も一緒にデータベース格納装置23から読み出されて車載システム1に送信されるようになっている。 【0025】次に、車載システム1の各構成について説明する。記憶部13aは、記憶内容の書き替えが可能な記憶装置であり、ハードディスクや大容量の半導体メモリ等によって構成されている。この記憶部13aには、前述のパターン認識用データベースが初期段階から記憶されているとともに、サービスセンタ2からダウンロードされた語彙辞書が記憶されるようになっている。また、記憶部13aには、語彙情報と共にダウンロードされた後述する地理的位置情報およびネットワーク接続サービス情報も記憶されるようになっている。さらに、記憶部13aには、音声合成部13cが音声合成に用いる音声合成用データベースも記憶されている。 【0026】音声認識部13bは、後述するナビゲーション処理部14bから与えられる音声認識要求に応答して音声認識処理を行う。その音声認識処理では、まず記憶部13aのパターン認識用データベースを用いて、マイク11が受け付けた音声入力(音声信号)の音声パターンが認識される。この音声パターンの認識は、例えば隠れマルコフモデルによる方法等によって行われる。 【0027】続いて、音声パターンが認識されると、記憶部13aに記憶されている語彙辞書に含まれる各語彙情報(単語)と、認識された音声パターンとが照合され、認識された音声パターンに対応する語彙情報が記憶部13a内に存在する場合にはその語彙情報に対応する単語が、候補単語として選択されてナビゲーション処理部14bに与えられる。一方、照合の結果、認識した音声パターンに対応する語彙情報が記憶部13a内に存在しない場合には、その音声パターンに対応する語彙情報を含む(あるいは含む可能性のある)語彙辞書の送信を要求する送信要求が、通信処理部14aを介してサービスセンタ2に送信される。この送信要求に、認識した音声パターンを含めるようにしてもよい。 【0028】続いて、送信要求に応答してサービスセンタ2から送信されてきた語彙辞書が通信処理部14aを介して受信されると、その語彙辞書が記憶部13aに語彙データベースの一部として記憶される一方、認識された音声パターンとその受信した語彙辞書に含まれる各語彙情報とが照合され、認識された音声パターンに対応する語彙情報に対応する単語が、候補単語としてナビゲーション処理部14bに与えられる。 【0029】また、音声認識部13bは、ナビゲーション処理部14bから現在位置を示す位置情報が与えられると、その位置情報に対応する語彙情報を含む語彙辞書が記憶部13a内に存在するか否かを確認し、存在しない場合には、通信処理部14aに通信回線を介してその位置情報をサービスセンタ2に送信すべきことを指示する。そして、その位置情報の送信に応じて通信回線を介してサービスセンタ2から送信されてくる語彙辞書を通信処理部14を介して受信し、記憶部13aに記憶させる。 【0030】さらに、音声認識部13bは、記憶部13a内の不要な語彙辞書(例えば、一定期間以上使用していない語彙辞書等)を削除する機能も有している。なお、削除対象の語彙辞書の特定および削除の実行は、音声入力、あるいは、操作入力部15、ナビゲーション処理部14bを介した操作入力により指示するようにしてもよい。 【0031】音声合成部13cは、ナビゲーション処理部14bから与えられる音声合成要求に応じて音声合成処理を行う。その音声合成処理では、音声合成要求とともに与えられる合成すべき音声の内容を示す音声内容情報(ここでは、テキストデータ等で示される文字情報)に対応する音声信号が、記憶部13aの音声合成用データベースを用いて合成されてスピーカ12を介して音声として出力される。 【0032】操作入力部15は、ナビゲーションユニット14に対する操作入力を受けるためのものである。表示部16は、現在位置や目的地までの経路等のナビゲーション表示等に用いられる。通信部17は、携帯電話機等によって構成され、通信処理部14aの制御によって、通信回線を介してサービスセンタ2と接続可能となっている。 【0033】通信処理部14aは、通信部17による通信回線を介してサービスセンタ2および各種ウェブサイト等に接続可能となっている。そして、通信処理部14aは、音声認識部13bから送信要求が与えられると、通信部17を介してその送信要求をサービスセンタ2に送信するとともに、その送信要求に応答してサービスセンタ2から送信されてくる語彙辞書を音声認識部13bに転送する。また、通信処理部14aは、ナビゲーション処理部14bからウェブサイト接続要求が与えられると、その接続要求に伴ったナビゲーション処理部14bから与えられるアドレス情報が示すウェブサイトに接続するようになっている。 【0034】また、通信処理部14aは、音声認識部13bの指示により現在位置を示す位置情報を、通信部17による通信回線を介してサービスセンタ2に送信するとともに、その位置情報の送信に応じて通信回線を介してサービスセンタ2から送信されてくる語彙辞書を受信して音声認識部13bに転送する。 【0035】ナビゲーション処理部14bは、通常のナビゲーション処理を行う機能要素であり、その内蔵する図示しない記録装置(DVD−ROMおよびDVD−ROMドライバ等)には、ナビゲーション処理部14bが行うナビゲーション処理に用いられるナビゲーション情報が記録されている。そのナビゲーション情報には、道路形状を表示部16に表示するために用いられる表示用道路情報、音声による経路案内等のために出力すべき音声出力の内容を示す複数の文字情報、および目的地までの経路を算出するために用いられる経路探索用道路情報等が含まれている。 【0036】また、ナビゲーション処理部14bには、詳細な構成は図示しないが、自車の現在位置を検出する現在位置検出部、特定位置(現在位置等)から目的地までの経路を探索する経路探索部、入力された地名や施設名に対応する地理的位置を案内する地理案内部、および入力された地名や施設名に関連するネット上のウェブサイトに接続するネット接続部等が備えられている。 【0037】現在位置検出部は、GPSおよび自律航法の少なくともいずれか一方(ここでは両方)を用いて地図上の自車の現在位置を検出する一方、前記記録装置に記録されている各エリアの表示用道路情報を用いてその現在位置を含むエリアの地図画像を作成して表示部16に表示させるとともに、その地図画像上に現在位置を表示する。また、現在位置検出部は、その検出した現在位置を示す位置位置情報(現在位置の地名等を示す情報)を音声認識部14aに与えるようになっている。 【0038】経路探索部は、現在位置(あるいは特定位置)から目的地までの経路を、前記記録装置に記憶されている経路探索用道路情報を用いて探索し、表示部16を介して目的地までの経路を案内するとともに、音声による経路案内のための音声合成要求および文字情報を必要に応じて音声合成部13cに出力する。特定位置および目的地の入力等は、マイク11を介した音声入力あるいは操作入力部15を介した操作入力によって行われる。ナビゲーション処理部14bによって音声入力が受け付けられる際には、ナビゲーション処理部14bは、音声認識部13bに対して音声認識要求を送り、その要求に応じて音声認識部13bから与えられる候補単語の内容に基づいて入力内容を認識するようになっている。 【0039】地理案内部は、音声認識部13bを介した音声入力等により入力された地名や施設名に対応する地理的位置を案内する案内処理を行う。この案内処理では、例えば、記憶部13aに記憶されている位置特定情報を用いて、地名や施設の位置が表示部16に表示される。 【0040】ネット接続部は、音声認識部13bを介した音声入力あるいは操作入力部15を介した操作入力により与えられる接続指示に応答して、通信処理部14aにウェブサイト接続要求を与え、通信処理部14aを介して音声認識部13bを介した音声入力等により入力された地名や施設名に関連するネット上のウェブサイトに接続する。このウェブサイトの接続には、記憶部13aに記憶されているネットワーク接続サービス情報が用いられる。 【0041】このような構成により、車載システム1での音声認識に用いられる語彙データベースは、初期段階ではサービスセンタ2のデータベース格納装置23内に用意されており、その後、通信回線を介して車載システム1からサービスセンタ2に送信される送信要求に応じて、その送信要求に対応する語彙辞書がサービスセンタ2から車載システム1に適宜ダウンロードされ、音声認識に用いられるようになっている。 【0042】例えば、車載システム1の記憶部13aに記憶されている各語彙辞書内に存在しない単語が音声入力により入力された場合には、その単語を含む語彙辞書の送信を要求する送信要求が、車載システム1からサービスセンタ2に送信され、その送信要求に応答して対応する語彙辞書がサービスセンタ2から車載システム1に送信され、その語彙辞書を用いて音声認識が行われるようになっている。 【0043】以上のように、本実施形態によれば、音声認識に用いられる語彙辞書が複数の語彙辞書に分割された状態でサービスセンタ2に用意され、その分割された各語彙辞書が、通信回線を介して必要に応じてサービスセンタ2から実際に音声認識を行う車載システム1に必要に応じて送信されるようになっており、従来のように初期段階から車載システム1の記憶部13aに一定レベル以上の語彙辞書を用意しておく必要がないため、車載システム1の記憶部13aの容量増加による高コスト化を抑制しつつ、車載システム1における音声認識に用いる語彙辞書に対する情報サイズ面での制約を低減できる。 【0044】また、車載システム1の記憶部13aは記憶内容の書き替えが可能であるため、不要な語彙辞書等を削除することができ、記憶容量を有効に利用することができるとともに、車載システム1のユーザ独自の語彙データベースを作成することができる。 【0045】さらに、車載システム1が搭載される車両の現在位置に対応する語彙辞書が自動的にサービスセンタ2から車載システム1に送られるようになっているため、現在位置に対応した地名および施設名や、それらの略称名等で音声入力が可能となり、音声認識をスムーズに行うことができる。 【0046】また、サービスセンタ2から車載システム1に与えられる地理関連語彙情報には、その地理関連語彙情報に関連する地理的位置を特定するための位置特定情報が付与可能となっているため、車載システム1側にて、その位置特定情報に基づいて地理関連語彙情報に関連する地理的位置を容易に特定することができ、便利である。 【0047】さらに、サービスセンタ2から車載システム1に与えられる地理関連語彙情報には、その地理関連語彙情報に関連する情報を通信ネットワークを介して取得するためのネットワーク接続サービス情報が付与可能となっているため、車載システム1側にて、そのネットワーク接続サービス情報に基づいて、地理関連語彙情報に関連する情報を通信ネットワークを介して取得するための情報を容易に得ることができ、便利である。 【0048】なお、本実施形態では、認識した音声パターンに対応する語彙情報が記憶部13a内に存在しない場合に音声認識部13bにより送信要求がサービスセンタ2に向けて出力されるようにしたが、初期起動の際等に、音声認識部13bあるいはナビゲーション処理部14bが、この車載システム1の種類(構成)に対応した一または複数の語彙辞書の送信を要求する送信要求を、通信処理部14aを介してサービスセンタ2に送信するようにしてもよい。 【0049】これによって、サービスセンタ2のデータベース格納装置23に車載システム1の各種類に対応した複数の語彙辞書を用意しておき、サービスセンタ2から車載システム1に供給する語彙辞書の種類を変更するだけで、車載システム1の種類の相違(車両の種類やグレード等の相違によるものも含む)に容易に対応することができ、汎用なシステムを構成することができる。 【0050】<第2実施形態>図3および図4は、本発明の第2実施形態に係る音声認識システムのブロック図である。この音声認識システムは、図3および図4に示すように、車両に搭載される車載システム(端末局)101と、サービスセンタ(基地局)102とを備えている。 【0051】車載システム101は、後述するようにナビゲーション装置としての機能も有しており、この車載システム101の入力出力の様式は、第1実施形態の場合と同様である。 【0052】車載システム101は、図3に示すように、音声入力を受け付けるマイク(音声入力受付手段)111と、音声出力を行うスピーカ112と、音声合成を司る音声処理ユニット113と、サービスセンタ102との間の通信処理およびナビゲーション処理を司るナビゲーションユニット114と、操作入力を受け付ける操作入力部115と、表示出力を行う表示部116と、通信部(携帯電話機等)117とを備えている。音声処理ユニット113は、音声合成部113aおよび記憶部113bを備えている。ナビゲーションユニット114は、通信処理部114aおよびナビゲーション処理部114bを備えている。このような構成のうち、通信処理部114aおよび通信部117が、本発明に係る通信処理手段に対応している。 【0053】サービスセンタ102は、図4に示すように、通信部121、コンピュータ122およびデータベース格納装置(データベース格納手段)123を備えている。このうち、通信部121およびコンピュータ122が本発明に係る音声認識手段に対応している。 【0054】本実施形態では、車載システム101にて入力された音声入力の音声信号を通信回線を介してサービスセンタ102に送信し、データベース格納装置123内に格納されたパターン認識用データベースおよび語彙データベースを用いてサービスセンタ102にて音声認識が行われ、その認識結果が通信回線を介して車載システム101に送られるようになっている。 【0055】まず、サービスセンタ102の各構成について説明する。通信部121は、コンピュータ122の制御によって、通信回線(無線電話回線等を用いた通信ネットワーク等)を介して車載システム101と接続可能となっている。データベース格納装置123には、前述の第1実施形態と同様なパターン認識用データベースおよび語彙データベースが格納されている。 【0056】コンピュータ122は、通信部121による通信回線を介して車載システム101から音声信号が送信されてくると、データベース格納装置123に格納されているパターン認識用データベースおよび語彙データベースを用いて、その音声信号に対応する候補語彙情報(候補単語)を認識し、その認識した語彙情報を通信部121による通信回線を介して車載システム101に送信する。なお、音声認識の方法自体は、第1実施形態の場合と同様であり、ここでは説明を省略する。 【0057】次に、車載システム101の各構成について説明する。記憶部113bには、音声合成部113aが音声合成に用いる音声合成用データベースが記憶されている。音声合成部113a、操作入力部115、表示部116および通信部117の構成および機能は、第1実施形態に係る音声合成部13c、操作入力部15、表示部16および通信部17と同様である。 【0058】通信処理部114aは、通信部117による通信回線を介してサービスセンタ102と接続可能であり、ナビゲーション処理部114bから与えられる送信要求および受信要求に応答して、マイク111が受け付けた音声入力の音声信号を、通信部117による通信回線を介してサービスセンタ102に送信する一方、通信部117による通信回線を介してサービスセンタ102から送信されてきた候補語彙情報をナビゲーション処理部114bに与える。 【0059】ナビゲーション処理部114bは、通常のナビゲーション処理を行う機能要素であり、その内蔵する図示しない記録装置(DVD−ROMおよびDVD−ROMドライバ等)には、第1実施形態の場合と同様なナビゲーション情報が記録されている。また、ナビゲーション処理部114bの現在位置検出および経路案内に関する基本的な構成および機能は、第1実施形態の場合と同様である。 【0060】ナビゲーション処理部114bによって音声入力が受け付けられる際には、ナビゲーション処理部114bは、通信処理部114aに送信要求を送る。そして、通信処理部114aによって音声信号がサービスセンタ102に送信され、それに応答してサービスセンタ102から候補語彙情報が送信されて通信処理部114aによって受信されると、その候補語彙情報を通信処理部114aから受け取り、その候補語彙情報の内容に基づいて入力内容を認識するようになっている。 【0061】以上のように、本実施形態によれば、車載システム101で受け付けた音声入力の音声信号を通信回線を介してサービスセンタ102に送り、サービスセンタ102にて音声認識をしてその認識結果を通信回線を介して車載システム101に戻すようになっており、サービスセンタ102にのみ音声認識用の各種データベースを設けておけばよいため、車載システム101の負担増を招くことなく、サービスセンタ102に十分な語彙レベルの語彙辞書を用意することができ、音声認識に用いる語彙辞書に対する情報サイズ面での制約を低減できる。 【0062】なお、上述の各実施形態では、本発明に係る音声認識システムによりナビゲーションのための音声入力の音声認識を行うようにしたが、本発明に係る音声認識システムによりナビゲーション装置以外のエアコン等の他の車載機器に対する音声入力の音声認識を行うようにしてもよい。 【0063】 【発明の効果】請求項1ないし6に記載の発明によれば、音声認識に用いられる語彙辞書が複数の語彙辞書に分割された状態で基地局に用意され、その分割された各語彙辞書が、通信回線を介して必要に応じて基地局から実際に音声認識を行う端末局に必要に応じて送信されるようになっており、従来のように初期段階から端末局の記憶手段に一定レベル以上の語彙辞書を用意しておく必要がないため、端末局の語彙辞書を記憶する記憶手段の容量増加による高コスト化を抑制しつつ、音声入力を行う端末局における音声認識に用いる語彙辞書に対する情報サイズ面での制約を低減できる。 【0064】また、端末局の記憶装置は記憶内容の書き替えが可能であるため、不要な語彙辞書等を削除することができ、記憶容量を有効に利用することができるとともに、端末局のユーザ独自の語彙データベースを作成することができる。 【0065】さらに、端末局が、車両に搭載され、車両に搭載された車載機器への音声入力を受け付けるために用いられる場合には、種類やグレード等の異なる複数種類の車載機器への音声入力を認識するための各種類の車載機器に対応した複数の語彙辞書を基地局のデータベース格納手段内に用意しておき、基地局に用意されている複数の語彙辞書のうちから、端末局が搭載される車両に搭載される車載機器の種類に対応する語彙辞書を選択して基地局から端末局に送信することにより、必要最小限の語彙辞書を基地局から端末局に供給することができるとともに、基地局から端末局に供給する語彙辞書の種類を変更するだけで、車両に搭載されている車載機器の種類の相違(車両の種類やグレード等の相違によるものも含む)に容易に対応することができ、汎用なシステムを構成することができる。 【0066】請求項3に記載の発明によれば、端末局が搭載される移動体の現在位置に対応する語彙辞書が自動的に基地局から端末局に送られるようになっているため、現在位置に対応した地名や施設名等の音声入力に対する音声認識をスムーズに行うことができる。 【0067】請求項4に記載の発明によれば、基地局から端末局に与えられる地理関連語彙情報には、その地理関連語彙情報に関連する地理的位置を特定するための位置特定情報が付与可能となっているため、端末局側にて、その位置特定情報に基づいて地理関連語彙情報に関連する地理的位置を容易に特定することができ、便利である。 【0068】請求項5に記載の発明によれば、基地局から端末局に与えられる地理関連語彙情報には、その地理関連語彙情報に関連する情報を通信ネットワークを介して取得するためのネットワーク接続サービス情報が付与可能となっているため、端末局側にて、そのネットワーク接続サービス情報に基づいて、地理関連語彙情報に関連する情報を通信ネットワークを介して取得するための情報を容易に得ることができ、便利である。 【0069】請求項7に記載の発明によれば、端末局で受け付けた音声入力の音声信号を通信回線を介して基地局に送り、基地局にて音声認識をしてその認識結果を通信回線を介して端末局に戻すようになっており、基地局にのみ音声認識用の語彙辞書を設けておけばよいため、端末局の負担増を招くことなく、基地局に十分な語彙レベルの語彙辞書を用意することができ、音声認識に用いる語彙辞書に対する情報サイズ面での制約を低減できる。
|
| 【出願人】 |
【識別番号】395011665 【氏名又は名称】株式会社オートネットワーク技術研究所 【識別番号】000183406 【氏名又は名称】住友電装株式会社 【識別番号】000002130 【氏名又は名称】住友電気工業株式会社
|
| 【出願日】 |
平成13年1月12日(2001.1.12) |
| 【代理人】 |
【識別番号】100089233 【弁理士】 【氏名又は名称】吉田 茂明 (外2名)
|
| 【公開番号】 |
特開2002−215186(P2002−215186A) |
| 【公開日】 |
平成14年7月31日(2002.7.31) |
| 【出願番号】 |
特願2001−5127(P2001−5127) |
|