トップ :: G 物理学 :: G06 計算;計数




【発明の名称】 情景内文字撮像方法とその装置及び情景内文字撮像プログラムとそのプログラムを記録した記録媒体。
【発明者】 【氏名】新村 貴彦
【住所又は居所】東京都千代田区大手町二丁目3番1号日本電信電話株式会社内

【氏名】武川 直樹
【住所又は居所】東京都千代田区大手町二丁目3番1号 日本電信電話株式会社内

【要約】 【課題】情景内文字の認識率を高める。

【解決手段】焦点距離を設定して情景内文字を撮影する画像入力部100を備えた情景内文字撮像において、入力文字画像の縦横を平均した画素長を求め、全文字の平均値(文字サイズ)を計算する文字平均縦横長計算部201と、入力文字画像の濃淡画像から輝度ピーク位置を計算する濃度ヒストグラム分析部202と、予め入力画像の輝度と文字サイズに対して焦点距離を学習したデータを読み出し及び書き込み自在に格納した学習データ解析結果データ204と、前記学習データの解析結果から未知データに対する最適焦点距離を計算するための関数を作成する焦点距離平面作成部203と、焦点距離平面作成部で得た関数と、文字平均縦横長計算部で得た未知データの文字サイズと、濃度ヒストグラム分析部で得たコントラストとに基づき、最適焦点距離を算出する最適焦点距離計算部205とを備える。
【特許請求の範囲】
【請求項1】 焦点距離を設定し撮影を行って情景内文字を認識する情景内文字撮像方法であって、入力文字画像の一文字の文字サイズを計算する工程と、入力濃淡画像から文字と背景の輝度差を計算する工程と、前記文字の大きさと前記輝度差に基づいて焦点距離推定のための関数を作成する工程と、前記焦点距離を用いて入力された画像の文字に対して前記関数を用いて焦点距離を求める工程とを有することを特徴とする情景内文字撮像方法。
【請求項2】 焦点距離を設定して情景内文字を撮影する画像入力部を備えた情景内文字撮像装置であって、入力文字画像の縦横を平均した画素長を求め、全文字の平均値(文字サイズ)を計算する文字平均縦横長計算部と、入力文字画像の濃淡画像から輝度ピーク位置を計算する濃度ヒストグラム分析部と予め入力画像の輝度と文字サイズに対して焦点距離を学習したデータを読み出し及び書き込み自在に格納した学習データ解析結果データと、前記学習データの解析結果から未知データに対する最適焦点距離を計算するための関数を作成する焦点距離平面作成部と、焦点距離平面作成部で得た関数と、文字平均縦横長計算部で得た未知データの文字サイズと、濃度ヒストグラム分析部で得たコントラストと、に基づき、最適焦点距離を算出し、これを画像入力部に供給する最適焦点距離計算部とを備えたことを特徴とする情景内文字撮像装置。
【請求項3】 焦点距離を設定し撮影を行って情景内文字を認識する情景内文字撮像方法における入力文字画像の一文字の文字サイズを計算する工程と、入力濃淡画像から文字と背景の輝度差を計算する工程と、前記文字の大きさと前記輝度差に基づいて焦点距離推定のための関数を作成する工程と、前記焦点距離を用いて入力された画像の文字に対して前記関数を用いて最適焦点距離を求める工程と、をコンピュータに実行させるためのプログラムとしたことを特徴とする情景内文字撮像プログラム。
【請求項4】 焦点距離を設定し撮影を行って情景内文字を認識する情景内文字撮像方法における入力文字画像の一文字の文字サイズを計算する工程と、入力濃淡画像から文字と背景の輝度差を計算する工程と、前記文字の大きさと前記輝度差に基づいて焦点距離推定のための関数を作成する工程と、前記焦点距離を用いて入力された画像の文字に対して前記関数を用いて焦点距離を求める工程と、をコンピュータに実行させるためのプログラムとし、このプログラムを前記コンピュータが読み取りできる記録媒体に記録したことを特徴とする情景内文字撮像プログラムを記録した記録媒体。
【発明の詳細な説明】【0001】
【発明の属する技術分野】本発明は、文字パターンの認識に用いられる文字認識の特徴抽出方法とその装置に関するものである。
【0002】
【従来の技術】情景内文字撮像システムは、デジタルカメラなどの撮影器具を用いて文字を撮影し、光学的に光伝変換された画像が入力画像となり、入力画像を濃淡画像に変換し、その画像パターンを2値化して、2値化画像の特徴からその文字画像を認識するパターン認識システムのひとつである。
【0003】このとき、デジタルカメラの機能として遠くにある看板の文字を認識するとき、文字の特徴を鮮明に撮影するために、図9に示したように、通常はズームをかけてなるべく大きくした画像を入力画像としている。尚、図9において、(a)はズームをかけていない画像を示し、撮影時の焦点距離はデフォルト設定(7mm)である。また、(b)はズームをかけた画像を示し、撮影時の焦点距離は34.3mmである。
【0004】ズーム機能を用いた文字画像の認識工程について説明する。
【0005】図10は、ズームによって得た撮影画像を入力した従来の情景内文字撮像方法のブロックフロー図である。当該文字認識方法は、焦点距離を設定して撮影を行う工程(画像入力部300)と、カラー画像をグレースケールに変換し、256階調の濃淡画像または2値化画像を作成する工程(画像処理部301)と、黒画素を数えて文字の存在する位置の情報を求める工程(外接枠検出部302)と、文字の大きさを拡大縮小して縦横方向に伸縮する工程(サイズ正規化部303)と、文字画像から幾何学的特徴を計算する工程(特徴抽出部304)と、辞書(テンプレート辞書306)のテンプレートの特徴と入力パターンの特徴とを比べて最近傍のテンプレートを探す工程(認識処理部305)と、を有する。
【0006】先ず、被写体である情景内文字は、画像入力部300によって撮影される。このとき、目的の文字領域がファインダー一杯になるようにズームをかけて撮影される(最大焦点距離設定)。この撮影された画像は、画像処理部301における画像処理に供され、2値画像に変換される。この2値化の方法は、大津らの2値化アルゴリズム等に基づく(電子通信学会論文誌Vol.J63−D,No4,pp.350(1980))。尚、このアルゴリズムは、濃度分布を文字の黒画素分布と紙の黒画素分布に分け、それらの境界を求めるアルゴリズムである。
【0007】次いで、2値化された画像は、外接枠検出部302での、黒画素の分布する位置情報の計算に供され、これにより、1字ごとに文字画像の外接枠の位置が検出され、文字が切り出される。この切り出された文字画像は、サイズ正規化部303に供され、図形の正規化が施される。この正規化法には、例えば、文字の縦横の長さを固定にそろえる方式がある。
【0008】次に、特徴抽出部304では、サイズ正規化部303で得た文字画像の特徴抽出を行う。ここで、例えば、幾何学的特徴を用いた方向性寄与度特徴を取り出している(萩田紀博,内藤誠一郎,増田功:外郭方向寄与度特徴による手書き漢字の識別,電子通信学会論文誌Vol.J66−D,No10,pp.1186(1983))。方向寄与度は、大まかに文字線の方向と接続関係をベクトルの形で表して、文字線の方向及び接続関係を抽出している。取り出した方向寄与度特徴は、認識処理部304での演算処理に供される。
【0009】認識処理部304は、予め作成してあったテンプレート辞書306から特徴ベクトルであるテンプレートを取り出し、多次元空間上で入力画像の特徴ベクトルとテンプレート間のユークリッド距離を計算する。そして、用意しておいたテンプレートの中で最もユークリッド距離が近いテンプレートを選んで、そのカテゴリーを認識結果として出力している。
【0010】
【発明が解決しようとする課題】近年におけるデジタルカメラの画像処理技術の向上により、撮影者の手を煩わせることなく、鮮明な画像を得られるようになった。通常、被写体と輝度の関係は下記式のようになっている。
【0011】
Ep=(π/4)・cos4θ・(D/Fp)2・L但し、Ep:画像面放射照度,L:物体放射輝度,D:レンズ半径,θ:光軸からなす角,Fp:焦点距離したがって、焦点距離(Fp)が大きくなるほど、また被写体からの反射光が低いほど、画像の輝度(Ep)は低下する。特に、レンズ周辺ではシェーディングを生じることがある。
【0012】先の従来法では、ズームを最大にした文字画像を撮影すれば、高い認識率が得られるとされている。それは、明るい照明下で撮影距離がそれほど遠くないときに、カメラ内部の輝度補正が働いて文字特徴が鮮明になるからである。
【0013】しかしながら、実環境においては、変動要因が多く、照明や文字が書かれた背景の看板の輝度が弱い場合もある。ましてや、遠距離からの撮影はズームをかけると、つまり焦点距離(Fp)が大きくなるほど、輝度の持ち上げ処理がうまく機能せず、シェーディングをレンズ周辺に生じる(図11)。図11において、(a)は焦点距離が29.8mmである撮影画像を、(b)は焦点距離が35.9mmである撮影画像を示す。図示されたように、ズームをかけたほうがシェーディングを生じている。こういった画像劣化は、文字画像の認識率を下げる原因となる。
【0014】このような問題は、ズームをかけることで画像の特徴が鮮明になる一方で、輝度の低下で撮影画像全体が劣化するという2つの相反する現象に対して、認識率を最大にするためのズームの焦点距離が簡単に決まらないということにある。
【0015】文字が小さい程、ズームによる効果は大きい、また文字画像の輝度が低い程、ズームによる画像劣化は起こりやすくなる。図12は、焦点距離を変化させたときの認識率の変化とその要因を説明し、認識率の最大値は、文字の大きさをなるべく大きくしながら輝度の劣化を抑えるための焦点距離の調節によって得られる。
【0016】本発明は、かかる事情に鑑みなされたもので、その目的は、情景内文字の認識率を高めた情景内文字撮像方法とその装置及び情景内文字撮像プログラムとそのプログラムを記録した記録媒体の提供にある。
【0017】
【課題を解決するための手段】そこで、本発明は、予め入力画像の明るさと文字の大きさに対して適切な焦点距離を学習した解析結果のデータを利用して、未知画像と学習データを明るさと文字の大きさについて比較し、ユークリッド距離的に近いデータから線形的に最適焦点距離を算出することで、前記課題を解決し、情景内文字の認識率を高めている。
【0018】すなわち、本発明の文字認識方法とその装置及び文字認識プログラムとそのプログラムを記録した記録媒体並びに情景内文字撮像方法とその装置は、以下のことを特徴とする。
【0019】請求項1記載の発明は、焦点距離を設定し撮影を行って情景内文字を認識する情景内文字撮像方法であって、入力文字画像の一文字の文字サイズを計算する工程と、入力濃淡画像から文字と背景の輝度差を計算する工程と、前記文字の大きさと前記輝度差に基づいて焦点距離推定のための関数を作成する工程と、前記焦点距離を用いて入力された画像の文字に対して前記関数を用いて焦点距離を求める工程とを有することを特徴とする。
【0020】請求項2記載の発明は、焦点距離を設定して情景内文字を撮影する画像入力部を備えた情景内文字撮像装置であって、入力文字画像の縦横を平均した画素長を求め、全文字の平均値(文字サイズ)を計算する文字平均縦横長計算部と、入力文字画像の濃淡画像から輝度ピーク位置を計算する濃度ヒストグラム分析部と予め入力画像の輝度と文字サイズに対して焦点距離を学習したデータを読み出し及び書き込み自在に格納した学習データ解析結果データと、前記学習データの解析結果から未知データに対する最適焦点距離を計算するための関数を作成する焦点距離平面作成部と、焦点距離平面作成部で得た関数と、文字平均縦横長計算部で得た未知データの文字サイズと、濃度ヒストグラム分析部で得たコントラストと、に基づき、最適焦点距離を算出し、これを画像入力部に供給する最適焦点距離計算部とを備えたことを特徴とする。
【0021】請求項3記載の発明は、情景内文字撮像プログラムであって、焦点距離を設定し撮影を行って情景内文字を認識する情景内文字撮像方法における入力文字画像の一文字の文字サイズを計算する工程と、入力濃淡画像から文字と背景の輝度差を計算する工程と、前記文字の大きさと前記輝度差に基づいて焦点距離推定のための関数を作成する工程と、前記焦点距離を用いて入力された画像の文字に対して前記関数を用いて最適焦点距離を求める工程と、をコンピュータに実行させるためのプログラムとしたことを特徴とする。
【0022】請求項4記載の発明は、情景内文字撮像プログラムを記録した記録媒体であって、焦点距離を設定し撮影を行って情景内文字を認識する情景内文字撮像方法における入力文字画像の一文字の文字サイズを計算する工程と、入力濃淡画像から文字と背景の輝度差を計算する工程と、前記文字の大きさと前記輝度差に基づいて焦点距離推定のための関数を作成する工程と、前記焦点距離を用いて入力された画像の文字に対して前記関数を用いて焦点距離を求める工程と、をコンピュータに実行させるためのプログラムとし、このプログラムを前記コンピュータが読み取りできる記録媒体に記録したことを特徴とする。
【0023】
【発明の実施の形態】以下、図面を参照しながら、本発明の実施の形態について述べる。
【0024】図1は、本発明の実施形態に係る情景内文字撮像装置の構成とその処理過程を示したブロック図である。また、図2は、本発明が既知データから最適焦点距離を学習する過程を説明したブロック図である。
【0025】当該文字認識装置は、画像入力部100と、画像処理部101と、外接枠検出部102と、サイズ正規化部103と、特徴抽出部104と、認識処理部105と、テンプレート辞書106と、を備えた文字認識装置において、文字平均縦横長計算部201と、濃度ヒストグラム分析部202と、焦点距離平面式作成部203と、学習データ解析結果204と、最適焦点距離計算部205と、重回帰分析部206と、を備える。
【0026】画像入力部100は、焦点距離を設定して被写体である情景内文字を撮影する。
【0027】画像処理部101は、画像入力部300から供給されたカラー画像をグレースケールに変換した256階調の濃淡画像、さらには2値化画像も作成する。前述と同様に、ここでの2値化の方法に、大津の2値化アルゴリズム等に基づく方法を採用している(大津:電子通信学会論文誌Vol.J63−D,No4,pp.349−356(1980))。
【0028】外接枠検出部102は、画像処理部101から供給された画像における黒画素を数えて文字の存在する位置の情報を求める。
【0029】サイズ正規化部103は、外接枠検出部102から供給された文字画像を拡大縮小して縦横方向に伸縮する。
【0030】特徴抽出部104は、サイズ正規化部103から供給された文字画像に基づき幾何学的特徴の算出を行う。具体的な幾何学的特徴として、例えば、萩田らの方法による方向性寄与度特徴を得ている(萩田,内藤,増田:外郭方向寄与度特徴による文字識別法,電子通信学会論文誌Vol.J66−D,No10,pp.1185−1192(1983))。
【0031】認識処理部105は、テンプレート辞書106から供給されたテンプレートの特徴と、特徴抽出部104から供給された入力パターンの特徴とを比べて、似たテンプレートを探し出す。尚、テンプレート辞書106は、テンプレートパターンの特徴を、読み出し及び書き換え自在に、格納していている。
【0032】また、文字平均縦横長計算部201は、外接検出部102から供給された一文字の縦横を平均した画素長を求め、全文字の平均値(以下、この全文字の平均値を文字サイズと称する)を計算する。
【0033】濃度ヒストグラム分析部202は、画像処理部101から供給された入力画像の濃淡画像から紙と印字の輝度ピーク位置を計算する。
【0034】焦点距離平面作成部203は、初期焦点距離にあわせた学習データの解析結果から未知データに対する最適焦点距離を計算するための関数を作成する。
【0035】学習データ解析結果204は、予め入力画像の輝度と文字サイズに対して焦点距離の学習データを読み出し及び書き換え自在に格納する。
【0036】最適焦点距離計算部205は、焦点距離平面作成部203で得た3次元方程式と、文字平均縦横長計算部201で得た未知データの文字サイズと、濃度ヒストグラム分析部202で得たコントラストと、に基づき、最適焦点距離を算出する。
【0037】重回帰分析部206は、文字サイズと焦点距離の散布図から回帰直線を計算する。
【0038】図1及び図2を参照しながら本発明による情景内文字撮像の処理過程について述べる。
【0039】本発明は、先ず、予め用意した学習データの輝度や文字サイズから認識率を高くする焦点距離を学習する。ここで、例えば表1及び表3に示す条件で、部屋の明るさを固定している。そして、文字を印刷した紙を被写体とし、これを壁に貼り付けている。被写体における文字の印字は図11(a)のように行った。また、撮影は、紙の種類と撮影距離を設定して、焦点距離をデフォルトから被写体がファインダー一杯になるまで行った。尚、焦点距離と認識率の関係は、例えば表2に示した条件に基づいた認識法によって求めている。
【0040】
【表1】

【0041】
【表2】

【0042】
【表3】

【0043】図2に示したように、画像処理部101は、明るさ、紙の種類、撮影距離を固定して焦点距離を変えて撮影した画像に対して、画像処理を行い、256階調の濃淡画像を求めている。この濃淡画像は、濃度ヒストグラム分析部202に供される。このとき、焦点距離別に濃淡画像を求めてもいいが、本実施形態で使用したデジタルカメラは焦点距離が変わっても、輝度が変わらない補正を行っているので、一つの焦点距離で撮影した画像について濃度ヒストグラムを求めている。図3に、濃度ヒストグラムの結果を示した。
【0044】一方、画像処理部101で得た濃淡画像は、さらに2値化した後、外接枠検出部102における文字外接枠位置の検出に供される。そして、文字位置の検出及び文字の切り出しがなされた後、サイズ正規化部103、特徴抽出部104及び認識処理部105を介して、文字サイズが正規化され、さらにその特徴が取り出された後、認識処理される。ここでは、一つの焦点距離で撮影した文字画像全部を認識させて焦点距離別に認識率を得ている。図4は、この結果を開示した焦点距離と認識率との関係を示した特性図である。
【0045】このとき、文字平均縦横長計算部201においては、外接枠検出部102で検出した文字の位置から文字の縦横の黒画素数を数えることで、縦横の長さを求める。すなわち、一つの焦点距離で撮影した画像中の文字の縦横画素長を計算し、さらに、縦横を平均した一つの長さを求め、これを文字サイズとしている。図5に、焦点距離別の文字サイズの結果を示した文字サイズ分布図を示した。
【0046】このようにして、撮影画像から、濃度ヒストグラム、焦点距離と認識率、及び文字サイズ分布についての分析ができる。そして、この分析結果に基づき、コントラスト、最適焦点距離及び文字サイズ推定直線が得られる。
【0047】すなわち、図2に示したように、濃度ヒストグラム分析部202は、図3記載のヒストグラムにおける濃度分布を平滑線で近似し、このとき、濃度階調θ(=20)を閾値とし、(0〜θ)と(θ〜255)のそれぞれの範囲における頻度の最大値を求める。このとき、(0〜θ)における最大値を印字の輝度のピークと、(θ〜255)における最大値を紙の輝度のピークと定める。そして、この二つのピークの濃度階調差を求める。ここで、この得られた輝度差を「コントラスト」と定めている。
【0048】また、認識処理部207は、図4記載の特性図から、認識率が最大値となる焦点距離を算出する。このとき、得られたこの焦点距離を「最適焦点距離」と定めている。
【0049】そして、重回帰分析部207は、重回帰分析によって、図5記載の文字サイズ散布図から焦点距離と文字サイズとの関係を示した線形回帰式を求める。得られた回帰式が「文字サイズ推定直線」を示す演算式となる。
【0050】表4及び図6に、コントラスト、最適焦点距離及び文字サイズ推定直線の算出結果を示した。これらのデータは、学習データ解析結果204に供給し格納され、未知データの最適焦点距離推定のための演算処理に供される。
【0051】
【表4】

【0052】次に、図1を参照しながら、本発明による未知データに対する最適焦点距離推定(図1において点線で囲んだ部分)ついて説明する。本実施形態においては、表5記載の未知データを用意した。
【0053】
【表5】

【0054】先ず、適当な焦点距離(初期焦点距離f0)で撮影し、画像処理した濃淡画像に基づき、濃度ヒストグラム分析部202にて、濃度ヒストグラムを求めた後、上記と同様にして、コントラストを求める。また、外接枠検出部102で、前記画像から外接枠を検出した後、文字平均縦横長計算部201において、上記と同様にして、文字の縦横平均文字長さ(文字サイズ)を求める。このようにして、表6のような結果が得られ、この値は焦点距離平面作成部203へ供給される。
【0055】
【表6】

【0056】一方、学習データ解析結果204のうち文字サイズ推定直線を使って、初期焦点距離f0での学習データの文字サイズを求める。こうして、初期焦点距離f0に対して、4点の学習データから表7に示す結果が求まる。
【0057】
【表7】

【0058】ここで、文字サイズ、コントラストの2次元平面で4点の学習データと未知データの位置関係をみると、図7のようになる。このとき、この平面上で学習データと未知データのユークリッド距離を計算値が最も距離が近い3点を選ぶ。そして、これら3点を表7から再度選び、3次元空間上で3点を通る平面を計算する。
【0059】ここでは、C01D454、C01D346、C06D454を通る下記式の平面が得られる。
【0060】0.022X − 0.001Y + 0.011Z = 1そして、この方程式のX、Yに、未知データの文字サイズとコントラストをそれぞれ入力し、Z(最適焦点距離)を求めると、Z=29.2となる。この演算処理は、最適焦点距離計算部205にて実行される。この演算結果である最適焦点距離Zは、画像入力部100に供される。
【0061】そして、画像入力部100は、この最適焦点距離に近くなるように、マニュアルで、あるいは自動で、焦点距離を設定して、画像を撮影する。
【0062】図8に最適焦点距離による画像とズームをかけた画像認識結果を示した。(a)は、ズームを大きくかけた時(焦点距離31.8mm)の2値画像の結果である。このときの認識率は81%であった。(b)は推定焦点距離をマニュアルで設定した時(焦点距離28.5mm)の2値画像の結果である。このときの認識率は92%であった。
【0063】かかる結果から明らかなように、本発明の情景内文字撮像方法によれば、撮影された文字画像の認識率が従来法よりも高くなることが確認できる。
【0064】尚、本発明は、図1及び図2で示した処理過程をコンピュータのプログラムで構成し、このプログラムをコンピュータに実行させることができることは言うまでもなく、コンピュータでその機能を実現するためのプログラム、あるいは、コンピュータにその処理の手順の実行させるためのプログラムを、そのコンピュータが読み取りできる記録媒体、例えば、FD(フロッピーデイスク(登録商標))や、MO、ROM、メモリカード、CD、DVD、リムーバルデイスクなどに記録して、保存したり、配布したりすることが可能である。また、上記のプログラムをインターネットや電子メールなど、ネットワークを介して提供することも可能である。
【0065】これら記録媒体からコンピュータに前記のプログラムをインストールすることにより、あるいはネットワークからダウンロードしてコンピュータに前記のプログラムをインストールすることにより、本発明を実施することが可能となる。但し、コンピュータへのインストールはコンピュータ単位であり、装置やシステムが複数あることなどでインストールの対象となるコンピュータが複数ある場合には、当該プログラムは必要な処理部分毎にインストールされることは当然である。この場合、当該プログラムはコンピュータ対応に記録媒体に記録するか、またはダウンロードしてもよい。
【0066】また、本発明は、画像入力工程を有する文字認識方法とその装置にも適用でき、このことにより、文字認識率の高い文字認識方法とその装置さらには文字認識プログラムとそのプログラムを記録した記録媒体の提供が可能となる。
【0067】
【発明の効果】以上の説明から明らかなように、本発明は以下の効果を奏する。
【0068】本発明は、撮影時に文字認識に対して最適な画像が得られるように焦点距離を設定するので、これにより撮影された文字画像の認識率が高まる。そのため、文字認識システムの入力画像を直接改善するためシステム全体の性能を向上させることができる。また、実環境において自動的に最適焦点距離を計算し設定するので、撮影者の手間が省ける。これにより、無人稼働が可能となる。
【0069】このように、本発明は、近年進んでいるIT産業に関して、多様なインターフェイス(カメラ、センサー系など)からの情報処理を推進するものであり、情景文字認識の製品開発に大いに寄与する。
【出願人】 【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
【住所又は居所】東京都千代田区大手町二丁目3番1号
【出願日】 平成14年3月6日(2002.3.6)
【代理人】 【識別番号】100062199
【弁理士】
【氏名又は名称】志賀 富士弥 (外2名)
【公開番号】 特開2003−256771(P2003−256771A)
【公開日】 平成15年9月12日(2003.9.12)
【出願番号】 特願2002−60221(P2002−60221)