トップ :: H 電気 :: H04 電気通信技術




【発明の名称】 文字図形列抽出装置,文字図形列抽出方法,その方法を実行するプログラム,そのプログラムを記録した記録媒体
【発明者】 【氏名】盧 朝陽

【氏名】安藤 慎吾

【氏名】片岡 香織

【氏名】高橋 裕子

【氏名】鈴木 章

【氏名】安野 貴之

【要約】 【課題】画像から文字図形列である領域を適切かつ高速に抽出する。

【構成】画像データ入力手段11によって入力された画像データに対し、エッジ抽出処理及び2値化処理を施す手段12、孤立点を除去する孤立点除去手段13、直線除去部141、ブラッシュ処理手段14、モフォロジ処理手段15、閾値記憶部19から取得した閾値に基づいて形状を解析する形状解析手段16、重複領域除去手段17を順に施して得られた文字図形列領域を出力する。
【特許請求の範囲】
【請求項1】
画像データに含まれる文字図形列を形成する領域を抽出する文字図形列抽出装置であって、
前記画像データを画像データ取得手段から入力する画像データ入力手段と、
前記入力された画像データにエッジ抽出処理を施し、さらに、そのエッジ抽出された画像データに対し2値化処理を施した第1段階画像データを生成するエッジ抽出手段と、
前記第1段階画像データに関して他の第1値画素から孤立した第1値画素を除去して、第2段階画像データを生成する孤立点除去手段と、
前記第2段階画像データから直線的に連続する第1値画素の領域を検出し、さらに、その領域を構成する第1値画素を除去した第3段階画像データを生成する直線除去手段と、
注目画素に関する近傍を定義する閾値を閾値記憶部から読み出し、その閾値に基づいて前記第3段階画像データに対してブラッシュ処理を施して、第4段階画像データを生成するブラッシュ処理手段と、
前記第4段階画像データに対し、エロージョンとダイレーションを施して、第5段階画像データを生成するモフォロジ処理手段と、
前記第5段階画像データに対して、第1値画素領域をラベリングし、同一領域を一領域と見做して各領域の第1外接矩形を算出し、
該第1外接矩形内の第1値画素数が第1値画素数の上限値を超えた場合を真として判定する第1判定,
該第1外接矩形内の第1値画素数が第1値画素数の下限値を超えた場合を真として判定する第2判定,
該第1外接矩形の短辺長が短辺長の下限値を超えた場合を真として判定する第3判定,
該第1外接矩形内の第1値画素数と第2値画素数の比率が比率の下限値を超えた場合を真として判定する第4判定,
前記入力された画像データにおいて、その第1外接矩形の内部に対応する部分のコントラストがコントラストの下限値を超えた場合を真として判定する第5判定,
のいずれかの判定で真として判定された第1外接矩形を第2外接矩形と見做し、算出された第1外接矩形から第2外接矩形を除去し、残った第1外接矩形を第3外接矩形と見做して生成する形状解析手段と、
前記包含関係にある第3外接矩形のうち、含まれる方の第3外接矩形を除去し、残った第3外接矩形を第4外接矩形と見做して生成する重複領域除去手段と、
前記第4外接矩形を文字図形列領域と見做して出力する文字図形列領域出力手段と、
を備えることを特徴とする文字図形列抽出装置。
【請求項2】
画像データに含まれる文字図形列を形成する領域を抽出する文字図形列抽出方法であって、
前記画像データを画像データ取得手段から入力する画像データ入力ステップと、
その入力された画像データにエッジ抽出処理を施し、さらに、そのエッジ抽出された画像データに対し2値化処理を施した第1段階画像データを生成するエッジ抽出ステップと、
その第1段階画像データに関して他の第1値画素から孤立した第1値画素を除去し、第2段階画像データを生成する孤立点除去ステップと、
前記第2段階画像データから直線的に連続する第1値画素の領域を検出し、さらに、その領域を構成する第1値画素を除去した第3段階画像データを生成する直線除去ステップと、
注目画素に関する近傍を定義する閾値を閾値記憶部から読み出し、その閾値に基づいて前記第3段階画像データに対してブラッシュ処理を施し、第4段階画像データを生成するブラッシュ処理ステップと、
前記第4段階画像データに対し、エロージョンとダイレーションを施して、第5段階画像データを生成するモフォロジ処理ステップと、
前記第5段階画像データに対して、第1値画素領域をラベリングし、同一領域を一領域と見做して各領域の第1外接矩形を算出し、
該第1外接矩形内の第1値画素数が第1値画素数の上限値を超えた場合を真として判定する第1判定,
該第1外接矩形内の第1値画素数が第1値画素数の下限値を超えた場合を真として判定する第2判定,
該第1外接矩形の短辺長が短辺長の下限値を超えた場合を真として判定する第3判定,
該第1外接矩形内の第1値画素数と第2値画素数の比率が比率の下限値を超えた場合を真として判定する第4判定,
前記入力された画像データにおいて、その第1外接矩形の内部に対応する部分のコントラストがコントラストの下限値を超えた場合を真として判定する第5判定,
のいずれかの判定で真として判定された第1外接矩形を第2外接矩形と見做し、算出された第1外接矩形から第2外接矩形を除去し、残った第1外接矩形を第3外接矩形と見做して生成する形状解析ステップと、
包含関係にある第3外接矩形のうち、含まれる方の第3外接矩形を除去し、残った第3外接矩形を第4外接矩形と見做して生成する重複領域除去ステップと、
その第4外接矩形を文字図形列領域と見做して出力する文字図形列領域出力ステップと、
を有することを特徴とする文字図形列抽出方法。
【請求項3】
請求項2に記載の文字図形列抽出方法を、コンピュータで実行可能なコンピュータプログラムとして記述したことを特徴とする文字図形列抽出プログラム。
【請求項4】
請求項2に記載の文字図形列抽出方法を、コンピュータで実行可能なプログラムに記述し、そのプログラムを記録したことを特徴とする記録媒体。
【請求項5】
画像データに含まれる文字図形列を形成する領域を抽出する文字図形列抽出装置であって、
前記画像データを画像データ取得手段から入力する画像データ入力手段と、
前記入力された画像データにエッジ抽出処理を施し、さらに、そのエッジ抽出された画像データに対し2値化処理を施した第1段階画像データを生成するエッジ抽出手段と、
前記第1段階画像データに関して他の第1値画素から孤立した第1値画素を除去して、第2段階画像データを生成する孤立点除去手段と、
前記第2段階画像データから直線的に連続する第1値画素の領域を検出し、さらに、その領域を構成する第1値画素を除去した第3段階画像データを生成する直線除去手段と、
注目画素に関する近傍を定義する閾値を閾値記憶部から読み出し、その閾値に基づいて前記第3段階画像データに対してブラッシュ処理を施して、第4段階画像データを生成するブラッシュ処理手段と、
前記第4段階画像データに対し、エロージョンとダイレーションを施して、第5段階画像データを生成するモフォロジ処理手段と、
前記第5段階画像データに対して、第1値画素領域をラベリングし、同一領域を一領域と見做して各領域の第1外接矩形を算出し、
該第1外接矩形内の第1値画素数が第1値画素数の上限値を超えた場合を真として判定する第1判定,
該第1外接矩形内の第1値画素数が第1値画素数の下限値を超えた場合を真として判定する第2判定,
該第1外接矩形の短辺長が短辺長の下限値を超えた場合を真として判定する第3判定,
該第1外接矩形内の第1値画素数と第2値画素数の比率が比率の下限値を超えた場合を真として判定する第4判定,
前記入力された画像データにおいて、その第1外接矩形の内部に対応する部分のコントラストがコントラストの下限値を超えた場合を真として判定する第5判定,
のいずれかの判定で真として判定された第1外接矩形を第2外接矩形と見做し、算出された第1外接矩形から第2外接矩形を除去し、残った第1外接矩形を第3外接矩形と見做して生成する形状解析手段と、
前記包含関係にある第3外接矩形のうち、含まれる方の第3外接矩形を除去し、残った第3外接矩形を第4外接矩形と見做して生成する重複領域除去手段と、
前記第4外接矩形のうち、外接矩形領域の2値化のしやすさ、ストローク幅の分散の少なさ、ストローク幅の最大の大きさ、2値化後の第1値画素領域と第2値画素領域との境界の複雑さ、ストローク長の最大の大きさ、をそれぞれ数値化し、文字らしくない外接矩形領域と判定されたものを第4外接矩形から除去し、残った第4外接矩形を第5外接矩形と見做して生成する文字らしさ解析手段と、
前記第5外接矩形を文字図形列領域と見做して出力する文字図形列領域出力手段と、
を備えることを特徴とする文字図形列抽出装置。
【請求項6】
画像データに含まれる文字図形列を形成する領域を抽出する文字図形列抽出方法であって、
前記画像データを画像データ取得手段から入力する画像データ入力ステップと、
その入力された画像データにエッジ抽出処理を施し、さらに、そのエッジ抽出された画像データに対し2値化処理を施した第1段階画像データを生成するエッジ抽出ステップと、
その第1段階画像データに関して他の第1値画素から孤立した第1値画素を除去し、第2段階画像データを生成する孤立点除去ステップと、
前記第2段階画像データから直線的に連続する第1値画素の領域を検出し、さらに、その領域を構成する第1値画素を除去した第3段階画像データを生成する直線除去ステップと、
注目画素に関する近傍を定義する閾値を閾値記憶部から読み出し、その閾値に基づいて前記第3段階画像データに対してブラッシュ処理を施し、第4段階画像データを生成するブラッシュ処理ステップと、
前記第4段階画像データに対し、エロージョンとダイレーションを施して、第5段階画像データを生成するモフォロジ処理ステップと、
前記第5段階画像データに対して、第1値画素領域をラベリングし、同一領域を一領域と見做して各領域の第1外接矩形を算出し、
該第1外接矩形内の第1値画素数が第1値画素数の上限値を超えた場合を真として判定する第1判定,
該第1外接矩形内の第1値画素数が第1値画素数の下限値を超えた場合を真として判定する第2判定,
該第1外接矩形の短辺長が短辺長の下限値を超えた場合を真として判定する第3判定,
該第1外接矩形内の第1値画素数と第2値画素数の比率が比率の下限値を超えた場合を真として判定する第4判定,
前記入力された画像データにおいて、その第1外接矩形の内部に対応する部分のコントラストがコントラストの下限値を超えた場合を真として判定する第5判定,
のいずれかの判定で真として判定された第1外接矩形を第2外接矩形と見做し、算出された第1外接矩形から第2外接矩形を除去し、残った第1外接矩形を第3外接矩形と見做して生成する形状解析ステップと、
包含関係にある第3外接矩形のうち、含まれる方の第3外接矩形を除去し、残った第3外接矩形を第4外接矩形と見做して生成する重複領域除去ステップと、
前記第4外接矩形のうち、外接矩形領域の2値化のしやすさ、ストローク幅の分散の少なさ、ストローク幅の最大の大きさ、2値化後の第1値画素領域と第2値画素領域との境界の複雑さ、ストローク長の最大の大きさ、をそれぞれ数値化し、文字らしくない外接矩形領域と判定されたものを第4外接矩形から除去し、残った第4外接矩形を第5外接矩形と見做して生成する文字らしさ解析ステップと、
その第5外接矩形を文字図形列領域と見做して出力する文字図形列領域出力ステップと、
を有することを特徴とする文字図形列抽出方法。
【請求項7】
請求項6に記載の文字図形列抽出方法を、コンピュータで実行可能なコンピュータプログラムとして記述したことを特徴とする文字図形列抽出プログラム。
【請求項8】
請求項6に記載の文字図形列抽出方法を、コンピュータで実行可能なプログラムに記述し、そのプログラムを記録したことを特徴とする記録媒体。
【発明の詳細な説明】【技術分野】
【0001】
本発明は、画像データから文字図形列や図形などのパターンを抽出する技術に関するものである。
【背景技術】
【0002】
近年、デジタルカメラが携帯電話やPC(Personal Computer)等に搭載されるようになり、いつでも手軽に画像データを取得、保存できるようになった。この機能をさらに活用する手段として、画像に写る文字図形(即ち、文字を形成する図形)列を画像データから認識し、画像検索のためのインデクシングとして活用することが考えられる。
【0003】
例えば、文字図形列を効率よく検出する手段として、画像から文字と関係ない成分を段階的に除去していき、最後に残った成分を文字成分として検出する手法が知られている(例えば、非特許文献1参照)。この手法では、エッジ成分を検出し、長い直線成分や孤立点を除去した後、残った成分の外接矩形を取り、形状に関する解析結果から文字図形列を検出するアルゴリズムを提案している。また、この手法は、図面や文書等を主に対象にしている手法である。
【0004】
なお、関連技術として、自動的に閾値を選択して2値化を行う手法も広く知られている。
【非特許文献1】Zhaoyang Lu,”Detection of Text Regions from Digital Engineering Drawings”,IEEE Transactions on Pattern Analysis and Machine Intelligence,APRIL 1998,Vol.20,No.4,p.431−439.
【非特許文献2】大津展之,「判別および最小2乗基準に基づく自動しきい値選定法」,電子通信学会論文誌,1980,Vol.J63−D,No.4,pp.349−356.
【発明の開示】
【発明が解決しようとする課題】
【0005】
上述の手法は、図面等を対象としているため、例えば、デジタルカメラによって撮影された自然画像(例えば、文字入りの看板が背景に撮像された画像やテロップを含む映像)から文字図形列を抽出する手法としては最適と言えない。特に、大量の画像インデクシングを行ったり、映像を扱う場合、できるだけ高速に文字図形列を抽出しなくてはならず、上述の手法ではやや複雑過ぎて処理速度面に関して問題を生じる。
【0006】
本発明は、前記課題に基づいてなされたものであって、自然画像または映像から文字図形列である領域を適切かつ高速に抽出できる文字図形列抽出装置,文字図形列抽出方法,その方法を実行するプログラム,そのプログラムを記録した記録媒体を提供することにある。
【課題を解決するための手段】
【0007】
本発明は、前記課題の解決を図るために、請求項1記載の発明は、画像データに含まれる文字図形列を形成する領域を抽出する文字図形列抽出装置であって、前記画像データを画像データ取得手段から入力する画像データ入力手段と、前記入力された画像データにエッジ抽出処理を施し、さらに、そのエッジ抽出された画像データに対し2値化処理を施した第1段階画像データを生成するエッジ抽出手段と、前記第1段階画像データに関して他の第1値画素から孤立した第1値画素を除去して、第2段階画像データを生成する孤立点除去手段と、前記第2段階画像データから直線的に連続する第1値画素の領域を検出し、さらに、その領域を構成する第1値画素を除去した第3段階画像データを生成する直線除去手段と、注目画素に関する近傍を定義する閾値を閾値記憶部から読み出し、その閾値に基づいて前記第3段階画像データに対してブラッシュ処理を施して、第4段階画像データを生成するブラッシュ処理手段と、前記第4段階画像データに対し、エロージョンとダイレーションを施して、第5段階画像データを生成するモフォロジ処理手段と、前記第5段階画像データに対して、第1値画素領域をラベリングし、同一領域を一領域と見做して各領域の第1外接矩形を算出し、該第1外接矩形内の第1値画素数が第1値画素数の上限値を超えた場合を真として判定する第1判定,該第1外接矩形内の第1値画素数が第1値画素数の下限値を超えた場合を真として判定する第2判定,該第1外接矩形の短辺長が短辺長の下限値を超えた場合を真として判定する第3判定,該第1外接矩形内の第1値画素数と第2値画素数の比率が比率の下限値を超えた場合を真として判定する第4判定,前記入力された画像データにおいて、その第1外接矩形の内部に対応する部分のコントラストがコントラストの下限値を超えた場合を真として判定する第5判定,のいずれかの判定で真として判定された第1外接矩形を第2外接矩形と見做し、算出された第1外接矩形から第2外接矩形を除去し、残った第1外接矩形を第3外接矩形と見做して生成する形状解析手段と、前記包含関係にある第3外接矩形のうち、含まれる方の第3外接矩形を除去し、残った第3外接矩形を第4外接矩形と見做して生成する重複領域除去手段と、前記第4外接矩形を文字図形列領域と見做して出力する文字図形列領域出力手段と、を備えることを特徴とする。
【0008】
請求項2記載の発明は、画像データに含まれる文字図形列を形成する領域を抽出する文字図形列抽出方法であって、前記画像データを画像データ取得手段から入力する画像データ入力ステップと、その入力された画像データにエッジ抽出処理を施し、さらに、そのエッジ抽出された画像データに対し2値化処理を施した第1段階画像データを生成するエッジ抽出ステップと、その第1段階画像データに関して他の第1値画素から孤立した第1値画素を除去し、第2段階画像データを生成する孤立点除去ステップと、前記第2段階画像データから直線的に連続する第1値画素の領域を検出し、さらに、その領域を構成する第1値画素を除去した第3段階画像データを生成する直線除去ステップと、注目画素に関する近傍を定義する閾値を閾値記憶部から読み出し、その閾値に基づいて前記第3段階画像データに対してブラッシュ処理を施し、第4段階画像データを生成するブラッシュ処理ステップと、前記第4段階画像データに対し、エロージョンとダイレーションを施して、第5段階画像データを生成するモフォロジ処理ステップと、前記第5段階画像データに対して、第1値画素領域をラベリングし、同一領域を一領域と見做して各領域の第1外接矩形を算出し、該第1外接矩形内の第1値画素数が第1値画素数の上限値を超えた場合を真として判定する第1判定,該第1外接矩形内の第1値画素数が第1値画素数の下限値を超えた場合を真として判定する第2判定,該第1外接矩形の短辺長が短辺長の下限値を超えた場合を真として判定する第3判定,該第1外接矩形内の第1値画素数と第2値画素数の比率が比率の下限値を超えた場合を真として判定する第4判定,前記入力された画像データにおいて、その第1外接矩形の内部に対応する部分のコントラストがコントラストの下限値を超えた場合を真として判定する第5判定,のいずれかの判定で真として判定された第1外接矩形を第2外接矩形と見做し、算出された第1外接矩形から第2外接矩形を除去し、残った第1外接矩形を第3外接矩形と見做して生成する形状解析ステップと、包含関係にある第3外接矩形のうち、含まれる方の第3外接矩形を除去し、残った第3外接矩形を第4外接矩形と見做して生成する重複領域除去ステップと、その第4外接矩形を文字図形列領域と見做して出力する文字図形列領域出力ステップと、を有することを特徴とする。
【0009】
請求項3記載の発明は、文字図形列抽出プログラムであって、請求項2に記載の文字図形列抽出方法を、コンピュータで実行可能なコンピュータプログラムとして記述したことを特徴とする。
【0010】
請求項4記載の発明は、記録媒体であって、請求項2に記載の文字図形列抽出方法を、コンピュータで実行可能なプログラムに記述し、そのプログラムを記録したことを特徴とする。
【0011】
請求項5記載の発明は、画像データに含まれる文字図形列を形成する領域を抽出する文字図形列抽出装置であって、前記画像データを画像データ取得手段から入力する画像データ入力手段と、前記入力された画像データにエッジ抽出処理を施し、さらに、そのエッジ抽出された画像データに対し2値化処理を施した第1段階画像データを生成するエッジ抽出手段と、前記第1段階画像データに関して他の第1値画素から孤立した第1値画素を除去して、第2段階画像データを生成する孤立点除去手段と、前記第2段階画像データから直線的に連続する第1値画素の領域を検出し、さらに、その領域を構成する第1値画素を除去した第3段階画像データを生成する直線除去手段と、注目画素に関する近傍を定義する閾値を閾値記憶部から読み出し、その閾値に基づいて前記第3段階画像データに対してブラッシュ処理を施して、第4段階画像データを生成するブラッシュ処理手段と、前記第4段階画像データに対し、エロージョンとダイレーションを施して、第5段階画像データを生成するモフォロジ処理手段と、前記第5段階画像データに対して、第1値画素領域をラベリングし、同一領域を一領域と見做して各領域の第1外接矩形を算出し、該第1外接矩形内の第1値画素数が第1値画素数の上限値を超えた場合を真として判定する第1判定,該第1外接矩形内の第1値画素数が第1値画素数の下限値を超えた場合を真として判定する第2判定,該第1外接矩形の短辺長が短辺長の下限値を超えた場合を真として判定する第3判定,該第1外接矩形内の第1値画素数と第2値画素数の比率が比率の下限値を超えた場合を真として判定する第4判定,前記入力された画像データにおいて、その第1外接矩形の内部に対応する部分のコントラストがコントラストの下限値を超えた場合を真として判定する第5判定,のいずれかの判定で真として判定された第1外接矩形を第2外接矩形と見做し、算出された第1外接矩形から第2外接矩形を除去し、残った第1外接矩形を第3外接矩形と見做して生成する形状解析手段と、前記包含関係にある第3外接矩形のうち、含まれる方の第3外接矩形を除去し、残った第3外接矩形を第4外接矩形と見做して生成する重複領域除去手段と、前記第4外接矩形のうち、外接矩形領域の2値化のしやすさ、ストローク幅の分散の少なさ、ストローク幅の最大の大きさ、2値化後の第1値画素領域と第2値画素領域との境界の複雑さ、ストローク長の最大の大きさ、をそれぞれ数値化し、文字らしくない外接矩形領域と判定されたものを第4外接矩形から除去し、残った第4外接矩形を第5外接矩形と見做して生成する文字らしさ解析手段と、前記第5外接矩形を文字図形列領域と見做して出力する文字図形列領域出力手段と、を備えることを特徴とする。
【0012】
請求項6記載の発明は、画像データに含まれる文字図形列を形成する領域を抽出する文字図形列抽出方法であって、前記画像データを画像データ取得手段から入力する画像データ入力ステップと、その入力された画像データにエッジ抽出処理を施し、さらに、そのエッジ抽出された画像データに対し2値化処理を施した第1段階画像データを生成するエッジ抽出ステップと、その第1段階画像データに関して他の第1値画素から孤立した第1値画素を除去し、第2段階画像データを生成する孤立点除去ステップと、前記第2段階画像データから直線的に連続する第1値画素の領域を検出し、さらに、その領域を構成する第1値画素を除去した第3段階画像データを生成する直線除去ステップと、注目画素に関する近傍を定義する閾値を閾値記憶部から読み出し、その閾値に基づいて前記第3段階画像データに対してブラッシュ処理を施し、第4段階画像データを生成するブラッシュ処理ステップと、前記第4段階画像データに対し、エロージョンとダイレーションを施して、第5段階画像データを生成するモフォロジ処理ステップと、前記第5段階画像データに対して、第1値画素領域をラベリングし、同一領域を一領域と見做して各領域の第1外接矩形を算出し、該第1外接矩形内の第1値画素数が第1値画素数の上限値を超えた場合を真として判定する第1判定,該第1外接矩形内の第1値画素数が第1値画素数の下限値を超えた場合を真として判定する第2判定,該第1外接矩形の短辺長が短辺長の下限値を超えた場合を真として判定する第3判定,該第1外接矩形内の第1値画素数と第2値画素数の比率が比率の下限値を超えた場合を真として判定する第4判定,前記入力された画像データにおいて、その第1外接矩形の内部に対応する部分のコントラストがコントラストの下限値を超えた場合を真として判定する第5判定,のいずれかの判定で真として判定された第1外接矩形を第2外接矩形と見做し、算出された第1外接矩形から第2外接矩形を除去し、残った第1外接矩形を第3外接矩形と見做して生成する形状解析ステップと、包含関係にある第3外接矩形のうち、含まれる方の第3外接矩形を除去し、残った第3外接矩形を第4外接矩形と見做して生成する重複領域除去ステップと、前記第4外接矩形のうち、外接矩形領域の2値化のしやすさ、ストローク幅の分散の少なさ、ストローク幅の最大の大きさ、2値化後の第1値画素領域と第2値画素領域との境界の複雑さ、ストローク長の最大の大きさ、をそれぞれ数値化し、文字らしくない外接矩形領域と判定されたものを第4外接矩形から除去し、残った第4外接矩形を第5外接矩形と見做して生成する文字らしさ解析ステップと、その第5外接矩形を文字図形列領域と見做して出力する文字図形列領域出力ステップと、を有することを特徴とする。
【0013】
請求項7記載の発明は、文字図形列抽出プログラムであって、請求項6に記載の文字図形列抽出方法を、コンピュータで実行可能なコンピュータプログラムとして記述したことを特徴とする。
【0014】
請求項8記載の発明は、記録媒体であって、請求項6に記載の文字図形列抽出方法を、コンピュータで実行可能なプログラムに記述し、そのプログラムを記録したことを特徴とする。
【0015】
前記の請求項1,2,3,4の発明によれば、上述のエッジ抽出,2値化処理,孤立点除去,ブラッシュ処理,モフォロジ処理を施した画像に対し、単純化した形状解析処理を実行できる。
【0016】
前記の請求項5,6,7,8の発明によれば、上述のエッジ抽出,2値化処理,孤立点除去,ブラッシュ処理,モフォロジ処理を施した画像に対し、単純化した形状解析処理,文字らしさ解析処理を実行できる。
【発明の効果】
【0017】
以上示したように請求項1,2,3,4の発明によれば、形状解析処理が単純化されるため、文字図形列抽出処理全体として、画像から文字図形列領域を適切かつ高速に抽出できる。また、非文字図形列領域の誤抽出を抑制でき、その後の認識処理の負担を軽減できる。
【0018】
請求項5,6,7,8の発明によれば、請求項1,2,3,4の発明よりも、非文字列領域の誤抽出を抑制でき、その後の認識処理の負担を軽減できる。
【0019】
これらを以って文字認識技術分野に貢献できる。
【発明を実施するための最良の形態】
【0020】
以下、本発明の実施形態を図面等に基づいて詳細に説明する。
【0021】
本実施形態における文字図形列抽出装置の構成を図1に基づいて説明する。本実施形態における文字図形列抽出装置は、画像データ入力部11,画像処理部1,文字図形列領域出力部18,閾値記憶部19から構成される。また、上記の画像処理部1は、エッジ抽出部12,孤立点除去部13,直線除去部141,ブラッシュ処理部14,モフォロジ処理部15,形状解析部16,重複領域除去部17から構成される。なお、閾値記憶部19に対し閾値を入力及び記憶する手段を備えていても良いし、予め固定的な値が閾値記憶部19に記憶されていても良い。また、前記閾値は、例えば、文字図形(または文字図形列),図形(例えば、トレードマーク)などを含むパターンを認識するための閾値である。
【0022】
画像データ入力部11は、画像データ取得手段(例えば、デジタルカメラや画像データを格納したデータベース等)から自然画像データ(即ち、多値画像データ)を入力し、エッジ抽出部12に伝送する。なお、映像から自然画像データを入力する場合、その映像中の各フレーム画像(即ち、画像データ)を画像データ入力部11から入力する。
【0023】
エッジ抽出部12は、伝送された画像データにエッジ抽出処理を施し、さらに、そのエッジ抽出された画像データに対し2値化処理を施した画像データを生成し孤立点除去部13に伝送する。なお、エッジ抽出処理には、例えば、Sobelオペレータ、Laplasianオペレータ等を用いる。また、2値化処理には、例えば、固定閾値による方法、局所窓内の明度ヒストグラムにもとづく適応的閾値による方法等を用いる。以下の説明では、エッジ領域に対し2値化処理を行った領域を黒色画素(即ち、画素値が「0」の画素;第1値画素)として説明する。
【0024】
孤立点除去部13は、エッジ抽出後の画像データに対して、1画素の孤立点黒色画素を削除したその結果生成した画像データを直線除去部141へ伝送する。
【0025】
直線除去部141は、孤立点黒画素除去後の画像データから黒色画素が直線的に連続する場所を検出し、それらを構成する黒色画素を全て除去する。具体的には、まず、世界座標系において、画像を回転角度θ°だけ回転(もしくはスキュー変換)する。なお、回転後の画像も2値画像であるとする。次に、その画像を縦方向(世界座標系y軸方向)または横方向(世界座標系x軸方向)にスキャン(線状に検査)して、黒色画素のランレングスLを計測し、そのランレングスLが特定の閾値n1より大きいものを直線と見做す。なお、閾値n1は閾値記憶部19から読み出す。次に、回転角度θ°を数段階変えて同様に処理する。そして、その直線と見做された構成画素を全て除去する。最後に、直線除去された段階の画像データを生成しブラッシュ処理部14へ伝送する。
【0026】
ブラッシュ処理部14は、直線除去部141から伝送されてきた全ての黒色画素をある距離(画素数)まで上下左右(画像座標系y方向x方向)に延ばす処理を行う。即ち、直線除去部141から伝送された画像データ全体に対して以下のようなルールに基づいた演算を行うものである。なお、ブラッシュ処理とは、全ての対象画素をある距離(画素数)まで放射状に延ばす処理である。そして、その演算結果である画像データを生成しモフォロジ処理部15へ伝送する。
【0027】
まず、注目画素から上(画像座標系の+y方向)n2画素数分及び下(画像座標系の−y方向)n2画素数分の範囲内における画素のどれかが一つでも黒色画素であれば注目画素も黒色画素にする。なお、n2は、ブラッシュ処理における注目画素に関する近傍を定義する閾値であって、正の値を示す。閾値n2は閾値記憶部19から読み出すものとする。
【0028】
その後、注目画素から左(画像座標系の−x方向)n2画素数分及び右(画像座標系の+x方向)n2画素数分の範囲内における画素のどれかが一つでも黒色画素であれば注目画素も黒色画素にする。
【0029】
以上が、本実施形態におけるブラッシュ処理になる。
【0030】
モフォロジ処理部15は、ブラッシュ処理部14から伝送された画像データに対してエロージョンおよびダイレーションを施し(即ち、モフォロジ処理を施し)、その施した画像データを生成し形状解析部16へ伝送する。
【0031】
形状解析部16では、形状解析として次の処理を行う。
【0032】
まず、モフォロジ処理部15から伝送された画像データに対し黒色画素のラベリングを行い、同一ラベルの領域を一領域と考え各領域の外接矩形領域(以下、単に外接矩形という)を計算する(抽出する)。なお、外接矩形は斜めに回転した矩形(長方形)も許すものとする。
【0033】
そして、各外接矩形に対し、以下の式1乃至5のいずれか一つに当てはまる外接矩形を除去し、全くあてはまらない外接矩形を抽出する。なお、n3は、外接矩形内の黒色画素数の上限値を定義する閾値であって、正の値である。n4は、外接矩形内の黒色画素数の下限値を定義する閾値であって、正の値である。n5は、外接矩形の短辺の下限値を定義する閾値であって、正の値である。n6は、外接矩形内の黒色画素数と白色画素(第2値画素)数の比の下限値を定義する閾値であって、正の値である。n7は、外接矩形内の元画像(即ち、自然画像データ)のコントラストの下限値を定義する閾値であって、正の値である。前記コントラストは、矩形内の2値化前の元画像で計測を行い、例えば、明度ヒストグラムの分散等で定義される。閾値n3からn7は、閾値記憶部19から読み出して使用するものとする。
【0034】
【数1】


【0035】
【数2】


【0036】
【数3】


【0037】
【数4】


【0038】
【数5】


【0039】
ただし、Pbは矩形内の黒色画素数、Lsは矩形の短辺、Pwは矩形内の白色画素数、Pcは矩形内の元画像のコントラストである。
【0040】
抽出された外接矩形を重複領域除去部17へ伝送する。
【0041】
重複領域除去部17は、抽出された外接矩形の重なりを調べ、完全に包含するようなものに関しては小さい方(即ち、含まれる方の外接矩形)を除去し、残された外接矩形を文字図形列領域出力部18へ伝送する。
【0042】
文字図形列領域出力部18は、残された外接矩形に関する情報(例えば、矩形の長辺の長さ、短辺の長さ、回転角度)を文字図形領域として出力する。例えば、外接矩形を元画像(即ち、画像入力部11によって入力された画像)に重畳してディスプレイ装置に表示させる。
【0043】
本実施形態における文字図形列抽出方法を図2に基づいて説明する。なお、以下の説明で、図1中の符号と同じものの説明は省略する。
【0044】
まず、画像データ取得手段から自然画像データを入力する(S101)。
【0045】
次に、入力された自然画像データに対しエッジ抽出処理を施し、さらに、そのエッジ抽出された画像データに対し2値化処理を施す(S102)。
【0046】
次に、エッジ抽出処理及び2値化処理を施された画像データにおいて、1画素の孤立点黒色画素を削除する(S103)。
【0047】
次に、孤立点黒色画素を削除された画像データに対して上述の直線除去を施す(S1041)。
【0048】
次に、直線除去された画像データ全体に対して上述のブラッシュ処理を施す(S104)。
【0049】
次に、ブラッシュ処理を施された画像データに対して、上述のモフォロジ処理を施す(S105)。
【0050】
次に、モフォロジ処理を施された画像データに対して、上述の形状解析を施し、外接矩形領域を抽出する(S106)。
【0051】
そして、抽出された外接矩形領域の重なりを調べ、完全に包含するようなものに関しては含まれる方を除去する(S107)。即ち、残された外接矩形領域が、閾値記憶部19に記憶された閾値に基づくパターン(例えば、文字図形列パターン)に一致した領域である。
【0052】
なお、本実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のCPU(Central Processing Unit)(あるいはMPU(Microprocessing Unit))が記憶媒体に格納されたプログラムコードを読み出し実行することによっても、実現できる。その場合、記憶媒体から読み出されたプログラムコード自体が上述した実施の形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体、例えば、CD−ROM(Compact Disk Read Only Memory)、DVD−ROM(Digital Versatile Disk Read Only Memory)、CD−R(Compact Disk Recordable)、CD−RW(Compact Disk ReWritable)、MO(Magneto−Optical disk)、HDD(Hard Disk Drive)等は本発明を構成する。
【0053】
また、高速化より文字図形検出精度を重視する場合、重複領域除去部の後に、「文字らしさ解析部」を追加した構成(例えば、図3及び図4の構成)した実施例も考えられる。
【0054】
図3中の画像データ入力部21〜重複領域除去部27,直線除去部241及び文字図形列領域出力部29は、前記画像データ入力部11〜重複領域除去部17,直線除去部141および文字図形列領域出力部18とそれぞれ同様の機能を有する。
【0055】
文字らしさ解析部28は、抽出された文字図形領域候補(例えば、重複領域除去部27によって残された外接矩形)それぞれにおいて、5種類の文字らしさ基準値を算出し、文字図形領域でないと判定されたものは除外する。ここで、文字図形領域候補は全て長方形の形状で検出されており、長方形の短辺がSになるよう予め大きさ正規化されているものとする。なお、Sの値は予め決められているものとする。
【0056】
1つ目の文字らしさ基準値は、2値化のしやすさを数値化したものである。
【0057】
まず、一つの文字図形領域候補に対し、図5のような明度ヒストグラムを算出する。なお、図5は、x軸が明度、y軸が頻度である。
【0058】
次に、ヒストグラムから2値化のための閾値を求める。なお、閾値算出法は、例えば、非特許文献2の閾値算出法などが挙げられる。
【0059】
次に、ヒストグラムから2つのピーク位置(例えば、図5中の左ピーク位置Pl,右ピーク位置Pr)を検出する。例えば、しきい値(例えば、図5中のしきい値th)で区切られた2つの領域においてそれぞれ最大の頻度を示す位置として算出可能である。
【0060】
そして、それぞれのピーク位置において前後に幅w1の範囲の頻度を累積値として求め、全体の何パーセントを占めているかを調べる。なお、幅w1の値は、予め決められているものとする。
【0061】
ここで、左ピーク位置の周囲から算出されたものの割合をPerL,右ピークから算出されたものの割合をPerRということとする。PerL及びPerRが予め決められたThre1より小さい(PerL<Thre1かつPerR<Thre1)場合は、文字図形領域でないと見做して候補から除外する。
【0062】
2つ目の文字らしさ基準値は、ストローク幅の分散の少なさを数値化したものである。なお、ストロークとは、文字を構成する線のことを指す。
【0063】
まず、一つの文字図形領域候補に対し、領域内を2値化した2値化文字図形領域候補を生成する。
【0064】
次に、ある一つの黒画素に対し以下の処理を施す。
【0065】
処理A1として、ある一つの黒画素に対し、上下方向、左右方向、左下−右上方向、左上−右下方向への黒画素スキャンを行い、4方向のランレングスをそれぞれ測る。
【0066】
処理A2として、それらのランレングスのうち、最も小さい長さを示したものの数値を”ストローク幅”と定義し、図6のような「ストローク幅ヒストグラム」に投票する。なお、図6では、x軸がストローク幅、y軸が頻度である。
【0067】
処理A1及び処理A2を全ての黒画素に施す。
【0068】
次に、ストローク幅ヒストグラムからピーク位置P(例えば、図6中のピーク位置P)を求める。このピーク位置Pは、頻度最大の位置を探すことで求められる。
【0069】
次に、そのピーク位置において、前後に幅w2の範囲の頻度を累積値として求め、全体の何パーセントを占めているか(割合;PerW1)を調べる。なお、幅w2の値は、予め決められたものとする。PerW1を求めた前記処理を白黒逆転させた2値化文字図形領域候補に適応しPerW2を求める。PerW1とPerW2を比較し、大きい方をPerWとして採用する。なお、このときの白画素もしくは黒画素と文字成分と背景成分の対応関係を以下でも利用することにする。
【0070】
最終的に、得られたPerWが予め決められたThre2より小さい(PerW<Thre2)場合は、文字図形領域でないと見做して候補から除外する。
【0071】
3つ目の文字らしさ基準値は、ストローク幅の最大の大きさを数値化したものである。上述のストローク幅を全て黒画素(文字成分である黒画素)で算出し、それらの最大値を求める。最大値が長方形領域の短辺長さSに対し、どの程度の大きさかを比として求めPerDとする。PerDが予め決められたThre3より大きい(PerD>Thre3)場合は、文字図形領域でないと見做して候補から除外する。
【0072】
4つ目の文字らしさ基準値は、2値化後の黒画素(文字成分である黒画素)領域と白画素(背景成分である白画素)領域との境界の複雑さを数値化したものである。
【0073】
まず、一つの文字図形領域候補に対し、領域内を2値化する。
【0074】
次に、黒画素領域と白画素領域の境界にあたる画素を検出し、その数を集計する。それが、全体の画素数に対し、どの程度の割合かを求めPerFとする。PerFが予め決められたThre4より大きい(PerF>Thre4)場合は、文字図形領域でないとして候補から除外する。
【0075】
5つ目の文字らしさ基準値は、ストローク長さの最大の大きさを数値化したものである。
【0076】
まず、一つの文字図形領域候補に対し、領域内を2値化する。
【0077】
次に、ある一つの黒画素に対し以下の処理を施す。
【0078】
処理B1として、ある一つの黒画素(文字成分である黒画素)に対し、上下方向、左右方向、左下−右上方向、左上−右下方法への黒画素のスキャンを行い、4方向のランレングスをそれぞれ測る。
【0079】
処理B2として、そのランレングスのうち、最も大きい長さを示したものの数値を「ストローク長さ」と定義する。
【0080】
処理B1及び処理B2を全ての黒画素に対して行い、その最大値を求める。その最大値が長方形領域の短辺長さSに対し、どの程度の大きさかを比として求めPerSと定義する。PerSが予め決められたThre5より大きい(PerS>Thre5)場合は、文字図形領域でないと見做して候補から除外する。
【0081】
以上の文字らしさ基準値の組み合わせによって残された外接矩形に関する情報は、文字図形列領域出力部29によって出力される。
【0082】
図4に基づいて本実施例の処理を説明する。図4中の画像データ入力ステップS201〜重複領域除去ステップS207及び直線除去ステップS2041は、前記画像データ入力ステップS101〜重複領域除去ステップS107,直線除去ステップS1041とそれぞれ同様の処理を行う。
【0083】
図4中の文字らしさ解析ステップS208は、上述の文字らしさ解析部28と同様の処理を行うステップである。即ち、抽出された文字図形領域候補それぞれにおいて、上述の5種類の文字らしさ基準値を算出し、文字図形領域でないと判定されたものは除外するステップである。
【0084】
なお、上述のSの値,Thre1からThre5の値,w1及びw2の値は、閾値記憶部19から読み出して使用するものとする。
【0085】
以上のように、本実施形態は、画像データから文字図形列領域を抽出する方法であって、エッジ抽出、孤立点除去、直線除去、ブラッシュ処理、モフォロジ処理、形状解析、重複領域除去の順に処理を行う。
【0086】
また、本実施形態は、文字成分として抽出された部分領域の形状解析(S106)を、以下のような単純化した5つ処理にできる。
【0087】
第1処理は、特定の閾値より大きすぎる領域を削除する。
【0088】
第2処理は、特定の閾値より小さすぎる領域を削除する。
【0089】
第3処理は、特定の閾値より細長すぎる領域を削除する。
【0090】
第4処理は、外接矩形内の値(黒色画素数を白色画素数で除算した値)が、特定の閾値より小さすぎる領域を削除する。
【0091】
第5処理は、コントラストが、特定の閾値より極端に小さすぎる領域を削除する。
【0092】
これらの処理はいずれも単純な処理であるため、非常に高速に文字図形列を自然画像から抽出できる。
【0093】
例えば、上述の閾値n3からn7の閾値セットに文字コード(例えば、JIS(Japanese Industrial Standard)コード)を割り当てれば、コンピュータで扱われる文字列(例えば、テキスト)として扱うこともできる。
【0094】
以上、本発明において、記載された具体例に対してのみ詳細に説明したが、本発明の技術思想の範囲で多彩な変形および修正が可能であることは、当業者にとって明白なことであり、このような変形および修正が特許請求の範囲に属することは当然のことである。
【0095】
例えば、本実施形態の変形例として、閾値n1からn7の閾値セットを複数セット管理する閾値記憶部であっても良い。即ち、その複数の閾値セットから1つの閾値セットを予め選択しておき、その閾値セットから各々の閾値を読み出すものである。
【図面の簡単な説明】
【0096】
【図1】本実施形態における文字図形列抽出装置の構成図。
【図2】本実施形態における文字図形列抽出方法を示すフローチャート。
【図3】本実施例における文字図形列抽出装置の構成図。
【図4】本実施例における文字図形列抽出方法を示すフローチャート。
【図5】本実施例における明度ヒストグラムの一例を示す図。
【図6】本実施例におけるストローク幅ヒストグラムの一例を示す図。
【符号の説明】
【0097】
1,1’…画像処理部
11,21…画像データ入力部
12,22…エッジ抽出部
13,23…孤立点除去部
14,24…ブラッシュ処理部
15,25…モフォロジ処理部
16,26…形状解析部
17,27…重複領域除去部
18,29…文字図形列領域出力部
19…閾値記憶部
28…文字らしさ解析部
141,241…直線除去部
P…ピーク位置
Pl…左ピーク位置
Pr…右ピーク位置
th…しきい値
【出願人】 【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
【出願日】 平成18年9月12日(2006.9.12)
【代理人】 【識別番号】100096459
【弁理士】
【氏名又は名称】橋本 剛

【識別番号】100104938
【弁理士】
【氏名又は名称】鵜澤 英久


【公開番号】 特開2008−11484(P2008−11484A)
【公開日】 平成20年1月17日(2008.1.17)
【出願番号】 特願2006−246338(P2006−246338)