| 【発明の名称】 |
帳票処理装置 |
| 【発明者】 |
【氏名】倉島 憲二
|
| 【要約】 |
【課題】帳票の画像データから、帳票の種別を識別し、さらに帳票の中の罫線で囲まれた記載枠内に記載された個人情報を保護できるようにする。
【構成】帳票の画像データを画像処理して、罫線を検索する。基準線41,42,43,44を検出して基準枠20Aが存在していることを認識できた時点で、画像データが帳票Aに関するものであると類推できる。さらに、基準枠20Aを基準として、枠50,55を検出し、さらに、記載枠21,22,23,・・・が正規の位置にあるかを検索する。各記載枠が存在していることを検出できた後に、各記載枠の画像データを部分的に切り出し、その内容をテキストデータとし、暗号化されたファイル名を付して保存する。 |
【特許請求の範囲】
【請求項1】 罫線で囲まれた記載枠(21〜26)を有する帳票を画像読取機(2a,2b)で読み取った画像データを処理する処理部(12,13)が設けられており、 前記処理部(12,13)では、前記画像データ内の罫線を検出して、前記罫線で囲まれた複数の情報の記載枠(21〜26)を特定し、それぞれの記載枠(21〜26)から部分画像データを切り出し、 切り出された部分画像データのファイル名を暗号化する暗号化処理部と、暗号化されたファイル名と共に、切り出された部分画像データを保存する保存部(14)とが設けられていることを特徴とする帳票処理装置。 【請求項2】 前記保存部(14)は、複数の項目ごとに個別に設けられており、同じ種類の帳票の同じ記載枠から切り取られた部分画像データが同じ保存部に保存される請求項1記載の帳票処理装置。 【請求項3】 切り取られた部分画像データの内容に基づいて生成されたテキストデータが、暗号化されたファイル名と共に保存され、このテキストデータから、元の帳票に記載されていた内容のデータベースがそれぞれの帳票に対応して形成される請求項1または2記載の帳票処理装置。 【請求項4】 前記処理部(12,13)では、画像データ内の記載枠(21〜26)を検出するとともに、この記載枠(21〜26)内に情報が記入されているか否かの検出を行い、前記記載枠(21〜26)に情報が記入されていることが検出された後に、個々の記載枠(21〜26)の部分画像データが切り出される請求項1ないし3のいずれかに記載の帳票処理装置。 【請求項5】 前記処理部(12,13)では、画像データ内の罫線の傾き角を検出して、その傾き角を修正するように画像データの向きを修正し、この修正の後に、各記載枠(21〜26)の画像データを部分的に切り取る請求項1ないし4のいずれかに記載の帳票処理装置。
|
【発明の詳細な説明】【技術分野】 【0001】 本発明は、各種伝票や各種申し込み用紙などの複数の帳票の画像データの個人情報を保護するための帳票処理装置に関する。 【背景技術】 【0002】 各種伝票や申し込み用紙のように、申込者などが自筆で記載した帳票を画像で管理することが行われており、以下の特許文献では、前記帳票に記載された文字を認識して、帳票に記入された内容をテキストデータに変換することも記載されている。 【0003】 前記帳票には、氏名や住所の他に電話番号や職業、さらには銀行口座番号などを記載する必要がある。そのため、1枚の帳票の記載内容をそのままテキストデータ化して保存しただけでは、帳票に記載された個人情報を保護することができない。例えば帳票の画像データがテキストデータ化する前に外部に流出したり、あるいはテキストデータとされた後にも外部に流出するおそれがある。 【特許文献1】特開昭61−59568号公報 【特許文献2】特開平7−152861号公報 【特許文献3】特開2002−324236号公報 【特許文献4】特開2003−303315号公報 【特許文献5】特開2004−334913号公報 【発明の開示】 【発明が解決しようとする課題】 【0004】 本発明は、上記従来の課題を解決するものであり、帳票に記入された各種情報をばらばらに管理できるようにして、個人情報の保護を可能とした帳票処理装置を提供することを目的としている。 【0005】 さらに、本発明は、ばらばらの画像データをテキストデータとして保存でき、さらにはテキストデータのデータベースとして構築することができる帳票処理装置を提供することを目的としている。 【課題を解決するための手段】 【0006】 本発明は、罫線で囲まれた記載枠(21〜26)を有する帳票を画像読取機(2a,2b)で読み取った画像データを処理する処理部(12,13)が設けられており、 前記処理部(12,13)では、前記画像データ内の罫線を検出して、前記罫線で囲まれた複数の情報の記載枠(21〜26)を特定し、それぞれの記載枠(21〜26)から部分画像データを切り出し、 切り出された部分画像データのファイル名を暗号化する暗号化処理部と、暗号化されたファイル名と共に、切り出された部分画像データを保存する保存部(14)とが設けられていることを特徴とするものである。 【0007】 本発明の帳票処理装置では、帳票を読み取った画像データのそれぞれの記載枠に記入された情報を別々の部分画像データとして分離して保存し、しかも部分画像データのファイル名を暗号化している。そのため、部分画像データを互いに結びつけることができなくなり、元の帳票を復元できなくなって、個人情報を保護できる。 【0008】 本発明では、前記保存部(14)は、複数の項目ごとに個別に設けられており、同じ種類の帳票の同じ記載枠から切り取られた部分画像データが同じ保存部に保存される。 【0009】 さらに本発明は、切り取られた部分画像データの内容に基づいて生成されたテキストデータが、暗号化されたファイル名と共に保存され、このテキストデータから、元の帳票に記載されていた内容のデータベースがそれぞれの帳票に対応して形成されるものである。 【0010】 また本発明は、前記処理部(12,13)では、画像データ内の記載枠(21〜26)を検出するとともに、この記載枠(21〜26)内に情報が記入されているか否かの検出を行い、前記記載枠(21〜26)に情報が記入されていることが検出された後に、個々の記載枠(21〜26)の部分画像データが切り出されるものとして構成できる。 【0011】 上記のように記載枠内に実際に情報が記入されている場合にのみ、部分画像データを切り出すことにより、情報を確実に管理できるようになる。 【0012】 また、本発明は、前記処理部(12,13)では、画像データ内の罫線の傾き角を検出して、その傾き角を修正するように画像データの向きを修正し、この修正の後に、各記載枠(21〜26)の画像データを部分的に切り取るものである。 【発明の効果】 【0013】 本発明の帳票処理装置では、複数の記載枠内に情報が記入された帳票のデータを管理できるようになり、しかも個人情報が外部に流出するのを防止しやすくなる。 【発明を実施するための最良の形態】 【0014】 図1は本発明の実施の形態の帳票処理装置を示す全体構成図、図2(A)(B)(C)は、帳票の例を示す説明図、図3は帳票Aの拡大平面図、図4は罫線の検出例を示す説明図、図5は帳票内の記載枠の特定例を示す説明図、図6と図7は全体の動作を示すフローチャートである。 【0015】 本発明の実施の形態の帳票処理装置1は、例えば図2(A)(B)(C)に示す帳票A,帳票B,帳票Cの画像データを処理するものである。帳票A,帳票B,帳票Cは、生命保険の申し込み用紙、銀行ローンの申し込み用紙、クレジットカードの入会申し込み用紙などである。この種の申し込みに際しては、記載すべき内容が相違する、異なる種類の帳票A,B,Cを同時に提出する場合が多い。 【0016】 帳票処理装置1は、混在して読み取られるそれぞれの帳票の画像データを読み取り、読み取られたそれぞれの画像データが、図2(A)(B)(C)に示す帳票A,帳票B,帳票Cのいずれに該当するのかを識別する。さらに、帳票A,帳票B,帳票Cのそれぞれの画像データから、個人情報に対応する項目の記載枠の画像データを部分的に切り出し、さらに切り出した記載枠の画像データのファイル名を暗号化する。 【0017】 図1は、帳票処理装置1の全体構成の概要を示している。この帳票処理装置1には、複数の画像読取機2a,2b,・・・が設けられている。各画像読取機2a,2b,・・・は、例えば支店や店舗に設置され、支店や店舗において、顧客が記載枠に情報を書き込んだ帳票A,帳票B,帳票Cが画像読取機2a,2b,・・・で読み取られる。画像読取機2a,2b,・・・で読み取られた帳票A,帳票B,帳票Cの画像データは、電話回線やインターネットなど利用して、メインサーバーの入力フォルダ3(画像データ保存部)内に転送される。 【0018】 帳票処理装置1の主要部である中央制御部10は、演算部とメモリなどから構成されている。中央制御部10は、種々の処理動作を行う部分を有しているが、それぞれの処理動作は、中央制御部10においてソフトウエアに基づいて実行される。ただし、以下の説明では、中央制御部10で実行される処理を便宜上「処理部」と呼ぶことがある。 【0019】 中央制御部10には、画像自動取得部11が設けられている。この画像自動取得部11は、入力フォルダ3を監視しており、入力フォルダ3に画像データが転送されると、この画像データが画像自動取得部11で引き出され、帳票識別処理部12に転送される。帳票識別処理部12では、転送された画像データが画像処理される。この画像処理では、画像データ内で、帳票の罫線が検出され、その罫線の位置および長さ、および罫線で囲まれた記載枠の形状などから、画像データが、帳票A,帳票B,帳票Cのどれに関するものであるのか識別される。 【0020】 図2(A)(B)(C)に示す例では、帳票Aにおいて罫線で囲まれた基準枠20A、帳票Bにおいて罫線で囲まれた基準枠20B、帳票Cにおいて罫線で囲まれた基準枠20Cを検出することで、画像データが帳票Aに関するものであるか、帳票Bに関するものであるか、または帳票Cに関するものであるのか、識別される。 【0021】 さらに、識別された帳票の記載枠の内部に、必要事項が実際に記載されているのか否かの検出も行われる。例えば、図3に示す帳票Aでは、基準枠21A内の、氏名の記載枠21、電話番号の記載枠22、住所の記載枠23および口座番号の記載枠24が、それぞれ必須事項である。 【0022】 帳票A、帳票B、帳票Cのいずれかであるかの識別ができ、また必須事項が記載されていることを確認できた画像データは、画像切り出し処理部13で処理される。画像切り出し処理部13では、帳票の記載事項のうちの個人情報に関する項目が画像データから切り出される。例えば、図3に示す帳票Aでは、氏名の記載枠21、電話番号の記載枠22、住所の記載枠23、銀行口座番号の記載枠24、E−メールアドレスの記載枠25、および職業の記載枠26などが個人情報である。 【0023】 画像切り出し処理部13では、帳票Aの個人情報の記載枠21,22,23,24,25,26の画像データが部分的に切り出され、項目フォルダ14のそれぞれに、切り出された記載枠の画像データが保存される。帳票Aの氏名の記載枠21の画像データは、項目フォルダ14のうちの、項目aのフォルダに保存され、帳票Aの電話番号の記載枠22の画像データは、項目bのフォルダに保存される。同様にして、帳票Aの記載枠23の画像データは、項目cのフォルダに、記載枠24,25,26のそれぞれの画像データは、項目d,項目e,項目fのフォルダのそれぞれに個別に保存される。 【0024】 また、帳票Bの個人情報の記載枠の画像データおよび、帳票Cの個人情報の記載枠の画像データも、それぞれ部分的に切り出され、これらが、項目フォルダ14のそれぞれの項目に振り分けられて保存される。 【0025】 よって、項目aのフォルダ内には、帳票Aの画像データのうちの、氏名の記載枠21の画像データのみが多数保存され、項目bのフォルダ内には、帳票Aの画像データのうちの電話番号の記載枠22の画像データのみが多数保存されていることになる。項目aのフォルダ内および項目bのフォルダ内などでは、それぞれの記載枠の画像データが所定のファイル名で記録されるが、このファイル名は、どの帳票Aから切り出されたものか後に識別できるように、番号や記号で表しておくことが必要である。 【0026】 しかし、項目aのフォルダ内および項目bのフォルダ内などで、各画像データのファイル名を、規則性を持った番号や記号で表しておくと、各項目a,b,c,・・・のフォルダ内から、関連するファイル名の画像データを抽出することで、元の帳票Aを復元でき、個人情報を守ることができなくなる。 【0027】 そこで、中央制御部10には、暗号化処理部15が設けられており、項目フォルダ14のそれぞれのフォルダに保存されている画像データのファイル名が、暗号化される。この暗号化により、項目aのフォルダ、項目bのフォルダ、項目cのフォルダ,・・・内の各画像データを、ファイル名に基づいて結びつけることができなくなり、個人情報を保護することが可能となる。 【0028】 なお、帳票識別処理部12において、帳票A、帳票B、帳票Cのいずれであるかの識別ができなかった画像データや、必須事項の記載枠21,22,23,24内に情報が記載されていることを確認できなかった画像データは、中央制御部10内のNGフォルダ16内に蓄積される。NGフォルダ16内に蓄積されたフォルダは、手動操作により画面に表示させ、画像データを目視で確認する。記載不備のある帳票は、別のフォルダに保存しあるいは廃棄し、申込者に再度帳票へ記載してもらうなどの対応に移行する。画像データを目視で確認し、記載不備の無い帳票であることが確認できたときには、手動操作、すなわちキー入力やマウス入力などにより、個人情報に関する記載枠の画像データを切り出し、切り出した画像データのファイル名を付して、項目フォルダ14のそれぞれのフォルダに分類して保存する。 【0029】 暗号化処理部15で暗号化された画像データは、項目a,b,c,d,・・・ごとのデータ群としてまとめられる。すなわち、氏名の記載枠21の画像データのデータ群や、電話番号の記載枠22の画像データのデータ群としてまとめられる。これら画像データのデータ群は、テキストデータに変換される。このテキストデータへの変換は、オペレータが、記載枠21や記載枠22の画像を見ながら、氏名や電話番号などの情報をキーで入力することで行ってもよいし、切り取った画像データに表されている文字や数字を解読できるソフトウエアを使用し、文字や数字のテキストデータに自動変換してもよい。 【0030】 画像データを元に入力または変換されたテキストデータのファイル名には、前述のように暗号化処理されたファイル名が引き続き使用される。したがって、テキストデータ化された氏名と、テキストデータ化された電話番号とを直接に結び付けることができず、またはどの住所が対応するのかを結びつけることもできない。よって、各帳票に記載された個人情報を保護でき、しかも帳票に申込者が手書きした情報を、テキストデータ群としてデータベース化できる。 【0031】 また、それぞれの申込者が帳票に記載した内容をデータベースから知る必要があるときには、各項目ごとに付された暗号化されたファイル名を、復号処理して規則性を有する番号や記号のファイル名に戻す。このファイル名の復号化処理により、それぞれの帳票に記載された各記載事項のテキストデータを組み合わせて復元することができ、帳票へ記載された内容に対応したデータベースを構築することができる。 【0032】 次に、前記帳票識別処理部12による帳票の識別動作を、図4と図5の記載および図6と図7に記載のフローチャートに基づいて説明する。以下においては、フローチャートでの「ステップ1,ステップ2,・・・」を「ST1,ST2,・・・」と記載する。また、以下では、帳票Aの画像データが得られているときを例として説明するが、これは帳票Bや帳票Cの画像データの処理の場合も同じである。 【0033】 帳票が白色の紙に罫線などが印刷されたものである場合、画像読取機2a,2bで読み取られた帳票の画像データは、基本的には面内が白い部分と黒い部分とを有しており、黒い部分を所定のしきい値を用いて認識することにより、2値化されたデータ群として処理できる。 【0034】 図3と図4に示すように、帳票Aは左側縁31と右側縁32、下側縁33と上側縁34を有しており、この帳票Aを画像読取機で読み取った画像データの大きさは、ほぼ左側縁31と右側縁32および下側縁33と上側縁34の輪郭で囲まれた範囲と一致している。帳票識別処理部12では、画像データを絶対座標上で処理することで、罫線の検出などが行われる。 【0035】 まず、帳票に印刷されている基準枠20Aの左端部において縦方向に延びる罫線である縦基準線41を検索する。この縦基準線41の検索では、最初に画像データが帳票Aに関するものであると予測する。この場合に、画像データ内の絶対座標上において、縦基準線41の上端Aと縦基準線41の下端Bがどの座標範囲内に位置しているかを予測できる。この予測のもとに、図6のST1では、図4に示すように、上端Aが存在していると予測される位置から−Y側へ所定の距離(例えば数十ピクセルから数百ピクセル)の位置を起点として、さらに縦方向にδy1の範囲(例えば数十ピクセルから数百ピクセル)で、さらに、縦基準線41が存在していると予測できる位置を基準として±X方向へδx1の範囲(例えば数十ピクセルから数百ピクセル)に、黒と判断されるドットの列が存在しているか否かを検出する。 【0036】 画像データ上での罫線は、ドット列である。そこで、δy1とδx1の範囲において、Y方向に並ぶドットがどの頻度で存在しているかを検出し、ドットの検出頻度が所定のしきい値を越えたときに、δy1とδx1の範囲内に、縦基準線41の一部である線分41aが存在していると判断する。なお、このときのδy1とδx2は、画像データ上での絶対座標で特定される。 【0037】 図6のST2では、縦基準線41の下端Bが存在している位置を予測し、その位置から+Y方向へ所定の距離(例えば数十ピクセルから数百ピクセル)離れた位置を起点とし、さらに+Y方向にδy2の範囲で、且つ±X方向へδx2の範囲において(δy2とδx2は、例えば数十ピクセルから数百ピクセル)、縦向きの罫線が存在しているかを前記と同様に検出する。δy2とδx2で囲まれた範囲内に、Y方向へ延びる罫線が存在しているときには、縦基準線41の一部である線分41bが存在していると判断する。 【0038】 図4に示すように設定されたδy1およびδx1で囲まれた範囲、およびδx2とδy2で囲まれた範囲に、縦向きの罫線を検出できないときには、この画像データが帳票Aに関するものでない確率が高い。この場合には、図2(B)に示す帳票Bの基準枠20Bの縦基準線が存在していること想定し、この縦基準線の上端A1または下端B1の存在が予測される位置を基準として絶対座標上で範囲を絞り、その中に縦向きの罫線が存在しているか否かを検出する。このときに、縦向きの罫線が検出されれば、画像データが帳票Bに関するものであると類推してその後の処理を継続する。上端A1の存在が予測される位置よりも下側に線分が存在しておらず、または下端B1の存在が予測される位置よりも上側に線分が存在していないときには、帳票Bの画像データではない確率が高い。この場合は、帳票Cの基準枠20Cの存在を想定し、この基準枠20Cの縦基準線の上端A2および下端B2を基準として絶対座標上で範囲を絞り、その範囲内に、縦基準線の一部が存在しているか否かを検出する。 【0039】 図6のST3において、前記帳票Aの基準枠20Aの縦基準線41、帳票Bの基準枠20Bの縦基準線、帳票Cの基準枠20Cの縦基準線のいずれもが検出できないと判断されたときは、ST4において、処理できない画像データであると判断し、図1に示すNGフォルダ16に画像データを転送する。 【0040】 前記ST3において、帳票Aの基準枠20Aの縦基準線41の一部である線分41aと線分41bが存在していると判断されたときは、ST5に移行する。これは、帳票Bの基準枠20Bの縦基準線の一部や、帳票Cの基準枠20Cの縦基準線の一部を検出できたときも同じである。 【0041】 ST5では、図4に示す線分41aと線分41bとを結ぶ線である縦基準線41が、Y軸に対して傾きを有しているか否かを検出する。この検出は、線分41aの+Y側の端部の(X座標,Y座標)である(X1,Y1)と、線分41bの−Y側の端部の(X座標,Y座標)である(X2,Y2)から求められる。縦基準線41のY軸に対する傾き角度θは、θ=tan−1{(X1−X2)/(Y1−Y2)}で求めることができ、X1=X2であれば傾き角度θはゼロである。ST5において、前記傾き角度θが許容範囲を越えているときには、ST6に移行し、前記傾き角度θがゼロになる向きに、画像データの向きを修正する。この修正は、画像データ全体を回転させることで行われる。 【0042】 ST6の傾き補正の後に、ST7とST8において、前記ST1と前記ST2と同様に、δx1とδY1で囲まれる範囲内に位置する前記線分41a、およびδx2とδy2で囲まれる範囲内に位置する前記線分41bを再び検出する。さらに、ST9において、縦基準線41と、Y軸との傾き角度θが許容範囲以内に補正されたか否かを検出する。このように傾き角度の補正を所定回数(図6では2回)行っても、縦基準線41の傾きが解消されない場合には、ST10に移行し、その画像データをNGフォルダ16に移行させる。 【0043】 ST5またはST9において、前記傾き角度θが許容範囲内であると判断されると、ST11とST12に移行する。ST12とST13では、帳票Aの基準枠20Aの下側に位置する横基準線42を検出する。この検出手法は、縦基準線41を検出した手法と実質的に同じであり、基準枠20Aで位置を想定できるB点から所定の距離を空けた位置においてδx3とδy3で囲まれた領域内に線分42aが存在しているか否かを検出する。また、位置を想定できるC点から所定距離を空けた位置においてδx4とδy4で囲まれた領域内に線分42bが存在しているか否かを検出する。 【0044】 ST13において、横基準線42の線分42aと線分42bが検出できないと判断したときには、ST14に移行して、その画像データをNGフォルダ16に移行させる。ST13において、基準枠20Aの下側に位置する横基準線42が検出されたら、図7のST15とST16に移行し、基準枠20Aの右側においてY方向に延びる縦基準線43が存在しているか否かを検出する。 【0045】 この時点では、既に左側の縦基準線41の位置が解っており、しかも縦基準線41のY軸に対する傾きも補正されている。よって、縦基準線41から+X方向へ予め知られている距離XLの部分またはその付近を検索することで、縦基準線43が存在しているか否かを検出できる。すなわち、前記距離XLの部分またはその付近において、C点から+Y方向へ所定距離だけ離れたδy6の範囲に、線分43bが存在しているかを検出し、D点から−Y方向へ所定距離だけ離れたδy5の範囲に線分43aが存在しているかを検出する。ここでは、帳票Aの画像データの分析に関して説明しているが、帳票Bや帳票Cの画像データの場合も、同様にして縦基準線43を検出することができる。 【0046】 ST17において、縦基準線43の線分43a,43bが検出できないときには、ST18に移行し、画像データがNGフォルダ16に転送される。 【0047】 ST17において、縦基準線43の線分43aと線分43bを検出できたときには、ST19とST20に移行して、基準枠20Aの上方に位置する横基準線44が存在しているか否かを検出する。この検出時には、下側の横基準線42の位置が解っている。よって、下側の横基準線から+Y方向へ所定距離YLだけ離れた位置またはその付近を検索し、点Aから所定距離だけ離れたδx5の範囲内に線分44aが存在しているかを検出し、同様にD点から所定距離だけ離れた位置のδx6の範囲内に線分44bが存在しているか否かを検出する。 【0048】 ST21において、線分44a,44bが検出されなかったら、ST22に移行し、画像データをNGフォルダ16に保存する。 【0049】 ST21において、上方の横基準線44の一部である線分44aおよび線分44bが検出された時点で、基準枠20Aを構成する縦基準線41、横基準線42、縦基準線43および横基準線44の位置を認識でき、その結果、基準枠20AAの4箇所の各点A,B,C,Dの位置も、絶対座標上で特定できる。 【0050】 なお、前記フローチャートでは、基準枠20Aの基準線を検出する順番を、縦基準線41、横基準線42、縦基準線43および横基準線44の順としたが、この順番以外で検出してもよい。 【0051】 上記のように、4つの基準線41,42,43,44の位置を特定し、前記各点A,B,C,Dを特定して、基準線41,42,43,44で囲まれた基準枠20Aの形状を認識することにより、この画像データがどの帳票に関するものであるのかをかなり高い確率で類推できる。この実施の形態では、前記基準線41,42,43,44を検出できた時点で、画像データが帳票Aに関するものであることをかなり高い確率で類推できる。 【0052】 上記のように画像データが帳票Aに関するものであると類推した後に、さらにST31以下では、この画像データが帳票Aに関するものであるかの判定を行う。中央制御部10内の記憶部には、帳票Aに印刷されている各罫線の位置が、各基準線41,42,43,44を基準位置とする相対座標で記憶されている。ST31では、画像データ上で検出された各基準線41,42,43,44の絶対座標位置と、記憶されていた前記相対座標とから、それぞれの罫線の座標位置を、画像データ上での絶対座標に換算することができる。この絶対座標データに基づいて、画像データの確認を行う。 【0053】 この画像データの確認動作は、ST31で換算された罫線の絶対座標位置のデータに基づいて、画像データ内に実際にその罫線が存在しているか、さらにはこの罫線で囲まれた枠が存在しているか否かを確認する。この確認は、ST32において、いずれかの枠の内部の上端に位置する横線と下端に位置する横線を検出する。また、ST33では、その枠の内部の左側に位置する縦線と右側に位置する縦線を検出する。ST34では、ST32とST33の検索の結果、帳票Aにおいて、本来存在しているべき場所に枠を構成する罫線が存在していたか否かを判断する。ST34で本来存在しているべき罫線(枠線)が存在していないと判断したら、ST35に移行し、その画像データをNGフォルダ16に移行する。 【0054】 ST34において、帳票Aにおいて本来存在しているべき罫線(枠線)を検出できたら、ST36に移行し、ST32とST33の罫線検出を指定された回数だけ繰り返す。この罫線検出の回数(どの罫線を検査するか)は、検査する帳票の種類に応じて予め設定されている。 【0055】 例えば、ST21までのフローで基準線41,42,43,44を検出でき、基準枠20Aの形状と位置が特定された後の、最初のST32とST33において、基準枠20Aの上方に位置する2つの枠50,55の少なくとも一方が存在しているか否かを検出する。例えば、枠50を検出するときには、ST32において、上側の横線51と下側の横線52を検出し、ST33において、左側の縦線53と右側の縦線54を検出する。そして、ST34では、4つの罫線51,52,53,54が検出されたか否かに基づいて枠50が存在しているか否かを確定する。 【0056】 前記のように、基準枠20Aの外にある別個の枠50,55が存在するか否かを検出することにより、画像データが帳票Aに関するものであるのか(または帳票Bや帳票Cに関するものであるのか)を、さらに高い精度で確定できる。 【0057】 上記枠50,55の検索で、帳票の種別をかなり高い確率で特定できるが、この実施の形態では、前記枠50,55の検出に加え、さらに基準枠20Aの内部において罫線で区切られた枠のうちの、すくなくとも1つが存在するか否かを検索している。例えば、図3に示す帳票Aの基準枠20A内の、いずれかの枠23と枠27が存在しているか否かを検出する。すなわち、基準枠20A内において典型的な特徴を有する枠23,27の上端と下端の横線をST32で検出し、前記枠23,27の左側と右側の縦線をST33で検出する。ST34において、これら枠23,27の罫線が、正規の位置に存在していることを確認できれば、画像データが帳票Aに関するものであることを、さらに高い確率で特定できる。 【0058】 さらに、この実施の形態では、ST41以下において、画像データ内に個人情報として切り出すべき記載枠が全て存在しているか否かの検出を行っている。図3に示している帳票Aの例では、個人情報の保護のために切り出すべき記載枠は、氏名の記載枠21、電話番号の記載枠22、住所の記載枠23および口座番号の記載枠24、E−メールアドレスの記載枠25、および職業の記載枠26である。ST41では、前記各記載枠21,22,23,24,25,26の上側の横線と下側の横線が正規の位置に存在しているかを検出し、ST42において、前記各記載枠21,22,23,24,25,26の左側の縦線と右側の縦線が正規の位置に存在しているかを検出する。ST45において、前記各記載枠の検出動作が全ての枠に行き渡るように繰り返される。 【0059】 ST43において、前記各記載枠21,22,23,24,25,26のいずれかが正規の位置に存在していないと判断されると、ST44において、その画像データがNGフォルダ16に移行させられる。ST43において、切り出すべき記載枠であるそれぞれの記載枠21,22,23,24,25,26が正規の座標位置に存在していると判断し、ST45において、全ての記載枠21,22,23,24,25,26に関する検出が完了すると、この時点で、画像データが帳票Aに関するものであると特定でき、よって帳票の識別動作を完了する。 【0060】 なお、この実施の形態では、さらに、帳票Aの必須記載事項である、氏名の記載枠21、電話番号の記載枠22、住所の記載枠23および口座番号の記載枠24に、実際に記載がなされているかの検出を行っている。あるいは、前記切り出すべき各記載枠21,22,23,24,25,26の全ての枠内に、実際に記載がなされているかの確認を行うこともできる。 【0061】 図5は、住所の記載枠23内に実際に記載がなされているか否かを検出する方法を示している。 【0062】 前記記載枠23内において、Y方向に所定の幅W内において、画像データを+X方向に検索し、次に検索位置を−Y側にずらし、その位置で+X方向へ検索する。この検索を幅Wの全域において行う。記載枠23内には、予め「都」「府」「県」「市」「町」「村」などの文字が印刷されている。したがって、記載枠23内に何も書かれていなくても、前記検索により、黒と判定される部分が所定の面積率で存在する。また記載枠23内に実際に、県名や市名が手書きされていると、前記検索によって黒と判定される部分の面積がさらに広くなる。よって、前記幅Wの範囲内で、画像データのうちの黒と判定される部分の面積の率が所定値を超えた場合には、前記記載枠23内に所定の情報が記入されていると判断する。 【0063】 必須の記載事項の記載枠内のいずれかに、情報が記入されていないと判断した場合には、その画像データをNGフォルダ16に移行させる。 【0064】 以上の各種検索で、帳票の種別を確定でき、さらに必要な記載事項が記入されていると判断されたら、図1に示す画像切り出し処理部13により、個人情報となる各記載枠内の画像データが、切り出される。 【0065】 このデータの切り出し箇所は、画像データで検出された罫線で囲まれた記載枠単位で行われる。この時点で、画像データは、その傾きが補正されており、さらに、切り出すべき記載枠21,22,23,24,25,26を囲む罫線の位置も絶対座標上で認識されている。よって画像データのどの部分がどの個人情報に対応しているのかを理解でき、この記載枠を画像データから部分的に取り出すことができる。前記切り出し処理が、全ての記載枠について完了するまで繰り返して行われる(ST52)。 【0066】 部分的に切り出された画像データは、図1に示す項目フォルダ14のそれぞれの項目フォルダ内に保存され、さらに暗号化されたファイル名と共に保存される。 【0067】 そして、前述のように、項目フォルダ14に保存された切り出し画像データから、その記載内容であるテキストデータが形成され、このテキストデータが暗号化されたファイル名により保存される。このテキストデータの保存位置は、前記項目フォルダ14のそれぞれと同じであってもよいし、テキストデータ専用のフォルダを項目別に設けてもよい。さらに、それぞれの項目のテキストデータを結びつけて、元のそれぞれの帳票の記載内容に対応したデータベースを、帳票毎に構成し、このデータベースを蓄積してもよい。 【図面の簡単な説明】 【0068】 【図1】本発明の実施の形態の帳票処理装置、 【図2】(A)(B)(C)は、各帳票の平面図、 【図3】帳票Aの平面図、 【図4】帳票Aの罫線の検索動作を示す説明図、 【図5】記載枠内に記載が成されているか否かの検索動作を示す説明図、 【図6】帳票の識別処理動作および切り出し処理動作を示すフローチャート、 【図7】帳票の識別処理動作および切り出し処理動作を示すフローチャート、 【符号の説明】 【0069】 1 帳票処理装置 2a,2b 画像読取機 3 入力フォルダ 10 中央制御部 11 画像自動取得部 12 帳票識別処理部 13 画像切り出し処理部 14 項目フォルダ 15 暗号処理部 16 NGフォルダ 20A,20B,20C 基準枠 21,22,23,24,25,26,27 記載枠 41,42,43,44 基準線 50,55 枠
|
| 【出願人】 |
【識別番号】500413216 【氏名又は名称】東京ソフト株式会社
|
| 【出願日】 |
平成18年7月4日(2006.7.4) |
| 【代理人】 |
【識別番号】100085453 【弁理士】 【氏名又は名称】野▲崎▼ 照夫
|
| 【公開番号】 |
特開2008−17053(P2008−17053A) |
| 【公開日】 |
平成20年1月24日(2008.1.24) |
| 【出願番号】 |
特願2006−184861(P2006−184861) |
|