| 【発明の名称】 |
翻訳システム |
| 【発明者】 |
【氏名】豊田 将哲
【氏名】森田 敏昭
|
| 【要約】 |
【課題】文字認識部と翻訳部との間のデータ授受をテキストデータを介さずに行うことにより、テキストデータ保存に必要なメモリを削減すると共に、翻訳処理に必要なステップ数を全体として減らして翻訳処理時間の短縮を図る。
【解決手段】翻訳システムは、スキャナ12と、文字認識部13と、文字認識部とリンクしたデータ授受のプロトコルが決められている翻訳部15を備える。文字認識部13は、認識した文字列から単語を抽出した後、エンコードテーブルを参照して、抽出した単語をコード14に変換する。翻訳部15は、文字認識部13からコード14を受け取ると、このコードを見出し語のアドレスとして用いて翻訳用の辞書を引き、さらに所定の解析処理をして訳文を作成する。 |
【特許請求の範囲】
【請求項1】 スキャナと、上記スキャナにより取り込んだソース言語の文字列を含む画像データに対して文字認識処理を行う文字認識部と、上記文字認識部とリンクしたデータ授受のプロトコルが決められており、上記文字認識部から受け取ったデータをターゲット言語に翻訳する翻訳部とを備えたことを特徴とする翻訳システム。 【請求項2】 上記データ授受のプロトコルは、ソース言語の単語を表すコードを含んでおり、上記翻訳部は、上記文字認識部から上記コードを受け取ると、このコードを見出し語のアドレスとして用いて翻訳用の辞書を引くことを特徴とする請求項1に記載の翻訳システム。 【請求項3】 上記文字認識部は、ソース言語の単語とコードとを1対1で関連付けたエンコードテーブルを有しており、認識した文字列から単語を抽出した後、上記エンコードテーブルを参照して、抽出した単語をコードに変換することを特徴とする請求項2に記載の翻訳システム。 【請求項4】 上記翻訳部は、コードとソース言語の単語とを1対1で関連付けたデコードテーブルを有しており、訳文を生成した後、このデコードテーブルを参照して、上記文字認識部から受け取ったコードをソース言語の単語に変換することを特徴とする請求項1乃至3のいずれか1つに記載の翻訳システム。 【請求項5】 上記文字認識部では、スキャナによって原稿を読み取りながら、抽出した単語をリアルタイムにコードに変換することを特徴とする請求項3に記載の翻訳システム。 【請求項6】 上記翻訳部は、上記文字認識部から送信されたコードをリアルタイムに単語に変換することを特徴とする請求項3乃至5のいずれか1つに記載の翻訳システム。 【請求項7】 上記エンコードテーブルには単語が、ソース言語に特有の配列順に配列されていることを特徴とする請求項3乃至6のいずれか1つに記載の翻訳システム。 【請求項8】 よく使用される単語をコードに対応付けてキャッシュメモリに格納するようになっており、画像データから抽出した単語をコードに変換する時に、エンコードテーブルよりも優先してキャッシュメモリが参照されることを特徴とする請求項3乃至7のいずれか1つに記載の翻訳システム。 【請求項9】 よく使用されるコードを単語に対応付けてキャッシュメモリに格納するようになっており、文字認識部から受け取ったコードを単語へ変換する時に、デコードテーブルよりも優先してキャッシュメモリが参照されることを特徴とする請求項3乃至8のいずれか1つに記載の翻訳システム。 【請求項10】 ソース言語の単語とコードとを1対1で関連付けたエンコードテーブルを有し、ソース言語の文字列を含む画像データを取り込むステップと、取り込まれた画像データに対して文字認識処理を行うステップと、認識された文字列から単語を抽出するステップと、上記エンコードテーブルを参照して、抽出した単語をコードに変換するステップとをコンピュータに実行させる文字認識プログラムを記録したコンピュータ読み取り可能な記録媒体。 【請求項11】 入力されたコードを見出し語のアドレスとして用いて翻訳用の辞書を引くステップと、所定の解析処理を行ってターゲット言語による訳文を生成するステップとをコンピュータに実行させる翻訳プログラムを記録したコンピュータ読み取り可能な記録媒体。 【請求項12】 請求項11に記載のコンピュータ読み取り可能な記録媒体において、コードとソース言語の単語とを1対1で関連付けたデコードテーブルを有し、訳文を生成した後、上記デコードテーブルを参照して、上記入力されたコードをソース言語の単語に変換するステップをさらにコンピュータに実行させる翻訳プログラムを記録したコンピュータ読み取り可能な記録媒体。
|
【発明の詳細な説明】【0001】 【発明の属する技術分野】この発明は、スキャナで読み取ったソース言語のデータをターゲット言語に翻訳する翻訳システムと、この翻訳システムのために使用されるプログラムを記録した記録媒体に関する。 【0002】 【従来の技術】現在、スキャナにて取り込んだ情報から文字を抽出してテキストデータとして出力する文字認識ソフトウェアOCR(オー・シー・アール:Optical character recognitionまたはOptical character reader)がある。また、テキストデータを用いて英語から日本語に翻訳するソフトウェアも普及している。OCRで取り込んだ英文を翻訳ソフトにかける場合、OCRで出力されたテキストデータを翻訳ソフトに入力し、翻訳ソフト側で、単語、句、節、文と判定し、翻訳している。また、専門分野の翻訳については、専用辞書を追加する事により、精度の高い翻訳を実現している。 【0003】英日翻訳の場合、必要な単語として約13万語であり、また専門分野として約53万語必要とされる。 【0004】次に、図8〜11を用いて、文字認識ソフトウェアOCRと翻訳ソフトウェアとを搭載したコンピュータとこれに接続されたスキャナとからなる従来の翻訳システムを説明する。図8は従来の翻訳システムの要部の概略構成図であり、図9,10,11はその翻訳システムで実行される処理のフローチャートである。英日翻訳の場合、まず、パーソナルコンピュータ(以下、PC)1に接続されたスキャナ2により、英文原稿を読み取る。そして、文字認識部(以下、OCR)3では、英文原稿の画像データからテキストデータ4を生成する。続いて、翻訳部5は、入カデータとして上記テキストデータ4を取り込み、日本文に変換したテキストデータ6を生成する。 【0005】次に、OCR3での処理を図9を用いて説明する。まず画像データを取り込む(S1)。次に、レイアウト解析(S2)にて、取り込んだ画像から文字の部分を見つけて、読む順序を決める。レイアウト解析(S2)にて見つけた文字のかたまりを1行毎に切り出す(S3)。次に、その1行に注目し、1文字毎に分解し、切り出す(S4)。次に、切り出された文字に対して、1文字毎に文字認識を行う(S5)。 【0006】図10にステップS5で行われる文字認識のサブルーチンを示す。文字の大きさ、文字の字体、文字のつぶれやかすれ、などは文書によって異なっている。これらの変動に対して、正確に文字の認識を行う為に、正規化(S501)、特徴抽出(S502)、マッチング(S503)が文字認識サブルーチンにおいて行われる。マッチング(S503)においては、標準パターン7を使用してパターンマッチングを行い、文字の認識を行う。 【0007】このような文字認識サブルーチンによる処理後、図9のメインルーチンに戻り、ASCIIコードに変換し(S6)、知識処理を行う(S7)。知識処理とは、認識された文字列から、漢字列やカタカナ列などを抜き出し、その部分をあらかじめ登録している単語辞書8と照合して、誤読した部分を自動的に訂正する処理である。次に、ASCIIコードをデコードして(S8)、ソース言語のテキストデータを生成する(S9)。最近では、インターネットなどの急速な普及もあり、マイクロソフト社のワープロソフト「Word」のフォーマットであるRTF(Rich Text Format)や、インターネットでの記述言語であるHTML(Hyper Text Markup Language)の形でデータが生成されるのが一般化している。 【0008】次に、翻訳部5での処理フローについて図11を用いて説明する。まず、ソース言語のテキストデータを取り込む(S10)。次に、取り込んだテキストデータをASCIIコードに変換(S11)した後、このコードを解釈して翻訳用辞書の見出し語のアドレスを発生し、辞書引き(S12)を行う。この辞書引き処理とは、原文にある単語の意味、および文法情報を辞書から取り出す処理である。続いて、辞書から引いた語について、更にどのような要素が接続されているかを解析する形態素解析を行う(S13)。そして、どの単語が主語であり,どの単語が述語であるかなど、文を構成する単語の関係を解析する構文解析を行う(S14)。この構文解析の結果に従って、最終的な訳文(ターゲット言語のテキストデータ)を生成する(S15)。さらに、ASCIIコードをデコードして(S16)、ソース言語のテキストデータを生成し(つまり、原文を再生し)(S17)、訳文と一緒にモニタに表示したり、ファイルに保存する。 【0009】 【発明が解決しようとする課題】上述した従来の翻訳システムでは、図8にはっきりと示すように、原稿の読み取りから翻訳開始までにテキストデータが介在しているため、メモリが消費されることになる。さらに、翻訳ソフト側では、翻訳用の辞書を引くためのアドレスを発生するために、OCR部から受け取ったテキストデータを一旦ASCIIコードに変換し、訳文生成後に、原文の表示あるいは保存用に、ASCIIコードをデコードして再度テキストデータに戻す処理を行っているため、翻訳処理に時間がかかる。 【0010】この発明は、以上の点に鑑み、スキャナで取り込んだ文を翻訳する場合、文字認識部と翻訳部との間のデータ授受をテキストデータを介さずに行うことにより、テキストデータ保存に必要なメモリを削減でき、また、翻訳処理に必要なステップ数を全体として減らして翻訳処理時間の短縮もできる翻訳システムを提供することを第1の目的とする。さらに、そのようなシステムを実現するための文字認識プログラムならびに翻訳プログラムを記録したコンピュータ読み取り可能な記録媒体を提供することを第2の目的とする。 【0011】 【課題を解決するための手段】上記第1の目的を達成するため、本発明の翻訳システムは、スキャナと、上記スキャナにより取り込んだソース言語の文字列を含む画像データに対して文字認識処理を行う文字認識部と、上記文字認識部とリンクしたデータ授受のプロトコルが決められており、上記文字認識部から受け取ったデータをターゲット言語に翻訳する翻訳部とを備えたことを特徴としている。 【0012】翻訳部では、文字認識部とリンクしたデータ授受のプロトコルが決められているため、文字認識部からの原文を表すデータをテキストファイルを介さずに取り込むことができる。よって、従来は必要であった文字認識部でのテキストデータを生成する処理(デコード処理)が不要となる。したがって、その分、文字認識から訳文生成までに要する時間が全体として短縮される。さらに、従来は必要であったこのようなテキストデータを保存しておくためのメモリーも不要となる。 【0013】一実施形態では、上記データ授受のプロトコルは、ソース言語の単語を表すコードを含んでおり、上記翻訳部は、上記文字認識部から上記コードを受け取ると、このコードを見出し語のアドレスとして用いて翻訳用の辞書を引くようになっている。つまり、この翻訳システムでは、翻訳部は、文字認識部から受け取ったコードによって表されるアドレスにアクセスして翻訳用の辞書を引いている。従来は原文のデータをテキストデータで受け取っていたため、翻訳用の辞書にアクセスするためにこのテキストデータを一旦ASCIIコードに変換してアドレス発生を行っていたが、本発明によれば、このようなアドレス発生のための処理は不要である。よって、その分、翻訳処理時間が短縮される。 【0014】一実施形態では、ソース言語の単語を表すコードを発生するために、上記文字認識部は、ソース言語の単語とコードとを1対1で関連付けたエンコードテーブルを有しており、認識した文字列から単語を抽出した後、上記エンコードテーブルを参照して、抽出した単語をコードに変換するようにしている。 【0015】なお、特許請求の範囲を含めて本明細書で使用している用語「単語」は、文法上の意味、機能を有する最小単位としての語のほか、ソース言語での文中に使用される記号(たとえば、ソース言語が英語においては、例えば、カンマ「,」、ピリオド「.」、セミコロン「;」、コロン「:」、クエスチョンマーク「?」、エクスクラメンションマーク「!」等々。また、ソース言語が日本語の場合には、句読点等。)をも含むものと、広く解釈されるべきである。 【0016】一実施形態では、翻訳部は、コードとソース言語の単語とを1対1で関連付けたデコードテーブルを有しており、訳文を生成した後、このデコードテーブルを参照して、上記文字認識部から受け取ったコードをソース言語の単語に変換する。この場合、翻訳結果のみならず、原文つまりソース言語の文字列をもモニタに表示したりファイルに保存したりできる。 【0017】上記文字認識部では、スキャナによって原稿を読み取りながら、抽出した単語をリアルタイムにコードに変換するようにしてもよい。このようにすることによって、原稿読み取りから翻訳開始までの時間が短縮できる。 【0018】また、上記翻訳部は、上記文字認識部から送信されたコードをリアルタイムに単語に変換するようにしてもよい。このようにすることによって、翻訳開始から翻訳終了までの時間が短縮できる。 【0019】上記エンコードテーブルには単語が、アルファベット順等、ソース言語に特有の配列順に配列されているのが望ましい。コード化つまり単語からコードへの変換を効率的に行えるからである。 【0020】また、本発明の翻訳システムは、よく使用される単語をコードに対応付けてキャッシュメモリに格納するようになっており、画像データから抽出した単語をコードに変換する時に、エンコードテーブルよりも優先してキャッシュメモリが参照されるようになっていてもよい。つまり、この場合、この翻訳システムでは、文字認識部が学習機能を有する上に、キャッシュメモリを利用するので、更に高速で効率のよいコード化が可能になる。 【0021】さらに、翻訳部側においても、よく使用されるコードを単語に対応付けてキャッシュメモリに格納するようになっており、文字認識部から受け取ったコードを単語へ変換する時に、デコードテーブルよりも優先してキャッシュメモリが参照されるようになっていてもよい。高速に効率よく、コードから単語への変換を行える。 【0022】さらに、本発明は、ソース言語の単語とコードとを1対1で関連付けたエンコードテーブルを有し、ソース言語の文字列を含む画像データを取り込むステップと、取り込まれた画像データに対して文字認識処理を行うステップと、認識された文字列から単語を抽出するステップと、上記エンコードテーブルを参照して、抽出した単語をコードに変換するステップとをコンピュータに実行させる文字認識プログラムを記録したコンピュータ読み取り可能な記録媒体を提供する。 【0023】さらにまた、本発明は、入力されたコードを見出し語のアドレスとして用いて翻訳用の辞書を引くステップと、所定の解析処理を行ってターゲットス言語による訳文を生成するステップとをコンピュータに実行させる翻訳プログラムを記録したコンピュータ読み取り可能な記録媒体を提供する。 【0024】この記録媒体は、コードとソース言語の単語とを1対1で関連付けたデコードテーブルを有していてもよく、この場合、翻訳プログラムは、訳文を生成した後、上記デコードテーブルを参照して、上記入力されたコードをソース言語の単語に変換するステップをさらにコンピュータに実行させることができる。 【0025】媒体自体としては、各種の光ディスクや、磁気ディスク、光磁気ディスクが使用でき、これらの媒体に記録された文字認識プログラムと翻訳プログラムをコンピュータにインストールすることにより、上述した翻訳システムを実現することができる。 【0026】 【発明の実施の形態】図1は本発明の一実施の形態である翻訳システムの要部の構成を示している。この翻訳システムは、図1に示すように、スキャナ12と、文字認識部13と、翻訳部15を有する。文字認識部13と翻訳部15はコンピュータ(以下PC)11内に搭載されており、スキャナはPC11に接続されている。また、PC11は図示しないモニタを備えており、プリンタ等の周辺機器が接続されていてもよい。 【0027】以下、この翻訳システムによる処理の概要を、英日翻訳の場合について説明する。 【0028】まず、ソース言語として英文の含まれた雑誌、新聞等をスキャナ12を介してPC11内に取り込む。そして、取り込んだ画像データから、文字認識部13にて、単語を抽出し、この単語を表すコードデータ14を生成する。文字認識部13とリンクしたデータ授受のプロトコルが決められた翻訳部15は、コードデータ14を取り込み、翻訳のための辞書引きや解析を行って、日本語による訳文(テキストデータ)を生成し、この訳文をモニタに表示する。また、原文をモニタに表示したりファイルに保存したりするために、コードデータ14をデコードしてテキストデータ16を生成する。 【0029】ここで、この翻訳システムは、スキャナ12によって原稿を読み取りながら、文字認識部13が機能して、抽出した単語をリアルタイムにコードに変換できるようになっている。一方、上記翻訳部も、上記文字認識部13から送信されたコードをリアルタイムに単語に変換できるようになっている。 【0030】次に、文字認識部13での処理フローを図2にて説明する。 【0031】まず、図2におけるステップS21、S22、S23、S24、S25において、図9のステップS1、S2、S3、S4、S5での処理とそれぞれ同じ処理が行われる。 【0032】次に、ステップS26で、ステップS25で得られた文字認識の結果をエンコード処理する。図3にエンコードサブルーチンを示す。このサブルーチンでは、先ず、ステップS260で単語を抽出する。単語抽出法としては、たとえば、特開平4−353989号(出願人:シャープ株式会社)に開示されている技術を用いることができる。そして、ステップS261で、それら単語に対して、エンコードテーブル17を参照して、コード化する。 【0033】図6はエンコードテーブル17の一例を示している。図示した例では、各英単語に対して、アルファベット順にコード番号を割り当てている。更に、英文で用いられる記号(例えば、カンマ「,」、ピリオド「.」、セミコロン「;」、コロン「:」、クエスチョンマーク「?」、エクスクラメンションマーク「!」等々)にもコードを割り当てている。 【0034】次に、ステップS27で、図9のステップS7と同様に、知識処理(単語照合処理)を行う。この知識処理では、認識された文字列から、漢字列やカタカナ列などを抜き出し、その部分をあらかじめ登録している単語辞書9と照合して、誤読した部分を自動的に訂正する。なお、この知識処理用の単語辞書9(図示せず)を参照する際には、ステップS26で得られたコードを見出し語のアドレスとして辞書9にアクセスする。 【0035】図2と図9の比較から明らかなように、この実施形態の翻訳システムの文字認識部13で行う処理には、図9に示すデコード(S9)とテキストデータ生成(S9)のステップは含まれておらず、その分処理時間が短縮されている。 【0036】続いて、翻訳部15の機能について、図4を用いて説明する。翻訳部15は、文字認識部13からコードデータつまりコード化された単語データ14を受け取ると、ステップS31で、そのコードを見出し語のアドレスとして用いて翻訳用の辞書(図示せず)を引いて、原文にある単語の意味及び文法情報を辞書から取り出す。つまり、この実施形態では、翻訳用の辞書(見出し語毎に、日本語による訳語や品詞等の文法情報を記載した辞書)の各見出し語に、図6に示すコードによって表されるアドレスを持たせており、したがって、翻訳部15は、文字認識部から受け取ったコードをそのままアクセス用のアドレスとして用いて、翻訳用の辞書を引けるのである。 【0037】続いて、ステップS32で、文字認識部13でエンコードして得られた単語14にどのような要素が接続されているかを解析する形態素解析を行う。さらに、ステップS33で、どの単語が主語であり,どの単語が述語であるかなど、文を構成する単語の関係を解析する構文解析を行う。ステップS34で、この構文解析の結果に従って、最終的に日本語による訳文(テキストデータ)を生成する。次に、原文の英文をモニタに表示したり、ファイルに保存したりできるようにするために、ステップS35で、文字認識部13から受け取ったコードデータ14を図5に示すサブルーチンにしたがってデコードし、ステップS36で英語によるテキストデータ16を生成する。デコードのサブルーチンでは、デコードテーブル18を参照して、各コードを英単語(ピリオドやコンマ等々の記号も含む。)に変換する(S310)。図7にデコードテーブル18の一例を示す。最後に、原文を表すテキストデータは、翻訳結果と一緒あるいは別個にモニタに表示したり、ファイルに保存される。しかし、原文をモニタに表示したり、ファイルに保存する必要がなければ、ステップS35およびS36は省略できる。 【0038】図4と図11との比較から明らかなように、この実施形態の翻訳システムの翻訳部15で行う処理には、図11に示すテキストデータ取り込み(S10)とASCIIコード変換(S11)のステップは含まれておらず、その分処理時間が短縮されている。 【0039】なお、図2,3および図4,5に記載した文字認識処理プログラムおよび翻訳プログラムは、これを記録したCD(コンパクトディスク)やFD(フロッピー(登録商標)ディスク)等の適切な媒体(あらゆる可能な媒体が含まれる)を介してPC11内にインストールされたものである。 【0040】本実施形態では、図1からはっきりわかるように、画像読み込みから翻訳までテキストファイルを介さず、ソース言語の単語を表すコードを用いて処理を行うので、処理時間とメモリを削減することができる。 【0041】本実施形態の変形として、よく使用される単語をコードに対応付けてキャッシュメモリ(図示せず)に格納するようにし、画像データから抽出した単語をコードに変換する時に、エンコードテーブル17よりも優先してそのキャッシュメモリが参照されるようにしてもよい。こうすれば、エンコード時間を上記実施形態よりもさらに短縮することができる。加えて、デコード時間をさらに短縮するために、よく使用されるコードを単語に対応付けてキャッシュメモリ(図示せず)に格納するようにし、コードデータ14を単語へ変換する時に、デコードテーブル18よりも優先してそのキャッシュメモリが参照されるようにしてもよい。 【0042】以上、本発明の説明を英日翻訳の場合を用いて説明したが、ソース言語とターゲット言語はこれらの言語に限られない。その場合、エンコードテーブルにおけるソース言語での単語の配列は、アルファベットを使用しない言語にあっては、その言語に特有な配列順に行えばよい。
|
| 【出願人】 |
【識別番号】000005049 【氏名又は名称】シャープ株式会社
|
| 【出願日】 |
平成12年10月30日(2000.10.30) |
| 【代理人】 |
【識別番号】100062144 【弁理士】 【氏名又は名称】青山 葆 (外1名)
|
| 【公開番号】 |
特開2002−132765(P2002−132765A) |
| 【公開日】 |
平成14年5月10日(2002.5.10) |
| 【出願番号】 |
特願2000−330449(P2000−330449) |
|