トップ :: G 物理学 :: G06 計算;計数




【発明の名称】 機械翻訳システム
【発明者】 【氏名】鳥越 真

【氏名】介弘 達哉

【氏名】川北 泰広

【氏名】中川 聰

【氏名】松永 聡彦

【要約】 【課題】連絡先を含む文書を文書提供者及び又は文書閲覧者にとって有益となるように機械翻訳する。

【解決手段】本発明の機械翻訳システムは、入力文書に含まれている連絡先情報を抽出する連絡先抽出手段と、抽出された連絡先情報を目的言語に応じた連絡先情報に置換する連絡先置換手段と、置換された連絡先情報を翻訳結果文書における、入力文書での連絡先情報の位置に、挿入する連絡先挿入手段とを有することを特徴とする。
【特許請求の範囲】
【請求項1】 原原語で記述された入力文書を目的言語で記述された翻訳結果文書に翻訳する機械翻訳システムにおいて、上記入力文書に含まれている連絡先情報を抽出する連絡先抽出手段と、抽出された連絡先情報を上記目的言語に応じた連絡先情報に置換する連絡先置換手段と、置換された連絡先情報を上記翻訳結果文書における、上記入力文書での上記連絡先情報の位置に、挿入する連絡先挿入手段とを有することを特徴とする機械翻訳システム。
【請求項2】 上記連絡先情報がeメールアドレスであり、置換後のeメールアドレスが、上記目的言語で記述されたeメールを機械翻訳するeメール用の機械翻訳システムのアドレスであることを特徴とする請求項1に記載の機械翻訳システム。
【請求項3】 置換後の上記連絡先情報が、上記入力文書の提供者における、上記目的言語で記述された文書に応じた情報であることを特徴とする請求項1に記載の機械翻訳システム。
【請求項4】 置換後の連絡先情報を登録編集する編集手段をさらに有することを特徴とする請求項1〜3のいずれかに記載の機械翻訳システム。
【発明の詳細な説明】【0001】
【発明の属する技術分野】本発明は機械翻訳システムに関し、特に、連絡先を含む文書(例えばWebページ)の翻訳に適用して好適なものである。
【0002】
【従来の技術】近年、インターネット上の文書(Webページ)を、海外へ発信させるために、あるいは海外の文書を閲覧するために、翻訳を行う機会が増えている。最近では、機械翻訳の品質も上昇し、誰もが簡単に海外へ発信できるようになっている。例えば、Webページにより世界を相手に商取引を行う会社もある。
【0003】ところで、機械翻訳では、元の原言語の文書を忠実に目的言語の文書に翻訳する。そのため、インターネットを介して発信したり閲覧されたりする文書の機械翻訳も、その文書を忠実に目的言語の文書に翻訳している。
【0004】そのため、文書に、所在地やeメールアドレスといった連絡先があった場合、翻訳後の連絡先も、原言語の文書での連絡先と同一である。例えば、図2に示すように、原言語(第1言語)のWebページに、「abc@def.hg」というeメールアドレスがあれば、機械翻訳後の目的言語(第2言語)のWebページでも、そこの部分は、「abc@def.hg」となる。機械翻訳後の目的言語(第2言語)のWebページを閲覧し、Webページの作者側と連絡をとりたくなった閲覧者は、目的言語で記述したeメールでWebページの作者に連絡をとることになる。すなわち、Webページの作者にとっては、原原語ではなく目的原語で記述されたeメールを受信することになる。
【0005】
【発明が解決しようとする課題】作成した文書(Webページ)の原言語(第1言語)以外の言語の知識が充実していない者にとっては、目的言語で記述された文書などによる連絡に戸惑うことになる。
【0006】実際上、海外に支店や営業所を有している会社も多く、また、海外との取引は代理店を通じて行う会社も多い。そのため、国内向けの文書に、eメールアドレスや住所などの連絡先が入っていても、海外向けの文書での連絡先を切り換えることも行われている。
【0007】機械翻訳をされることを考慮して複数の連絡先を文書(例えばWebページ)に記述しておくことは、文書の本文側のデータ量を制限する恐れがある。
【0008】また、機械翻訳をされることを考慮して、本文が同じで連絡先だけが異なる複数の文書(例えばWebページ)を用意しておくことも考えられるが、文書作成作業の効率は悪い。
【0009】そのため、連絡先を含む文書を文書提供者及び又は文書閲覧者にとって有益となるように機械翻訳できる機械翻訳処理システムが求められている。
【0010】
【課題を解決するための手段】かかる課題を解決するため、本発明は、原原語で記述された入力文書を目的言語で記述された翻訳結果文書に翻訳する機械翻訳システムにおいて、入力文書に含まれている連絡先情報を抽出する連絡先抽出手段と、抽出された連絡先情報を目的言語に応じた連絡先情報に置換する連絡先置換手段と、置換された連絡先情報を翻訳結果文書における、入力文書での連絡先情報の位置に、挿入する連絡先挿入手段とを有することを特徴とする。
【0011】
【発明の実施の形態】(A)第1の実施形態以下、本発明による機械翻訳システムの第1の実施形態を図面を参照しながら説明する。
【0012】(A−1)第1の実施形態の構成図1は、第1の実施形態の機械翻訳システムの機能的構成を示すブロック図である。第1の実施形態に係る機械翻訳システム1は、例えば、1又は複数のサーバ等の情報処理装置で構築されているが、機能的には、図1で示すことができる。なお、第1の実施形態に係る機械翻訳システム1は、例えば、インターネットのサーバ上に構築されることを意図している。
【0013】図1において、機械翻訳システム1は、入力部11、書式解析部12、メールアドレス置換部13、メールアドレス生成部14、翻訳部15、辞書16、文書メモリ17及び出力部18を有する。
【0014】入力部11は、翻訳対象である入力文書を入力あるいは指定するものである。入力文書の入力方法は問わないものである。例えば、キーボードからキー入力しても良く、フロッピー(登録商標)ディスクやCD−ROM等の記録媒体から読み出して入力しても良く、さらには、遠隔地の外部装置から送信して文書を入力しても良い。例えば、当該機械翻訳システム1がインターネットのサーバ上に構築されている場合には、ユーザが検索をサーバに求めて取り出したWebページを入力文書とするようにしても良い。
【0015】書式解析部12は、入力文書の書式を解析し、文章部分(eメールアドレスを含んでいても良い)を翻訳部15に与えたり、入力文書にeメールアドレスが含まれている場合には、メールアドレス置換部13に与えたり、入力文書の文章部分以外を文書メモリ17に与えたりするものである。すなわち、この第1の実施形態の場合、書式解析部12は、eメールアドレスの抽出部をも兼ねている。なお、書式解析以外の方法でeメールアドレスを抽出するようにしても良い。
【0016】例えば、入力文書がHTMLで記述されたWebページであれば、タグ情報などを除外した部分を翻訳部15に与え、その除外したタグ情報は、翻訳結果文書に戻すように文書メモリ17に与えるものである。eメールアドレスの検出は、タグ情報などによってeメールアドレス部分を明らかにしておくことを通じて検出するようにしても良く、また、「@」を探索し、その前後のアルファベットや数字部分をeメールアドレスとして検出するようにしても良い。
【0017】なお、書式解析部12が、eメールアドレスの内容に基づいて、機械翻訳の必要性を捉えることができる。
【0018】メールアドレス置換部13は、書式解析部12からeメールアドレスが与えられたときに、新たなeメールアドレスの生成を起動するものである。なお、eメールアドレスを変換することの意義については、後述する。
【0019】メールアドレス生成部14は、新たなeメールアドレスを生成するものである。ここで、eメールアドレス生成用の情報を辞書16の一部に格納しておくようにしても良い。なお、新たなeメールアドレスを翻訳結果文書に盛り込む方法としては、生成した置換するeメールアドレスの情報を辞書16に登録して翻訳処理を通じて置換する方法でも良く、また、新たなeメールアドレスをメールアドレス置換部13を介して書式解析部12に戻し、書式解析部12が翻訳結果文書に挿入する方法であっても良い。
【0020】翻訳部15は、入力文書における文章部分を目的言語の翻訳結果文書に含める文章部分に機械翻訳するものであり、既存のいかなる機械翻訳方法を適用したものであっても良い。辞書16は、翻訳部15が翻訳の際に利用するものであり、システム辞書に加え、ユーザ辞書を含んでいても良い。
【0021】文書メモリ17は、翻訳部15から与えられた翻訳結果(訳文)に書式解析部12から与えられた書式情報を適宜付与して格納するものであり、全ての翻訳が終了したときには、入力文書に対する翻訳結果文書が格納されるものである。
【0022】出力部18は、翻訳結果(文書)を出力するものである。出力部18は、表示出力したり印刷出力したりするものだけでなく、送信出力するものであっても良い。送信出力する場合において、送信先のアドレス情報は、書式解析部12から直接アドレスを取得することもあれば、又は、書式解析部12を介して、メールアドレス置換部13が置換したアドレスを取得することもあり得る。
【0023】図3は、第1の実施形態におけるeメールアドレスの変換の意義の一例の説明図である。
【0024】Webページの作者が作成した第1言語で記述された、しかも、Webページの作者のeメールアドレス「abc@def.hg」を連絡先に含むWebページP1を、第2言語で記述されたWebページP2で閲覧者に提供する場合、Webページ作者のeメールアドレス「abc@def.hg」を変換する。
【0025】変換されたeメールアドレス「abc.atEJ.def.hg@ijk.lm」は、閲覧者がWebページ作者に宛てたeメールを、eメール用の機械翻訳システム2(当該機械翻訳システムと同一であっても良い1)に到達させるためのアドレス部分「@ijk.lm」と、元のeメールアドレスに復帰できるアドレス部分「abc.def.hg」と、eメールが第2言語(英語とする)で記述されている場合に、第1言語(日本語とする)への機械翻訳を実行することを指示するアドレス部分「.atEJ.」とからなっている。なお、作者のeメールアドレスに「.at」が含まれている場合には、第2言語への変換時に「.atat」と変換しておく。こうすることにより、変換後のアドレスから作者のeメールアドレスを復帰させる際に、「.at」へ戻すことにより、「@」への誤変換を回避することができる。
【0026】従って、閲覧者がWebページ作者へ宛てた第2言語で記述されたeメールはeメール用の機械翻訳システム2に到達する。eメール用の機械翻訳システム2は、このeメールに対する機械翻訳を行い、第1言語で記述されたeメールを作成し、Webページ作者のeメールアドレス「abc@def.hg」を宛先として送信を行う。
【0027】以上のようなeメールアドレスの変換により、翻訳後のWebページを閲覧した者がその言語で記述したeメールをWebページ作者に発信しても、Webページ作者には、作成したWebページと同じ第1言語で記述されたeメールを受信することができる。
【0028】なお、eメール用の機械翻訳システム2として、第1の実施形態の機械翻訳システム1を適用しても良いことは勿論である。
【0029】(A−2)第1の実施形態の動作次に、第1の実施形態に係る機械翻訳システム1の動作を図4のシーケンス図を参照しながら説明する。
【0030】閲覧者は、例えばWebブラウザ等を操作し、当該機械翻訳システム1の入力部11に、翻訳させる文書を指定あるいは入力する(ステップS1)。例えば、文書の翻訳を伴う検索の指示を発したり、検索により取り出した文書の翻訳を指示したりする。
【0031】当該機械翻訳システム1においては、入力文書は、書式解析部12によってその書式が解析される(ステップS2)。解析結果にeメールアドレスが含まれていれば、メールアドレス置換部13にeメールアドレスが与えられる(ステップS3)。メールアドレス置換部13は、メールアドレス生成部14を呼び出し(ステップS4)、eメール用の機械翻訳システム2(図3参照)を経由するeメールアドレスを生成させた後、eメールアドレスを置換させる。
【0032】メールアドレス生成部14では、原文の言語種別と翻訳後の言語種別を参考に、例えば翻訳辞書16を参照して、eメール用の機械翻訳システム2(図3参照)を経由するeメールアドレスを生成する。このeメールアドレスには、第1言語から第2言語への翻訳などの情報も付加する。
【0033】eメールアドレスの置換後、又は、eメールアドレスの置換処理と並行して、翻訳部15は辞書16を利用しながら入力文書の翻訳を行い(ステップS5)、翻訳結果文書(訳文文書)を形成し、形成された翻訳結果文書を出力部18に出力する(ステップS6)。例えば、出力部18は、翻訳結果文書を、閲覧者(ブラウザ)に応じた形式で出力する(ステップS7)。
【0034】(A−3)第1の実施形態の効果以上のように、第1の実施形態によれば、Webぺージなどの文書の翻訳の際に、その文書に含まれているeメールアドレスを変換するようにしたので、文書提供者などに有益な宛先に文書提供者宛のeメールを転送させることができる。
【0035】例えば、図3を用いて説明したように、eメールアドレスを、翻訳先言語種別から翻訳元言語種別への機械翻訳システム2を経由する連絡先へ置換するようにすれば、文書提供者は、閲覧者が見た際の(翻訳した文書の)言語の種別を問わず、自己がWebページを作成した原原語、すなわち自己が得意な言語への機械翻訳がなされたeメールを受け取ることが可能となる。
【0036】(A−4)第1の実施形態の変形実施形態上述した第1の実施形態の説明でも、種々変形した実施形態に言及したが、さらに、以下に例示するような変形実施形態を挙げることができる。
【0037】なお、上記では、文書閲覧者による要求での翻訳でeメールアドレスを変換する場合を示したが、文書提供者による要求での翻訳でeメールアドレスを変換するようにしても良い。
【0038】また、eメール用の機械翻訳システムが翻訳方向毎に区別してある場合には、eメールアドレスの変換も、当初の翻訳方向を考慮して選択的に実行するようにすれば良い。
【0039】さらに、第1の実施形態の機械翻訳システム1は、インターネット上のサーバに構築されるものを意図しているが、単体の機械翻訳システムにも適用できることは勿論である。
【0040】さらにまた、eメールアドレスの置換は、翻訳処理後に起動するものであっても良い。
【0041】(B)第2の実施形態次に、本発明による機械翻訳システムの第2の実施形態を図面を参照しながら説明する。
【0042】(B−1)第2の実施形態の構成図5は、第2の実施形態の機械翻訳システムの機能的構成を示すブロック図である。第2の実施形態に係る機械翻訳システム1Aも、例えば、1又は複数のサーバ等の情報処理装置で構築されているが、機能的には、図5で示すことができる。なお、図5において、上述した第1の実施形態に係る図1との同一、対応部分には、同一、対応符号を付して示している。また、第2の実施形態に係る機械翻訳システム1Aも、例えば、インターネットのサーバ上に構築されることを意図している。
【0043】図5において、第2の実施形態の機械翻訳システム1Aは、入力部11、書式解析部12A、翻訳部15、辞書16、文書メモリ17、出力部18、連絡先置換部20、連絡先データベース(連絡先DB)21を有する。
【0044】ここで、入力部11、翻訳部15、辞書16、文書メモリ17及び出力部18の機能は第1の実施形態とほぼ同様であるので、その機能説明は省略する。
【0045】第2の実施形態の書式解析部12Aは、入力文書の書式を解析し、文章部分(連絡先を含んでいても良い)を翻訳部15に与えたり、入力文書に連絡先が含まれている場合には、連絡先置換部20に与えたり、入力文書の文章部分以外を文書メモリ17に与えたりするものである。すなわち、この第2の実施形態の場合、書式解析部12Aは、連絡先の抽出部をも兼ねている。なお、書式解析以外の方法で連絡先を抽出するようにしても良い。
【0046】例えば、入力文書がHTMLで記述されたWebページであれば、書式解析部12Aは、タグ情報などを除外した部分を翻訳部15に与え、その除外したタグ情報は、翻訳結果に戻すように文書メモリ17に与えるものである。また、連絡先の検出は、タグ情報などによって連絡先部分を明らかにしておくことを通じて検出するようにしても良く、また、連絡先データベース21における置換前の連絡先情報と入力文書中の文字列との照合により連絡先を検出するようにしても良い。後者の場合は、書式解析以外の方法による抽出の例である。
【0047】ここで、連絡先としては、eメールアドレスであっても良く、住所及び又は名称などの表記であっても良く、電話番号などのいずれであっても良い。
【0048】第2の実施形態で新たに設けられた連絡先置換部20は、連絡先データベース21の格納内容を参照しつつ、書式解析部12Aから与えられた連絡先を、目的言語での連絡先に置換するものである。なお、連絡先の原言語や目的言語などの言語種別の特定が必要な場合には、連絡先置換部20は、適宜辞書16を参照するようにしても良い。
【0049】なお、新たな連絡先を翻訳結果文書に盛り込む方法としては、生成した置換する連絡先の情報を辞書16に登録して翻訳処理を通じて置換する方法でも良く、また、新たな連絡先を書式解析部12Aに戻し、書式解析部12Aが翻訳結果文書に挿入する方法であっても良い。
【0050】連絡先データベース21は、原言語での連絡先と、目的言語での連絡先とを対応付けたデータベースである。なお、原言語での連絡先は、入力文書にコード化して盛り込むようにしても良い。また、翻訳を実行しない場合でも、原言語での連絡先コードを文字列での連絡先に変換できるような情報を連絡先データベース21に登録していても良い。さらに、翻訳先の目的言語になり得る言語種別が複数の場合には、各目的言語となり得る言語種別毎の連絡先を記述しておくようにしても良い。
【0051】連絡先データベース21への連絡先情報の登録は、当該機械翻訳システム1Aの入力文書となり得る文書の提供者が、システムオペレータに依頼し、システムオペレータが編集部22を用いて行うようにしても良く、提供者が編集部22によって直接登録操作を行うようにしても良い。このような編集部22を用いた登録方法としては、機械翻訳用のシステム辞書やユーザ辞書に対する登録方法と同様な方法を適用できるのでこれ以上の説明は省略する。
【0052】(B−2)第2の実施形態の動作次に、第2の実施形態に係る機械翻訳システム1Aの動作を図6のシーケンス図を参照しながら説明する。
【0053】閲覧者は、例えばWebブラウザ等を操作し、当該機械翻訳システム1Aの入力部11に、翻訳させる文書を指定あるいは入力する(ステップS11)。例えば、文書の翻訳を伴う検索の指示を発したり、検索により取り出した文書の翻訳を指示したりする。
【0054】当該機械翻訳システム1Aにおいては、入力文書は、書式解析部12Aによってその書式が解析される(ステップS12)。解析結果に連絡先が含まれていれば、連絡先置換部20に連絡先が与えられて置換動作が起動される(ステップS13)。なお、連絡先の判別は、上述したように、mailタグや、住所、電話番号といった文字列から抽出できる。
【0055】連絡先置換部20では、例えば原言語及び目的言語の言語種別を参考に(例えば翻訳辞書16を参照して)、連絡先データベース21より、置換する連絡先を取得する(ステップS14)。
【0056】連絡先の置換後、又は、連絡先の置換処理と並行して、翻訳部15は辞書16を利用しながら入力文書の翻訳を行い(ステップS15)、翻訳結果文書(訳文)を形成し、形成された翻訳結果文書を出力部18が出力する(ステップS16)。例えば、出力部18は、翻訳結果文書を、閲覧者(ブラウザ)に応じた形式で出力する(ステップS17)。
【0057】(B−3)第2の実施形態の効果以上のように、第2の実施形態によれば、Webぺージなどの文書の翻訳の際に、入力文書に含まれている連絡先を、目的言語に応じた連絡先に置換して翻訳結果文書に含めるようにしたので、目的言語を使用する地域や国や人に対して好適な連絡先を設定でき、文書の閲覧者及び文書提供者にとって有益な機械翻訳システムを実現することができる。
【0058】例えば、予め登録しておいた国外サポートの連絡先へ置換することにより、国外からの問合せや注文にも応じることができるようになる。
【0059】また、第2の実施形態では、置換先の連絡先を任意に指定できるため、特定の言語においては原文のままのメールアドレス、あるいは他の機械翻訳システムを経由するメールアドレスの指定なども可能であり、この点でも文書提供者にとって有益な機械翻訳システムを実現できる。
【0060】因みに、連絡先だけが異なる言語種別毎の複数の文書を用意することは文書提供者の負担が大きい。また、地域ごとなどの連絡先を全て1個の文書に盛り込んだ場合には、文書のデータに無駄が多いということができる。
【0061】(B−4)第2の実施形態の変形実施形態上述した第2の実施形態の説明でも、種々変形した実施形態に言及したが、さらに、以下に例示するような変形実施形態を挙げることができる。
【0062】なお、第2の実施形態の機械翻訳システム1Aは、インターネット上のサーバに構築されるものを意図しているが、単体の機械翻訳システムにも適用できることは勿論である。また、連絡先の置換は、翻訳処理後に起動するものであっても良い。
【0063】(C)他の実施形態上記各実施形態では、eメールアドレスや連絡先が含まれていれば、機械翻訳システムが常にeメールアドレスや連絡先の置換処理を行うものを示したが、文書中の制御情報として置換を実行するか否かのフラグを設け、フラグが置換を指示しているときだけ置換を行うようにしても良い。また、本文中の連絡先以外の住所などと区別すべく、置換に供する部分を制御情報などで区別するようにしておいても良い。
【0064】
【発明の効果】以上のように、本発明によれば、入力文書に含まれている連絡先情報を抽出する連絡先抽出手段と、抽出された連絡先情報を目的言語に応じた連絡先情報に置換する連絡先置換手段と、置換された連絡先情報を翻訳結果文書における、入力文書での連絡先情報の位置に、挿入する連絡先挿入手段とを有するので、連絡先を含む文書を文書提供者及び又は文書閲覧者が有益となるように機械翻訳することができる。
【出願人】 【識別番号】000000295
【氏名又は名称】沖電気工業株式会社
【出願日】 平成12年9月18日(2000.9.18)
【代理人】 【識別番号】100090620
【弁理士】
【氏名又は名称】工藤 宣幸
【公開番号】 特開2002−91968(P2002−91968A)
【公開日】 平成14年3月29日(2002.3.29)
【出願番号】 特願2000−281194(P2000−281194)