| 【発明の名称】 |
データ収集システムおよびデータ収集方法およびプログラムを記録した媒体およびプログラム製品 |
| 【発明者】 |
【氏名】宮崎 和典
|
| 【要約】 |
【課題】WWW上の分散したバイオ関連の複数のデータベースから、ユーザが必要とするデータを所望に抽出できて独自のデータベースの再構築に利用できるようにする。
【解決手段】検索対象の情報をマークアップ言語で記述してなる検索リストに基づいて、インターネットウエブ上のデータベースからデータを検索し、抽出する検索抽出手段210と、この抽出データを、文書型定義を用いて構造化文書に変換して、これを一次データとして得る変換手段230と、この一次データについて、マークアップ言語で記述してなる解析リストに基づいて、インターネットのウエブ上で提供される解析ツールにより解析させるべく制御すると共に、解析結果を取得する解析手段250と、この取得した解析結果を前記文書型定義を用いて構造化文書に変換して、前記一次データに付加する手段230とを備えたことを特徴とする。 |
【特許請求の範囲】
【請求項1】検索対象の情報をマークアップ言語で記述してなる検索リストに基づいて、インターネットウエブ上のデータベースからデータを検索し、抽出する検索抽出手段と、この抽出データを、文書型定義を用いて構造化文書に変換して、これを一次データとして得る変換手段と、この一次データについて、マークアップ言語で記述してなる解析リストに基づいて、インターネットのウエブ上で提供される解析ツールにより解析させるべく制御すると共に、解析結果を取得する解析手段と、この取得した解析結果を前記文書型定義を用いて構造化文書に変換して、これを前記一次データに付加する付加手段とを備えたことを特徴とするデータ収集システム。 【請求項2】データを格納する記憶手段と、検索対象の情報をマークアップ言語で記述してなる検索リストに基づいて、インターネットウエブ上のデータベースからデータを検索し、抽出する検索抽出手段と、この抽出データを、文書型定義を用いて構造化文書に変換して、これを一次データとして得ると共に、この得た一次データを前記記憶手段に格納する変換手段と、前記記憶手段に格納された一次データについて、マークアップ言語で記述してなる解析リストに基づいて、インターネットのウエブ上で提供される解析ツールにより解析させるべく制御すると共に、解析結果を取得する解析手段と、この取得した解析結果を前記文書型定義を用いて構造化文書に変換して、これを前記記憶手段に格納された前記一次データに二次データとして付加する付加手段とを備えたことを特徴とするデータ収集システム。 【請求項3】前記インターネットウエブ上のデータベースはバイオテクノロジー関連のデータベースであり、前記解析ツールはバイオテクノロジー関連の解析に利用されるものであることを特徴とする請求項1または2いずれか1項記載のデータ収集システム。 【請求項4】前記記憶手段はインターネットのウエブ上で公開すると共に、このウエブ上で公開された前記記憶装置のデータは構造化文書形式もしくはテキスト形式の少なくともいずれか所望の形式で取り込む手段をさらに有することを特徴とする請求項1乃至3いずれか1項記載のデータ収集システム。 【請求項5】検索対象の情報をマークアップ言語で記述してなる検索リストに基づいて、インターネットウエブ上のデータベースからデータを検索し、抽出する検索抽出工程と、この抽出データを、文書型定義を用いて構造化文書に変換して、これを一次データとして得る変換工程と、前記一次データについて、マークアップ言語で記述してなる解析リストに基づいて、インターネットのウエブ上で提供される解析ツールにより解析させるべく制御すると共に、解析結果を取得する解析工程と、この取得した解析結果を前記文書型定義を用いて構造化文書に変換して、これを前記一次データに付加する付加工程とからなることを特徴とするデータ収集方法。 【請求項6】検索対象の情報をマークアップ言語で記述してなる検索リストに基づいて、インターネットウエブ上のデータベースからデータを検索し、抽出する検索抽出工程と、この抽出データを、文書型定義を用いて構造化文書に変換して、これを一次データとして得ると共に、この得た一次データを記憶手段に格納する変換工程と、前記記憶手段に格納された一次データについて、マークアップ言語で記述してなる解析リストに基づいて、インターネットのウエブ上で提供される解析ツールにより解析させるべく制御すると共に、解析結果を取得する解析工程と、この取得した解析結果を前記文書型定義を用いて構造化文書に変換し、これを前記記憶手段に格納された前記一次データに二次データとして付加する付加工程とからなることを特徴とするデータ収集方法。 【請求項7】前記インターネットウエブ上のデータベースはバイオテクノロジー関連のデータベースであり、前記解析ツールはバイオテクノロジー関連の解析に利用されるものであることを特徴とする請求項5または6いずれか1項記載のデータ収集方法。 【請求項8】ウエブ上で公開されたデータは構造化文書形式もしくはテキスト形式の少なくともいずれか所望の形式で取り込む工程をさらに有すると共に、前記記憶手段に格納したデータはインターネットのウエブ上で公開するものであることを特徴とする請求項5または6いずれか1項記載のデータ収集方法。 【請求項9】検索対象の情報をマークアップ言語で記述してなる検索リストに基づいて、インターネットウエブ上のデータベースからデータを検索し、抽出する検索抽出工程と、この抽出データを、文書型定義を用いて構造化文書に変換して、これを一次データとして得る変換工程と、前記一次データについて、マークアップ言語で記述してなる解析リストに基づいて、インターネットのウエブ上で提供される解析ツールにより解析させるべく制御すると共に、解析結果を取得する解析工程と、この取得した解析結果を前記文書型定義を用いて構造化文書に変換して、これを前記一次データに付加する付加工程と、からなるコンピュータで読み取り並びに実行可能なプログラムを記録した媒体。 【請求項10】検索対象の情報をマークアップ言語で記述してなる検索リストに基づいて、インターネットウエブ上のデータベースからデータを検索し、抽出する検索抽出工程と、この抽出データを、文書型定義を用いて構造化文書に変換して、これを一次データとして得ると共に、この得た一次データを記憶手段に格納する変換工程と、前記記憶手段に格納された一次データについて、マークアップ言語で記述してなる解析リストに基づいて、インターネットのウエブ上で提供される解析ツールにより解析させるべく制御すると共に、解析結果を取得する解析工程と、この取得した解析結果を前記文書型定義を用いて構造化文書に変換し、これを前記記憶手段に格納された前記一次データに二次データとして付加する付加工程と、からなるコンピュータで読み取り並びに実行可能なプログラムを記録した媒体。 【請求項11】ウエブ上で公開されたデータは構造化文書形式もしくはテキスト形式の少なくともいずれか所望の形式で取り込む工程をさらに有することを特徴とする請求項9または10いずれか1項記載のコンピュータで読み取り並びに実行可能なプログラムを記録した媒体。 【請求項12】検索対象の情報をマークアップ言語で記述してなる検索リストに基づいて、インターネットウエブ上のデータベースからデータを検索し、抽出する検索抽出工程と、この抽出データを、文書型定義を用いて構造化文書に変換して、これを一次データとして得る変換工程と、前記一次データについて、マークアップ言語で記述してなる解析リストに基づいて、インターネットのウエブ上で提供される解析ツールにより解析させるべく制御すると共に、解析結果を取得する解析工程と、この取得した解析結果を前記文書型定義を用いて構造化文書に変換して、これを前記一次データに付加する付加工程と、からなるプログラム製品。
|
【発明の詳細な説明】【0001】 【発明の属する利用分野】本発明は、WWW(World Wide Web)上に分散したバイオ関連(バイオテクノロジー関連)の複数のデータベースから、ユーザが必要とするデータを抽出、データベース化し、更にデータベース化したデータを解析して新たな情報を抽出するためのデータベースを構築するシステムに関するものである。 【0002】 【従来の技術】近年、バイオ分野では、インターネット技術の発達に加え、ゲノムプロジェクトやDNAチップ技術の進展により一度に多量のデータが生み出されるようになったため、これらのデータをデータベース化し、インターネット上で公開しようとする取り組みが多数行われてきた。 【0003】しかしながら、このようなバイオ分野のデータベースでは、バイオという分野が抱える特徴に起因する問題点があった。 【0004】すなわち、その特徴の一つは、バイオという分野から来るデータベースの多様性である。すなわち、バイオ分野での各データベースに集められているデータは、遺伝子の塩基配列(例えば、米国NCBI(National Center for biotechnology information)が構築している“GenBank”、日本の国立遺伝学研究所が構築している“DDBJ”など)、タンパク質のアミノ酸配列(例えば、SIB(Swiss Institute of Bioinformatics)とEBI(European Bioinformatics Institute)とが構築している“SWISS-PROT”など)、タンパク質の立体構造(例えば、Reserch Collaboratory for Structual Bioinformatics が構築している“PDB(Protein Data Bank)”など)、疾病に関する情報(例えばNCBIが構築している“OMIM”など)、論文情報(例えばNCBIが構築している“PubMed”など)といったように、データベース毎に異なり、多岐にわたっている。 【0005】従って、これらのデータベースを駆使することで、ユーザは自己の追求している特定テーマに関して、必要な情報を入手することが可能であるが、データベースが多岐にわたるため、現実にはそう簡単にはいかない。 【0006】すなわち、ユーザが、これらのデータベースから特定のテーマに関する情報を網羅的に収集しようとする場合には、上記の複数のデータベースを利用しなければならないが、そのためには、インターネットを利用してデータベースを提供している複数のサイトに一つ一つアクセスし、それぞれのデータベースから必要なデータを抽出するという煩雑な作集を繰り返し行わなければならない。 【0007】しかも、厄介なことに、バイオ関連のデータベースには、各データベースに蓄えられているデータ、例えば、遺伝子の塩基配列やタンパク質のアミノ酸配列を、人が単に閲覧しただけでは、データに含まれた生物学的意味を理解できないという特徴がある。 【0008】例えば、前述のGenBankにラット嗅覚レセプタータンパク質の遺伝子として登録されている1つのデータ(登録番号:Y07557)には、そのタンパク質のアミノ酸配列として、“MTERNQTVISQFLLLGLPIPPEHQHVFYALFLSMYLTTVLGNLIIIILILLDSHLHTPMYLFLSNLSFSDLCFSSVTMPKLLQNMQSQVPSIPYAGCLSQIYFFLFFGDLGNFLLVAMAYDRYVAICFPLHYMSIMSPKLCVSLVVLSWVLTTFHAMLHTLLMARLSFCEDNVIPHFFCDMSALLKLACSDTRVNEVVIFIVVSLFLVLPFALIIMSYVRIVSSILKVPSSQGIYKAFSTCFSHLSVVSLFYGTVIGLYLCPSSNNSTVKETVMSLMYTVVTPMLNPFIYSLRNRDIKGAMERIFCKRKIQLNL”という文字列の情報がある。 【0009】嗅覚レセプタータンパク質は、直覚ニューロンの細胞膜に存在しており、かつ、細胞膜を貫通している領域が7箇所存在すると考えられている(Buck l. andAxel R., Cell vol.65 175-187, 1991)が、上記の文字配列を人が単に眺めただけでは、どの部分が細胞膜を貫通している領域かを知ったり、あるいは予測したりすることはできない。 【0010】このように、バイオ分野のテータを利用する上では、人が単に閲覧しただけでは得られない情報を抽出することが重要である。そのため、幾つかの解析ツールが開発され、WWW上で公開されている。 【0011】例えば、タンパク質のアミノ酸配列から細胞膜貫通領域を予測するツールに関しては、SIBが運営しているExPASy(Expert Protein analysis System, http://expasy, nhri.org.tw/tw/tools/)において、8種類のツールが紹介されており、利用可能である。しかし、データを解析する手法はまだ研究段階のものが多く、確立されていないことから、同一の目的に対しても複数のツールが提供されているのが現状である。 【0012】このため、ユーザは、これらのツールを利用して解析結果を得ることとなるが、信頼性の高い解析結果を得るためには、複数のツールによる結果を比較検討することが重要である。そして、これらの解析ツールを提供しているサイトは、前述したデータベースとは必ずしも同一ではないWWW上のサイトで提供されているため、ユーザはデータを解析する過程でも、改めて複数のサイトに一つ一つアクセスする必要があった。 【0013】 【発明が解決しようとする課題】以上のように、バイオ分野のデータを利用するにあたり、ユーザがWWW上に分布したデータベースから必要なデータを抽出してデータベース化したり、得られたデータからWWW上で提供されている解析ツールを利用して新たな情報を抽出しようとする場合、幾つものサイトにアクセスしてデータの抽出や個々のデータに関する解析作業を行うという、煩雑で手間のかかる作業を手作業で行わねばならなかった。 【0014】このような煩雑な手作業を軽減するため、従来においてもWWW上の複数のデータベースからユーザが必要とするデータを抽出するための市販のアプリケーションソフトウェア(例えば、LION Bioscience Ltd.社の開発したSRSなど)が提供されてはきた。 【0015】しかし、これまで提供されてきたアプリケーションソフトウェアでは、利用できるデータベースが予め設定されているため、WWW上で公開されるそれ以外のデータベースを新たに含めて利用したいと云う要求が生じても、そのような要求には適合できなかった。 【0016】そのため、ユーザが必要とする全てのデータベースを網羅できるようなシステムを必要とするならば、オーダーメイドでそのようなアプリケーションを開発しなければならないが、その場合には開発コストが非常に高価なものになった。更に、オーダーメイドのシステムでも、システム構築後に新規なデータベースが公開された場合や、ユーザが利用するデータベースに変更が生じた場合には、容易には対応することができないという問題があった。 【0017】また、WWW上で公開されているデータベースは、ブラウザを通してユーザに情報を提供することに主眼を置いているため、ユーザが、データベースから抽出したデータを利用してユーザ独自のデータベースを構築しようとする場合には、ユーザ自身がブラウザに表示されたデータを、一つ一つHTML(Hyper Text MarkupLanguage)形式か、或いは、単なるテキスト形式に変換したのち、記憶媒体へ保存してからデータベース化しなければならないという問題があった。 【0018】更に、従来のデータベースで提供されるデータには、該データベースを利用する大部分のユーザに必要とされる情報が盛り込まれているため、特定ユーザにとっては必ずしもすべての情報が必要であるわけではない。 【0019】そこで、容量の限られたユーザの記憶媒体にデータを保存しデータベースを構築しようとする場合に、各データベースから抽出された個々のデータの全要素データから必要最小限の要素を取り出し、データとして整形して保存することができるようなデータベース再構築システムの出現が嘱望される。 【0020】更に、各データベースが提供するデータのフォーマットや、解析ツールで使用するデータの形式は、それぞれのデータベースや解析ツールにおいて独自に策定されて統一化されていないため、前述のようにブラウザで表示された各データの一部をテキスト形式で単に切り出して保存しただけでは、解析ツールで利用できない場合が生じるという問題点があった。 【0021】このことを説明しておく。図1は、前述のGenBankに登録されている嗅覚レセプタータンパク質遺伝子に関する情報を、テキスト形式で保存した例を示したもので、ブロック110の領域に嗅覚レセプタータンパク質のアミノ酸配列が記載されている。このアミノ酸配列のデータは、人が見易いように適宜な位置で改行コードや空白(格子模様の領域、ブロック111)が挿入されている。 【0022】また、図から分かるように、ブロック120の領域に記載されている嗅覚レセプタータンパク質の遺伝子の塩基配列には、改行と空白に加えて配列の番号も挿入されている。 【0023】しかし、データを解析ツールで解析する際には、“改行コード”、“空白”、“配列番号”といった不要な文字列は予め取り除いて、一続きの文字列に整形しておかないと正確な処理が行われないという問題があった。 【0024】本発明は、以上のような問題点に鑑みてなされたものであり、WWW上のデータベースからのデータの抽出、データベース化、データの解析という一連の工程を、簡易に実施可能であり、しかも、処理対象や処理内容、利用データベース、利用解析ツールなどもユーザ本位に自由度を高めることができると共に、データの形式や配列などは所望に自動変換できるようにした便利なデータベースシステムおよびデータベース構築方法を提供することにある。 【0025】 【課題を解決するための手段】上述の課題を解決するため、本発明は次のように構成する。 【0026】[1] 検索対象の情報をマークアップ言語で記述してなる検索リストに基づいて、インターネットウエブ上のデータベースからデータを検索し、抽出する検索抽出手段と、この抽出データを、文書型定義を用いて構造化文書に変換して、これを一次データとして得る変換手段と、この一次データについて、マークアップ言語で記述してなる解析リストに基づいて、インターネットのウエブ上で提供される解析ツールにより解析させるべく制御すると共に、解析結果を取得する解析手段と、この取得した解析結果を前記文書型定義を用いて構造化文書に変換して、前記一次データに付加する手段とを備えたことを特徴とする。 【0027】また、前記インターネットウエブ上のデータベースはバイオテクノロジー関連のデータベースであり、前記解析ツールはバイオテクノロジー関連の解析に利用されるものであることを特徴とする。 【0028】本システムは、構造化文書で記述した検索対象のリストおよび、検索された情報の解析のための情報を構造化文書で記述した解析リストと、DTD(構造化文書を得るための文書型定義)を用意すれば、ユーザが必要な情報を、検索リストに従って抽出手段がWWW上のデータベース(復数のバイオ関連データベース)から抽出し、この抽出データをDTDを用いて変換手段は構造化文書へ変換し、そして、解析手段は前記解析リストに従って、解析ツールの提供サイトにアクセスし、解析を行う要素データを送って解析処理してもらい、結果を受け取る。そして、付加手段は、この解析結果のデータから、必要な要素データを抽出し、これをDTDに基づいて、現在の一次データに二次データとして付加するかたちでデータ処理する。 【0029】WWW上のデータベースは、そのアクセスにブラウザを用いて閲覧する構成であり、ブラウザはXMLなどのマークアップ言語で記述したファイルを用意すればブラウザ上での様々な処理や制御が可能である。しかもXMLなどのマークアップ言語では、定義をすれば機能を拡張できる。従って、検索したい対象やデータベースをマークアップ言語にて記述した検索リストや、解析ツールを指定してどのデータを解析させるかと、云ったことを思うがままに実行させることができる。 【0030】そのため、WWW上に分散している複数のデータベースから、ユーザが必要とするデータを抽出し、そのデータからユーザ独自のデータベースを構築、更に、ユーザのデータベース中のデータから、WWW上で提供されている解析ツールを用いてて新たな情報を抽出しようというような場合に、“複数のデータベースヘアクセス”、“データを抽出、“データの整形・保存”、“データベース化”、“解析ツールを提供している複数のサイトへのアクセス”、“解析するデータの送信”、“データの解析”、“解析結果のデータ中から必要なデータの選別”、“集めたデータの1ファイル化しての保存”という一連の煩雑な作業の繰り返しを、容易に自動化できるようになる。 【0031】従って、本第1の実施の形態により、WWW上の分散したバイオ関連の複数のデータベースから、ユーザが利用するデータベースを自由に選択可能で、かつ、変更も容易となる。また、マークアップ言語を用いているので、検索対象や処理内容などの変更や追加は自由に出来、拡張性と柔軟性をもったデータ収集システムを提供できる。 【0032】[2]また、前記記憶手段はインターネットのウエブ上で公開すると共に、このウエブ上で公開された前記記憶装置のデータは構造化文書形式もしくはテキスト形式の少なくともいずれか所望の形式で取り込む手段をさらに有することを特徴とする。 【0033】この構成によれば、再構築されたデータを第三者が利用することができ、その場合に、そのデータをテキスト形式か、構造化文書形式のいずれかを選択して取り込むことができる。そのため、ブラウザが構造化文書に適合していないときはテキスト形式で取り込めば、データの利用が可能であり、ブラウザが構造化文書に適合していれば構造化文書形式を活かして閲覧したり、再加工に利用できるようになる。 【0034】 【発明の実施の形態】本発明は、WWW上の分散したバイオ関連の複数のデータベースから、ユーザが利用するデータベースを自由に選択して必要なデータを抽出でき、抽出したデータは構造化文書に変換して一次データとして蓄え、この蓄えた一次データからWWW上に分散した複数のサイトで提供される複数の解析ツールを利用して情報を抽出し、抽出した情報を前記一次データに付加する処理を、計算機により自動的に行えるようにすると共に、WWW上のデータを活用することから、WWWの情報閲覧に供されるアプリケーションであるブラウザで利用可能なマークアップ言語による構造化文書形式を検索や分析、データ保管に採用するようにしたことを特徴とするものである。そして、この構造化文書を採用することで、ユーザが利用するWWW一上のデータベースや解析ツール、収集対象の変更や収集データの配置などを柔軟に変更可能なシステムを提供することができるものであり、以下、本発明の実施の形態について、図面を参照して説明する。 【0035】(第1の実施の形態)ここでは、例えば、ある種のタンパク質遺伝子データベースは図1に示す如きの形態といった具合に目的や用途等に応じてデータベース毎に様々な形態をとるバイオ分野のデータベースから、自己の目的に合う情報や形式を持つデータベースを構築できるようにするデータベースシステムの再構築のためのデータ収集システムを提案する。以下、詳細を説明する。 【0036】図2は、第1の実施の形態によるデータベースシステムの基本構成を示すブロック図である。図2において、200は本発明によるデータベースシステムであり、270はWWW上に分散しているバイオ関連データベース、280はバイオ分野のデータを解析するためのツールであって、これらはWWW上の分散したサイトより提供される。これらと本発明のデータベースシステム200とはインターネット260を介して繋がっている。なお、図1では、バイオ関連データベース270と解析ツール280が異なるブロックに表記されているが、実際にはこれらが同一のサイトで提供されている場合も含まれる。 【0037】本発明のデータベースシステム200は、WWW上の復数のバイオ関連データベース270からユーザが必要な情報を抽出するためのデータ抽出モジュール210と、記憶部220と、抽出したデータを構造化文書へ変換するためのモジュール230と、データベース部240と、データベース部240に蓄えられたテータをWWW上の解析ツール280を利用して解析を行うためのテータ解析エージェント250とにより構成されており、これらが一連の工程として動作するシステムとなっている。 【0038】ここで、前記記憶部220とデータベース部240とは、同一の記憶媒体で構成してもよいし、異なる記録媒体、例えば、記憶部220はメモリに、データベース部はハードディスクにというように構成してもよい。 【0039】本発明システムでは、複数のバイオ関連データベース270からユーザが必要な情報を、データ抽出モジュール210が抽出するが、このデータ抽出モジュール210は、ディレクトリ型検索エンジン211とダウンロードプログラム212とで構成されている。ディレクトリ型検索エンジン211は、ユーザが予め作成した、利用するデータベースと検索式を記載した検索リストファイル213を保有し、このファイルに基づいてデータベースヘのアクセス、データの抽出を行う機能がある。これによりデータ抽出モジュール210は、データベースからユーザが必要な情報を抽出することができる。 【0040】前記データ抽出モジュール210の持つ前記ダウンロードプログラム212は、ディレクトリ型検索エンジン211、検索ファイル213に基づいて検索を行った結果を、一時的に記憶部220に格納する機能を有する。また、記憶部220に格納した検索結果をもとに、抽出された個々のデータをWWW上のデータベースからダウンロードして記憶部220に格納するといった機能も有する。 【0041】データ抽出モジュール210が、データベースから抽出して記憶部220に格納したユーザの必要な情報は本発明システムでは構造化文書に変換するが、これを行うのが変換モジュールである。 【0042】この変換モジュール230は、パーサ231と、DTDを格納した文書方定義格納部232とにより構成されている。これらのうち、パーサ231は、文書型定義格納部232に格納されているDTDに基づいて、ダウンロードプログラム212によりテキストファイル形式で取得した各データを解析し、その中から必要な要素を取り出して、構造化文書へ変換するという処理機能を持つプログラムである。 【0043】尚、DTDとは、Document Type Difinition(文書型定義)の略であり、文書がどのようなタイプのものかを定義するものであって、主として、要素型宣言と属性リスト宣言からなるものである。ここで、要素型宣言とは、XML文書で出てくる各々の要素に対して、どのようなものを内容に持つか、ということを定義するものであり、属性リスト宣言は、XML文書で出てくる各々の要素に対して、どのような属性を持ち、その属性がどのような値を取り得るのか、といったことを定義するものである。 【0044】データベース部240はユーザ仕様により新たに構築したデータからなるデータベースであり、変換モジュール230で構造化文書に変換したデータからユーザが選択した特定の要素についてデータ解析エージェント250が解析を行った結果、得られた新たな情報を、元のデータに付加することができる。 【0045】このデータベース部240は、WWW上のデータベースから抽出して構造化文書に変換した各データを格納する一次データ格納部241と、一次データをWWW上の解析ツールで解析して得られた結果を格納する二次データ格納部242とにより構成されている。データベースは、いわゆるリレーショナルデータベース、オブジェクト指向データベース、リレーショナルオブジェクト指向データベースなどを利用することが可能である。 【0046】データ解析エージェント250は、解析リストファイル251とデータ送受信プログラム252により構成される。解析リストファイル251は、ユーザが、利用する解析ツールに関する情報(解析ツールが提供されているサイトのURLや、解析ツールが一次データのどの要素を利用するのか、など)を記載した文書ファイルである。このファイルの内容に基づいて、以下で説明するデータ送受信プログラム252が処理を行うため、解析リストファイル251は検索リストファイルと同様、XMLなどの構造化文書であると望ましい。 【0047】データ送受信プログラム252は、解析リストファイル251に基づいて、解析ツールを提供しているサイトヘアクセスし、解析を行う要素データを送信する機能を有する。また、得られた解析結果を一時的に記憶部220に格納し、この結果から、必要な要素データを抽出して、これをDTDに基づいて、現在の一次データに二次データとして付加するといった機能を有する。 【0048】次に、このような構成の本発明システムの作用を説明する。このような構成の本発明のデータベースシステム200は、WWW上の複数のバイオ関連データベース270からユーザが必要な情報を、データ抽出モジュール210が抽出し、モジュール230がこの抽出データを構造化文書へ変換する。 【0049】ここで、本発明で用いられる構造化文書とは、SGML(Standard Generalized Markup Language, ISO8879, 1986)や、XML(eXtensible Markup Languate, http://www.w3.org/TR/REC-xml, 1998)に代表されるマークアップ言語の仕様に従って、所定の構成要素に基づいて構造化された文書である。 【0050】このような構造化文書では、文書を構成する各要素を、各要素の意味、属性などの情報を含んだタグでマークアップする。これにより、当該マークアップ言語を実行可能な計算機(コンピュータ)による処理、例えば文書中に含まれる要素の検索などが容易に実行可能である。 【0051】マークアップ言語は、基本的には、タグ とそれらに囲まれた文字列(テキスト)とから構成されており、上記タグとは ”<title>..</title>” や ”<h1>..</h1>”など“<”と“/>”で囲まれて表現されたものを指す。そして、各タグは予め定義がなされているが、XML ではタグの定義を自由に行うことができ、ユーザが目的に合わせて所望の内容のものを作成して利用できる。 【0052】このように、構造化文書では、文書を構成する各要素を、各要素の意味、属性などの情報を含んだタグでマークアップすることにより、計算機処理による文書中の要素の検索や編集、抽出といったことなどがわかり易い記述で容易に行え、しかも、ユーザ自身による構造化文書内容の変更や追加、削除などが容易であるという特徴がある。 【0053】本発明のように、データベースに蓄えられた全データの特定の要素データを取り出し、取リ出した全要素データを解析することにより、新たな情報を抽出しようとする場合には、計算機による要素データの検出などの処理が高頻度で行われるため、構造化文書のこの特徴は、作集効率の向上を図る上で非常に重要である。 【0054】従って、本発明ではマークアップ言語を用いた構造化文書による処理を採用している。 【0055】前述したように、データベースからユーザが必要な情報を抽出する前記データ抽出モジュール210は、ディレクトリ型検索エンジン211とダウンロードプログラム212とで構成されている。そして、ディレクトリ型検索エンジン211は、ユーザが予め作成した、利用するデータベースと検索式を記載した検索リストファイル213を保有し、このファイルに基づいてデータベースヘのアクセスや、データの抽出等の処理を行う。検索リストファイル213としては、マークアップ言語による構造化文書を採用する。ただし、これは必須の要件ではない。しかし、柔軟性を持たせるためには、計算機による処理が容易で、かつ、ユーザによる改変作集も容易な形式、例えば、構造化文書であることが望ましい。 【0056】検索リストファイル213を構造化文書形式の一つであるXML形式で記述した例を図3に示す。このファイルは、“olfactory receptor”(嗅覚レセプター)というキーワードを持つデータを抽出するためのものである。図において、ブロック310の領域には、検索リストファイルにおける文書型定義DTD(Document Type definition)の内部サブセットを、ブロック310、330、340の各領域には、それぞれ利用するデータベース毎にデータの抽出に関する情報を記述している。DTDについては、後述の構造化文書への変換モジュールの項で説明する。なお、この例では、検索リストファイルのDTDを内部サブセットとして記述しているが、これに限定するものではない。また、データベースについても、3種類のデータベースを利用するように設定しているが、当然、これに限定するものではない。 【0057】利用するデータベースとしては、前述の“GenBank”, “SWISS-PROT”、そして、嗅覚レセプタータンパク質に関する情報に特化して構築されているデータベース“ORDB(Orfactory Receptor DataBase、Yale Univ. Shephard a Lab.で築されている)”を、図3のブロック310,320、330の領域に含まれる要素“database_name”に登録している。 【0058】また、検索リストファイル中においては、それぞれのデータベースでの検索式は、“query”なる要素に記述しておく。この検索式としては、簡単には、各データベースが提供している検索システムを用いてキーワード検索を行った際に、ブラウザのURL(Uniform Resource Locator)の欄に表示されている文字列を利用することができる。 【0059】ユーザは、このような構造化文書形式の検索リストファイル213の内容を更新することにより、利用するデータベースを自由に変更したり、追加したりすることが可能であり、かつ、検索リストファイルを作成した後に発見したり、新たに提供開始した新規データベースを利用したい場合には、検索リストファイル213に必要なデータを書き加えることで利用可能となる。 【0060】ダウンロードプログラム212は、ディレクトリ型検索エンジン211検索ファイル213に基づいて検索を行った結果を、一時的に記憶部220に格納する。続いて、ダウンロードプログラム212は、記憶部220に一時的に格納した検索結果をもとに、抽出された個々のデータをWWW上のデータベースからダウンロードして記憶部220に格納する。このとき、ダウンロードプログラム212がダウンロードしたデータ形式はテキストファイル形式である。 【0061】次に本発明のデータベースシステム200は、このテキストファイル形式でダウンロードされたこの収集データを、モジュール230の機能によって構造化文書に変換処理させる。 【0062】すなわち、構造化文書への変換モジュール230は、パーサ231と、DTDを格納した文書方定義格納部232とを有しているが、これらのうち、パーサ231は、文書型定義格納部232に格納されているDTDに基づいて、各データ(テキストファイル形式で取得してある)を解析し、その中から必要な要素を取り出して、構造化文書へ変換するという処理機能を行う。 【0063】ここでDTDは文書型定義であり、文書がどのようなタイプのものかを定義するものであって、主として、要素型宣言と属性リスト宣言からなるものである。そして、要素型宣言とは、XML文書で出てくる各々の要素に対して、どのようなものを内容に持つか、ということを定義するものであり、属性リスト宣言は、XML文書で出てくる各々の要素に対して、どのような属性を持ち、その属性がどのような値を取り得るのか、といったことを定義するものである。DTDは別ファイルにしておくこともできるし、XML文書の中に記述することもでき、別ファイルにした方を“外部サブセット”、XML文書内に書かれたものを“内部サブセット”と呼ぶ。外部サブセットと内部サブセットは同時に指定することも可能である。 【0064】このように、DTDは、XML文書のデータ構造を書くためのものであり、構造化文書がどのような要素を、どのような構造で含んでいるといった文書型を定義してあるので、パーサ231はこのDTDに基づいてデータを処理すると、得られたファイルは構造化文書に変換されたファイルとなる。 【0065】尚、DTDとしては、外部で提供されるものを利用することも可能であり、また、構造化文書がXML形式である場合には、DTDを用いないことも可能である。しかし、本発明が提供するデータベースシステムのように、構造化文書に変換したデータからユーザが選択した特定の要素について解析を行い、得られた新たな情報を元のデータに付加するというような処理を含むシステムでは、ユーザの用途に適した、かつ、データを構成する要素を随時付加することを念頭において作成されたDTDを利用するのが望ましい。 【0066】このようにして、本発明のデータベースシステム200は、ユーザが所望とする一つ以上のデータベースや検索内容を記述した検索リストを用意しておくことで、データ抽出モジュール210はこの検索リストに従って、WWW上の復数のバイオ関連データベース270からユーザが必要な情報を抽出し、この抽出データはユーザが予め設定したDTDに基づいてモジュール230が構造化文書へ変換する。そして、変換した構造化文書をデータベース部240に与える。 【0067】データベース部240は、WWW上のデータベースから抽出して構造化文書に変換した各データを格納する一次データ格納部241と、一次データをWWW上の解析ツールで解析して得られた結果を格納する二次データ格納部242とにより構成されており、構造化文書に変換されたデータは一次データ格納部241に格納される。尚、データベースは、いわゆるリレーショナルデータベース、オブジェクト指向データベース、リレーショナルオブジェクト指向データベースなどを利用することが可能である。 【0068】次に、本発明のデータベースシステム200は、データ解析エージェント250により、一次データ格納部241の格納データについて解析を行う。 【0069】データ解析エージェント250は、解析リストファイル251とデータ送受信プログラム252により構成されており、データ送受信プログラム252は解析リストファイル251に従って、解析ツールの提供サイトにアクセスし、解析を行う要素データを当該サイトに送信する。これを受けたサイト側では解析リストファイル251に指定された解析ツールを使用して前記要素データを解析し、結果を本発明のデータベースシステム200に返す。 【0070】本発明のデータベースシステム200ではこの得られた解析結果のデータをデータ解析エージェント250が受け取り、これをデータ送受信プログラム252の実行によって一時的に記憶部220に格納し、また、この格納した前記解析結果のデータから、必要な要素データを抽出し、これをDTDに基づいて、現在の一次データに二次データとして付加するかたちでデータ処理する。 【0071】そのため、データベース部240にはバイオ関連のデータベースから収集した所望のデータを、DTDに基づいたかたちで次々に付加し、所望のデータベースの基礎データとして得ることが出来るようになる。 【0072】解析リストファイルを用いた解析について、もう少し詳しく説明しておく。本発明システムで用意した上述の解析リストファイル251は、ユーザが、利用する解析ツールに関する情報(解析ツールが提供されているサイトのURLや、解析ツールが一次データのどの要素を利用するのか、など)を記載した文書ファイルである。なお、このファイルの内容に基づいて、以下で説明するデータ送受信プログラム252が処理を行うため、解析リストファイル251は検索リストファイルと同様、XMLなどの構造化文書であると望ましい。 【0073】図4に、XML形式で作成された解析リストファイル251の一例を示した図において、ブロック410には、解析リストファイルにおけるDTDの内部サブセットを記述してあり、ブロック420とブロック430とには、2種類の解析ツールに関する情報を記述してある。 【0074】そして、本実施例においては具体的には、解析ツールに関する情報の記述は、新たに宣言して利用可能にした“tool_url”なる要素に、解析ツールを提供しているサイトのURLの情報を記述し、新たに宣言して利用可能にした“data_element”なる要素に、解析ツールが利用する一次データの要素を記述している。 【0075】そして、“tool_url”なる要素は、データ送受信プログラム252において当該要素に記述されたサイトに行ってここで提供する解析ツールを利用するという機能と関連付けてあり、“data_element”なる要素には、当該要素に記述された一次データの要素を当該解析ツールで解析させるという機能と関連付けてある。XMLを利用することによりユーザによるこのようなプログラミングが容易にできることから、このような特徴を利用することで、“tool_url”なる要素に記述されたサイトに行ってここで提供する解析ツールを利用して、“data_element”なる要素に記述された一次データの要素を当該解析ツールで解析させることができるようになる。 【0076】ここでは、解析ツールとしては、先述のExPASyで細胞膜貫通領域予測ツールとして紹介されている2種類、“SOSUI (http://azusa.proteome.bio.tuat.ac.jp/sosui/submit.html)”と“TopPred2(http://www.biokemi.su.se/ server/toppred2/toppredServer.cgi)”を登録し、ともに一次データに含まれる要素aa_sequenceを利用することを宣言している。 【0077】本実施の形態では、DTDを内部サブセットとして記述しているが、もちろん外部サブセットとして別のファイルで提供する構成としても良い。また、上述の通り、本実施の形態では2種類の解析ツールを登録しているが、これも当然ながらこれらに限るものではない。 【0078】データ送受信プログラム252は、解析リストファイル251に基づいて、解析ツールを提供しているサイトヘアクセスし、解析を行う要素データを送信する。そして、これにより得られた解析結果を一時的に記憶部220に格納し、この結果から、必要な要素データを抽出して、これをDTDに基づいて、現在の一次データに二次データとして付加する。 【0079】そのため、バイオ関連のデータベースから収集した所望のデータを、DTDに基づいたかたちで次々に付加し、収集していくので、所望のデータベースを構築するに当たり、所望のデータを様々なデータベース上から抽出してファイル化できるようになる。 【0080】以上のように、この1の実施の形態におけるデータベースシステム200は、マークアップ言語で記述した検索リストおよび解析リストと、DTD(構造化文書を得るための文書型定義)を用意すれば、ユーザが必要な情報を、検索リストに従ってデータ抽出モジュール210がWWW上の複数のバイオ関連データベース270から抽出し、この抽出データを記憶部220に記憶し、データの収集が終わると、次にDTDを用いてのモジュール230の機能によってこの収集データの構造化文書への変換を実施し、次に、解析エージェント250が前記解析リストに従って、解析ツールの提供サイトにアクセスし、解析を行う要素データを送って解析処理してもらい、結果を受け取って記憶部220に格納させ、また、この格納した前記解析結果のデータから、必要な要素データを抽出し、これをDTDに基づいて、現在の一次データに二次データとして付加するかたちでデータ処理し記憶部に格納させるようにした。 【0081】WWW上のデータベースは、そのアクセスにブラウザを用いて閲覧する構成であり、ブラウザはXMLなどのマークアップ言語で記述したファイルを用意すればブラウザ上での様々な処理や制御が可能である。しかもXMLなどのマークアップ言語では、定義をすれば機能を拡張できる。従って、検索したい対象やデータベースをマークアップ言語にて記述した検索リストや、解析ツールを指定してどのデータを解析させるかと、云ったことを思うがままに実行させることができる。そのため、WWW上に分散している複数のデータベースから、ユーザが必要とするデータを抽出し、そのデータからユーザ独自のデータベースを構築、更に、ユーザのデータベース中のデータから、WWW上で提供されている解析ツールを用いてて新たな情報を抽出しようというような場合に、複数のデータベースヘアクセスし、データを抽出、データの整形・保存、データベース化、解析ツールを提供している複数のサイトにアクセス、解析するデータの送信、データの解析、といった一連の煩雑な作業の繰り返しを、容易に自動化できるようになる。 【0082】従って、本第1の実施の形態により、WWW上の分散したバイオ関連の複数のデータベースから、ユーザが利用するデータベースを自由に選択可能で、かつ、変更も容易であり、所望のデータを所望に収集して利用可能にするシステムが得られるようになる。 【0083】(第2の実施の形態)図5は、第2の実施の形態によるデータベースシステムの基本構成を示すブロック図である。図において、データベースシステム500は、第1の実施の形態における各モジュールと同等の働きをする、データ抽出モジュール510、記憶部520、構造化文書への変換モジュール530、データベース部540、データ解析エージェント550、そして、当該第2の実施の形態におけるシステムの特徴的な構成要素であるユーザインターフェイスモジュール560とにより構成する。 【0084】データ抽出モジュール510は、第1の実施の形態におけるデータ抽出モジュール210に、記憶部520は、第1の実施の形態における記憶部220に、構造化文書への変換モジュール530は、第1の実施の形態における構造化文書への変換モジュール230に、データベース部540は、第1の実施の形態におけるデータベース部240に、そして、データ解析エージェント550は、第1の実施の形態における解析エージェント250に該当するもので、構成および機能も第1の実施の形態のものと同等である。 【0085】第2の実施の形態におけるシステムの特徴的な構成要素であるユーザインターフェイスモジュール560は、外部のユーザがインターネット570を介してデータベースシステム500にアクセスする際のユーザインターフェイスを提供するものであり、データベース部540に格納されているデータから、必要なデータを抽出してテータの内容を回覧するためのビュー機能561と、インターネット570を介してデータベース部540にアクセスしているユーザが、構造化文書として格納されているデータを、そのデータ構造を維持したままダウンロードするためのデータ送信機能562とを持つ。 【0086】本システムにおいては、データベース部540にはユーザがバイオ関連データベースから必要情報を自動収集して構築したデータが構造化文書として格納されているが、ユーザインターフェイスモジュール560には、ビュー機能561があり、データベース部540に格納されているこれらのデータから、必要なデータを抽出してテータの内容を回覧することができる。また、データ送信機能562を設けたことにより、インターネット570を介してデータベース部540にアクセスしているユーザが、構造化文書として格納されているデータを、そのデータ構造を維持したままダウンロードすることができる。 【0087】このように、本発明システムのデータベース部を他のユーザがアクセスできると共に、このアクセスしている他のユーザが構造化文書のまま、データをダウンロードできるようにしたことにより、利用するユーザがデータベースを構築したり、取得したデータを計算機で処理することを容易にする効果がある。 【0088】このように、第2の実施の形態により、本発明が提供するデータベースシステムを利用して構築したデータベースをWWW上で公開した際に、インターネットを介して外部のユーザが該データベースシステムにアクセスしてデータを閲覧したり、該データベースから外部のユーザが抽出したデータを構造化文書の形式を維持したままダウンロードするシステムを提供することが可能である。 【0089】以上説明した実施の形態1.および実施の形態2.において、データベースシステムは、ソフトウェア的に構成しても良いし、専用のハードウエアとして構成しても良い。更に、ハードウェア的に構成する場合は、単一のコンピュータで構成してもよいし、あるいは、各モジュールで異なるコンピュータを利用し、かつ、それらのコンピュータをネットワークで連結して構成してもよい。また、データベースシステムを構成する各モジュール、およびモジュール間のデータの受け渡し等を制御するためのプログラムは、さまざまな言語で記述可能であるが、バイオ分野のユーザが使用している計算機がいわゆるPC/AT(IBM社商標)互換機とMacintosh機(Apple computer社商標)のものに二分されているため、機種依存性の低い言語、例えばJAVA(Sun Microsystems, Inc.の登録商標)などで記述されることが望ましい。 【0090】次に、本発明を適用したデータベースシステムの実行例を説明する。 【0091】(第1の実行例)本発明の実行例として、嗅覚レセプタータンパク質データベースシステムへの適用例を示す。ここで説明するシステムは、嗅覚レセプタータンパク質に関わるデータを、WWW上のデータベース(例えば、“GenBank”データベース, “ORDB”データベース, “SWISS-PROT”データベースなど)から抽出し、この一次データに含まれる嗅覚レセプタータンパク質のアミノ酸配列から、先述の細胞膜貫通領域予測ツール(SOSUIなど)を用いて、匂い分子との結合にかかわるとされている嗅覚レセプタータンパク質の細胞膜貫通領域に関する情報を抽出し、この情報を二次データとして上述の一次データに付加して、データベース化するためのシステムである。以下、嗅覚レセプタータンパク質データベースシステムの動作について、図を参照しながら説明する。 【0092】図6は、嗅覚レセプタータンパク質データベースシステムにおける、データ抽出モジュール210のフローチャートである。このシステムでは、データ抽出モジュール210はユーザが予め指定しておいた時間にWWW上のデータベースからデータの抽出を行う(ステップS601)。 【0093】これにより、ネットワークの通信能力が低下することが予測される時間帯(混雑期)や、ユーザがデータベースシステムを利用する時間帯などを避けて、データの抽出を行うよう指定することで、本データベースシステムを利用したデータ収集の作業効率向上を図ることできるようになる。図において、ステップS602からステップS605までが、図2または図5におけるディレクトリ型検索エンジン211,511の動作を、また、ステップS606からステップS607までが、図2または図5におけるダウンロードプログラム212,512の動作を示している。 【0094】以下、各ステップについて説明する。 【0095】<データ抽出モジュールの処理>データ抽出モジュール210,510では、ステップS601で指定された時刻になると、ディレクトリ型検索エンジン211,511を起動する(ステップS602)。すると、ディレクトリ型検索エンジン211,511は、図3で示した検索リストファイル213に記載された全ての検案について検索を実行する(ステップS604)。 【0096】検索の実行は、検索リストファイル213の要素“query”に記載されたURLにアクセスすることで実現させる。続いて、ステップS605において、各データベース270,580からHTML形式で提供される検索結果のソースファイルを記憶部220,520にテキストファイルとして格納する。 【0097】図7に、記憶部220,520に格納された検索結果の一部を示した。これは、WWW上のデータベースのひとつである“GenBank”を利用した場合の例を示しており、この場合、HTML形式の検案結果には、データベース“GenBank”に保存されているデータ中で検索条件に合致したものの登録番号などがリスト形式で表示され、かつ、それぞれの登録番号には、各データに関する情報を表したHTMLファイルヘのリンクが張られた状態で提示される。 【0098】このため、この検索結果のソースファイルには、各テータのHTMLファイルに対応するURLが、図のブロック720の領域に示す如きに記述されたかたとなっている。 【0099】ステップS607において、ダウンロードプログラム212により、このURLを抽出するには、“GenBank”の場合、例えば、ボックス710に示された、HTMLにおけるタグである“<dl><dt>”を目印として、その直後に記述されているURLを抽出することで実現可能である。 【0100】ダウンロードプログラム212は、次に、このようにして抽出した全てのURLにアクセスし、各データのHTML形式で提供される情報のソースファイルをテキスト形式で記憶部220,520に格納する(ステップS608)。 【0101】<構造化文書への変換モジュールにおける処理>続いて、図8により、嗅覚レセプタータンパク質データベースシステムにおける、構造化文書への変換モジュール230,530のフローチャートを説明する。このデータ抽出モジュール230,530により、WWW上のデータベース270,580から抽出した全データについて、図2または図5で示した構造化文書への変換モジュール230,530に含まれるパーサが、ステップS801からステップS801′までの間のループ処理を行う。そして、これにより、構造化文書への変換を行う。 【0102】以下、簡単にこのループ処理の工程を説明する。まず、パーサがステップS802において、記憶部220,520から各データに関する情報を含んだテキストファイルを読み出し、続いてステップS803からステップS803′までのループ処理を行い、読み出したテキストファイルの中から、嗅覚レセプタータンパク質データベース用のDTDに記載されている要素に関するデータを抽出し、タグ付けを行なう。更に、ステップS809において、タグ付けを行った全要素データを、DTDに基づいて構造化し、XML文書として整形して、続くステップS810より、各XML文書を一次データとしてデータベース部240,540に格納する。 【0103】以下、ステップS803からステップS803′までのループ処理、すなわち、構造化文書にする処理について、詳細に説明する。このループ処理では、まず、ステップS804において、ステップS802で読み込まれたデータ中に、DTDに記載された要素データが含まれているかをパーサが解析する。 【0104】その結果、要素データが含まれていた場合には、パーサはステップS805の処理においてデータを文字列として読み込み、次のステップS806で、読み取った文字列に不必要な文字列(改行コード、空白、遺伝子の塩基配列の番号)が含まれていないかをチェックする。 【0105】ステップS806でのチェックの結果、上述の文字列が見つかった場合には、ステップS807での処理において、当該見つかった不要な文字列を取り除いて整形した後、DTDに基づいて要素データにタグを付加する。そして、ステップS803の処理に進む。また、ステップS804での処理において、抽出する要素データが見つからなかった場合には、要素データがないことを明示するために、バーサは開始タグと終了タグだけを保存する(ステップS811)。 【0106】以上の処理により、構造化文書への変換が行える。 【0107】図9に、本実行例で使用した嗅覚レセプターデータベース用DTD(嗅覚レセプターデータベース用の定義文書)である“olfactory_receptor.did”の記述例を示した。図において、ブロック910とブロック920は、このDTDの特徴である領域を示している。ブロック910では、嗅覚レセプタータンパク質が応答する匂い分子に関する要素データ宣言をしている。この要素データは、子要素として、匂い分子の名前、匂い分子の構造式のデータを持っている。 【0108】これらのデータは、“GenBank”データベースや“SWISS−PROT”データベースでは取得できないが、いくつかの嗅覚レセプタータンパク質に関しては、“Medline”データベースに登録されている文献中のデータや、“ORDB”データベースにより収集可能である。 【0109】また、ブロック920には、一次データを解析して得られた結果を二次データとして付加するための要素データ、“add_data”を宣言している。 【0110】この要素データ“add_data” には、子要素として、遺伝子の塩基配列に関する二次データ“nuc_data”と、アミノ酸配列に関する二次データ”aa_data” を含ませてある。 【0111】本実施例では、特に、嗅覚レセプタータンパク質の細胞膜貫通領域に関するデータをデータベース化することが目的であるため、二次データとして、『アミノ酸配列については、細胞膜貫通領域予測ツールによるシミュレーション結果を“aa_data” の子要素“simulation”に格納する』というような内容で宣言している。また、塩基配列に関しては、『嗅覚レセプタータンパク質のアミノ酸配列を知る上で必要な、タンパク質をコードしている塩基配列(コーディング領域)の全長が決定されていないデータについて、他の塩基配列との相同性のチェックにより全長の探索を行い、その結果を“nuc_data”の子要素“homology”に格納する』よう宣言している。 【0112】このように宣言しておくことで、二次データとして、『アミノ酸配列については、細胞膜貫通領域予測ツールによるシミュレーション結果を“aa_data” の子要素“simulation”に格納させ、また、塩基配列に関しては、嗅覚レセプタータンパク質のアミノ酸配列を知る上で必要な、タンパク質をコードしている塩基配列の全長が決定されていないデータについて、他の塩基配列との相同性のチェックにより全長の探索を行い、その結果を“nuc_data”の子要素“homology”に格納するという処理が実現でき、目的通り、嗅覚レセプタータンパク質の細胞膜貫通領域に関するデータをデータベース化することができるようになる。 【0113】なお、以上のDTDは、一実施例であり、これに限定されるものではない。 【0114】<“GenBank”登録データのXML文書変換例>図10に、上述のステップS809により、図1で示した“GenBank”に登録されているデータを、図9のDTDに基づいてXML文書に変換した例の一部分を示した。図のブロック1002から分かるように、図1のブロック110の領域に示されたアミノ酸配列から改行コードと空白が取り除かれ、一続きの文字列に整形されている。また、図1のブロック20の領域に示された遺伝子の塩基配列からも、改行コード、空白、配列の番号が取り除かれ、一続きの文字列として整形されている(図10のブロック1001)。ブロック1003の領域にある、シミュレーション結果などの二次データ用の要素では、一次データの段階では要素データがないため、それぞれ開始タグと終了タグだけを保存している。 【0115】<データ解析エージェントの処理フロー>図11は、本案施例におけるデータ解析エージェントでのフローチャートである。ステップS1101からステップS1101′までのループ処理は、図2または図5で示したデータ解析エージェント250,560が実施する。そして、全ての一次データについて、ステップS1101からステップS1101′までのループ処理を行う。以下、各ステップについて説明する。 【0116】本実施例でのデータ解析エージェント250,560は、図4に示した解析リストファイル251に基づいて、一次データに含まれる要素データを、WWW上で提供される解析ツールを利用して解析する。まず、ステップS1103においては、一次データに各解析ツールで用いる要素データが存在するか否かを確認し、その結果、要素データが含まれていなかった場合には、ステップS1102′に進み、次の一次データの処理を実行する。一方、要素データがあった場合には、ステップS1104により、要素データを解析ツールのサイトに送信する。 【0117】解析ツールを提供しているサイトがブラウザを通して提示する解析桔果は、ステップS1105により、そのソースファイルをテキスト形式で記憶部220,520に格納する。 【0118】ステップS1105により格納された解析結果のテキストファイルの一部を、図12に示した。このデータは、図10で示した一次データのアミノ酸配列(図10のブロック1002)を、前述の細胞膜貫通領域予測ツール“SOSUI”で解析した結果である。図において、ブロック1201からブロック1206で示した領域は、“SOSUI”により細胞膜貫領域と予測されたアミノ酸配列が示されている。本実施例では、ステップS1106における必要な要素データを抽出する過程で、ブロック1201からブロック1206で示されたアミノ酸配列を抽出する。 【0119】抽出した全ての要素データは、ステップS1107からステップS1107′までのループ処理により、図9で示したDTDに基づいて、二次データとしてデータベース部240,540に格納する(ステップS1108)。 【0120】<二次データが付加されたデータの例>データ解析エージェント250,560により二次データを付加されたデータの例を図13に示した。図では、図10で示した一次データに二次データが付加された後のデータの一部を示している。ボックス1301の領域が、二次データとして細胞膜貫通領域予測ツール“SOSUI”で細胞膜貫通領域と予測されたアミノ酸配列の情報を付加したものである。 【0121】以上のように、本実行例では、第1の実施形態で説明した発明を適用したことにより、複数のデータベースから嗅覚レセプタータンパク質に関する必要なデータのみを自動的に抽出し、更に、この抽出したデータをWWW上で提供されている解析ツールを利用して解析することにより、匂い分子との結合に重要な細胞膜貫通領域に関する情報を抽出して取り込むことで、WWW上にある様々なバイオ関連データベースから所望とするデータを収集してユーザの目的に合った内容のデータベースに再構築することが可能となったことがわかる。 【0122】(第2の実行例)続いて、第2の実施形態で示した発明を、嗅覚レセプタータンパク質データベースシステムに適用した場合の実行例を説明する。第2の実施形態における発明の特徴は、第1の実施形態における発明の特徴に加え、構築したデータベースをWWW上に公開し、インターネットを介してアクセスしたユーザに対して、データの回覧・検索、データの構造を維持したままデータをダウンロードするためのユーザインターフェイスを具備している点である。 【0123】図14に嗅覚レセプタータンパク質データベースの1つのデータを、上述のユーザインターフェイスの一実施例を用いて表示装置の表示画面上に表示した例を示した。図において、1400で示されたデータは、ブラウザを通して表示画面上に表示しており、HTML形式で表示している。 【0124】現時点では、XMLをそのまま表示できるブラウザが少ないため、ユーザヘの配慮からXML文書としてデータベースに保存されているデータも、HTML形式に変換して表示している(ブロック1410)が、XML文書を表示できるブラウザが主流になれば、変換せずそのまま表示する構成とすることも可能である。 【0125】表示されたこのデータを閲覧したユーザが、データを保存する場合には、図の1411と1412で示したボタンをクリックすることで、それぞれ、テキスト形式とXML形式でデータをダウンロードすることが可能である。 【0126】画面上のボタン1412は“テキスト形式出力指示ボタン”であり、このボタン1412にマウスカーソルを当て、マウスのボタンをクリックして出力指令を与えると、を選択した場合には、XML文書の各要素データに付けられた終了タグを取り除く処理を施した上で、テキスト形式より、データを出力するような機能を実現するようにプログラムしてしてあり、また、画面上のボタン1412は、“XML文書出力指示ボタン”であり、このボタンがクリックされた場合は、データをそのまま出力するようにプログラムしてあって、これらボタンの選択で、テキスト形式の文書かXML文書でデータをダウンロード出来るようにしてある。 【0127】従って、再構築されたデータベースを第三者が利用した場合には、その第三者がボタン1412をクリックしてテキスト形式を選択した場合には、簡単には、XML文書の各要素データに付けられた終了タグを取り除いたものをダウンロード出来るようになり、また、ボタン1412をクリックした場合は、XML文書としてダウンロードすることができるようになる。 【0128】なお、本発明は上述した実施形態に限定されるものではなく、種々変形して実施可能である。また、本発明において、上記実施形態には種々の段階の発明が含まれており、開示される複数の構成要件における適宜な組み合わせにより種々の発明が抽出され得る。例えば、実施形態に示される全構成要件から幾つかの構成要件が削除されても、発明が解決しようとする課題の欄で述べた課題の少なくとも1つが解決でき、発明の効果の欄で述べられている効果の少なくとも1つが得られる場合には、この構成要件が削除された構成が発明として抽出され得る。 【0129】また、本発明における実施形態に記載した手法は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フレキシブルディスク、ハードディスクなど)、光ディスク(CD−ROM、CD−R、CD−RW、DVD、MOなど)、半導体メモリなどの記録媒体に格納して頒布することもでき、また、ネットワークを介しての伝送により、頒布することもできる。 【0130】 【発明の効果】以上、詳述したように、 第1の本発明によれば、WWW上の分散したバイオ関連の全てのデータベースを対象とし、利用するデータベースを自由に選択し、かつ、容易に変更することが可能であるという特徴を持ち、選択したデータベースから必要なデータを抽出してユーザ独自のデータベースを構築し、更に、構築したデータベースのデータから、解析ツールを利用して新たな情報を抽出してデータベース化することが可能で、上記の一連の工程が計算機により自動的に行えるようになる。。 【0131】また、第2の本発明においては、第1の本発明に加えて、当該第1の発明が提供するデータベースシステムを利用して構築したデータベースをWWW上で公開した際に、インターネットを介して外部のユーザが該データベースシステムにアクセスしてデータを閲覧したり、該データベースから抽出したデータを構造化文書の形式を維持したままダウンロードすることを可能にする。
|
| 【出願人】 |
【識別番号】000003078 【氏名又は名称】株式会社東芝
|
| 【出願日】 |
平成12年9月29日(2000.9.29) |
| 【代理人】 |
【識別番号】100058479 【弁理士】 【氏名又は名称】鈴江 武彦 (外6名)
|
| 【公開番号】 |
特開2002−108903(P2002−108903A) |
| 【公開日】 |
平成14年4月12日(2002.4.12) |
| 【出願番号】 |
特願2000−301307(P2000−301307) |
|