| 【発明の名称】 |
遺伝子配列表現システム及び記録媒体 |
| 【発明者】 |
【氏名】西川 哲夫
【氏名】村上 勝彦
【氏名】原田 直之
【氏名】磯貝 隆夫
【氏名】太田 紀夫
【氏名】杉山 友康
【氏名】永井 啓一
|
| 【要約】 |
【課題】本発明は遺伝子配列の情報解析に係わり、遺伝子配列の持つ特徴を配列類似性検索の結果から抽出し、その遺伝子機能を推定する際において、類似性が比較的高くないデータベースエントリーしか存在しない場合でも信頼性の高い結果が得られる遺伝子配列表現システムを提供すること。
【解決手段】着目する遺伝子配列について、遺伝子配列データベースとの類似性検索結果から、類似性指標の計算を行い、類似性指標をデータベースエントリー中に出現するワード毎に収集し、ワード毎の類似性指標分布を計算し、類似性指標分布の最大値を計算することによって、類似性指標のワードプロファイルを計算する。 |
【特許請求の範囲】
【請求項1】 塩基配列を入力する入力手段と、該入力された塩基配列と遺伝子配列データベース中の遺伝子の塩基配列との類似性指標を、該遺伝子配列データベースの情報中に出現したワードの全て又はその部分集合のそれぞれのワード毎に収集し、該ワード毎に収集した類似性指標の分布、該類似性指標分布のワードプロファイル、又は複数の前記入力された塩基配列についてのワードプロファイル間の類似性を計算する計算手段と、該類似性指標の分布、該ワードプロファイル、又は該ワードプロファイル間の類似性の少なくともいずれか1つを出力する出力手段とを備えることを特徴とする遺伝子配列表現システム。 【請求項2】 前記入力手段は、ワードプロファイルに関する検索条件を入力するものであり、前記入力された塩基配列と前記ワードプロファイルとを関連づけて複数の塩基配列について予め記録しておく記録手段と、前記入力手段によって入力された検索条件に合致するワードプロファイルに関連づけられている塩基配列を前記記録手段によって記録されている複数の塩基配列の中から選択する選択手段と、該選択された塩基配列に関連づけられているワードプロファイルを表示する表示手段とを備えることを特徴とする請求項1記載の遺伝子配列表現システム。 【請求項3】 前記計算手段は、前記ワードの部分集合としてKEYWORD項目又はTAXONOMY項目に記載されているワード若しくはE.C.Noの少なくともいずれか1つを用いることを特徴とする請求項1又は2記載の遺伝子配列表現システム。 【請求項4】 前記計算手段は、前記類似性指標として、配列間アラインメントから得られる変数の関数を用いることを特徴とする請求項1乃至3いずれかに記載の遺伝子配列表現システム。 【請求項5】 前記計算手段は、前記ワードプロファイルとして、類似性指標分布の最大値又は平均値を用いることを特徴とする請求項1乃至4いずれかに記載の遺伝子配列表現システム。 【請求項6】 前記計算手段は、前記ワードプロファイル間の類似性として、前記ワードプロファイル間の差の二乗をワード毎に計算し、ワードにわたって和をとることによって得られる数値を用いることを特徴とする請求項1乃至5いずれかに記載の遺伝子配列表現システム。 【請求項7】 コンピュータを、塩基配列を入力する入力手段と、該入力された塩基配列と遺伝子配列データベース中の遺伝子の塩基配列との類似性指標を、該遺伝子配列データベースの情報中に出現したワードの全て又はその部分集合のそれぞれのワード毎に収集し、該ワード毎に収集した類似性指標の分布、該類似性指標分布のワードプロファイル、又は複数の前記入力された塩基配列についてのワードプロファイル間の類似性を計算する計算手段と、該類似性指標の分布、該ワードプロファイル、又は該ワードプロファイル間の類似性の少なくともいずれか1つを出力する出力手段とを備える遺伝子配列表現システム、として機能させるためのプログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。
|
【発明の詳細な説明】【0001】 【発明の属する技術分野】本発明は遺伝子配列の情報解析に係わり、配列類似性検索結果から遺伝子機能を推定することができる遺伝子配列表現システム及び記録媒体に関する。 【0002】 【従来の技術】従来、遺伝子配列の特徴を抽出する方法としては、遺伝子配列が持つ機能モチーフを抽出する方法と共に、遺伝子配列データベース中の配列との間の配列類似性検索を行い、その結果から配列特徴を抽出する方法があった。配列類似性検索においては、配列類似度、類似箇所の情報、及び類似配列に関するデータベース中の記述から、従来はマニュアルで配列特徴の抽出を行う必要があった。また、自動的に配列特徴の抽出を行う方法として最近開発された方法に、GeneQuizが知られている(バイオインフォーマティクス, 15巻, 391〜412頁, 1999年/Bioinformatics. 1999, Vol.15, pp391〜412, URL: http://jura.ebi.ac.uk:8765/ext-genequiz//genequiz.html)。この方法では、遺伝子の機能を配列類似性検索の結果から推定する際において、類似性の高いデータベースエントリーから遺伝子機能に関する記述とキーワードを抽出し、そのままGeneQuizによる機能アノテーションとして利用している。この方法では、類似性が非常に高いデータベースエントリーが存在する場合には信頼性の高い結果が得られるが、類似性が比較的高くないデータベースエントリーしか存在しない場合には、ひとつのデータベースエントリーに記載された機能情報だけでは、信頼性の高い結果が得られない。これは、そのような場合には複数の異なる機能を有する遺伝子に同時に類似性が存在する可能性があるからである。 【0003】 【発明が解決しようとする課題】本発明が解決しようとする課題は、遺伝子配列の持つ特徴を配列類似性検索の結果から抽出し、その遺伝子機能を推定する際において、類似性が比較的高くないデータベースエントリーしか存在しない場合にも、信頼性の高い結果が得られる遺伝子配列表現システム及び記録媒体を提供することである。 【0004】 【課題を解決するための手段】本発明では、着目する遺伝子配列に対して、以下の処理ステップ(1)遺伝子配列データベースとの類似性検索を行い、類似性が見られたデータベース配列との間で類似性指標を計算するステップ(2)(1)で計算した類似性指標を、遺伝子配列のデータベースに記載された文章中に出現したワードの全て、あるいはその部分集合を考え、それぞれのワード毎に収集するステップ(3)(2)でワード毎に収集された類似性指標に対して、その分布、あるいは分布の特徴を表す指標をワード毎に計算するステップ(4)(3)でよって得られたワード毎の類似性指標の分布、あるいは分布の特徴を表す指標の全てのワードについての集合を、「類似性指標分布のワードに渡るプロファイル」として得るステップから構成される方法によって、着目する遺伝子配列の特徴を表現するためのものであり、本発明は、塩基配列を入力する入力手段と、該入力された塩基配列と遺伝子配列データベース中の遺伝子の塩基配列との類似性指標を、該遺伝子配列データベースの情報中に出現したワードの全て又はその部分集合のそれぞれのワード毎に収集し、該ワード毎に収集した類似性指標の分布、該類似性指標分布のワードプロファイル、又は複数の前記入力された塩基配列についてのワードプロファイル間の類似性を計算する計算手段と、該類似性指標の分布、該ワードプロファイル、又は該ワードプロファイル間の類似性の少なくともいずれか1つを出力する出力手段とを備えることを特徴とする遺伝子配列表現システムによって実現される。 【0005】また、上記ワードプロファイルを複数の遺伝子配列について算出しデータベースとして記録しておくことで、任意のワードプロファイルに関する条件を満たす配列についてのワードプロファイルを得ることができる。さらに、本発明は、コンピュータを、塩基配列を入力する入力手段と、該入力された塩基配列と遺伝子配列データベース中の遺伝子の塩基配列との類似性指標を、該遺伝子配列データベースの情報中に出現したワードの全て又はその部分集合のそれぞれのワード毎に収集し、該ワード毎に収集した類似性指標の分布、該類似性指標分布のワードプロファイル、又は複数の前記入力された塩基配列についてのワードプロファイル間の類似性を計算する計算手段と、該類似性指標の分布、該ワードプロファイル、又は該ワードプロファイル間の類似性の少なくともいずれか1つを出力する出力手段とを備える遺伝子配列表現システム、として機能させるためのプログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体である。 【0006】 【発明の実施の形態】以下、添付図面を参照しながら本発明の好適な実施の形態について詳細に説明する。図1は、本発明の一実施の形態による遺伝子配列表現システムの構成を示す図である。本実施の形態はディスプレイ1、キーボード2、中央演算装置CPU3、フロッピー(登録商標)ディスク5が挿入されるフロッピーディスクドライブ4、主メモリ6、及び遺伝子配列データベース7から構成される。主メモリ6には、遺伝子配列表現システムを実現する遺伝子配列表現プログラムが格納され、その遺伝子配列表現プログラムは、入力手段11、計算手段12、出力手段13、記録手段14、選択手段15、及び表示手段16の各手段に相当する機能を有する。このプログラムはディスプレイ1、キーボード2、フロッピーディスクドライブ4、主メモリ6、及び遺伝子配列データベース7などと共同して、CPU3で実行される。 【0007】本発明における遺伝子配列の持つ特徴を配列類似性検索の結果から抽出する実施の形態を説明する。本実施の形態においては、着目する遺伝子配列として全長cDNA配列を考え、遺伝子配列データベースとして、アミノ酸配列データベースであるSWISS-PROT(Trademarkは、Swiss Institute of Bioinfomatics and/orthe SIB partnersが所有)を用いた場合の説明を行う。まず、図2に示すようにステップ101で、着目する遺伝子配列について、遺伝子配列データベースとの類似性検索を行う。類似性検索のプログラムとして、米国ナショナル・センター・フォー・バイオテクノロジー・インフォメーション(NCBI)がインターネット上で一般公開しているBLASTX、あるいは類似のプログラムを用いる。 【0008】次に、ステップ102で類似性検索の結果から、類似性指標の計算を行う。類似性指標としては、BLASTXのアラインメントから得られる変数、あるいは変数の関数を用いる。BLASTXのアラインメントから得られる変数としては、アラインメントの長さであるコンセンサス長、アラインメント中の一致した文字の割合であるidentity、類似性検索の指標であるP-value、スコア等がある。ここで用いる類似性指標としては、類似性の低い領域から高い領域まで広く類似性を表現可能な指標が望ましい。P-valueやスコアは、類似性の低い場合の有意なしきい値を与えるためには適しているが、類似性の高い場合、例えば完全に一致している場合の値が配列の長さによって異なるため、類似性の高さを一律に表現することが不可能である。同様な理由で、類似性の高い場合は、類似性指標としてコンセンサス長とidentityの併用が望ましい。そこでここでは、図3に示すように類似性の高い場合はコンセンサス長とidentityを用い、類似性の低い場合はP-valueを用いる方法を適用し、類似性の高い順に4種類の類似性指標A、B、C、Nを定義した。また、もうひとつの類似性指標として、identityとコンセンサス長を併用した指標を定義する。この場合は、コンセンサス長が50アミノ酸より短い場合は、類似性がないとする。コンセンサス長が50アミノ酸以上の場合は、identityを類似性指標とする。 【0009】次に、ステップ103でデータベース配列とのアラインメントから得られた類似性指標を、アラインメントされたデータベースエントリー中に出現するワード毎に収集する。ここでは、データベース中の蛋白質の機能を表現するためのワードとして、SWISS-PROT中のKEYWORD項目に記載されているワード(キーワード)を用いる例を説明する。また、類似性指標として、図3で定義された指標を用いた場合を説明する。例えば、あるデータベースエントリーとのアラインメントから得られる類似性指標がAであり、そのエントリーのKEYWORD項目に記載されているキーワードが、KINASEであった場合は、KINASEに類似性指標Aをひとつカウントする。ワードの具体例としては、この他に、KEYWORD項目に記載されているキーワードとして、Keywords(KW)のBrain; Neurone; Phosphorylation; Acetylation; Multigene family; RNA-binding; Transferase; Nucleotidyltransferase; Interferon inductionなどがあり、TAXONOMY項目に記載されているキーワードとして、Organism source(OS)のHomo sapiens (Human); Mus musculus (Mouse)などがあり、また、E.C.Noとして、EC 2.7.7.-などがある。 【0010】次に、ステップ104で上記で収集されたキーワード毎の類似性指標をもとに、キーワード毎の類似性指標分布を計算する。図4にその結果を示す。図4は、キーワード(KEYWORD)1、キーワード2、キーワード3のそれぞれに対して、類似性指標A、B、Cにそれぞれ属するアラインメント数を表わす図である。この例では、キーワード1とキーワード2に類似性指標分布が存在することがわかる。これは、キーワード1とキーワード2が着目する遺伝子の機能に関係することを示している。キーワード1では、類似性指標の最大値がAであり、キーワード2では、類似性指標の最大値がBである。これは、キーワード1のほうが着目する遺伝子の機能により関係し、キーワード2は関係が少ないことがわかる。従って、ステップ105で示すように、類似性指標分布の指標(ワードプロファイル)として類似性指標分布の最大値を各キーワードについて計算し、キーワードプロファイルを求めれば、着目する遺伝子機能の推定に有効であると考えられる。ステップ106で示すように、図5に複数の遺伝子cDNAに対して求めた、類似性指標分布の最大値であるキーワードプロファイルを示す。このように、予め複数の遺伝子cDNAに対して、キーワードプロファイルとして類似性指標分布の最大値を計算し、データベースに登録しておけば、このキーワードプロファイルをキーにして、登録しておいたデータベース中のcDNAを検索することが可能である。例えば、図5のcDNAに対して、キーワード1の類似性指標の最大値がA以上、キーワード2の類似性指標の最大値がB以上という条件で検索すれば、cDNA1とcDNA2が条件に合致し選択できることがわかる。このように本方法を用いれば、ユーザーが求める機能を有する遺伝子をデータベース中から選別することが可能になる。 【0011】特定の機能を表す検索条件を、遺伝子ファミリーの持つ情報から求めることも可能である。まず、遺伝子ファミリーに属する各遺伝子について、類似性指標分布のワードプロファイルを計算する。この場合の類似性指標としては、identityとコンセンサス長を併用した指標を用いる。上記プロファイルから、遺伝子ファミリーを代表する類似性指標分布のワードプロファイルを計算する。遺伝子ファミリーを代表する類似性指標分布のワードプロファイルは、例えば、式1で示すように、遺伝子ファミリーfについての平均ワードプロファイルμfkとして計算することができる。平均ワードプロファイルは、キーワードk毎に平均をとったもののプロファルとして計算できる。また、遺伝子ファミリーfについての、キーワードkにおけるワードプロファイルの分散σfkを式2で定義する。 【0012】 【数1】
【0013】 【数2】
ここに、Pik;遺伝子ファミリーf内のi番目の遺伝子についての類似性ワードプロファイルにおけるk番目ワード成分m;遺伝子ファミリーf内の遺伝子の数【0014】次に、cDNAデータベース中の各cDNAに対して、類似性指標分布のワードプロファイルを計算する。上記cDNAデータベースから検索条件に合致するcDNAを検索するための条件を、上記μfkとσfkから式3に示すように、各キーワード毎の類似性指標分布最大値の下限しきい値Tfkとして定義できる。 【0015】 【数3】
ここに、Tfk;遺伝子ファミリーfの機能を持つ遺伝子を検索する場合の類似性プロファイルにおける、k番目のワード成分の閾値【0016】本条件を検索条件として用いる場合には、各キーワード毎の類似性指標分布最大値に対して、式3のしきい値以上の条件を満たすcDNAを選別する。このようにして、cDNAを検索することにより、着目する遺伝子ファミリーの機能に近いcDNAを選別することが可能である。選別された遺伝子については、図6に示すように、各類似性指標に属するデータベースエントリー名と、データベース内容へのリンクを同時に表示することで、着目する遺伝子の機能推定を効率良く行うことができる。ここでは、キーワード(KEYWORD)1、キーワード2、キーワード3のそれぞれに対して、各類似性指標A、B、Cに属するデータベースエントリー名を表示している。また、エントリー名からデータベース内容へのリンクを張っている。 【0017】次に、キーワード類似性プロファイルを、二つの遺伝子配列間の機能の類似性の表現に用いる例を示す。上述したように、キーワード類似性プロファイルは、遺伝子機能の推定に有効に用いることができる。そこで、二つの遺伝子配列のキーワード類似性プロファイル間の類似性を定義すれば、二つの遺伝子配列間機能の類似性を表現できると考えられる。この場合の類似性指標としては、identityとコンセンサス長を併用した指標を用いる。二つの遺伝子配列のキーワード類似性プロファイル間類似性Rijを式4のように定義する。 【0018】 【数4】
ここに、Rij;遺伝子iと遺伝子j間の類似性ワードプロファイルに基づいた類似度【0019】Rijは、キーワード類似性プロファイル間の重なりに比例し、同一のプロファイルの場合に1の値になるように規格化されている。Rijを類似性指標に用いて、データベース中の遺伝子配列を検索することが可能である。また、Rijを用いてデータベース中の遺伝子配列のクラスタリングを行うことも可能である。 【0020】なお、本発明は上記実施の形態に限定されるものではない。本発明は、コンピュータを上記遺伝子配列表現システムとして機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体であってもよく、例えば、磁気テープ、CD−ROM、ICカード、RAMカード等のいかなるタイプの記録媒体であってもよい。 【0021】 【発明の効果】本発明によれば、遺伝子配列の持つ特徴を配列類似性検索の結果から抽出し、その遺伝子機能を推定する際において、類似性が比較的高くないデータベースエントリーしか存在しない場合にも、信頼性の高い結果を得ることが可能となる。
|
| 【出願人】 |
【識別番号】000005108 【氏名又は名称】株式会社日立製作所 【識別番号】597059742 【氏名又は名称】株式会社ヘリックス研究所
|
| 【出願日】 |
平成12年10月25日(2000.10.25) |
| 【代理人】 |
【識別番号】100091096 【弁理士】 【氏名又は名称】平木 祐輔
|
| 【公開番号】 |
特開2002−132780(P2002−132780A) |
| 【公開日】 |
平成14年5月10日(2002.5.10) |
| 【出願番号】 |
特願2000−325354(P2000−325354) |
|