| 【発明の名称】 |
アミノ酸フレーム表示システム、アミノ酸フレーム表示方法及び記録媒体 |
| 【発明者】 |
【氏名】西川 哲夫
【氏名】村上 勝彦
【氏名】磯貝 隆夫
【氏名】永井 啓一
【氏名】林 浩司
【氏名】入江 亮太郎
【氏名】大槻 哲嗣
|
| 【要約】 |
【課題】cDNA配列にフレームシフトエラーが存在する場合にも、信頼度の高いアミノ酸配列をcDNA配列から効率良く抽出することができるアミノ酸フレーム表示システム、アミノ酸フレーム表示方法及び記録媒体を提供すること。
【解決手段】cDNA配列の各アミノ酸フレーム上のORF表示に加えて、既知アミノ酸配列との類似性比較から得られたcDNA配列のアミノ酸情報を該フレーム上に表現し、同時に統計的に得られたORFに関する情報として開始コドンらしさ、及びコーディングポテンシャルグラフを表示することによって、効率的にフレームシフトを検出し、その結果を編集することによって、高精度なアミノ酸配列を得ることが可能となる。 |
【特許請求の範囲】
【請求項1】 cDNA配列を入力する入力手段と、該入力されたcDNA配列を1文字ずつずらして翻訳して3つのアミノ酸フレームを得る翻訳手段と、前記入力されたcDNA配列とデータベース中のDNA配列又はアミノ酸配列とのアラインメントを生成し、そのアラインメントから類似性情報に基づいて前記入力されたcDNA配列から翻訳されるアミノ酸配列を決定するアラインメント手段と、前記3つのアミノ酸フレーム上にまたがって前記アラインメント手段によって決定されたアミノ酸配列の領域を線分で表示する表示手段とを備えることを特徴とするアミノ酸フレーム表示システム。 【請求項2】 前記アラインメント手段は、前記翻訳手段によって前記入力されたcDNA配列をあらかじめ3種類又は6種類の読み枠において翻訳したアミノ酸配列とデータベース中のアミノ酸配列との間のアラインメントから決定することを特徴とする請求項1記載のアミノ酸フレーム表示システム。 【請求項3】 前記アラインメント手段は、前記入力されたcDNA配列中のコドン内ギャップを考慮にいれて決定することを特徴とする請求項1記載のアミノ酸フレーム表示システム。 【請求項4】 前記アラインメント手段は、前記入力されたcDNA配列とデータベース中のDNA配列との間でそれぞれのDNA配列中のコドン内ギャップを考慮にいれて、それぞれの配列の翻訳されたアミノ酸配列間アラインメントから決定することを特徴とする請求項1記載のアミノ酸フレーム表示システム。 【請求項5】 前記表示手段は、前記3つのアミノ酸フレームと共に、前記生成されたアラインメントを線状に表示することを特徴とする請求項1記載のアミノ酸フレーム表示システム。 【請求項6】 前記表示手段は、前記線状に表示されたアラインメント中に、DNA配列中の挿入又は欠失位置を表示することを特徴とする請求項5記載のアミノ酸フレーム表示システム。 【請求項7】 前記表示手段は、前記線状に表示されたアラインメント中に、アラインメントの局所的な一致度を色によって表示することを特徴とする請求項5記載のアミノ酸フレーム表示システム。 【請求項8】 前記表示手段は、前記3つのアミノ酸フレームと共に、前記生成されたcDNA配列とデータベース中のDNA配列又はアミノ酸配列とのアラインメントをテキストで表示することを特徴とする請求項1記載のアミノ酸フレーム表示システム。 【請求項9】 cDNA配列を入力する入力手段と、該入力されたcDNA配列を1文字ずつずらして翻訳して3つのアミノ酸フレームを得る翻訳手段と、該3つのアミノ酸フレームにおける各開始コドン及び終始コドンを予測するコドン予測手段と、前記3つのアミノ酸フレーム上に前記開始コドン及び終始コドンの位置を表示すると共に、開始コドン位置に開始コドンらしさを表現する量又は記号を表示する表示手段とを備えることを特徴とするアミノ酸フレーム表示システム。 【請求項10】 cDNA配列を入力する入力手段と、該入力されたcDNA配列を1文字ずつずらして翻訳して3つのアミノ酸フレームを得る翻訳手段と、該3つのアミノ酸フレームにおける各開始コドン及び終始コドンを予測するコドン予測手段と、前記3つのアミノ酸フレームそれぞれにおけるコーディング領域らしさを表すコーディングポテンシャルを計算するコーディングポテンシャル計算手段と、前記3つのアミノ酸フレーム上に前記開始コドン及び終始コドンの位置を表示すると共に、各フレーム上又は別ウィンドーに、前記3つのアミノ酸フレームのコーディングポテンシャルを表示する表示手段とを備えることを特徴とするアミノ酸フレーム表示システム。 【請求項11】 前記入力されたcDNA配列を編集して、編集後のcDNA配列を改めて前記入力されたcDNA配列とする編集手段を備えることを特徴とする請求項1、9又は10記載のアミノ酸フレーム表示システム。 【請求項12】 前記編集手段は、アラインメントのテキスト表示中において編集が実施可能であることを特徴とする請求項11記載のアミノ酸フレーム表示システム。 【請求項13】 cDNA配列を入力する入力ステップと、該入力されたcDNA配列を1文字ずつずらして翻訳して3つのアミノ酸フレームを得る翻訳ステップと、前記入力されたcDNA配列とデータベース中のDNA配列又はアミノ酸配列とのアラインメントを生成し、そのアラインメントから類似性情報に基づいて前記入力されたcDNA配列から翻訳されるアミノ酸配列を決定するアラインメントステップと、前記3つのアミノ酸フレーム上にまたがって前記アラインメントステップによって決定されたアミノ酸配列の領域を線分で表示する表示ステップとを備えることを特徴とするアミノ酸フレーム表示方法。 【請求項14】 cDNA配列を入力する入力ステップと、該入力されたcDNA配列を1文字ずつずらして翻訳して3つのアミノ酸フレームを得る翻訳ステップと、該3つのアミノ酸フレームにおける各開始コドン及び終始コドンを予測するコドン予測ステップと、前記3つのアミノ酸フレーム上に前記開始コドン及び終始コドンの位置を表示すると共に、開始コドン位置に開始コドンらしさを表現する量又は記号を表示する表示ステップとを備えることを特徴とするアミノ酸フレーム表示方法。 【請求項15】 cDNA配列を入力する入力ステップと、該入力されたcDNA配列を1文字ずつずらして翻訳して3つのアミノ酸フレームを得る翻訳ステップと、該3つのアミノ酸フレームにおける各開始コドン及び終始コドンを予測するコドン予測ステップと、前記3つのアミノ酸フレームそれぞれにおけるコーディング領域らしさを表すコーディングポテンシャルを計算するコーディングポテンシャル計算ステップと、前記3つのアミノ酸フレーム上に前記開始コドン及び終始コドンの位置を表示すると共に、各フレーム上又は別ウィンドーに、前記3つのアミノ酸フレームのコーディングポテンシャルを表示する表示ステップとを備えることを特徴とするアミノ酸フレーム表示方法。 【請求項16】 コンピュータを、cDNA配列を入力する入力手段と、該入力されたcDNA配列を1文字ずつずらして翻訳して3つのアミノ酸フレームを得る翻訳手段と、前記入力されたcDNA配列とデータベース中のDNA配列又はアミノ酸配列とのアラインメントを生成し、そのアラインメントから類似性情報に基づいて前記入力されたcDNA配列から翻訳されるアミノ酸配列を決定するアラインメント手段と、前記3つのアミノ酸フレーム上にまたがって前記アラインメント手段によって決定されたアミノ酸配列の領域を線分で表示する表示手段とを備えるアミノ酸フレーム表示システムとして機能させるためのプログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。 【請求項17】 コンピュータを、cDNA配列を入力する入力手段と、該入力されたcDNA配列を1文字ずつずらして翻訳して3つのアミノ酸フレームを得る翻訳手段と、該3つのアミノ酸フレームにおける各開始コドン及び終始コドンを予測するコドン予測手段と、前記3つのアミノ酸フレーム上に前記開始コドン及び終始コドンの位置を表示すると共に、開始コドン位置に開始コドンらしさを表現する量又は記号を表示する表示手段とを備えるアミノ酸フレーム表示システムとして機能させるためのプログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。 【請求項18】 コンピュータを、cDNA配列を入力する入力手段と、該入力されたcDNA配列を1文字ずつずらして翻訳して3つのアミノ酸フレームを得る翻訳手段と、該3つのアミノ酸フレームにおける各開始コドン及び終始コドンを予測するコドン予測手段と、前記3つのアミノ酸フレームそれぞれにおけるコーディング領域らしさを表すコーディングポテンシャルを計算するコーディングポテンシャル計算手段と、前記3つのアミノ酸フレーム上に前記開始コドン及び終始コドンの位置を表示すると共に、各フレーム上又は別ウィンドーに、前記3つのアミノ酸フレームのコーディングポテンシャルを表示する表示手段とを備えるアミノ酸フレーム表示システムとして機能させるためのプログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。
|
【発明の詳細な説明】【0001】 【発明の属する技術分野】本発明は遺伝子配列の情報解析に係わり、遺伝子配列がコードするアミノ酸配列を同定するためのアミノ酸フレーム表示システム、アミノ酸フレーム表示方法及び記録媒体に関する。 【0002】 【従来の技術】ヒトゲノムプロジェクトの進展(2000年6月にドラフトシーケンス完了)に伴い、配列決定のスループットが増大すると共に、遺伝子配列データベースの規模が急速に拡大している。大量に登録されているEST配列(遺伝子配列の部分配列)やドラフト配列(ゲノム配列の完了前の配列精度の低い配列)は、スループットを重視して集められた配列であり、配列精度はあまり高くない(EST配列は約3%のエラーがあるといわれている)。これらの配列から、できるだけ高精度のアミノ酸配列情報を抽出することが求められている。従来、cDNA配列からのアミノ酸配列情報の抽出には、アミノ酸フレーム表示を用いることが一般に行われていた(ORF Finder、http://www.ncbi.nlm.nih.gov/gorf/gorf.html)。 【0003】アミノ酸フレーム表示は、cDNA配列の5’端から1文字ずつずらして翻訳して得られる3つのアミノ酸配列を3つの線分として表示する。逆相補鎖も考慮にいれる場合は、全体で6つのアミノ酸配列を6つの線分として表示する。この線分上に開始コドンと終始コドンの位置を区別して表示し、開始コドンから始まり終始コドンで終了する線分を同定する。 【0004】この線分を可能なオープンリーディングフレーム(ORF)として同定し、その中でもっとも長いORFを、このcDNAから抽出されたアミノ酸配列として同定していた。cDNA配列にフレームシフトエラーが存在する場合、アミノ酸フレーム表示上ではORFが分断され二つのフレームにまたがって表示される。しかも、分断されたORFの境界は明確ではなく、一般的には数十塩基の誤差で同定できるだけである。従って、cDNA配列にフレームシフトエラーが存在する場合には、従来、既知のアミノ酸配列との類似性情報を用いてフレームシフトエラーを同定することが行われてきた。cDNA配列をアミノ酸配列と比較する最も一般的なプログラムは、米国The National Center for Biotechnology Information (NCBI)で開発されたBLASTX(Altschul, S.F., et al., Basic localalignment search tool , J. Mol. Biol., 215(3), 403, 1990)である。BLASTXは、与えられたcDNA配列を6通りのアミノ酸配列に翻訳して(6フレーム)、データベース中のアミノ酸配列との間で類似性比較を行い、アミノ酸配列間アラインメントを結果として出力する。cDNA配列にフレームシフトエラーが一つ存在する場合には、本来得られるべき一つのアラインメントが二つのアラインメントに分断されることになる。全体の類似度が高い場合には、分断されたアラインメントから元のアラインメントを再構成し、フレームシフト部位を同定することも、手間はかかるが可能である。しかし、全体の類似度が低い場合には、分断されたアラインメントから元のアラインメントを再構成しフレームシフト部位を同定することは困難である。cDNA配列をアミノ酸配列と比較する方法として、フレームシフトエラーを考慮した上で、アラインメントを得る方法が公開されている(特開平10-5000号公報)。この方法を用いれば、フレームシフトエラーが存在する場合にも一つのアラインメントが得られ、フレームシフト部位を同定することが可能である。しかし、この方法を用いる場合にも、全体の類似度が低い場合には、得られるアミノ酸配列の信頼性を評価することは困難である。このように、cDNA配列からアミノ酸配列を抽出するためには、アミノ酸フレームを用いる方法と、既知のアミノ酸配列との類似性情報を用いる方法があるが、cDNA配列にフレームシフトエラーが存在する場合にも信頼度の高いアミノ酸配列を抽出するためには、それぞれの方法のみの適用では不十分である。 【0005】 【発明が解決しようとする課題】本発明が解決しようとする課題は、cDNA配列にフレームシフトエラーが存在する場合にも、信頼度の高いアミノ酸配列をcDNA配列から効率良く抽出することができるアミノ酸フレーム表示システム、アミノ酸フレーム表示方法及び記録媒体を提供することである。 【0006】 【課題を解決するための手段】本発明では、着目する遺伝子配列に対して、配列の統計的解析、及び既知アミノ酸配列との類似性解析を行い、その結果をアミノ酸フレーム上に統合的に表示することによって、配列中のフレームシフトエラーの同定と編集処理を精度良くかつ効率良く実施可能にしている。 【0007】このために、cDNA配列に対して、以下の処理ステップ(1)開始コドン予測プログラムATGprによる解析ステップ(2)抽出された3つのORF上における、DNA配列のコーディング領域らしさの指標であるコーディングポテンシャル解析ステップ(3)アミノ酸配列データベースに対するホモロジー検索プログラムによる検索ステップ(4)上記3つの解析結果をアミノ酸フレーム情報と同時に表示するステップ(5)上記表示結果を参照しながら、フレームシフトエラーの可能性のある部分を編集するステップ(6)上記解析結果と編集結果をハードディスクに保存するステップから構成される方法によって、信頼度の高いアミノ酸配列をcDNA配列から効率良く抽出するためのものであり、本発明は、cDNA配列を入力する入力手段と、該入力されたcDNA配列を1文字ずつずらして翻訳して3つのアミノ酸フレームを得る翻訳手段と、前記入力されたcDNA配列とデータベース中のDNA配列又はアミノ酸配列とのアラインメントを生成し、そのアラインメントから類似性情報に基づいて前記入力されたcDNA配列から翻訳されるアミノ酸配列を決定するアラインメント手段と、前記3つのアミノ酸フレーム上にまたがって前記アラインメント手段によって決定されたアミノ酸配列の領域を線分で表示する表示手段とを備えるアミノ酸フレーム表示システムによって実現される。 【0008】また、本発明は、cDNA配列を入力する入力手段と、該入力されたcDNA配列を1文字ずつずらして翻訳して3つのアミノ酸フレームを得る翻訳手段と、該3つのアミノ酸フレームにおける各開始コドン及び終始コドンを予測するコドン予測手段と、前記3つのアミノ酸フレーム上に前記開始コドン及び終始コドンの位置を表示すると共に、開始コドン位置に開始コドンらしさを表現する量又は記号を表示する表示手段とを備えるアミノ酸フレーム表示システムによって実現される。 【0009】また、本発明は、cDNA配列を入力する入力手段と、該入力されたcDNA配列を1文字ずつずらして翻訳して3つのアミノ酸フレームを得る翻訳手段と、該3つのアミノ酸フレームにおける各開始コドン及び終始コドンを予測するコドン予測手段と、前記3つのアミノ酸フレームそれぞれにおけるコーディング領域らしさを表すコーディングポテンシャルを計算するコーディングポテンシャル計算手段と、前記3つのアミノ酸フレーム上に前記開始コドン及び終始コドンの位置を表示すると共に、各フレーム上又は別ウィンドーに、前記3つのアミノ酸フレームのコーディングポテンシャルを表示する表示手段とを備えるアミノ酸フレーム表示システムによって実現される。 【0010】また、本発明は、cDNA配列を入力する入力ステップと、該入力されたcDNA配列を1文字ずつずらして翻訳して3つのアミノ酸フレームを得る翻訳ステップと、前記入力されたcDNA配列とデータベース中のDNA配列又はアミノ酸配列とのアラインメントを生成し、そのアラインメントから類似性情報に基づいて前記入力されたcDNA配列から翻訳されるアミノ酸配列を決定するアラインメントステップと、前記3つのアミノ酸フレーム上にまたがって前記アラインメントステップによって決定されたアミノ酸配列の領域を線分で表示する表示ステップとを備えるアミノ酸フレーム表示方法によって実現される。 【0011】また、本発明は、cDNA配列を入力する入力ステップと、該入力されたcDNA配列を1文字ずつずらして翻訳して3つのアミノ酸フレームを得る翻訳ステップと、該3つのアミノ酸フレームにおける各開始コドン及び終始コドンを予測するコドン予測ステップと、前記3つのアミノ酸フレーム上に前記開始コドン及び終始コドンの位置を表示すると共に、開始コドン位置に開始コドンらしさを表現する量又は記号を表示する表示ステップとを備えるアミノ酸フレーム表示方法によって実現される。 【0012】また、本発明は、cDNA配列を入力する入力ステップと、該入力されたcDNA配列を1文字ずつずらして翻訳して3つのアミノ酸フレームを得る翻訳ステップと、該3つのアミノ酸フレームにおける各開始コドン及び終始コドンを予測するコドン予測ステップと、前記3つのアミノ酸フレームそれぞれにおけるコーディング領域らしさを表すコーディングポテンシャルを計算するコーディングポテンシャル計算ステップと、前記3つのアミノ酸フレーム上に前記開始コドン及び終始コドンの位置を表示すると共に、各フレーム上又は別ウィンドーに、前記3つのアミノ酸フレームのコーディングポテンシャルを表示する表示ステップとを備えることを特徴とするアミノ酸フレーム表示方法によって実現される。 【0013】また、本発明は、コンピュータを、cDNA配列を入力する入力手段と、該入力されたcDNA配列を1文字ずつずらして翻訳して3つのアミノ酸フレームを得る翻訳手段と、前記入力されたcDNA配列とデータベース中のDNA配列又はアミノ酸配列とのアラインメントを生成し、そのアラインメントによって決定される、前記入力されたcDNA配列から翻訳されたアミノ酸配列を得るアラインメント手段と、前記3つのアミノ酸フレーム上にまたがって前記アラインメント手段によって得られたアミノ酸配列の領域を線分で表示する表示手段とを備えるアミノ酸フレーム表示システムとして機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体によって実現される。 【0014】また、本発明は、コンピュータを、cDNA配列を入力する入力手段と、該入力されたcDNA配列を1文字ずつずらして翻訳して3つのアミノ酸フレームを得る翻訳手段と、該3つのアミノ酸フレームにおける各開始コドン及び終始コドンを予測するコドン予測手段と、前記3つのアミノ酸フレーム上に前記開始コドン及び終始コドンの位置を表示すると共に、開始コドン位置に開始コドンらしさを表現する量又は記号を表示する表示手段とを備えるアミノ酸フレーム表示システムとして機能させるためのプログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体によって実現される。 【0015】また、本発明は、コンピュータを、cDNA配列を入力する入力手段と、該入力されたcDNA配列を1文字ずつずらして翻訳して3つのアミノ酸フレームを得る翻訳手段と、該3つのアミノ酸フレームにおける各開始コドン及び終始コドンを予測するコドン予測手段と、前記3つのアミノ酸フレームそれぞれにおけるコーディング領域らしさを表すコーディングポテンシャルを計算するコーディングポテンシャル計算手段と、前記3つのアミノ酸フレーム上に前記開始コドン及び終始コドンの位置を表示すると共に、各フレーム上又は別ウィンドーに、前記3つのアミノ酸フレームのコーディングポテンシャルを表示する表示手段とを備えるアミノ酸フレーム表示システムとして機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体によって実現される。 【0016】 【発明の実施の形態】以下、添付図面を参照しながら本発明の好適な実施の形態について詳細に説明する。図1は、本発明の一実施の形態によるアミノ酸フレーム表示システムの構成を示す図である。本実施の形態はディスプレイ1、キーボード2、中央演算装置CPU3、フロッピー(登録商標)ディスク5が挿入されるフロッピーディスクドライブ4、主メモリ6、及び遺伝子配列データベース7から構成される。主メモリ6には、アミノ酸フレーム表示システムを実現するアミノ酸フレーム表示プログラムが格納され、そのアミノ酸フレーム表示プログラムは、入力手段11、翻訳手段12、アラインメント手段13、表示手段14、コドン予測手段15、及び編集手段16の各手段に相当する機能を有する。このプログラムはディスプレイ1、キーボード2、フロッピーディスクドライブ4、主メモリ6、及び遺伝子配列データベース7などと共同して、CPU3で実行される。 【0017】次に、図2を用いてシステムの概要を説明する。ユーザー101によるシステムの立ち上げと共に、cDNA配列及び解析パラメータの入力画面102が表示される。画面102中には、パラメータ表示及び配列表示の領域103にディフォールトのパラメータの値とcDNA配列の入力ボックスが表示される。ユーザー101は、cDNA配列の入力、及び解析パラメータの入力を行うことができる。画面102中には、解析処理を開始する解析ボタン104が表示されており、このボタンをユーザー101が押すことによって、cDNA配列の解析及び表示処理が実行される。また、画面102中には、cDNA配列解析結果を保存するハードディスク118中からの読み込み処理を開始する解析結果読み込みボタン105が表示されており、このボタンをユーザー101が押すことによって、cDNA配列解析結果の表示処理が実行される。cDNA配列の解析・表示処理106、又はcDNA配列解析結果読み込み表示処理107によって解析結果の表示画面108(図4で詳述する)が表示される。表示画面108中には、解析結果表示及びパラメータ表示領域109に、解析結果及び解析パラメータ値が表示される。また表示画面108中には、パラメータ変更ボタン110、編集ボタン111、保存ボタン112が表示される。ユーザー1は、表示画面108中の解析結果109を閲覧しながら、解析パラメータを変更した上で解析再実行が可能である。パラメータ変更ボタン110を押すことによって、パラメータ変更処理113が開始される。パラメータ変更処理113後、cDNA配列の解析・表示処理ステップ106が再度実行される。ユーザー101は、表示画面108中の解析結果109を閲覧しながら、cDNA配列の編集が可能である。編集ボタン111を押すことによって、cDNA配列の編集画面114(図8で詳述する)が起動される。cDNA配列の編集画面114では、cDNA配列とアミノ酸配列とのアラインメント115が表示される。ユーザー101は、解析結果の表示画面108を参照しながら、アラインメント115の表示の中で、直接cDNA配列の編集を実行することが可能である。編集が終了したら、再解析ボタン116を押すことによって、cDNA配列の解析・表示処理106を再度開始することができる。その結果は、再び解析結果の表示画面108上に表示され、編集の効果を確認することができる。ユーザー101は、cDNA配列とその解析結果に名称を付けて電子ファイルとしてハードディスクに保存することができる。保存ボタン112を押すことによって、cDNA配列とその解析結果の保存処理ステップ117が開始され、ハードディスク118のファイル中に保存される。 【0018】次に、cDNA配列の解析ステップについて図3を用いて詳細に説明する。まず、入力されたcDNA配列から、ORF抽出処理ステップ201によって、ORF情報、すなわち、開始コドンと終始コドン、及びそれらのフレーム情報を抽出する。次に、cDNA配列の類似性解析処理ステップ202を実行する。ステップ202では、アミノ酸配列データベース209をターゲットデータベースとして、BLASTX検索処理ステップ203を実行する。BLASTXによって得られたヒットリストから、類似性尺度、例えばE-valueの低い順に一定の数のデータベ−スエントリを抽出する。それらのアミノ酸配列とcDNA配列との間で、次に、TRANSQ解析処理ステップ204を実行する。TRANSQは、cDNA配列を翻訳しながら、cDNA配列中のフレームシフトを考慮しつつ、アミノ酸配列との間でアラインメントを生成する。これによって、cDNA配列中のフレームシフトを考慮した上での、cDNA配列の翻訳アミノ酸配列が得られる。得られたアラインメントから、アラインメント情報抽出処理ステップ205によって、フレームシフト情報、及びcDNA配列の翻訳アミノ酸配列情報を抽出する。ここで、cDNA配列の翻訳アミノ酸配列情報は、BLASTXから得られるものを利用することも可能である。次に、cDNA配列の統計解析処理ステップ206を実行する。まず、ATGpr解析処理ステップ207によって、cDNA配列に含まれる各開始コドンATGに対して、開始コドンらしさのスコアを計算する。ATGprはヘリックス研究所によって開発されたプログラム(Salamov, A.A., et al., Assessing Protein Coding Region Integrity in cDNA Sequencing Projects, Bioinformatics, 14, 384, 1998)で、cDNA配列の持つ統計的性質を用いて開始コドンらしさのスコアを計算する。次に、コーディングポテンシャル解析処理ステップ208によって、コーディングポテンシャル解析処理を実行する。コーディングポテンシャル解析処理では、cDNA配列内の一定長配列ウィンドーにおいて、コード領域らしさを各フレーム毎に計算し、ウィンドーをスライドさせながら、逐次コード領域らしさを計算していく。コード領域らしさの指標は、6文字程度の塩基文字列の頻度統計解析によって得られる。 【0019】次に、解析結果の表示画面について説明する。図4に解析結果の表示画面の概要を示す。解析結果の表示画面301は、アミノ酸フレーム表示領域302(図5で詳述する)、コーディングポテンシャル表示領域303(図6で詳述する)、及びアミノ酸アラインメント表示領域304(図7で詳述する)から構成される。 【0020】それぞれの領域について詳細に説明する。アミノ酸フレーム表示領域302には、アミノ酸フレームと共に類似性情報を表示する。その詳細を図5を用いて説明する。cDNA配列のスケール401を座標として、3つのアミノ酸配列フレームを表示する。すなわち、cDNA配列の5’端から1塩基目を出発点としてアミノ酸配列に翻訳していったフレーム1(402)、cDNA配列の5’端から2塩基目を出発点としてアミノ酸配列に翻訳していったフレーム2(403)、及びcDNA配列の5’端から3塩基目を出発点としてアミノ酸配列に翻訳していったフレーム3(404)を線分で表示する。各フレーム上には、開始コドン(ATG)の位置405、終始コドンの位置406を縦線で表示する。また、各フレーム上の開始コドンから終始コドンまでの線分(ORF)の内で、最長の線分(フレーム内最長ORF)を407で示す横線で表示する。以上は、通常行われる表示方法である。通常は、全フレームで最長のORFをもっともらしいORFとしてそのアミノ酸配列をその後の解析の対象にする。比較的長いORFが複数のフレームにまたがって存在する場合は、それらのORFの間の領域にフレームシフトが存在する可能性がある。この例では、フレーム1とフレーム2のフレーム内最長ORF間の領域に、フレームシフトが存在する可能性がある。しかし、この情報だけでは、どこにフレームシフトがあるかを特定することはできない。そこで、本発明では、既知アミノ酸配列との間の類似性情報とcDNA配列の持つ統計的な情報を利用する。類似性情報としては、cDNA配列とアミノ酸配列とのアラインメントから決定されたアミノ酸配列を、各フレームにまたがって線分408として表示する。線分408は、フレーム1とフレーム2にまたがって表示されており、フレーム間の遷移が生じている点でフレームシフトが生じていることがわかる。cDNA配列の持つ統計的な情報として、各開始コドンの近傍に、ATGprの出力409を表示する。これによって、各開始コドンから始まるORFのもっともらしさが、その長さだけではなく数値として表示される。 【0021】次に、コーディングポテンシャル表示領域303には、cDNA配列に沿って、コーディングポテンシャル情報を表示する。その詳細を図6を用いて説明する。cDNA配列のスケール501を横軸として、コーディングポテンシャルをその座標502上に表示する。コーディングポテンシャルとしては、フレーム1のコーディングポテンシャルの値503、フレーム2のコーディングポテンシャルの値504、及びフレーム3のコーディングポテンシャルの値505を表示する。チェックボックス506、チェックボックス507、チェックボックス508によって、それぞれフレーム1、フレーム2、フレーム3のコーディングポテンシャルの表示の有無を決定することができる。コーディングポテンシャルの計算においては、前述したように、cDNA配列内の一定長配列ウィンドーにおいて、コード領域らしさを各フレーム毎に計算し、ウィンドーをスライドさせながら、逐次コード領域らしさを計算していく。コード領域らしさの指標は、6文字程度の塩基文字列の頻度統計解析によって得られる。図6に示されるように、コーディングポテンシャルの値が高い領域がフレーム1からフレーム2に、130塩基長付近で遷移している。これは、130塩基長付近で、フレームシフトが存在することを示唆している。このように、コーディングポテンシャルの値のフレーム間の遷移をみることによって、フレームシフトの存在とその位置を推定することが可能である。コーディングポテンシャルの計算時のウィンドーサイズとシフト値はボックス509及びボックス510内に表示される。これらのボックス内の値は、変更してコーディングポテンシャルを再計算して表示することが可能である。これは、ボタン511を押すことによって可能である。 【0022】次に、アミノ酸アラインメント表示領域304には、アミノ酸配列データベース中のアミノ酸配列との間のアラインメントを線分によって表示する。その詳細を図7を用いて説明する。cDNA配列のスケール601を座標として、アミノ酸配列データベース中のアミノ酸配列との間のアラインメントを線分で表示する。アミノ酸データベースとしては、SWISS-PROTやOWL等が用いられる。アラインメントは、図3の説明で記述したように、TRANSQ又はBLASTXによって得られるアラインメントを用いる。ここでは、TRANSQを用いた場合の説明を行う。図3で説明したように、TRANSQの比較を行う前のBLASTXの検索によって得られたE-valueの値でソートしたアラインメントを、線分で表示する。アラインメントは、E-valueの値が小さい順に、上から下に向かって並べられる。この例として、cDNA配列とアミノ酸配列との第一のアラインメント602、cDNA配列とアミノ酸配列との第二のアラインメント603、及びcDNA配列とアミノ酸配列との第三のアラインメント604を示す。アラインメント602、603、及び604の左側には、各アラインメントを特徴付ける数値情報614(Identity、blastx検索のE-value、アラインメント長(Al)、5’端のアラインメントされていないDNA側の長さ(NAb)、5’端のアラインメントされていないアミノ酸側の長さ(NAa))が記述される。アラインメント602、603、及び604の右側には、アミノ酸配列に関する情報615(ID、Definition等)が記述される。各線分において、アラインメントされていない領域を線分608で表示する。アラインメントされた領域は、アラインメントのIdentityの値に応じて識別可能なパターンで表示される。この一致度は色によって表示しても良い。線分605は、Identity≧90%の領域を、線分606は、90%>Identity≧40%の領域を、線分607は、40%>Identityの領域をそれぞれ表す。Identityの値は一定サイズのウィンドー内で計算し、配列に沿ってスライドさせることによって配列の各領域における値を計算する。cDNA配列とアミノ酸配列とのアラインメント中において、DNA側の挿入(挿入数が3の倍数の場合)領域を、線分609で表し、DNA側の欠失(欠失数が3の倍数の場合)領域を線分610で表す。これによって、アラインメントから得られるアミノ酸配列中のフレームシフトの情報が、複数のアラインメントについて同時に確認可能になる。また、アラインメントの挿入欠失が生じている部位がどのIdentity領域であるかによって、それらの挿入欠失の有意性を判断することが可能である。すなわち、Identityが高い領域で挿入欠失が生じていれば、その有意性は高く、逆にIdentityが低い領域で挿入欠失が生じていれば、その有意性は低い。例えば、アラインメント602上と、アラインメント603上の同じ位置に存在するDNA側の挿入609は、その位置におけるIdentityが90%以上あることから、有意性が高いと判断できる。一方、アラインメント603上に存在するDNA側の欠失610は、その位置におけるIdentityが40%以下であることから、有意性が低いと判断できる。また、アラインメント604をみると、このcDNAはリボソーム蛋白質とIdentity100%で相同性を示していることから、リボソーム遺伝子とキメラ遺伝子を構成しており、その接続部位は300塩基付近であることが推定される。ユーザーは複数のアラインメント上の挿入欠失部位とその部位のIdentityを総合的に観察することによって、cDNA配列の編集をすべき部位とそのためにどのアラインメントを用いるべきかを判断することが可能である。各アラインメントの詳細情報へのリンクは、アラインメント線分の右横のチェックボックス611、612、613によって行われる。例えば、チェックボックス611を選択することによって、図5で説明したアミノ酸フレーム表示上に、選択した一番目のアラインメントから得られたアミノ酸配列を線分として表示することが可能である。アミノ酸フレーム表示の項で説明したように、アラインメントから得られたアミノ酸配列の線分表示と、cDNA配列自体から得られるORFの線分表示とを、同時に3つのアミノ酸フレーム上で比較することによって、フレームシフトがどこで生じどのフレームからどのフレームへ遷移しているかが明確になる。こうやって、フレームシフトの存在と確からしさを図5と図7とで確認しながら、アラインメント中のcDNA配列のフレームシフト部位を編集することが可能である。cDNA配列の編集画面へのリンクは、編集したいアラインメントを、チェックボックス611、612、又は613によって選択する。そして、図2で示した編集ボタン111を押すことによって、編集画面114が生成される。 【0023】図8に編集画面の詳細を示す。編集画面には、cDNA配列とアミノ酸配列とのアラインメント701と編集のための各種ボタン703、704、705が表示される。cDNA配列とアミノ酸配列とのアラインメント701では、cDNA配列とその翻訳アミノ酸配列がターゲットの既知アミノ酸配列と並置されてテキスト表示される。翻訳アミノ酸配列とターゲットのアミノ酸配列との間の実線は、アミノ酸が一致していることを表し、二つの点と一つの点は点の数に応じたアミノ酸間の類似度の大きさを表している。このアラインメントでは、702に示す位置にa塩基の挿入が生じていることがわかる。すなわち、a塩基を挿入塩基とみなすことによって、a塩基の前後のアミノ酸配列が良く一致することがわかる。編集は、このa塩基を直接ユーザーが消去することによって行われる。編集結果確定と再解析の実行は、cDNA配列の編集確定再解析ボタン703(Submit)を押すことによって可能である。これによって、cDNA配列の解析・表示処理106が再度実行される。編集画面の終了は、cDNA配列とアミノ酸配列とのアラインメント、及び編集画面の終了ボタン704(Close)を押すことによって可能である。編集確定再解析の前に編集した結果のリセットは、cDNA配列編集のリセットボタン705(Refresh)を押すことによって可能である。 【0024】こうやってcDNA配列の編集後再解析を行った結果は、解析結果の表示画面108に直ちに反映される。図8で挿入塩基とみなされたa塩基を消去する編集を行った結果を、アミノ酸フレーム表示について図9に示す。図5と比較することによって、130塩基付近以上の領域で、各フレーム上の情報が入れ替わっていることがわかる。アラインメントによって決定されたアミノ酸配列のフレーム上での線分が、図5ではフレーム1とフレーム2の間でまたがっていたが、図9では一つの線分となって、フレーム1上に表示されていることがわかる。これによって、図8で行ったcDNA配列の編集の妥当性を確認することができる。また、ATGprの値が、編集によって更新されていることがわかる。特にフレーム1上の左端のATGについてのスコア値が、0.45から0.80に増加しており、これは編集によって左端のATGから始まるORFが長くなったことに起因していると考えられる。このようにATGprスコア値の増加によって、編集の妥当性をさらに確認することができる。 【0025】なお、本発明は上記実施の形態に限定されるものではない。本発明は、コンピュータを上記アミノ酸フレーム表示システムとして機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体であってもよく、例えば、磁気テープ、CD−ROM、ICカード、RAMカード等のいかなるタイプの記録媒体であってもよい。 【0026】 【発明の効果】本発明によれば、未知cDNA配列の各アミノ酸フレーム上のORF表示に加えて、既知アミノ酸配列との類似性比較から得られたcDNA配列のアミノ酸情報を該フレーム上に表現し、同時に統計的に得られたORFに関する情報(開始コドンらしさ、及びコーディングポテンシャルグラフ)を表示することによって、効率的にフレームシフトを検出し、その結果を編集することによって、高精度なアミノ酸配列を得ることが可能となる。
|
| 【出願人】 |
【識別番号】000005108 【氏名又は名称】株式会社日立製作所 【識別番号】597059742 【氏名又は名称】株式会社ヘリックス研究所
|
| 【出願日】 |
平成12年10月25日(2000.10.25) |
| 【代理人】 |
【識別番号】100091096 【弁理士】 【氏名又は名称】平木 祐輔
|
| 【公開番号】 |
特開2002−132781(P2002−132781A) |
| 【公開日】 |
平成14年5月10日(2002.5.10) |
| 【出願番号】 |
特願2000−325403(P2000−325403) |
|