トップ :: G 物理学 :: G06 計算;計数




【発明の名称】 サンプリングバイアス評価・減少装置
【発明者】 【氏名】鎌谷 直之

【氏名】湯田 浩太郎

【氏名】金澤 孝志

【要約】 【課題】統計解析において、サンプリングバイアスの評価、減少を行うことにより正確な解析結果を得ることを可能とするサンプリングバイアス評価・減少装置を提供する。

【解決手段】シミュレーションによるサンプリングバイアスを有するデータの創出は、必要なパラメータを入力データとして取り込み、パラメータに従って小集団を2つ作り、これを混合してサンプルデータとする。このようにして作られた小集団と混合集団を統計的手法に基づいて解析する。更に、混合集団の距離マトリクスを作成して新たな小集団(クラスタ)を複数生成し、各クラスタの統計的解析を行う。このクラスタの統計的解析によってサンプリングバイアスの存在が明確になる。実験データを用いて解析をする場合には、集団サンプルデータの発生処理を飛ばして、データ解析とクラスタリングを行う。
【特許請求の範囲】
【請求項1】情報装置に、統計解析において、収集したサンプルデータの中に含まれるサンプリングバイアスを評価・減少する方法であって、収集したサンプルデータを、該サンプルデータに含まれる特性データに基づいてグループ化するグループ化ステップと、該グループ化されたサンプルデータについて、該グループ毎に統計量を算出し、該グループが同様の特性を有するサンプルデータのみからなるか否かを検定する検定ステップと、を備えることを特徴とするサンプリングバイアス評価・減少方法を実現させるプログラムを格納した、情報装置読み取り可能な記録媒体。
【請求項2】前記統計解析は、遺伝子多型解析における相関法を使った解析であることを特徴とする請求項1に記載の記録媒体。
【請求項3】前記収集されたサンプルデータは、健常者集団の遺伝子多型情報サンプルデータと、疾患者集団の遺伝子多型情報サンプルデータとからなることを特徴とする請求項2に記載の記録媒体。
【請求項4】前記収集されたサンプルデータは、所定のパラメータに従って、人工的に生成されたデータであることを特徴とする請求項1に記載の記録媒体。
【請求項5】前記人工的に生成されたデータを、様々な基準によりグループ化し、各グループを検定することによって、サンプルデータ内におけるサンプリングバイアスの影響を評価することを特徴とする請求項24に記載の記録媒体。
【請求項6】前記グループ化は、各サンプルデータ間に距離を定義し、該距離を基準として行われることを特徴とする請求項1に記載の記録媒体。
【請求項7】前記距離は、ユークリッド距離、重み付きユークリッド距離、マンハッタン距離、類似比、一致係数、あるいは谷本の距離のいずれかを使用することを特徴とする請求項6に記載の記録媒体。
【請求項8】前記グループ化は、WARD法、最近隣法、最遠隣法、重心法のいずれかを使用することを特徴とする請求項7に記載の記録媒体。
【請求項9】前記検定ステップでは、ブレスロー−デイ検定を行うことを特徴とする請求項1に記載の記録媒体。
【請求項10】前記検定ステップでは、コクラン−マンテル−ヘンツェル検定を行うことを特徴とする請求項1に記載の記録媒体。
【発明の詳細な説明】【0001】
【発明の属する技術分野】本発明は、統計解析において、サンプル集団に存在するサンプリングバイアスを評価し、サンプリングバイアスの影響を減少して信頼性の高い統計解析を行うためのサンプリングバイアス評価・減少装置に関する。
【0002】
【従来の技術】以下の記載においては、遺伝子解析を例にとって説明するが、本発明はこれに限定されるものではなく、統計解析の広い分野に広く適用可能なものである。
【0003】最近の遺伝子配列決定後のポストゲノムにおける遺伝子関連研究の中で、最大/緊急の目標である遺伝子探索研究において、最も有望視されるものとして遺伝子多型情報に基づくアプローチがある。中でも、遺伝統計学的手法を用いてゲノム上に存在する疾患関連遺伝子の位置を発見/推測するアプローチが遺伝子探索の本命として注目されている。
【0004】この遺伝統計学的手法による遺伝子探索手法は、大きく二つに分類される。一つは、家系図の情報を用いて解析するアプローチであり、もう一つは家系図を用いないで解析するアプローチである。
【0005】家系図を用いないで解析するアプローチの代表的な手法として相関(Association)法があり、原理的に類似した手法としては家系相関法等がある。この相関法は、データ解析にはχ二乗検定を用いており、データの収集法と解析パターンは医療統計学で頻繁に利用されるケースコントロールスタディを主体としている。本手法では、解析目的や内容によりコホートスタディ(Cohort Study)もしばしば取り入れられている。以下では、遺伝子多型解析の相関法について説明する。
【0006】以下に、遺伝統計解析、医療統計学、ケースコントロールスタディ、について概要をのべ、更に、相関法について簡単にまとめる。
1.遺伝統計解析1)遺伝子探索と遺伝子多型マーカポストゲノムにおける遺伝子探索の最も有望なアプローチとして、ゲノム上の塩基配列に存在する遺伝子多型情報に基づくアプローチがある。ゲノム上に存在するターゲット遺伝子を探索する事が目的であるが、このターゲット遺伝子の座位(ゲノム上の場所)が不明なために、このターゲット遺伝子を直接探索することは不可能である。このためにゲノム上にターゲット遺伝子の代わりとなるものを設定し、この代わりとなるものを探索目標として探索するという間接的なアプローチが取られている。従って、遺伝子探索の目標は、これらのターゲット遺伝子の代わりとなり、当面の探索目標となるもの(一般的には遺伝子多型マーカを用いる)からターゲット遺伝子近傍に存在するものを探し出す/選択する事となる。
2)遺伝子多型マーカと連鎖原理遺伝子多型マーカとは、遺伝子上に存在する多型情報(多型とは、個人によってゲノム上に配列されている塩基が異なること)を担うものをそのままマーカとしたものを言う。個体差による遺伝子の違い(すなわち、遺伝子多型)が、実際にゲノム上の塩基配列の違いとなって現れるものである。現在、形態の異なる数種類の遺伝子多型マーカが発見されている。
【0007】連鎖原理は、同じ染色体上に位置する遺伝子座の対立遺伝子は、生殖細胞の減数分裂に際して、遺伝子座の間で遺伝子組み替えが起こらない限り行動を共にするという現象に由来する。この原理は、当面の探索目標になる遺伝子多型マーカがターゲット遺伝子の近傍に存在する保証、あるいは、遺伝子探索を行うための根拠として用いられている。すなわち、連鎖により遺伝子の近傍に存在する遺伝子多型マーカは、遺伝子と対となって一緒に遺伝するが、遺伝子と離れた座位に存在する遺伝子多型マーカは互いに独立して遺伝されるという現象に基づくものである。これは、遺伝子座間の距離が遠いほど、組み替えの確率が増加するためである。この現象を遺伝的な観点から追求することで、ターゲット遺伝子近傍にあるマーカ(すなわち、当面の探索目標)と、遺伝子から離れた場所に存在するマーカとを識別する。
【0008】連鎖不平衡は、連鎖する複数の遺伝子座間に見られる現象である。連鎖は家系的つながりの明確な個体間で見られる現象であるが、連鎖不平衡は、家系的つながりが明確でない多数の個体を含む集団内で見られる現象である。極めて近傍の遺伝子座間では世代交代によっても遺伝子組み替えがほとんど起きないので、同じ染色体上にある複数の対立遺伝子が多数の世代交代の後にも同じ染色体上に留まることが多く、このため、家系的つながりが明確でない集団(例えば、日本人など)の中の多数の個体を調べても、その関係が遺伝統計解析により証明できる。この現象を連鎖不平衡という。連鎖不平衡もまた、当面の探索目標になる遺伝子多型マーカがターゲット遺伝子の近傍に存在する保証、あるいは、遺伝子探索を行うための根拠として用いられている。
3)遺伝子多型マーカ現在利用されている遺伝子多型マーカとしては、SNPs、VNTR、マイクロサテライトマーカ等のマーカが知られている。これらのマーカはそれぞれ特徴があり、探索目的、内容等に応じて使い分けられている。これらのマーカでもとうにSNPsは、遺伝子上の存在する数が最も多く(ヒトゲノム上には300万から1000万存在するといわれている)、約30億の塩基から構成されるヒトゲノムや、その他の生物種のゲノム上で最も高密度でマーキングできる遺伝子多型マーカとして注目されている。現在、SNPsの大部分は未発見であるが、世界的なレベルで、このSNPs情報収集が競争的に行われており、近年中に多数のSNPsが発見/固定されてくるものと予想される。
4)遺伝統計解析現在展開されている遺伝統計解析は、2)で述べた交叉により引き起こされる連座原理に基づいた遺伝子探索を行うもので、手法的には大きく二種類のアプローチに分類される。
【0009】一つは、家系情報を利用しつつ最尤推定法を適用して解析を行うアプローチであり、もう一つが統計のχ二乗法を適用して疾患と関係の深いゲノム上の座位(マーカ座位)を、仮説/検証の形で求めるものであり、この代表的なアプローチが相関(Association)法である。
【0010】以下では、遺伝子多型情報を用いた遺伝統計解析手法の内、相関(Association)法、及び原理的に類似した家系相関法に言及する。従って、ここでは、家系図を用いた尤度法による遺伝統計解析には言及しない。
【0011】以下で対象とする相関法の基本は、データ解析手法としては統計のχ二乗検定を行い、扱うデータの収集や解析のパターンとしては統計医療学で疾病要因の探索に頻繁に利用されているケースコントロールスタディを主体とするが、研究内容や目的によりコホートスタディも適用される。
【0012】以下に統計医療学とケースコントロールスタディについて簡単に述べる。ケースコントロールスタディとコホートスタディはデータの取り方が異なるだけで、解析上での手続きに大きな差異は無いのでコホートスタディの説明は省略する。
2.統計医療学統計医療学の分野は、統計などのデータ解析技術を用いて様々な疾病に関する要因解析を行い、医療に役立てることを目的としている。実際のデータを解析する解析エンジンとしては、主として統計解析手法が利用されるが、この他にも場合に応じて多変量解析やパターン認識といった解析手法も用いられる。
【0013】実際に解析を行う場合には、解析対象となるデータを集めることが必要となる。このデータの収集パターンにも様々なアプローチが展開されている。これらの手法の中で、一つ、あるいは複数の手段を観察、比較検討しながら解析を行う観察的研究(observational studies)手法があり、この代表的なアプローチとして、ケースコントロールスタディやコホートスタディ等のアプローチが存在する。
【0014】特に、ケースコントロールスタディによる解析は他の手法と比較して、データの収集しやすさが大きな利点である。また、コホート解析はデータ収集に時間がかかるが、将来的に起きる事象を時間を追って解析する追跡研究が出来るという特徴を持つ。
3.ケースコントロールスタディについてケースコントロールスタディとは、ある事象に関して、その事象がある(ケース;case)サンプル集団と、その事象がない(コントロール;control)サンプル集団とに二分し、過去に、この二群を分類することになった原因や出来事を探索するアプローチである。
【0015】医療分野においては、サンプル群を2分割する事象として疾患や症状を取る。従って、事象がある集団(ケース)には患者集団が、また事象の無い集団としては健常者集団(コントロール;control)が取られることになる。この2群における差異要因、すなわち、ケース群に多く存在するが、コントロール群には少ないか、存在しない要因(あるいは、この逆)を探し出すのがケースコントロールスタディの目的である。
4.相関(Association)法遺伝子多型情報に基づく遺伝子探索において、今後最も重要な解析手法となると考えられるのが相関(Association)法である。これは、家系図を必要とするアプローチと比較してデータの収集しやすさが最大の利点であり、また、適用出来る疾病も遺伝病から、生活習慣病まで広範囲なものが解析対象となりうる。
【0016】相関法では、統計医療学のケースコントロールスタディに基づき、ケースとして患者集団を取り、コントロールとして健常者集団をサンプリングする。実際の解析に用いるデータとしては、個々のサンプルの遺伝子多型マーカ(例えばSNPs、VNTR、マイクロサテライトマーカなどのマーカ)を用いる。データ群の解析には統計のχ二乗検定法を用いる。ある特定の遺伝子多型マーカにおいて、患者集団と健常者集団間とで差異が無いという帰無仮説を立て、この帰無仮説を検定することで解析を行う。この場合、帰無仮説が棄却されたならば、解析に用いたマーカは患者群と健常者群とを分ける要因、すなわち、解析目標である疾病の原因となっていることを意味する。この場合、連鎖原理により、このマーカはゲノム上で疾病の真の原因となる遺伝子の近傍に存在することになる。
【0017】
【発明が解決しようとする課題】1.相関法における最大の問題点(サンプリングバイアス)
相関法の基本となるケースコントロールスタディにおける一般的な留意点として、得られる情報が比較的限定されること、一回の解析で得られる結果要因は一つに限られる等があるが、これらは他の解析手法との併用や、解析を繰り返すことで欠点を回避可能である。
【0018】しかし、簡単な回避策が無く、失敗するとその影響が甚大となる最大の欠点が、サンプリングバイアス(交絡因子ともいう)の影響を受けやすいという点である。
【0019】現時点では、データ中に潜むサンプリングバイアスを正当に評価し、それを減少あるいは積極的に取り除くアプローチは存在しない。サンプリングバイアスの評価/影響の減少/除去が可能となれば、相関法による解析の信頼性を格段に高め、安全に解析を実施することが可能となる。
2.サンプリングバイアス(データの構造/階層化)について一般的にデータ解析では、データに内在するデータの偏りを見つけだし、このデータの偏りが解析目的である事象と相関している場合は、解析目的である事象と原因との因果関係がデータ解析により明確なものとされる。
【0020】同じデータの偏りであっても、解析目的と全く無関係の場合もあり、これは解析時のノイズ情報となる。一般的に、このようなデータの偏りをサンプリングバイアスと呼ぶ。サンプリングバイアスは、ノイズデータではあるが、解析の実行を妨げるものではないし、データ中で陽な形で存在するものではない。解析を実行することにより搾り出されてくるものである。従って、特性的には解析目標とするデータの偏りと全く同じであり、見かけ上は解析結果として取り出されてくるので、真の解析目的に関与した結果であるか、全く関係のない要因による結果であるかの判定はデータ解析の手続き上からは出来ない。
【0021】サンプリングバイアスの問題点は以下のようなことである。
1)サンプリングバイアスは、データの内部に潜んでおり、データの表面には陽な形では出てこない。従って、解析前にデータからこのサンプリングバイアスを積極的に取り除くことは出来ない。
2)サンプリングバイアスがあったとしても手続き上では、正常に解析が終了すること。
【0022】この場合、サンプリングバイアスにより解析結果は間違った結論へと導かれているが、解析が正常に完了するので、結果は正しいとして信じることになる。この結果、誤った結果を正しいものとして信じてしまうことになり、場合によっては研究開発の失敗や診断/治療ミスなどの甚大な被害をもたらす結果となる。
3)サンプリングバイアスを正当に評価し、減少、または、影響をなくすことが極めて困難である。ケースコントロールスタディは極めて便利で実験しやすいアプローチであるので、このサンプリングバイアスの存在を認識できるか、簡単に評価出来るだけでも解析上極めて大きな利点となる。
3.サンプリングバイアスの事例(肺ガンと年齢との関係)
サンプリングバイアスが原因となって引き起こされる問題を簡単な事例で説明する。例えば、肺ガン患者群(ケース)と健常者群(コントロール)とを比較した時、18歳以下は禁煙である(サンプリングバイアスとなる)という条件を考慮しなければ、無作為に抽出された患者/健常者群には年齢という要因が肺ガンの発症要因として大きく浮かび上がる可能性が高い。すなわち、本来は喫煙が肺ガンの真の原因であるべきなのに、18歳未満は禁煙という外的要因(サンプリングバイアスを作る原因となる)を考慮しなければ、サンプリング過程で本来の肺ガンの発症要因とは全く関係のない「年齢」という要因が肺ガンの原因として取り出される可能性が高い。
【0023】このようにケースコントロールスタディでは間違った結論に導かれる可能性の高いサンプリングバイアスの影響を最小限にする、あるいは取り除いた状態で解析することが信頼性の高い解析の実現に必要となる。
【0024】図21〜図23は、ケースコントロールスタディの概念とサンプリングバイアスの概念を説明する図である。まず、図21において、患者群(ケース)の情報と、健常者(コントロール)の情報を集める。ケースコントロールスタディでは、患者群の情報から、ある事象に関連した情報を探しだし、事象有りの情報と事象なしの情報とに分ける。また、同様に、健常者の情報についても、事象有りの情報と事象なしの情報とに分ける。すると、患者群の情報と健常者の情報から、ある事象有りの情報と事象無しの情報とが得られる。そして、事象有りとなった情報の中から共通する原因因子を探し出すことによって、この事象と原因因子の関連性を特定することになる。
【0025】例えば、図22に示すように、事象を「喫煙」とした場合、肺ガン患者の情報と健常者の情報から、喫煙者と禁煙車の情報をそれぞれ分離する。そして、肺ガン患者の方に多くの喫煙者がいる場合、肺ガンの原因として喫煙という原因因子を抽出する。
【0026】ところが、図23に示すように、18歳以下は、全ての人間が禁煙していたとすると、肺ガンの発生原因として「喫煙」がある場合、18歳以下では、喫煙していないので、肺ガンの発生率が低いということになる。したがって、統計処理により、肺ガン患者群の情報と健常者の情報を処理すると、18歳以下の未成年では肺ガンの発生が少なく、18歳より年齢の大きい成人の集団において肺ガンの発生率が高いという結果が生じる。この場合、実際の肺ガンの発生原因は「喫煙」であるが、18歳以下では禁煙をしているという別の因子が入ることによって、正しい原因因子である「喫煙」ではなくて、「年齢」という原因因子が処理の結果抽出されることになる。このように、サンプリングした情報の中には、様々な因子が含まれているので、例えば、肺ガンの原因を調べたいとしても、肺ガンになる人の持っている情報の中には、「喫煙」をしているという以外に、「年齢」という因子も重なってきていることになる。この「年齢」という因子がサンプリングバイアスである。
【0027】このように、ケースコントロールスタディにおいて、サンプルを集めて、解析する場合に、多くの未知の因子を考慮しなくては正しい原因因子の特定は難しくなってしまう。しかし、これらの多くの因子は、解析を行うものにとっては未知のものが多く、これを如何に除いて、ただしい原因因子を特定するかが問題となる。
4.サンプリングバイアスの従来手法による回避上記サンプリングバイアスからの影響を避けるために、一般的にはサンプルデータ収集の時に様々な工夫をし、サンプリングバイアスが入り込まないようにする予防的処置が取られることが一般的である。例えば、1)ケース群とコントロール群を同じ方法で選択する。2)種々の因子(性別、年齢、その他)を合わせてサンプリングを行う、3)複数のコントロールを用いる、4)サンプリング範囲(場所的、時間的)を限定したサンプリングを行う、等の措置がと取られる。また、実際の実験を行う時に生じるバイアスに対しては、1)結果が生じる以前のデータを使用する、2)二重盲検法(Double-blind trial)を採用する。つまり、患者かコントロールかを区別しないで調べたり、検体をコード化して調べるなど、の方法がある。しかし、これらの処置はデータ収集を行う時に実施されるものであり、サンプリングバイアスの少ないサンプル群を如何にして取り出すかという予防的アプローチである。
【0028】しかも、以上のような措置を取ったとしても種々存在するサンプリングバイアス(交絡因子)の影響を完全に取り除くことは難しく、一旦入ってしまったサンプリングバイアスは取り除けないし、未知のサンプリングバイアス(交絡因子)がある可能性も常にある。
5.既存のサンプル集団に内在するサンプリングバイアスの評価ケースコントロールスタディの利点は過去の蓄積されたデータを用いて解析できる点にある。従って、収集対象となるデータ群が全て二重盲検法により得られた良質なデータであることは少ない。従って、多くの場合は程度に差異はあっても何らかのサンプリングバイアスが存在すると考えることが必要である。
【0029】上記観点でサンプリングバイアスが不可避であるならば、既存のデータ中に存在するサンプリングバイアスを正当に評価することが出来れば、信頼性の高い解析を行うことができるという意味で非常にメリットが大きい。同時に、サンプリングバイアスの影響を最小限、あるいは、皆無にすることが出来れば、ケースコントロールスタディ実施の観点で大きなメリットとなる。
6.遺伝統計学上でのサンプリングバイアスによる影響遺伝統計学上でのサンプリングバイアスによる具体的な影響は、例えば、相関法を用いた解析で、実際は疾病と無関係であるマーカが疾病と関係があるという偽陽性(false positive:タイプIエラー)の結論を導き出すことである。
7.統計解析の信頼性統計解析において、手続き上での問題が無く、特に計算エラーが起きなければ、一般的に統計計算により得られた結論は正しいとして、そのまま一人歩きしてしまう。実際に実験をして、この事実が事実と反することが証明されるまで、間違った結論が正当なものとなる。この影響は極めて甚大であり、最終的には診断ミスなどのおかしてはならないミスなどに導かれる。以上のような様々なサンプリングバイアスを回避して正しい統計解析結果を得ようとする類似アプローチとして、以下のようなものがある。以下の従来技術においては、人種による発病などの特性を解析する場合に、混血によって生じるサンプリングバイアスを上手く評価して、サンプルデータをクラスタリングする手法が記載されている。
1)”Association Mapping in Structured Populations”、Jonathan K.Pritchard、Matthew Stephens、Noah A. Rosenberg、Peter Donnelly、Am.J.Hum.Genet.67:170-181,20002)”Inference of Population Structure Using Multilocus GenotypeData”、Jonathan K. Pritchard、Matthew Stephens、Peter Donnelly、Genetics Society of America、945-959、2000本発明の課題は、統計解析において、サンプリングバイアスの評価、減少を行うことにより正確な解析結果を得ることを可能とするサンプリングバイアス評価・減少装置を提供することである。
【0030】
【課題を解決するための手段】本発明のサンプリングバイアス評価・減少装置は、統計解析において、収集したサンプルデータの中に含まれるサンプリングバイアスを評価・減少する装置であって、収集したサンプルデータを、該サンプルデータに含まれる特性データに基づいてグループ化するグループ化手段と、該グループ化されたサンプルデータについて、該グループ毎に統計量を算出し、該グループが同様の特性を有するサンプルデータのみからなるか否かを検定する検定手段とを備えることを特徴とする。
【0031】本発明によれば、サンプルデータ中に存在するサンプリングバイアスを適切に評価・減少することができ、信頼性の高い統計解析を行うことが出来る。特に、本発明の装置を遺伝子多型解析のケース−コントロールスタディなどに適用すれば、信頼性の高い、疾患と関連のある遺伝子の座位の特定を行うことが出来、遺伝子と疾患との関連性の研究を正確かつ効率的に進めることが出来る。
【0032】
【発明の実施の形態】本発明の実施形態では、以下の手続きを独立に、あるいは組み合わせることで相関法における最大の問題であるサンプリングバイアスの評価と減少を実現する。
・手続き1:シミュレーションによるサンプリングバイアスを持つサンプル集団の創出。
【0033】データサンプル中に内在するサンプリングバイアス(構造要因)をシミュレーションにより人工的に生成させる。これにより、通常は実感することが困難なサンプリングバイアスについて、どのような条件のデータがサンプリングバイアスを増加/減少させるのか、サンプリングバイアスの実態は何かなどの検討や、実感することを可能とする。
・手続き2:サンプリングバイアスをチェックしつつ検定を行うアプローチ。
【0034】クラスタリング手法を用いて解析対象とする初期サンプル集団をより小さなサンプル集団へと再構成し、ブレスロー−デイ(Breslow-Day)検定、及びコクラン−マンテル−ヘンツェル(Cochran-Mantel-Haenszel)検定を用いて、サンプリングバイアスの存在をチェックしながら信頼性の高い解析を行う。
・手続き3:クラスタリング過程でのサンプリングバイアスの除去。
【0035】クラスタリング過程で生成される個々の小集団間の相互距離を導きだし、この距離が大きい集団を取り除くことで初期集団中に潜むサンプリングバイアスの除去を可能とする。これは、他の小集団と離れて存在する小集団は他の集団とは異なる特性(すなわち、サンプリングバイアス)を持つ集団であるという考えに基づく、クラスタリングによるサンプリングバイアス除去方法である。
【0036】更に、本実施形態では、解析の便宜を図るために以下の構成を設ける。
・手続き4:マーカ遺伝子座位の種々ヒストグラムの出力。
マーカ遺伝子座位の種々ヒストグラムを出力し、これらのヒストグラムを用いて頻度解析を行うことでデータ中に内在するサンプリングバイアスを評価する。
【0037】本発明の実施形態は以下の構成を有するプログラムにより実現される。
1.プログラムの大まかな機能プログラムは大きな作業別に3種類の機能モジュールに分類される。
1)解析モジュール遺伝子多型データ解析を行うにあたり、様々な情報を遺伝子多型データから取り出すことで、データに関する多角的な検討を行う。この解析モジュールにより、プログラムに入力されたデータや、シミュレーションにより生成されたデータに関する様々な遺伝学的情報や統計量等を算出する。
2)シミュレーションモジュールシミュレーションモジュールでは、予め設定されたパラメータに従って、人工的に遺伝子多型データを創出し、互いに異なる特性を持つサンプル集団を生成する。
3)作成モジュール遺伝子多型データファイルを創出する。
2.モジュール単位の機能及び作業手順2.1解析モジュール解析モジュールの目的は、プログラム内の遺伝子多型データを用いて様々な解析を実施するものである。この解析としては、様々な遺伝子多型情報の収集、χ二乗統計量を用いたマーカ座位の疾患との相関の検定、クラスタリング手法による初期サンプル集団の小集団(クラスタ)への分割とその解析、小集団を合わせたサンプル集団についてサンプリングバイアスを考慮したブレスロー−デイ検定(以下、BD検定と略す)、及びコクラン−マンテル−ヘンツェル検定(以下、CMH検定と略す)を行い、サンプリングバイアスを考慮した疾患との相関を評価する。
【0038】解析モジュールの処理の流れを以下に示す。
1)解析対象データの取り込み(外部、及びシミュレーションデータ)
外部から導入される解析対象データは、遺伝子統計解析分野で一般的に利用されているlinkage type formatの書式で書かれたデータがシステムに取り込まれる。この書式を図1に示す。また、プログラム内部で創出されたサンプルデータの解析も、本解析モジュールを用いて行われる。
【0039】図1は、遺伝情報入力書式(linkage type format)の例を示す図であり、各データには、IDが付されており、各IDに対応する情報として、家系ID、個人ID、父親ID、母親ID、性別、疾患の有無、座位・遺伝子多型情報が設けられる。入力データとその処理結果については後に詳細に説明する。
2)入力データからの種々情報の取り出し入力されたデータから、遺伝子多型解析に必要な様々な情報を取り出す。これらの取り出される情報を以下にまとめる。
【0040】
【表1】

【0041】3)統計量算出のための予備計算の実施実際の統計を行うための準備として、全マーカ座位(疾患遺伝子座位も含む)についてχ二乗統計量およびオッズ比を求める。
(1)アレル数、及び陽性者数についてχ二乗統計量の算出(2)各遺伝子座位に疾患遺伝座位が含まれているとした時のオッズ比の算出4)種々統計量の算出続いて、最終目的である種々統計量と検定を実施する。
(1)全マーカ座位中、有意水準0.05及び0.01の危険率で自由度1のχ二乗分布より得られる閾値を超える座位の割合。
(2)疾患遺伝子座位のχ二乗統計量(3)マーカ遺伝子座位の最大χ二乗量(4)マーカ遺伝子座位のχ二乗統計量の分布から、0.05危険率閾値の算出(5)全マーカ座位のχ二乗統計量の和(総和χ二乗統計量)の計算(自由度はマーカの数とする)
(6)前記総和χ二乗統計量の、標準正規化されたχ二乗統計量の算出(7)疾患遺伝子座位のχ二乗統計量から、有意性の判定を行う(8)疾患遺伝子座位のχ二乗統計量を0.05危険率閾値から算出し、有意性の判定を行う入力されたデータ、あるいはシミュレーションにより発生されたサンプル集団データから、上記で示された様々な統計量、及び遺伝子多型情報の関連情報を計算する。
5)サンプル集団のクラスタリングによる小集団(クラスタ)への分割続いて、全体集団を対象としてクラスタリングを実施し、より小さなサンプル集団を複数生成する。このクラスタリングの実施は以下の手順に従う。
(1)全サンプルの距離マトリクスの作成最初にマーカのアレル情報を用いて距離マトリクスを作成する。この距離マトリクスを作成する時の距離尺度としては、例えば、ユークリッド距離、重み付きユークリッド距離、マンハッタン距離、谷本の距離、一致係数、類似比等で、ユーザは選択可能である。
【0042】
【数1】

【0043】ここで、Xa、Xbは、それぞれ互いの距離を決めるべきデータ群であり、Xa、Xb={xaj、xbj=(0,1)あるいは、(1、2)|jは、0から始まり、ある個人データに含まれる座位・遺伝子多型データ個数分の整数値}である。また、kjは、ユーザが予め定める重み係数である。
(2)小集団への分割(クラスタ化)の実施上記距離マトリクスデータを用いて、より小さな集団(クラスタ)に分割する。小集団への分割アプローチも、融合法(最近隣法、最遠隣法、重心法、WARD法)や分割法をプログラムの利用者が選択する。
【0044】一般にバイオ分野のクラスタリング利用では遺伝子系統樹作成には、最近隣法を基本としたアプローチが適用されるが、今回のサンプリングバイアスの評価という点では、WARD法による細集団化が好ましい。
(3)他の小集団から大きく離れた小集団の除去によるサンプリングバイアスの除去クラスタリングの過程で生成される小集団間の相互距離を求める。この値が他のサンプリング集団に対して大きな値を持つサンプル集団は、他のサンプル集団と異なったデータ構造を持っている。
【0045】実際の手続きは、予め一定の距離を指定しておき、この値より距離が大きくなったら警告を出す、あるいは自動的にそのクラスタ(小集団)を取り除く、あるいは利用者が集団間の距離を見て、クラスタを指定して取り除くことが可能である。
【0046】この手続きにより、従来は困難であった、サンプル集団から他の集団とは異なる特性(サンプリングバイアス)を持つサンプル集団の除去が可能となる。
(4)クラスタ化された、より小さな集団を対象として、統計量算出を行う。
【0047】最終的、あるいは、クラスタリング過程でクラスタ化された、より小さな集団単位で、サンプル上の全ての座位についてχ二乗検定を適用し、1)の機能を用いて様々な統計量に関するデータを計算する。
(5)疾患遺伝子座位でのBD検定及びCMH検定実行のための準備クラスタリングにより生成された小集団の情報を用いて、BD検定、及びCMH検定を行う。この二つの検定手法は、データ中の階層構造、すなわち、サンプリングバイアスが存在するときに利用される検定である。これらの検定を行うための準備として、以下に示す様々な統計量を計算する。
(a)CMH検定において、自由度1のχ二乗分布に従うと仮定した時の危険率0.05、0.01で有意と見なされるマーカ座位数とその割合、(b)CMH検定の統計量が疾患に対して有意に関連していると見なされるマーカ座位数とその割合、(c)疾患遺伝子座位のCMH統計量、(d)疾患遺伝子座位のBD統計量(6)BD検定の実行前項(5)で導き出された種々統計量データを用いて、最終的に分割された複数の集団についてBD検定を実施する。BD検定は、層(ここでは集団)間の均一性に関する検定を行う。従って、BD検定において仮説が棄却されなければ、小集団相互は均一(すなわち、互いに同一のデータ分布をしている:この場合は、一つの集団が全く均等に分割されただけといえる)であり、棄却されれば差異(すなわち、互いに異なるデータ分布をしている)が存在することになる。
【0048】つまり、仮説が棄却された場合はクラスタリングにより、一つの大きな集団が特性の異なる複数の小集団に分割されたことになる。この意味するとことは大きな集団に内在するサンプリングバイアスが顕在化され、特性の似た集団単位に分割されたことである。
(7)CMH検定の実行前記(6)のBD検定で仮説が棄却されなかった場合(すなわち、分割された小集団間にサンプリングバイアスが無いという層間の均一性が指示された)、続いてCMH検定を実施し、本来の目的である暴露因子(ケースとコントロールの2集団に存在する真の差異要因)の検定を行う。
【0049】この手続きは、具体的には以下の二種類のチェックを行うことである。(a)疾患遺伝子座位のCMH統計量が危険率0.05で有意か否かの検討。(b)疾患遺伝子座位のCMH統計量が自由度1のχ二乗分布と仮定した集団から推測される、危険率0.05、あるいは0.01での値を用いた場合に有意か否かの検討。
3.2シミュレーションモジュールシミュレーションモジュールを用いた解析では、(1)サンプル集団データの作成、(2)サンプル集団データの解析、及び(3)距離マトリクスの算出とクラスタリングの実施の順番にてシミュレーションが進行する。なお、(2)及び(3)は、実際には、解析モジュールの演算機能を利用して行い、シミュレーションモジュールでは、その演算結果を利用してユーザがデータの評価などを行う。
【0050】シミュレーションモジュールの大きな目的は、サンプリングバイアスが存在しない特性の異なる集団を合わせて一つの大きな集団にすると、その大きな集団内部にはサンプリングバイアスが存在することになり、結果として統計解析での間違い要因となる偽陽性(false positive、すなわち、タイプIエラー)データが発生することを実現することである。
【0051】サンプリングバイアスを内包するサンプル集団の形成は、個別に特性の異なるサンプル集団を形成し、これらを合わせて一つの大きなサンプル集団にすることで、簡単にできる。
【0052】図2は、シミュレーションモジュールを使った解析の全体の流れを示すフローチャートである。まず、遺伝子頻度、罹患率などの異なる第1及び第2の2集団を合わせて一つの集団(第3集団)とする。この第3集団は、遺伝子頻度や罹患率など(すなわち、特性)の異なる前記第1及び第2集団から構成される。従って、内部に二つの層構造(すなわち、サンプリングバイアス)を持つ不均一な集団となっている。これら三個の集団について、それぞれ検定を実施する。この結果、混合前の第1及び第2集団では疾患遺伝子座位の検定が正常に行われるにも関わらず、第3の集団では解析の過ちである、偽陽性となるマーカ座位が出ることがシミュレーションにより実現される。
(1)2つの個別サンプル集団を作成するための初期条件の設定(ステップS1)。
【0053】最初に2つの集団作成に必要なパラメータ群が設定される。
・遺伝子座位関係(geno type)パラメータ群集団のサンプル数(2集団(ケース及びコントロール)分)、マーカ遺伝子座位数、疾患遺伝子座位ID、アレル2の遺伝子頻度(FREQ2)、疾患遺伝子座位のアレル2の頻度(faf)、疾患座位での遺伝子型1/1の個体での発症率(RISK1)、遺伝子型1/2の個体での、1/1の比との発症率に対する相対危険度(RR)、遺伝子型2/2の個体における、1/1の比とに対する発症率の相対危険率(ただし、RR**M(RRのM乗)として)(M)
・疾患状態関連(pheno type)パラメータ群疾患状態自体は、疾患遺伝子座位の遺伝子多型情報に基づき、確率論的に生成される。(所定のパラメータに従って、乱数を発生し、これに基づいてデータを生成する。)
(2)2アレル型多型データ発生予め指定されたサンプルのマーカ座位数と個々の集団の疾患群、非疾患群のサンプル数に従って、2アレル型多型のデータをサンプル集団の個数、及び座位数分創出する。
【0054】このデータ発生は、3種類のアプローチで発生される。ユーザは、これら3種類の発生法の内、一つを指定する。
(a)アレル頻度固定:全マーカ座位のアレル頻度が固定される。
(b)flip-flop mode:マーカの奇数番号と偶数番号とで異なったアレル頻度を取る。
(c)ランダムモード:全マーカ座位のアレル頻度が0〜1の間でランダムに設定される。
(3)疾患状態情報は、疾患遺伝子座位の遺伝子型(1/1、1/2、2/2)の情報に従い、それぞれ先の(1)で設定されたパラメータに従って、RISK1、RISK1*RR、RISK1*RR*Mの計算にて確率論的に発生される。その結果生じた罹患者、非罹患者の区別により、指定された数の個体の情報を収集、記録する。
【0055】以上の(1)〜(3)の手続きにより、一つの集団が生成される。この作業を二回繰り返すことにより、小集団1と小集団2とが形成される(ステップS2、S3)。
(4)2つのサンプル小集団より、ケースコントロールスタディの原理を考慮して、正当な数の罹患者、非罹患者を確率的に収集し、サンプル集団とする(ステップS4)。
【0056】上記で作成された2個のサンプル集団をまとめて1つの混合サンプル集団とする。結果として、内部的に異なるデータ構造(すなわち、サンプリングバイアス)を持つ、新たなサンプル集団が出来たことになる。この新たな、集団を第3集団と呼ぶ。
(5)創出されたサンプル集団の解析(ステップS5〜S7)
サンプルの個々の遺伝子座位の情報を用いて種々のデータ表示手法により、様々な角度からデータの評価を可能とする。プログラムのユーザはこれらの様々なプロット図を検討、解析することで、データ中に存在するサンプリングバイアスの評価を行う。
【0057】作表機能としては、マーカ座位ごとのアレル出現頻度を表示する、折れ線グラフ、線及び棒グラフなどを用いる。また、サンプル間のデータの差異を明示するものとしてレーダーチャート、チャーノフの顔グラフ、三角多項式グラフ、及びオートコリトグラム(autocorrelogram)等を用いる。
【0058】これらの作表手法は、ユーザが個別に指定して、必要とする既存の作表プログラムが稼働する。
(6)クラスタリングを行うに必要な距離マトリクスの作成(ステップS8)。
【0059】引き続いて、クラスタリングを行うのに必要となる距離マトリクスを作成する。この距離マトリクス作成時に必要となる種々のメトリック(metric)は、ユーザが指定したものが利用される。距離マトリクスとしては、ユークリッド距離、重み付きユークリッド距離、マンハッタン距離、谷本の距離、一致係数、類似比等がある。
(7)クラスタリングの実施(ステップS9)。
【0060】前項(6)にて作成された距離マトリクスを用いてクラスタリングを実施する。ここで、クラスタリングするクラスタの数はユーザが指定する。小集団への分割アルゴリズムは、距離マトリクス同様にユーザが指定することで、その指定されたアルゴリズムが採用される。指定可能なアルゴリズムとしては、融合法(最近隣法、最遠隣法、重心法、WARD法)や、分割法等がある。
【0061】なお、ここでの、(6)と(7)の演算は、実際には、解析モジュールの演算機能を使用して処理を行う。そして、ステップS10、S11において、生成されたクラスタそれぞれについて、ステップS5〜ステップS7における解析と同様の解析を行う。そして、一定条件でのクラスタリングの分析が終わると、次に、ステップS2に戻って、クラスタリングの数を変えるなどをして、再び解析を行い、サンプリングバイアスの除去を徐々に行っていく。そして、クラスタリングの結果がケースとコントロールに上手く分かれた状態が、サンプリングバイアスを完全に除去できた状態となり、疾患と原因の特定が正確に行えたことになる。
【0062】図3〜図8を用いて、本実施形態の処理の流れを説明する。図3は、入力されたデータについて、患者と健常者を分ける原因となるマーカ遺伝子座位を特定する処理を示すフローチャートである。
【0063】ここでは、χ二乗検定により、患者グループと健常者グループとの2グループでのマーカ遺伝子座位のアレルデータとの相関の有無が検定される。相関がありと判断された場合には、このマーカ周辺の遺伝子が疾患原因遺伝子の候補となる。この場合、解析対象サンプル集団中のサンプリングバイアスの存在の有無には関係なく検定が実施される。従って、疾患と関係ありとされたマーカ遺伝子座位は、疾患と関係の無い要因(サンプリングバイアスが原因)で識別された可能性は否定できない。
【0064】まず、ステップS15において、実験データあるいは、人工的に作成された(例えば、シミュレーションモジュールで生成された)データを入力する。次に、ステップS16において、マーカ遺伝子座位単位での、患者及び健常者単位でのアレル1/2の出現頻度情報を収集する。そして、ステップS17において、各マーカ遺伝子座位単位でχ二乗検定量を計算し、ステップS18において、各マーカ単位で、5%及び1%の危険率での帰無仮説“マーカ遺伝子座位のアレル情報は、患者及び健常者の分類と相関しない”の検定を行う。そして、ステップS19において、帰無仮説が棄却されたか否かを判断し、棄却された場合には、ステップS21において、マーカ遺伝子座位は、疾患と相関しないという結果を得る。ステップS19において、帰無仮説が棄却されない場合には、ステップS20において、マーカ遺伝子座位は疾患と相関するという結果を得る。ここで、χ二乗検定の結果を用いて帰無仮説が棄却されるか否かを判断するのは、ユーザであり、画面上に表示されるグラフなどを検討することによって、この判断を行う。
【0065】図4は、シミュレーションモジュールにおけるサンプリングバイアスを持つデータの作成処理を示すフローチャートである。まず、ステップS25において、小集団の作成準備を行う。ここで、ケースとコントロールのサンプル数を1:1として、一つの小集団のサンプル総数を100とする。また、小集団の分布特性を決定する様々なオプションを設定する。オプションとしては、以下のようなものがある。
・マーカ遺伝子座位のアレル2の出現頻度・疾患遺伝子座位の遺伝子型1/1の人の発症確率・疾患遺伝子座位の遺伝子型1/2の人の1/1の人に対する相対発症確率(r)
・疾患遺伝子座位の遺伝子型2/2の人の1/1の人に対する相対発症確率の計算時に用いるパラメータm(ここで、相対発症確率は、rmで計算される)
・疾患遺伝子座位のアレル2の出現頻度そして、ステップS26において、設定された種々のパラメータに従って、小集団のサンプルデータを発生する。ステップS27においては、全ての小集団の作成が完了したか否かを判断し、まだ、完了していない場合には、ステップS25に戻って処理を繰り返す。ステップS27において、作成が完了した場合には、ステップS28において、最終サンプル集団の作成を行う。この最終サンプル集団は、サンプリングバイアスを内包するものとなる。まず、ステップS25で生成された複数の小集団同士のデータを組み合わせて一つのサンプル集団とする。ここで、ユーザは、複数の小集団から最終サンプル集団を作成するための手続きを以下の選択枝から選択する。
・各小集団から取り出すサンプル数を決定し、そのサンプル数だけ個々の小集団からサンプルを取り出して、一つのサンプル手段とする。
・各小集団から同じ数だけのサンプルを取り出して、一つのサンプル集団とする。
・各小集団から取り出すのに乱数を用いて選択する。
【0066】なお、ユーザは、これらの選択にあたり、ケース及びコントロール集団の数を予め決定するか、サンプル集団作成時に指定する。図5は、多次元グラフによるサンプリングバイアスの評価及び削減を行う処理のフローチャートである。
【0067】なお、同図の処理は、データの表示処理は自動的に行うが、実際にサンプリングバイアスを評価するのは、ユーザである。まず、ステップS30において、実験データあるいは、人工的に作成されたデータを入力する。ステップS31において、既存のグラフィックソフトによって、入力データの多次元グラフを表示する。このとき、ユーザはどのようなグラフを表示させるかの指示を行う。多次元グラフの例としては以下のようなものがあるが、その他にも有効なグラフがある場合には、そのようなグラフを描画するソフトウェアを実装するようにする。
・3次元ピンプロット図・三角多項式グラフ・レーダーチャート・顔グラフそして、ステップS32において、ユーザによって指定された多次元グラフをディスプレイなどに作成/出力し、ステップS33において、ユーザが望みの多次元グラフが出力されたか否かを判断し、望みの多次元グラフでない場合には、ステップS31に戻って、グラフを選択し直し、望みの多次元グラフが表示された場合には、処理を終了する。
【0068】図6は、クラスタリングの結果によるサンプリングバイアスの評価と削減処理を示すフローチャートである。まず、ステップS35において、実験データあるいは人工的に作成されたデータを入力する。ステップS36において、ユーザは、クラスタリング実行のための種々のオプションの選択を行う。ここでは、メトリックオプションと融合/分割法それぞれについて選択を行う形式となっている。メトリックオプションとしては、前述したユークリッド距離やマンハッタン距離、類似比などがある。また、融合/分割法としては、WARD法、最近隣法、最遠隣法、重心法などがある。
【0069】そして、ステップS37において、クラスタリングの結果を出力し、ステップS38において、デンドログラムなど結果の表示方式をユーザが選択する。ユーザの選択により、ステップS39のテーブル形式の出力あるいはステップS40のデンドログラムの表示が行われる。
【0070】図7及び図8は、サンプリングバイアスの評価・検定処理を示すフローチャートである。まず、ステップS45において、BD検定を行うのに必要な予備計算を実行する。この予備計算は、一般的な統計計算の手続きに従って行う。そして、BD検定を実施する。ここでは、5%及び1%の危険率で、小集団のオッズ比が等しいという帰無仮説の検定を行う。そして、ステップS46において、帰無仮説が棄却されたか否かを反転し、棄却された場合には、検定を中止する。棄却されなかった場合には、図8のステップS47に進む。
【0071】図8のステップS47においては、一般的な統計計算の手続きに従って、CMH検定を行うのに必要な予備計算を実行する。そして、CMH検定を実施する。この検定では、複数小集団を解析対象として、5%及び1%の危険率で“マーカ遺伝子座位と疾患との相関有り”という帰無仮説の検定を行う。
【0072】そして、ステップS48においては、帰無仮説が棄却されたか否かを判定し、棄却された場合には、検定を中止し、マーカ遺伝子座位と疾患との相関は無いと判断する。ステップS48において、帰無仮説が棄却されなかったと判断された場合には、マーカ遺伝子座位と疾患との相関有りとして処理を終了する。
【0073】図9は、クラスタリング処理を示すフローチャートである。まず、ステップS50において、クラスタリングに使うメトリックの選択を行う。すなわち、個人データ間の距離をユークリッド距離、ハミング距離など、どの距離を使って算出するかを決定する。ステップS51では、距離メトリックを選択済みか否かを判断する。選択していない場合には、ステップS50に進んで、距離メトリックを選択し直す。ステップS51で、距離メトリックを選択済みであると判断された場合には、ステップS52において、距離マトリックスを作成する。そして、ステップS53において、融合/分割法の選択を行う。融合/分割法としては、前述したWARD法、最近隣法、重心法などがある。ステップS54において、融合/分割法が選択済みであるか否かを判断する。選択していない場合には、ステップS53に進んで、選択をし直す。ステップS54において、選択済みであると判断された場合には、ステップS55に進んで、クラスタリングを実行する。距離マトリクスを用いてクラスタリングを行うのは公知技術であるので、ここでは説明を省略する。
【0074】そして、ステップS56において、計算結果の出力手法の選択を行い、ステップS57のように、表形式での出力を選択した場合には、ステップS58で、出力するクラスタ数を入力し、ステップS59に示されているような表示がなされる。一方、ステップS60のようにデンドログラムの表示を指定した場合には、デンドログラムが表示される。
【0075】図10、及び、図11は、シミュレーション用サンプルデータの作成の流れを示すフローチャートである。まず、シミュレーションデータの作成に必要な情報の収集を行う。まず、ステップS65においては、geno type parameterとして、集団の全サンプル数(2集団分)と、マーカ遺伝子座位数を設定する。また、ステップS66においては、pheno type parameterとして、疾患遺伝子座位ID、アレル2の遺伝子頻度、疾患遺伝子座位のアレル2の頻度、疾患遺伝子座位での遺伝子型1/1の個体での発症率などをsっていする。ステップS67において、初期パラメータの入力が完了したか否かを判断し、入力が完了していない場合には、ステップS65に戻り、入力が完了した場合には、ステップS68に進む。ステップS68においては、サンプル発生パターンの選択を行う。前述したように、サンプル発生パターンは、ステップS69のランダム型、ステップS70のフリップフロップ型、ステップS71のアレル頻度固定型の三種類が考えられる。サンプル発生パターンの選択が終わると、ステップS72において、入力が完了したか否かを判断する。入力が完了した場合には、図11のステップに進み、入力が完了していない場合には、ステップS68に進む。
【0076】ステップS73においては、入力初期パラメータの拘束条件の下、サンプルデータの発生を行う。そして、ステップS74において、2個のサンプル集団の作成が完了したか否かを判断する。作成できていない場合には、ステップS65に戻って、作成し直す。ステップS74において、2個のサンプル集団の作成が完了した場合には、ステップS75に進んで、2個のサンプル集団をまとめて、一つの大きなサンプル集団を形成し、作業を完了する。
【0077】図12は、統計解析(χ二乗検定)実行の流れを示すフローチャートである。まず、ステップS80において、データの入力を行う。入力データは、実験データあるいは、シミュレーションデータである。次に、ステップS81において、入力データから種々の情報を取り出す。情報としては、全マーカ座位におけるアレル1、及びアレル2の出現回数、マーカ座位単位でのアレル1、及びアレル2の出現回数、及び全マーカ座位におけるアレル2の陽性/陰性者数がある。
【0078】ステップS82においては、マーカ座位単位でのχ二乗統計量の算出を行い、ステップS83において、全マーカ座位の計算が終了したか否かを判断し、終了していない場合には、ステップS84で次のマーカを設定してステップS82の処理を繰り返す。ステップS83において、全マーカ座位の計算が完了した場合には、ステップS85において、0.05/0.01の危険率でχ二乗分布の閾値を超える座位の割合、疾患遺伝子座位のχ二乗統計量、マーカ座位のχ二乗時計量最大値、総和χ二乗統計量など、統計解析の一般的な手順に従った統計解析結果の計算を行い、ステップS86において、解析結果を出力する。
【0079】図13は、BD検定、及びCMH検定の実行の流れを示すフローチャートである。まず、ステップS90において、シミュレーションにより発生されたデータあるいは、実験データをクラスタリングにより小さな集団に分割したデータを入力し、複数の小集団を用いて、BD検定に必要となる検定量の計算を行う。ここでは、統計解析における検定の一般的な様式に従う。そして、ステップS91において、小集団間のオッズ比が一定という帰無仮説が1%、5%で棄却されたか否かを判定する。棄却された場合には、ステップS92に示すように、以降に行うCMH検定は無効とし、計算の実行を停止する。
【0080】ステップS91において、帰無仮説が棄却されなかった場合には、ステップS93において、複数の小集団を用いて、CMH検定に必要となる検定量の計算を行う。ここでも、統計解析における検定の一般様式に従う。そして、ステップS94において、ケースとコントロールで有意差が無いという帰無仮説が、危険率1%、5%で棄却されたか否かを判断する。棄却されなかった場合には、ステップS95に示すように、ケースとコントロール間で有意差が無い、すなわち、疾患との相関が無いと判断する。ステップS94において、帰無仮説が棄却されない場合には、ステップS96において、ケースとコントロール間で有意差がある、すなわち、疾患との相関がある(解析成功)と判断する。
【0081】図14は、入力データの例を示す図である。図14のデータは、図1の遺伝情報入力書式に従っている。すなわち、各個人のデータは、先頭に付けられた個人IDや疾患情報の後に、座位・遺伝子多型情報がマーカ100まで登録されている。座位・遺伝子多型情報は、2つの数字で1つのマーカのデータを表しており、図14の個人1の場合、マーカ1の情報は、(1,1)である。マーカ部分の「1」及び「2」の数字は、DNAを構成する4つの塩基のATGCのいずれかを示すコードである。この「1」、「2」がこれらの塩基の内のいずれを示すかは実際の実験データに従うが、解析上では、この「1」及び「2」の数字を持って代表する。従って、(1、1)や(2、2)というアレル情報は、そのマーカの塩基が等しいことを示し、(1、2)や(2、1)は互いに異なっている状態を示す。これは遺伝学的には最初の状態が“ホモ接合体”を、また、2番目の状態が“ヘテロ接合体”を意味している。
【0082】また、前述した距離マトリクスを作成する場合には、例えば、個人1と個人2の対応するマーカのアレル1及びアレル2とは関係なしに、単に、入力データの座位・遺伝子多型情報を「1」と「2」の配列であるとして距離を算出する。そして、全てのマーカについて計算して個人1と個人2の距離を算出する。
【0083】例えば、前述のユークリッド距離の場合xajのaは、個人を識別する添え字であり、jは、座位・遺伝子多型情報に含まれる「1」または、「2」の数字が示すデータが情報中に含まれる位置を示している。例えば、個人1と個人2のj=1の距離は、x11=1、x21=1であるから、x11−x21=0となる。このようにして、得た数値を前述のユークリッド距離の公式に代入して個人1と個人2の距離を算出する。同様にして、個人の各組み合わせについて全て距離を算出し、距離マトリクスを作成する。また、類似比、一致係数を算出する場合には、図14の座位・遺伝子多型情報の「1」を「0」に、「2」を「1」に読み替えて、公式を適用する。
【0084】図15は、出力データの例を示す図である。図15においては、200人の人(indiv)に対して100個の座位(locus)について処理した結果を表している。ここで、健常者は100人、疾患者も100人で、解析する個人の数は200人となっている。図15の左コラムの0〜21は、個人の番号であり、同図では、22個の座位についてのみ示しているが、実際には100座位分が表示される。n1は健常者集団の内、座位0のアレル番号1(入力データで「1」で示されている)のアレルの数、n2は健常者集団の内、座位0のアレル番号2(入力データで「2」で示されている)のアレルの数を示しており、a1は患者集団の内、座位0のアレル番号1のアレル数、a2は患者集団の内、座位0のアレル番号1のアレル数を示している。n2は健常者集団の内、座位0のアレル番号2のアレルの数を示しており、a1は患者集団の内、座位0のアレル番号1のアレル数、a2は患者集団の内、座位0のアレル番号1のアレル数を示している。
【0085】n+は対応する座位において健常者の内、アレル番号2のアレルを持っている(入力データでは「12」または「22」という遺伝子型に対応する)個体の数、n-は、アレル番号2のアレルを持っていない個体の数を示す。a+は、疾患者(罹患者)の内、アレル番号2のアレルを持っている個体の数、a-は疾患者の内、アレル番号2のアレルを持っていない個体の数を示す。また、Chiは、χ二乗統計量のχであり、同じく、Pchiyは、χ二乗統計解析における統計量である。また、Poddsは、オッズ比であり、この値が高いほど、疾患との関連性が高いと言うことになる。
【0086】例えば、危険率0.05の場合のχの値は、3.84であり、座位10のみが帰無仮説を棄却する、すなわち、疾患と関連性があると言うことになる。また、より、条件を厳しくし、危険率0.01の場合のχの値は、6.63であり、やはり、座位10のみが帰無仮説を棄却する。従って、座位10は、疾患との関連が非常に高いと考えられるという結果が得られている。
【0087】図16は、クラスタリング結果のデンドログラムの表示例を示す図である。同図においては、23個のサンプルを3つの小集団にグループ分けした結果を表しており、前述のクラスタリング手法によって個々のサンプルをグループ分けした結果の表示例を示している。この場合、ユーザが3つのクラスタ(小集団)を形成するべきことを指定しているとする。
【0088】図17は、クラスタリング結果の表形式の表示例を示す図である。同図では、小集団であるクラスタが3つ示されている。このクラスタ数は、ユーザが指定する。各クラスタのグループには、それぞれのクラスタに属する個々のサンプルのIDが列挙される。
【0089】図18は、三角多項式グラフの表示例である。同図では、各小集団の各サンプルについて、三角多項式グラフを描き、各グループのグラフが似通った形をしているか否かを判断することによって、各グループないでの相関が大きいか否か、グループ間では相関が低いか否かを視覚的に判断できるようになっている。
【0090】図19は、レーダチャートの表示例である。同図では、各サンプル毎に、レーダチャートを描画し、各グループに属する各サンプルのレーダチャートが似通った形になっているか否かを判断することにより、各グループ内での相関が大きく、他のグループとの相関が低いか否かを視覚によって判断することが出来る。
【0091】図20は、本実施形態の解析モジュール、シミュレーションモジュール、及び作成モジュールをプログラムとして実現する場合に必要とされる情報装置のハードウェア環境例を示す図である。
【0092】情報装置21は、バス10によって、CPU11、ROM12、RAM13、通信インターフェース14、記憶装置17、記録媒体読み取り装置18、及び入出力装置20が接続された構成となっている。
【0093】記憶装置17は、ハードディスクなどであり、種々のデータや上記モジュールのプログラムを格納する。記録媒体読み取り装置18は、CD−ROM、MO、DVD、フロッピー(登録商標)ディスクなどの可搬記録媒体19から、各種データや上記モジュールのプログラムを読みとるものであり、これらを読み込んで、記憶装置17に格納したり、RAM13に展開するものである。CPU11は、記憶装置17に格納されたプログラムやデータをRAM13に読み込んで実行したり、記録媒体読み取り装置18を介して、可搬記録媒体19から読みとられるプログラムやデータをRAM13に読み込んで処理などを実行する。
【0094】入出力装置20は、情報装置21のユーザがプログラムの実行を指示したり、データの入出力を行うためのものであり、ディスプレイ、マウス、キーボードなどからなる。
【0095】通信インターフェース14は、ネットワーク15を介して情報提供者16のデータベース等にアクセスし、上記プログラムや各種データをダウンロードして、情報装置21で使用可能とするものである。また、プログラムの実行は、ネットワーク15を介してダウンロードするのではなく、ネットワーク環境の下で実行することも可能である。
【0096】異常説明したように、本発明の実施形態では、遺伝子多型解析の相関法による解析の信頼性を落とし、間違った結論に導く可能性の高いサンプリングバイアスを評価し、減少することが出来る。特に、(1)シミュレーションによるサンプリングバイアスの評価を可能とした、(2)クラスタリング手法としてBD検定及びCMH検定を用いることにより、サンプリングバイアスの存在を確認しながら目的疾患要因の搾り出しを行うことを可能とした、(3)クラスタリングの解析特性を利用して、サンプリングバイアスの原因となるサンプル群の取り出しを可能とした、(4)種々の作表機能により、サンプル間及びマーカ座位単位での相互関係を視覚的に評価可能とし、サンプリングバイアスの存在や、他と特性の異なるサンプルの取り出しなどを可能とした、という特徴を有する。
【0097】従来、特に医療統計学分野では、ケースコントロールスタディを行う場合に問題となるサンプリングバイアスに関しては、データサンプリングの段階でサンプリングバイアスがデータに取り込まれないようにする、予防的措置が取られてきた。従って、一旦データ中に潜り込んだサンプリングバイアスを認識することは困難であり、このような既にデータ中に潜り込んだサンプリングバイアスの除去は事実上回避できなかった。
【0098】しかし、本発明の実施形態に従えば、既に潜り込んでしまったサンプリングバイアスを陽な形として取り除くこと、その存在をチェックしながら、正当な解析を実施できる。この結果として以下のような効果が期待される。
1.間違った解析結果による情報混乱の回避が可能となる。
【0099】本発明の実施形態により、従来は極めて困難であったデータ内に潜むサンプリングバイアスの存在を認識することが容易となり、誤った解析結果に振り回されることは少なくなる。
2.サンプリングが容易となった。
【0100】データ収集後のサンプルデータから直接サンプリングバイアスの評価と、減少、及びサンプリングバイアスの無い解析が可能となった。この結果、従来はデータ収集前に行っていたサンプリングバイアス回避のための様々な手続きや留意事項を気にすることなくデータ収集を行えるようになった。この種の解析ではデータ収集が最も時間のかかる作業なので、データ収集の簡便化が出来ることは相関法の実施という観点で極めて効果が大きい。
【0101】また、基本的には、ケースコントロールスタディにおけるサンプリングが容易になったことと同じであり、遺伝統計分野のみならず、医療統計学分野でのケースコントロールスタディの本格的な利用が進むものと期待される。
3.内在するサンプリングバイアスの顕在化と、サンプリングバイアスの除去サンプリング集団からクラスタリング手法を用いて他の集団と特性の異なった集団(距離的に他の集団と離れている)を区別することが可能となる。
【0102】これにより、内在するサンプリングバイアスが何であるか等の要因解析が可能となる。この種の情報は、全体データのより高度な理解に有用な情報を与えることもあるので、解析の観点で極めて重要である。
【0103】また、この他の集団と異なった集団を取り除くことで、サンプリングバイアスの存在しないクリーンなサンプル集団を形成することが可能となる。
4.シミュレーションによるサンプリングバイアスの再現サンプリングバイアスはデータ中に潜むもので、実感することは極めて困難である。この実感することが困難なサンプリングバイアスをシミュレーションにより、実際に創出することを可能とした。
【0104】これにより、どのような場合や、どのようなデータがサンプリングバイアスの原因となりやすいのか、あるいはサンプリングバイアスの存在しない小集団の混合により、サンプリングバイアスが顕在化する等の事実を実感することが可能となる。これは、小さなサンプル群よりも、大きなサンプル群の方がより平均的な(理想的な)データ分布に近づくという一般的な統計の常識と、サンプリングバイアスの問題は別問題であると言うことを実際に体験可能である。
【0105】本実施形態の説明においては、多くの遺伝学的用語や統計学的用語を使って説明したが、これらの用語などについては、以下の参考文献を参照されたい。
(参考文献)
1.集団遺伝学関連1)藤野 和男著「海洋生物の集団遺伝学研究、国際漁業の新秩序確立に向けて」恒星社厚生閣1999年2)高橋 秀夫著「バイオテクノロジー教科書シリーズ5、分子遺伝学概論」コロナ社、1997年3)山口 彦之著「生命科学シリーズ、DNAの遺伝学[全訂版]」裳華房、1995年2.連鎖解析関連1)松原 謙一編「ポストシークエンスのゲノム科学1、SNP−遺伝子多型の戦略」中山書店、2000年2)鵜飼 保雄著「ゲノムレベルの遺伝解析」東京大学出版会、2000年3.多変量解析関連1)奥野 忠一/芳賀 敏郎/久米 均 他著「多変量解析法」日科技連出版社、1971年2)フラーリー、B/リードウィル、H著/田畑 吉雄訳「多変量解析とその応用」現代数学社、1990年3)浜島 信之著「多変量解析による臨床研究」名古屋大学出版会、2000年4)狩野 裕著「グラフィカル多変量解析」現代数学社、1997年4.統計解析関連1)住友金属システム開発編「Mathcad電子ハンドブックシリーズ、統計解析 I 仮説検定編」オーム社、1998年2)住友金属システム開発編「Mathcad電子ハンドブックシリーズ、統計解析 II データ解析編」オーム社、1998年3)広津 千尋著「臨床試験データの統計解析」廣川書店、1992年4)田中 豊/脇本 和昌著「多変量統計解析法」現代数学社、1983年5)武藤 眞介著「統計解析ハンドブック」朝倉書店、1995年(付記1)情報装置に、統計解析において、収集したサンプルデータの中に含まれるサンプリングバイアスを評価・減少する方法であって、収集したサンプルデータを、該サンプルデータに含まれる特性データに基づいてグループ化するグループ化ステップと、該グループ化されたサンプルデータについて、該グループ毎に統計量を算出し、該グループが同様の特性を有するサンプルデータのみからなるか否かを検定する検定ステップと、を備えることを特徴とするサンプリングバイアス評価・減少方法を実現させるプログラムを格納した、情報装置読み取り可能な記録媒体。
【0106】(付記2)前記統計解析は、遺伝子多型解析における相関法を使った解析であることを特徴とする付記1に記載の記録媒体。
(付記3)前記収集されたサンプルデータは、健常者集団の遺伝子多型情報サンプルデータと、疾患者集団の遺伝子多型情報サンプルデータとからなることを特徴とする付記2に記載の記録媒体。
【0107】(付記4)前記収集されたサンプルデータは、所定のパラメータに従って、人工的に生成されたデータであることを特徴とする付記1に記載の記録媒体。
(付記5)前記人工的に生成されたデータを、様々な基準によりグループ化し、各グループを検定することによって、サンプルデータ内におけるサンプリングバイアスの影響を評価することを特徴とする付記4に記載の記録媒体。
【0108】(付記6)前記グループ化は、各サンプルデータ間に距離を定義し、該距離を基準として行われることを特徴とする付記1に記載の記録媒体。
(付記7)前記距離は、ユークリッド距離、重み付きユークリッド距離、マンハッタン距離、類似比、一致係数、あるいは谷本の距離のいずれかを使用することを特徴とする付記6に記載の記録媒体。
【0109】(付記8)前記グループ化は、WARD法、最近隣法、最遠隣法、重心法のいずれかを使用することを特徴とする付記7に記載の記録媒体。
(付記9)前記検定ステップでは、ブレスロー−デイ検定を行うことを特徴とする付記1に記載の記録媒体。
【0110】(付記10)前記検定ステップでは、コクラン−マンテル−ヘンツェル検定を行うことを特徴とする付記1に記載の記録媒体。
(付記11)統計解析において、収集したサンプルデータの中に含まれるサンプリングバイアスを評価・減少する装置であって、収集したサンプルデータを、該サンプルデータに含まれる特性データに基づいてグループ化するグループ化手段と、該グループ化されたサンプルデータについて、該グループ毎に統計量を算出し、該グループが同様の特性を有するサンプルデータのみからなるか否かを検定する検定手段と、を備えることを特徴とするサンプリングバイアス評価・減少装置。
【0111】(付記12)統計解析において、収集したサンプルデータの中に含まれるサンプリングバイアスを評価・減少する方法であって、収集したサンプルデータを、該サンプルデータに含まれる特性データに基づいてグループ化するグループ化ステップと、該グループ化されたサンプルデータについて、該グループ毎に統計量を算出し、該グループが同様の特性を有するサンプルデータのみからなるか否かを検定する検定ステップと、を備えることを特徴とするサンプリングバイアス評価・減少方法。
【0112】
【発明の効果】本発明によれば、統計解析を行う上で、サンプルデータに含まれるサンプリングバイアスを評価、減少することが出来るので、より正しいデータ解析を行うことが出来る。
【出願人】 【識別番号】500427903
【氏名又は名称】鎌谷 直之
【識別番号】000005223
【氏名又は名称】富士通株式会社
【出願日】 平成12年10月24日(2000.10.24)
【代理人】 【識別番号】100074099
【弁理士】
【氏名又は名称】大菅 義之 (外1名)
【公開番号】 特開2002−132749(P2002−132749A)
【公開日】 平成14年5月10日(2002.5.10)
【出願番号】 特願2000−323588(P2000−323588)