トップ :: G 物理学 :: G06 計算;計数




【発明の名称】 リソース回復により最適なシステム可用性を保つ方法
【発明者】 【氏名】ジョン・クワンジル・チャン

【氏名】アロンコーン・キタモーン

【要約】 【課題】データ処理システムで最小システム構成を提供するようにシステム・リソースを回復する方法、システム及び装置を提供すること。

【解決手段】実施例では、初期プログラム・ロード時、データ処理システム内のファームウェア・コンポーネントにより、第1リソースに障害の発生したことが確認される。第1リソースはそこで割当て解除される。リソースの割当て解除により、データ処理システムが動作する最小システム構成に足りなくなったことの確認に応答して、ファームウェア・コンポーネントにより、割当て解除された複数のリソースのうち重大度が最も低い障害を被った1つが確認される。割当て解除された複数のリソースのうち重大度が最も低い障害を被った1つは次にデータ処理システムに使用するため再び割当てられる。
【特許請求の範囲】
【請求項1】システム・リソースを回復して最小システム構成を提供する方法であって、第1リソースに障害が発生したことを確認するステップと、前記第1リソースを割当て解除するステップと、前記リソースの割当て解除によりデータ処理システムが動作する最小システム構成に足りない結果となったことの確認に応答して、割当て解除された複数のリソースのうち重大度の最も低い障害を被ったリソースを確認するステップと、前記割当て解除された複数のリソースのうち重大度の最も低い障害を被った1つを再び割当てるステップと、を含む、方法。
【請求項2】前記割当て解除された複数のリソースのうち重大度の最も低い障害を被った1つは前記第1リソースである、請求項1記載の方法。
【請求項3】割当て解除された複数のリソースのうち重大度の最も低い障害を被ったリソースを確認する前記ステップは、前記割当て解除されたリソースの障害のIDと種類を示すアイテムを格納したリソース・レコードに問い合わせをするステップを含む、請求項1記載の方法。
【請求項4】前記リソースはシステム・メモリを含む、請求項1記載の方法。
【請求項5】前記リソースは処理装置を含む、請求項1記載の方法。
【請求項6】前記方法を実装する命令がファームウェアに格納された、請求項1記載の方法。
【請求項7】システム・リソースを回復して最小システム構成を提供するため、データ処理システムに使用されるコンピュータ可読媒体のコンピュータ・プログラム製品であって、第1リソースに障害が発生したことを確認する第1命令と、前記第1リソースを割当て解除する第2命令と、前記リソースの割当て解除によりデータ処理システムが動作する最小システム構成に足りない結果となったことの確認に応答して、割当て解除された複数のリソースのうち重大度の最も低い障害を被ったリソースを確認する第3命令と、前記割当て解除された複数のリソースのうち重大度の最も低い障害を被った1つを再び割当てる第4命令と、を含む、コンピュータ・プログラム製品。
【請求項8】前記割当て解除された複数のリソースのうち重大度の最も低い障害を被った1つは第1リソースである、請求項7記載のコンピュータ・プログラム製品。
【請求項9】割当て解除された複数のリソースのうち重大度の最も低い障害を被ったリソースの確認は、前記割当て解除されたリソースの障害のIDと種類を示すアイテムを格納したリソース・レコードへの問い合わせを含む、請求項7記載のコンピュータ・プログラム製品。
【請求項10】前記リソースはシステム・メモリを含む、請求項7記載のコンピュータ・プログラム製品。
【請求項11】前記リソースは処理装置を含む、請求項7記載のコンピュータ・プログラム製品。
【請求項12】前記コンピュータ・プログラム製品を実装する命令がファームウェアに格納された、請求項7記載のコンピュータ・プログラム製品。
【請求項13】システム・リソースを回復し、最小システム構成を提供するため、データ処理システムに使用するコンピュータ可読媒体のシステムであって、第1リソースに障害が発生したことを確認する第1手段と、前記第1リソースを割当て解除する第2手段と、前記リソースの割当て解除によりデータ処理システムが動作する最小システム構成に足りない結果となったことの確認に応答して、割当て解除された複数のリソースのうち重大度の最も低い障害を被ったリソースを確認する第3手段と、前記割当て解除された複数のリソースのうち重大度の最も低い障害を被った1つを再び割当てる第4手段と、を含む、システム。
【請求項14】前記割当て解除された複数のリソースのうち重大度の最も低い障害を被った1つは第1リソースである、請求項13記載のシステム。
【請求項15】割当て解除された複数のリソースのうち重大度の最も低い障害を被ったリソースの確認は、前記割当て解除されたリソースの障害のIDと種類を示すアイテムを格納したリソース・レコードへの問い合わせを含む、請求項13記載のシステム。
【請求項16】前記リソースはシステム・メモリを含む、請求項13記載のシステム。
【請求項17】前記リソースは処理装置を含む、請求項13記載のシステム。
【請求項18】前記システムを実装する手段がファームウェアに格納された、請求項13記載のシステム。
【発明の詳細な説明】【0001】
【発明の属する技術分野】本発明は、一般にはデータ処理システムに関し、特にブート時にデータ処理システムに最適且つ最小システム構成を与える方法に関する。
【0002】
【従来の技術】データ処理システムのハードウェア障害は珍しいことではない。IBM RS/6000等のデータ処理システムでは、特定のハードウェアの前の障害の履歴をもとにハードウェア障害を予測し、プロセッサであれメモリ・デバイスであれ、そのようなリソースの構成や割当てを解除する機能がある。RS/6000の場合、こうした機能は、メモリ・リピート・ガード(Memory Repeat Gard)やCPUリピート・ガード(CPU Repeat Gard)機能により提供される。特定のリソースの障害が避けられないことがわかっている場合、そのリソースを最初から使用しないことができる。データ処理システム内でそれら不良なハードウェア・リソースを構成せず使用しないようにすることによって、システムの高い可用性が得られる。
【0003】しかしシステムには、致命的にしろ一定時間後にしろ、システムをブートするのに必要な最小ハードウェア構成に満たせないほど大きなハードウェア障害が起こり得る。こうした事態を避けるため、一部のプラットフォームでは、最後に障害を起こすハードウェア・リソースの構成は解除できない。この最後のリソースの割当てを解除できないと、システムの最適な可用性は得られない可能性がある。この最後のリソースが実際に障害を起こしたときは構成を解除できない。よって、システムはそのリソースのみでの動作を、それが可能だとすれば、試行しなければならない。しかし、先に重大度の低いエラーが生じて構成が解除され、よってシステムを稼動させるには、比較的都合のよい他のリソースがあり得る。従って、システムをブートする最小構成に必要なシステム・リソースに障害が発生したとき、システム・リソースのより最適な可用性を実現する方法及びシステムが求められる。
【0004】
【課題を解決するための手段】本発明は、データ処理システムに最小システム構成を与えるシステム・リソースを回復する方法、システム及び装置を提供する。実施例では、データ処理システム内のファームウェア・コンポーネントは、初期プログラム・ロード時、第1リソースに障害が起きたことを確認する。第1リソースは次に割当て解除される。ファームウェア・コンポーネントは、リソースの割当て解除により、データ処理システムが動作する最小システム構成に達しなくなったことに応答して、割当て解除された複数のリソースのうち障害の重大度の最も低いリソースを確認する。障害の重大度の最も低い、割当て解除された複数のリソースの1つは、次にデータ処理システムに使用するため再び割当てられる。
【0005】
【発明の実施の形態】各図、特に図1を参照する。本発明を実装することのできるデータ処理システムが示してある。データ処理システム100は、複数のプロセッサ101、102、103及び104がシステム・バス106に接続された対称型マルチプロセッサ(SMP)システム等である。例えばデータ処理システム100はIBM RS/6000をネットワーク内のサーバとして実装したものである。また、単一プロセッサ・システムも採用できる。システム・バス106には、複数のローカル・メモリ160乃至163にインタフェースを与えるメモリ・コントローラ/キャッシュ108も接続される。I/Oバス・ブリッジ110は、システム・バス106に接続され、I/Oバス112にインタフェースを与える。メモリ・コントローラ/キャッシュ108とI/Oバス・ブリッジ110は、図のように統合することもできる。
【0006】I/Oバス112に接続されたPCI(Peripheral Component Interconnect)ホスト・ブリッジ114は、PCIローカル・バス115にインタフェースを与える。PCIバス115には入出力アダプタ120−121を接続できる。通常のPCIバスは、4乃至8のI/Oアダプタ(つまりアドイン・コネクタの拡張スロット)をサポートする。I/Oアダプタ120−121はそれぞれ、データ処理システム100と、例えばデータ処理システム100のクライアントである他のネットワーク・コンピュータ等の入出力デバイスとの間にインタフェースを与える。
【0007】他のPCIホスト・ブリッジ122、130及び140は、また別のPCIバス123、131及び141にインタフェースを与える。追加されPCIバス123、131及び141は複数のPCI I/Oアダプタ128−129、136−137、及び146−147に接続される。従って、例えばモデム、ネットワーク・アダプタ等の他のI/Oデバイスは、PCI I/Oアダプタ128−129、136−137、及び146−147のそれぞれを通してサポートすることができる。このように、データ処理システム100によって複数のネットワーク・コンピュータとの接続が得られる。
【0008】メモリ・マップ・グラフィックス・アダプタ148とハード・ディスク150も、図のように直接または間接にI/Oバス112に接続することができる。ハード・ディスク150は、ハード・ディスクを別に追加する必要なしに、様々なパーティション間で論理的にパーティションをきることもできる。ただし、必要に応じてハード・ディスクを追加して利用することもできる。
【0009】当業者には明らかなように、図1に示すハードウェアは変わり得る。例えば、光ディスク・ドライブ等、他の周辺装置も、図のハードウェアに加えて或いはその代わりに使用できる。更に本発明は、マルチプロセッサ・システムでの実装に制限されず、他の型のデータ処理システムにも実装することができる。図の例は、本発明に関してアーキテクチャ上の制限を意味するものではない。
【0010】図2は、本発明に従ってCPUの割当てを解除できる対称型マルチプロセッサ(SMP)データ処理システム200を示す。データ処理システム200は、例えば図1のデータ処理システム100として実装することもできる。図の通り、データ処理システム200は複数のCPU212とメモリ238を含む。CPU212は、永続的なシステム情報を含む不揮発性ランダム・アクセス・メモリ(NVRAM)214等の不揮発性デバイスと通信する。サービス・プロセッサ216は、サービス・プロセッサ・ファームウェア217を含み、NVRAM214と通信してこれに情報を提供する。システム200のCPU212のいずれか1つにソフト・エラーがあり、処理システム200の動作がその影響を受けた場合、処理システム200は、CPU212の1つがシャット・ダウンした場合でも効果的に動作し得る。よって、本発明では、繰り返されるソフト・エラーの原因であるCPUを構成解除する間に処理システム200のレジュームが可能になる。
【0011】本発明により、正常なコンピュータ動作時に、エラー検出ロジックによりCPUエラーが検出される。この検出は、後のブート・プロセス時にサービス・プロセッサ・ファームウェア217により、欠陥CPUの割当て解除に用いられる。これは各CPU及びシステム・ロジック内でエラー・ステータスを使用することと、サービス・プロセッサに情報を直接提供する不揮発性デバイスのリソース・レコード領域を使用することにより実現される。
【0012】NVRAM214は、サービス・プロセッサ・ファームウェア217から受信された永続的ステータス情報を格納するリソース・レコード領域215を含む。サービス・プロセッサ217は、リソース・レコード領域215内の情報をもとに特定のリソースを構成解除する。これらエラー・ステータスや構成のレジスタ226は、他の機能に加えてNVRAM214のリソース・レコード領域215に情報を提供する。サービス・プロセッサ・ファームウェア217に回復可能なエラーの指標を与えるメモリ・ステータス・レジスタ226の内容は、好適な実施例では、回復不能エラーの存在と回復不能エラーのアドレスを示すビットであり、これはメモリ構成制御ロジックにより与えられる。
【0013】本発明の重要な部分は、NVRAM214の構成解除領域215である。リソース・レコード領域215の目的は、メモリ・アレイ219のエラー・ステータスと構成状態に関する情報を格納することである。構成解除領域215は、既存の状態を変更でき、新しいレコードの追加を処理できるように十分柔軟にする必要がある。以下、構成解除領域215とその初期化について詳しく説明する。
【0014】リソース・レコード領域215は、CPU汎用レコード・フォーマット(General Record Format)とCPU特定レコード・フォーマット(Specific Record Format)を含む。
【0015】図3、図4を参照する。本発明に従い、図3はCPU汎用レコード・フォーマットの例を、図4はCPU特定レコード・フォーマットの例を示す。
【0016】リソース・レコード領域215は、NVRAM214初期化プロセスの一環として、サービス・プロセッサ・ファームウェア217により初期化される。サービス・プロセッサ・ファームウェア217は構成解除領域215を次のように初期化する。
1.1つのCPU汎用レコード・フォーマット。
2.n個のCPU特定レコード・フォーマット。nは完全構成時のシステムのCPUの最大数。
【0017】以下、初期化値それぞれについて説明する。
【0018】初期化値:A.CPU汎用レコード・フォーマット(図3)
1.バイト0−1、RL=14+y、ここで、y=CPU FRUロケーション・コードを入れる最大バイト数2.バイト2、N=完全構成時のシステムCPU最大数3.バイト3乃至30、ASCII値をCPU VPD XC−L2、ZC−PF、ZC−PS、及びSC−SBフィールドからコピー【0019】B.CPU特定レコード・フォーマット(図4)
1.バイト0、製品機能仕様に定義されているこのCPUの物理CPU番号(OpenPic割込み)
2.バイト1、PIRまたはEARレジスタに定義されているCPU ID3.バイト2−ビット0=04.バイト2−ビット1−3=05.バイト2−ビット4−7=0(CPUがない場合)、=1(CPUがある場合)
6.バイト3、CPU VPD ZC−ERフィールドからの16進形式に変換したASCII値7.バイト4乃至13、ASCII値をCPU VPD SNフィールドからコピー8.バイト14−(14+y)、製品機能仕様に定義されているこのCPUの物理/ハードウェア・ロケーション・コード【0020】図5を参照する。本発明に従い、メモリ・コンポーネントを割当て解除できるデータ処理システム400が示してある。データ処理システム400は、例えば図1のデータ処理システム100として実装することもできる。データ処理システム400は、ブート・ファームウェア413を持つCPU412を含む。CPU412は、シリアル番号、その他の識別情報等の情報を格納する不揮発性ランダム・アクセス・メモリ(NVRAM)414等の不揮発性デバイスと通信する。メモリ418は、通常は複数のメモリ・デバイスで構成され、メモリ・コントローラ422を含むメモリ・アレイ419を含む。メモリ・コントローラ422は通常、メモリ構成制御ロジック424とメモリ・ステータス・レジスタ426をそれぞれ含む。コントローラ422はまた、メモリ・アレイ419のステータスに関する情報をサービス・プロセッサ416に提供する。サービス・プロセッサ416は、サービス・プロセッサ・ファームウェア417を含み、NVRAM414と通信してこれに情報を提供する。
【0021】メモリ418の特定の部分がシャット・ダウンされた場合でも、処理システム400は効果的に動作を続けることが可能である。従って、メモリ・アレイ418の一部にソフト・エラーまたは回復可能なエラーがあり、処理システム400のパフォーマンスに影響を与える場合、処理システム400は、繰り返し発生し得るソフト・エラーの原因になっているメモリの部分を構成解除しながら動作を再開する。
【0022】コンピュータの正常動作時にエラー検出ロジックにより欠陥が検出される。この検出は、後のブート・プロセスでサービス・プロセッサ416とCPUブート・ファームウェア413により欠陥のあるメモリ・モジュールを割当て解除するために用いられる。これは、メモリ・コントローラ・チップ422内のエラー・ステータスと構成のレジスタ及びCPUブート・ファームウェア413に情報を直接提供する不揮発性デバイス内のリソース・レコード領域415を使用することにより実現される。
【0023】NVRAM414は、サービス・プロセッサ・ファームウェア417から受信された永続的ステータス情報を格納するリソース・レコード領域415を含む。サービス・プロセッサ417は、リソース・レコード領域415の情報をもとにメモリを構成解除する。メモリ・エラー・ステータス・レジスタ426は、サービス・プロセッサ・ファームウェア417に情報を提供し、これによりファームウェア417はエラー・ステータス情報をNVRAM414のリソース・レコード領域415に格納することができる。サービス・プロセッサ・ファームウェア417に回復可能なエラーの指標を与えるエラー・ステータス・レジスタ426の内容は、好適な実施例では、回復不能な内部エラーの存在を示すビットである。
【0024】本発明で重要な点は、NVRAM414のリソース・レコード領域415である。リソース・レコード領域415の目的は、各メモリ・エラー・ステータス及び構成状態に関する情報を格納することである。リソース・レコード領域415は、既存の状態を変更でき、新しいレコードの追加を処理できるように十分柔軟にする必要がある。以下、リソース・レコード領域415とその初期化について詳しく説明する。
【0025】リソース・レコード領域415は、メモリ汎用レコード・フォーマットとメモリ特定レコード・フォーマットを含む。
【0026】図6、図7を参照する。図6はメモリ汎用レコード・フォーマットの例を、図7はメモリ特定レコード・フォーマットの例を示す。
【0027】リソース・レコード領域415は、NVRAM414初期化プロセスの一環としてサービス・プロセッサ417により初期化される。サービス・プロセッサ・ファームウェア417はリソース・レコード領域415を次のように初期化する。
1.1つのメモリ汎用レコード・フォーマット。
2.n個のメモリ特定レコード・フォーマット。nはシステムによりサポートされる最大メモリ。
【0028】以下、初期化値それぞれについて説明する。
【0029】初期化値:A.メモリ汎用レコード・フォーマット(図6)
1.バイト0−1、RL=8+y。ここで、y=メモリFRUロケーション・コードを入れる最大バイト数2.バイト2、N=完全構成時のシステムのメモリFRU(DIMMまたはカード)最大数【0030】
B.メモリ特定レコード・フォーマット(図7)
1.バイト0、メモリ・カード・スロット番号またはID2.バイト1、メモリ・スロット番号またはID3.バイト2−ビット0=04.バイト2−ビット1−3=05.バイト2−ビット4−7=0(FRUがない場合)、=1(FRUがある場合)
6.バイト3、メモリVPDフィールドからの16進形式に変換したASCII値7.バイト4乃至7、値をメモリからコピー8.バイト8−(8+y)、このメモリの物理/ハードウェア・ロケーション・コード【0031】図2乃至図7で説明しているように、使用割当ての解除された各CPU、メモリ・コンポーネントは、以下に述べるように本発明のプロセスにより置換されるか或いは再び割当てられるまで、割当て解除された状態にとどまる。割当て解除されたコンポーネントは、新たに障害の生じたコンポーネントよりも重大度が低いエラーを被った場合は、データ処理システムの稼動を維持する最小システム要件を保つため、再び割当てる必要がある。CPU、またはメモリ・ユニット等、割当て解除されたどのリソースを回復するか決定するプロセスはIPLの間に生じる。IPL時、CPUリピート・ガード機能/プロセスの終わりに、必要に応じてプロセッサのリソース回復が生じる。またIPLの間、メモリ・リピート・ガード機能/プロセスの終わりに、必要に応じてメモリのリソース回復が生じる。以下、これらのプロセスについて詳しく説明する。
【0032】図8を参照する。本発明に従い、初期プログラム・ロード(IPL)時にリソース回復により最適なシステム可用性を維持するシステムが示してある。IPLはまたブート・プロセスとも呼ばれる。リソース回復システム600は、図1のデータ処理システム100等のデータ処理システム上で動作するファームウェアを含む。リソース回復システム600はまたメモリ・リピート・ガード602、CPUリピート・ガード604、及びリソース・レコード606を含む。メモリ・リピート・ガード602とCPUリピート・ガード604はファームウェアに実装することもできる。ファームウェアは、読取り専用メモリ(ROM)、プログラマブルROM(PROM)、消去可能PROM(EPROM)、電気的消去可能PROM(EEPROM)、ランダム・アクセス・メモリ(不揮発性ROM)等、電力がなくても内容を保持するメモリ・チップに格納されたソフトウェアである。ファームウェア608は、システムがブートされて、データ処理システムに属するリソースのどれが割当て解除されており、どれを使用すべきでないか確認されるとき、図2のリソース・レコード領域215と図5のリソース・レコード415の両方を含み得るリソース・レコード606に問い合わせをする。
【0033】IPL時、メモリ・リピート・ガード602はシステム・メモリ・ユニット610乃至612の動作を監視する。またIPL時、CPUリピート・ガード604はCPU614乃至616の動作を監視する。システム・メモリ・ユニット610乃至612は、例えば図1のローカル・メモリ160乃至163の1つに実装することもできる。CPU614乃至616は、例えば図1のプロセッサ101乃至104の1つに実装することもできる。
【0034】システム・メモリ・ユニット610乃至612の1つに障害が発生すると、その障害はメモリ・リピート・ガード602にレポートされる。メモリ・リピート・ガード602はそこで、システム・メモリ・ユニット610乃至612のうち障害のあったユニットが割当て解除された場合に使用できる最小システム・リソースを確認する。メモリ・リピート・ガード602は、最小システム構成を格納した内部保存データ構造を含む。メモリ・リピート・ガード602の構成解除要件を満足するリソースが全て割当て解除された後、メモリ・リピート・ガード602は、現在のシステム構成を保存された最小システム構成と比較する。データ処理システムのブートに必要な最小システム要件を満たすに十分なシステム・メモリ・ユニット610乃至612が使用できる場合、先に割当て解除されたシステム・メモリ・ユニット610乃至612が再び割当てられて再構成されることはない。データ処理システムは正常に動作しないシステム・リソースを使用しようとしないので、システム・メモリ・ユニット610乃至612のうち障害のあった1つを削除することによってデータ処理システムのパフォーマンスが最適化される。メモリ・リピート・ガード602は、リソース・レコード606に、システム・メモリ・ユニット610乃至612のうち障害のあった特定の1つ、障害の性質と種類、及びシステム・メモリ・ユニット610乃至612のうち障害のあった特定の1つがデータ処理システムから割当て解除され構成解除されたことの指標を示すエントリを作成する。
【0035】CPUリピート・ガード604はCPU614乃至616のパフォーマンスを監視する。CPU614乃至616の1つに障害が発生した場合、その障害はCPUリピート・ガード604にレポートされる。CPUリピート・ガード604は次に、CPU614乃至616のうち障害のあった1つが割当て解除された場合に、最小システム・リソースが使用できるか確認する。CPU614乃至616のうち、データ処理システムをブートするのに必要な最小システム要件を満たすに十分な数のCPUが使用できる場合、CPU614乃至616のうち障害のあった1つは、データ処理システムからアクセスできないように、システムから割当て解除され構成解除される。従って、前記のように、データ処理システムは正常に動作しないシステム・リソースを使用しようとしないので、CPU614乃至616のうち障害のあった1つを削除することによってデータ処理システムのパフォーマンスが最適化される。
【0036】メモリ・リピート・ガード602かCPUリピート・ガード604のいずれかにより、障害のあったリソースが割当て解除された後、現在のシステム構成が保存された、データ処理システムのブートに必要な最小システム構成より小さいことが確認された場合、メモリ・リピート・ガード602やCPUリピート・ガード604は、最小システム構成を満足するため、割当て解除するのに最適なリソースを決定する。リソース(プロセッサまたはメモリ)はそれぞれ、例えば構成ステータス、障害ステータス等のデータを格納するリソース・レコード606により表される。障害ステータスは、障害の重大度を示す数値を含む。メモリ・リピート・ガード602やCPUリピート・ガード604は、それら重大度の値を比較することによって、重大度の最も低い障害を被ったリソースを識別する。重大度の最も低い障害を被り、割当て解除されたリソースは、再び割当てられて再構成される。重大度の最も低いエラーが生じたリソースは、最後に割当て解除されるリソースになる可能性があり、その場合、そのリソースが再び割当てられ、データ処理システムは最後に障害のあったそのリソースを使用して動作を行おうとする。
【0037】本発明の理解を深めるため、次の例を考える。データ処理システムの最小システム要件では、1つのシステム・メモリを使用できる必要があるとする。また、システム・メモリ611及び612は前に障害が発生し、割当て解除されているとする。システム・メモリ611−612はそれぞれ、割当て解除されたことと、システム・メモリ611−612それぞれに生じた障害の性質を示すエントリをリソース・レコード606に持つ。
【0038】システム・メモリ610が後で障害を被った場合、システム・メモリ610が割当て解除されていれば、データ処理システムは、ブートするため少なくとも1つのシステム・メモリを必要とするので機能しなくなる。従ってメモリ・リピート・ガード602は、ただシステム・メモリ610を割当て解除してそれ以上何も行わないわけにはいかない。従ってメモリ・リピート・ガード602は、システム・メモリ610を割当て解除し、現在のシステム構成を最小システム構成に照らして確認し、データ処理システムに使用するためシステム・メモリを1つ割当て直す必要があることを確認する。他のシステム・メモリ611−612のうち、前に割当て解除された1つは、システム・メモリ610の障害の原因になっているエラーより重大度の低いエラーを被っている可能性があり、よってそれは、データ処理システムがそれにより動作するにはシステム・メモリ610よりも好ましいシステム・メモリである。従って、メモリ・リピート・ガード602は、リソース・レコード606に問い合わせをして内容を分析し、システム・メモリ610乃至612のうち、データ処理システムがそれによって動作するのに最適なリソースはどれかを確認する。
【0039】システム・メモリ612の障害の原因になっているエラーの重大度が、システム・メモリ610の障害の原因になっているエラーより低い場合、システム・メモリ612は、データ処理システムに使用するため、再び割当てられて再構成され、システム・メモリ610は、データ処理システムに使用されないように割当て解除され構成解除される。ただし、システム・メモリ611−612の障害の原因になっているエラーの重大度がシステム・メモリ610の障害の原因になっているエラーより大きい場合、メモリ・リピート・ガード602はシステム・メモリ610をデータ処理システムに使用するため割当て直して再構成する。
【0040】当業者には明らかなように、図8の構成要素は変わり得る。例えば、入出力アダプタ等、他のシステム・リソースも図の構成要素に加えて使用できる。その場合、最小I/Oリソースを維持し、また環境に最適なI/Oリソースを提供するようにI/Oアダプタのうち割当て解除された1つを再び割当てるため、構成要素を追加することができる。他の実施例では、障害がありデータ処理システムに再び割当てられるリソースは障害のあったリソースのグループのうち、使用できる最適なリソースではなく、単に最後に障害のあったリソースよりも使用しやすいリソース、或いは単に最大の障害を被ったリソースよりも使用しやすいリソースであればよい。図の例は、本発明に関してアーキテクチャ上の制限を意味するものではない。
【0041】図9を参照する。本発明に従い、障害のあったリソースを割当て直すプロセス例のフローチャートが示してある。例えば図8のメモリ・リピート・ガード602、CPUリピート・ガード604等のリソース回復コンポーネントは、データ処理システムを監視し、リソース・レコードを読取ることによってシステム・リソース障害をチェックする(ステップ702)。リソース・レコードの内容が調べられ、リソースを構成解除すべきか確認される(ステップ704)。リソースは、適合する場合は構成解除される(ステップ706)。リソースが適合しない場合、または適合する場合はリソースが構成解除された後、リソース・レコードの全リソースがチェックされているか確認される(ステップ708)。全リソースがチェックされている場合、次のリソース・レコードが読取られる(ステップ702)。
【0042】全リソースがチェックされた場合、最小システム構成を満足するため、構成解除されていて使用可能なリソースが十分あるか確認される(ステップ710)。最小システム構成を満足する、使用可能なリソースが十分ある場合、初期プログラム・ロード(IPL)が続けられる(ステップ714)。最小システム構成を満足する、使用可能なリソースが十分ない場合、最小システム構成要件を満たすため、最適なリソース候補が回復される(ステップ712)。IPLで最小システム構成を満たすため十分なリソースが回復されると、システムはIPLを継続する(ステップ714)。
【0043】当業者には明らかなように、図9に示したプロセスは実装形態に応じて変わり得る。図9に示したステップ数は、本発明の範囲及び主旨から逸脱することなく加減できる。更に、いくつかのステップは図9に示した順序とは異なる順序で実現することもできる。
【0044】本発明は、フル機能のデータ処理システムを想定して説明しているが、当業者には明らかなように、本発明のプロセスは、命令のコンピュータ可読媒体の形をはじめ様々な形式で配布することができ、本発明は、実際に配布を行う信号伝送媒体の種類にかかわらず等しく適用することができる。コンピュータ可読媒体の例として、フロッピー(R)ディスク、ハード・ディスク・ドライブ、RAM、CD−ROM等の記録媒体、デジタル、アナログの通信リンクを含めた転送媒体等がある。
【0045】まとめとして、本発明の構成に関して以下の事項を開示する。
【0046】(1)システム・リソースを回復して最小システム構成を提供する方法であって、第1リソースに障害が発生したことを確認するステップと、前記第1リソースを割当て解除するステップと、前記リソースの割当て解除によりデータ処理システムが動作する最小システム構成に足りない結果となったことの確認に応答して、割当て解除された複数のリソースのうち重大度の最も低い障害を被ったリソースを確認するステップと、前記割当て解除された複数のリソースのうち重大度の最も低い障害を被った1つを再び割当てるステップと、を含む、方法。
(2)前記割当て解除された複数のリソースのうち重大度の最も低い障害を被った1つは前記第1リソースである、前記(1)記載の方法。
(3)割当て解除された複数のリソースのうち重大度の最も低い障害を被ったリソースを確認する前記ステップは、前記割当て解除されたリソースの障害のIDと種類を示すアイテムを格納したリソース・レコードに問い合わせをするステップを含む、前記(1)記載の方法。
(4)前記リソースはシステム・メモリを含む、前記(1)記載の方法。
(5)前記リソースは処理装置を含む、前記(1)記載の方法。
(6)前記方法を実装する命令がファームウェアに格納された、前記(1)記載の方法。
(7)システム・リソースを回復して最小システム構成を提供するため、データ処理システムに使用されるコンピュータ可読媒体のコンピュータ・プログラム製品であって、第1リソースに障害が発生したことを確認する第1命令と、前記第1リソースを割当て解除する第2命令と、前記リソースの割当て解除によりデータ処理システムが動作する最小システム構成に足りない結果となったことの確認に応答して、割当て解除された複数のリソースのうち重大度の最も低い障害を被ったリソースを確認する第3命令と、前記割当て解除された複数のリソースのうち重大度の最も低い障害を被った1つを再び割当てる第4命令と、を含む、コンピュータ・プログラム製品。
(8)前記割当て解除された複数のリソースのうち重大度の最も低い障害を被った1つは第1リソースである、前記(7)記載のコンピュータ・プログラム製品。
(9)割当て解除された複数のリソースのうち重大度の最も低い障害を被ったリソースの確認は、前記割当て解除されたリソースの障害のIDと種類を示すアイテムを格納したリソース・レコードへの問い合わせを含む、前記(7)記載のコンピュータ・プログラム製品。
(10)前記リソースはシステム・メモリを含む、前記(7)記載のコンピュータ・プログラム製品。
(11)前記リソースは処理装置を含む、前記(7)記載のコンピュータ・プログラム製品。
(12)前記コンピュータ・プログラム製品を実装する命令がファームウェアに格納された、前記(7)記載のコンピュータ・プログラム製品。
(13)システム・リソースを回復し、最小システム構成を提供するため、データ処理システムに使用するコンピュータ可読媒体のシステムであって、第1リソースに障害が発生したことを確認する第1手段と、前記第1リソースを割当て解除する第2手段と、前記リソースの割当て解除によりデータ処理システムが動作する最小システム構成に足りない結果となったことの確認に応答して、割当て解除された複数のリソースのうち重大度の最も低い障害を被ったリソースを確認する第3手段と、前記割当て解除された複数のリソースのうち重大度の最も低い障害を被った1つを再び割当てる第4手段と、を含む、システム。
(14)前記割当て解除された複数のリソースのうち重大度の最も低い障害を被った1つは第1リソースである、前記(13)記載のシステム。
(15)割当て解除された複数のリソースのうち重大度の最も低い障害を被ったリソースの確認は、前記割当て解除されたリソースの障害のIDと種類を示すアイテムを格納したリソース・レコードへの問い合わせを含む、前記(13)記載のシステム。
(16)前記リソースはシステム・メモリを含む、前記(13)記載のシステム。
(17)前記リソースは処理装置を含む、前記(13)記載のシステム。
(18)前記システムを実装する手段がファームウェアに格納された、前記(13)記載のシステム。
【出願人】 【識別番号】390009531
【氏名又は名称】インターナショナル・ビジネス・マシーンズ・コーポレーション
【氏名又は名称原語表記】INTERNATIONAL BUSINESS MASCHINES CORPORATION
【出願日】 平成13年7月23日(2001.7.23)
【代理人】 【識別番号】100086243
【弁理士】
【氏名又は名称】坂口 博 (外2名)
【公開番号】 特開2002−132697(P2002−132697A)
【公開日】 平成14年5月10日(2002.5.10)
【出願番号】 特願2001−221004(P2001−221004)