トップ :: G 物理学 :: G06 計算;計数




【発明の名称】 計算機監視方式、計算機監視方法および計算機監視用プログラム
【発明者】 【氏名】山部 智久
【住所又は居所】東京都港区芝五丁目7番1号 日本電気株式会社内

【要約】 【課題】本発明の目的は、大規模システムにおいても、計算機の相互監視ができ、動的に計算機の構成変更が可能な計算機監視方式を提供することにある。

【解決手段】管理コンソールと複数の計算機とが通信路を介して相互に接続され、前記複数の計算機は、一または複数の計算機グループを構成し、前記一または複数の計算機グループは、管理コンソールをルートとする木構造により論理的に関連付けられている計算機監視方式であって、前記複数の計算機のそれぞれは、アドレスリストに登録されている計算機の計算機アドレスに基づいて、自計算機グループ内の計算機と相互に通信することにより相互監視する監視手段と、障害を検出する障害検出手段と、障害の検出結果を親ノードにあたる計算機グループに属する全ての計算機に通知することを特徴とする。
【特許請求の範囲】
【請求項1】 管理コンソールと複数の計算機とが通信路を介して相互に接続され、前記複数の計算機は、一以上の計算機グループを構成し、前記一以上の計算機グループは、前記管理コンソールをルートとする木構造により論理的に関連付けられているコンピュータネットワークシステムであって、前記複数の計算機のそれぞれは、自計算機が属する計算機グループを構成する計算機の計算機アドレスを含むアドレスリストと、自計算機の親ノードにあたる計算機グループを構成する計算機の計算機アドレスを含む親アドレスリストと、自計算機の子ノードにあたる計算機グループを構成する計算機の計算機アドレスを含む子アドレスリストと、前記アドレスリストに登録されている計算機アドレスに基づいて、前記通信路を通じて自計算機グループ内の他の計算機と相互に通信することにより相互監視する監視手段と、障害を検出する障害検出手段と、前記障害検出手段で障害が検出された場合には、前記障害の検出結果を親ノードにあたる計算機グループに属する全ての計算機に通知する障害通知手段とを備え、前記障害通知手段は、自グループ内で共有される記憶装置に前記障害の検出結果を記憶し、親ノードにあたる計算機グループに属する計算機からの問い合わせを受けた場合には、前記記憶装置に記憶した前記障害の検出結果を通知することを特徴とする計算機監視方式。
【請求項2】 前記監視手段は、子ノードにあたる計算機グループが存在する場合には、前記子アドレスリストに登録されている計算機アドレスに基づいて、前記通信路を通じて前記子ノードにあたる計算機グループに属する計算機と相互に通信することにより相互監視し、前記障害検出手段は、障害を検出し、前記障害通知手段は、前記障害検出手段で障害が検出された場合には、前記障害の検出結果を親ノードにあたる計算機グループに属する全ての計算機に通知するとともに、前記記憶装置に前記障害の検出結果を記憶し、前記親ノードにあたる計算機グループに属する計算機からの問い合わせを受けた場合には、前記障害の検出結果を通知することを特徴とする請求項1記載の計算機監視方式。
【請求項3】 管理コンソールと複数の計算機とが通信路を介して相互に接続され、前記複数の計算機は、一以上の計算機グループを構成し、前記一以上の計算機グループは、前期管理コンソールをルートとする木構造により論理的に関連付けられているコンピュータネットワークシステムであって、前記複数の計算機のそれぞれは、自計算機が属する計算機グループを構成する計算機の計算機アドレスを含むアドレスリストと、自計算機の親ノードにあたる計算機グループを構成する計算機の計算機アドレスを含む親アドレスリストと、自計算機の子ノードにあたる計算機グループを構成する計算機の計算機アドレスを含む子アドレスリストと、前記アドレスリストに登録されている計算機アドレスに基づいて、前記通信路を通じて自計算機グループ内の他の計算機と相互に通信することにより相互監視し、障害を検出した場合には、障害が発生した計算機の計算機アドレスを前記アドレスリストから削除し、その更新内容を自計算機グループ内の他の計算機に通知してそれぞれの計算機が備える前記アドレスリストを更新させるとともに、障害が発生した前記計算機を自計算機グループから除外した旨を親ノードにあたる計算機グループに属する全ての計算機に通知してそれぞれの計算機が備える前記子アドレスリストを更新させるとともに、子ノードにあたる計算機グループが存在する場合には、障害が発生した前記計算機を自計算機グループから除外した旨を前記子ノードにあたる計算機グループに属する計算機の内のいずれか一つに通知して前記親アドレスリストを更新させ、その更新内容を同じ計算機グループ内の他の計算機の全てに通知させ、それぞれの計算機が備える前記親アドレスリストを更新させる手段を備えたことを特徴とする計算機監視方式【請求項4】 前記複数の計算機のそれぞれは、自計算機が属する計算機グループを構成する計算機数が予め定められた計算機数よりも少ないかどうか判定し、少ないと判定した場合には、子ノードにあたる計算機グループが存在するときは、前記子ノードにあたる計算機グループに属する計算機の内のいずれかに自計算機グループへの移動指示を行い、子ノードにあたる計算機グループが存在しないときには、自計算機グループに属する他の全ての計算機に対して親ノードへの加入指示を行うとともに、親ノードにあたる計算機グループに属する全ての計算機に対して、自計算機グループを解散する旨を通知してそれぞれの計算機が備える前記子アドレスリストから自計算機グループに属する全ての計算機の計算機アドレスを削除させる手段を備えたことを特徴とする請求項3記載の計算機監視方式。
【請求項5】 前記移動指示を受けた計算機は、移動させる計算機を選択し、選択した前記計算機の計算機アドレスをアドレスリストから削除し、その更新内容を同じ計算機グループ内の他の全ての計算機に通知してそれぞれの計算機が備える前記アドレスリストを更新させるとともに、選択した前記計算機に親ノードにあたる計算機グループへの加入指示を行う手段を備えたことを特徴とする請求項4記載の計算機監視方式。
【請求項6】 前記加入指示を受けた計算機は、自計算機が加入する計算機グループに属するいずれか一つの計算機に対して、自計算機が加入する旨の通知を行う手段を備え、前記加入する旨の通知を受けた計算機は、前記加入指示を受けた計算機が加入した場合、自計算機グループを構成する計算機数が予め定められた既定数よりも多くなるかどうかを判定し、多くならないと判定した場合には、前記加入指示を受けた計算機の計算機アドレスを前記アドレスリストに登録するとともに、その更新内容を同じ計算機グループ内の他の全ての計算機に通知してそれぞれの計算機が備える前記アドレスリストを更新させる手段を備えたことを特徴とする請求項4または請求項5記載の計算機監視方式。
【請求項7】 前記加入する旨の通知を受けた計算機は、前記計算機グループを構成する計算機数が予め定められた既定数より多くなると判定した場合には、自計算機グループの子ノードにあたる計算機グループの計算機数が予め定められた既定数より多いかどうか判定し、多いと判定したときは、前記加入指示を受けた計算機に前記子ノードにあたる計算機グループへの加入指示を行い、多くないと判定したときには、前記加入指示を受けた計算機の計算機アドレスをアドレスリストに登録し、その更新内容を同じ計算機グループ内の他の全ての計算機に通知してそれぞれの計算機が備える前記アドレスリストを更新させるとともに、自計算機グループの一部の計算機を分割して新たな計算機グループとし、分割の対象とならないもとの計算機グループに残る計算機には、もとの計算機グループに属する計算機のアドレスリストを通知してそれぞれの計算機が備える前期アドレスリストを更新させ、分割の対象となった計算機には、新たな計算機グループに属する計算機のアドレスリストおよび親ノードにあたる計算機グループの親アドレスリストを通知してそれぞれの計算機において、前記アドレスリストおよび前記親アドレスリストを更新させるとともに、計算機グループの分割に関する情報を親ノードにあたる計算機グループに属する全ての計算機に通知してそれぞれの計算機が備える子アドレスリストを更新させる手段を備えたことを特徴とする請求項6記載の計算機監視方式。
【請求項8】 前記が加入する旨の通知を受けた計算機は、子ノードにあたる計算機グループが存在する場合は、前記子ノードにあたる計算機グループに属するいずれか一つの計算機に、計算機グループの分割に関する情報を通知して親アドレスリストを更新させ、その更新内容を同じ計算機グループ内の他の全ての計算機に通知させ、それぞれの計算機が備える親アドレスリストを更新させる手段を備えたことを特徴とする請求項7記載の計算機監視方式。
【請求項9】 管理コンソールと複数の計算機とが通信路を介して相互に接続され、前記複数の計算機のそれぞれは、自計算機が属する計算機グループを構成する計算機の計算機アドレスを含むアドレスリストと、自計算機の親ノードにあたる計算機グループを構成する計算機の計算機アドレスを含む親アドレスリストと、自計算機の子ノードにあたる計算機グループを構成する計算機の計算機アドレスを含む子アドレスリストを備え、さらに前記複数の計算機は、一以上の計算機グループを構成し、前記一以上の計算機グループは、前記管理コンソールをルートとする木構造により論理的に関連付けられているコンピュータネットワークシステムであって、前記複数の計算機のそれぞれが、前記アドレスリストに登録されている計算機アドレスに基づいて、前記通信路を通じて自計算機グループ内の他の計算機と相互に通信することにより相互監視する監視ステップと、前記複数の計算機のそれぞれが、障害を検出する障害検出ステップと、前記複数の計算機のそれぞれが、前記障害検出手段で障害が検出された場合には、前記障害の検出結果を親ノードにあたる計算機グループに属する全ての計算機に通知する障害通知ステップとを含み、前記障害通知ステップは、自グループ内で共有される記憶装置に前記障害の検出結果を記憶し、親ノードにあたる計算機グループに属する計算機からの問い合わせを受けた場合には、前記記憶装置に記憶した前記障害の検出結果を通知することを特徴とする計算機監視方法。
【請求項10】 前記監視ステップは、子ノードにあたる計算機グループが存在する場合には、前記子アドレスリストに登録されている計算機アドレスに基づいて、前記通信路を通じて前記子ノードにあたる計算機グループに属する計算機と相互に通信することにより相互監視し、前記障害通知ステップは、前記障害検出ステップで障害が検出された場合には、前記障害の検出結果を親ノードにあたる計算機グループに属する全ての計算機に通知するとともに、前記記憶装置に前記障害の検出結果を記憶し、前記親ノードにあたる計算機グループに属する計算機からの問い合わせを受けた場合には、前記障害の検出結果を通知することを特徴とする請求項9記載の計算機監視方法。
【請求項11】 管理コンソールと複数の計算機とが通信路を介して相互に接続され、前記複数の計算機のそれぞれは、自計算機が属する計算機グループを構成する計算機の計算機アドレスを含むアドレスリストと、自計算機の親ノードにあたる計算機グループを構成する計算機の計算機アドレスを含む親アドレスリストと、自計算機の子ノードにあたる計算機グループを構成する計算機の計算機アドレスを含む子アドレスリストを備え、さらに前記複数の計算機は、一以上の計算機グループを構成し、前記一以上の計算機グループは、前記管理コンソールをルートとする木構造により論理的に関連付けられているコンピュータネットワークシステムであって、前記複数の計算機のそれぞれが、前記アドレスリストに登録されている計算機アドレスに基づいて、前記通信路を通じて自計算機グループ内の他の計算機と相互に通信することにより相互監視し、障害を検出した場合には、障害が発生した計算機の計算機アドレスを前記アドレスリストから削除し、その更新内容を自計算機グループ内の他の計算機に通知してそれぞれの計算機が備える前記アドレスリストを更新させるとともに、障害が発生した前記計算機を自計算機グループから除外した旨を親ノードにあたる計算機グループに属する全ての計算機に通知してそれぞれの計算機が備える前記子アドレスリストを更新させるとともに、子ノードにあたる計算機グループが存在する場合には、障害が発生した前記計算機を自計算機グループから除外した旨を前記子ノードにあたる計算機グループに属する計算機の内のいずれか一つに通知して前記親アドレスリストを更新させ、その更新内容を同じ計算機グループ内の他の計算機の全てに通知させ、それぞれの計算機が備える前記親アドレスリストを更新させるステップを含むことを特徴とする計算機監視方法【請求項12】 前記複数の計算機のそれぞれが、自計算機が属する計算機グループを構成する計算機数が予め定められた計算機数よりも少ないかどうか判定し、少ないと判定した場合には、子ノードにあたる計算機グループが存在するときは、前記子ノードにあたる計算機グループに属する計算機の内のいずれかに自計算機グループへの移動指示を行い、子ノードにあたる計算機グループが存在しないときには、自計算機グループに属する他の全ての計算機に対して親ノードへの加入指示を行うとともに、親ノードにあたる計算機グループに属する全ての計算機に対して、自計算機グループを解散する旨を通知してそれぞれの計算機が備える前記子アドレスリストから自計算機グループに属する全ての計算機の計算機アドレスを削除させるステップを含むことを特徴とする請求項11記載の計算機監視方法。
【請求項13】 前記移動指示を受けた計算機が、移動させる計算機を選択し、選択した前記計算機の計算機アドレスをアドレスリストから削除し、その更新内容を同じ計算機グループ内の他の全ての計算機に通知してそれぞれの計算機が備える前記アドレスリストを更新させるとともに、選択した前記計算機に親ノードにあたる計算機グループへの加入指示を行うステップを含むことを特徴とする請求項12記載の計算機監視方法。
【請求項14】 前記加入指示を受けた計算機が、自計算機が加入する計算機グループに属するいずれか一つの計算機に対して、自計算機が加入する旨の通知を行うステップを含み、前記加入する旨の通知を受けた計算機が、前記加入指示を受けた計算機が加入した場合、自計算機グループを構成する計算機数が予め定められた既定数よりも多くなるかどうかを判定し、多くならないと判定した場合には、前記加入指示を受けた計算機の計算機アドレスを前記アドレスリストに登録するとともに、その更新内容を同じ計算機グループ内の他の全ての計算機に通知してそれぞれの計算機が備える前記アドレスリストを更新させるステップを含むことを特徴とする請求項12または請求項13記載の計算機監視方法。
【請求項15】 前記加入する旨の通知を受けた計算機が、前記計算機グループを構成する計算機数が予め定められた既定数より多くなると判定した場合には、自計算機グループの子ノードにあたる計算機グループの計算機数が予め定められた既定数より多いかどうか判定し、多いと判定したときは、前記加入指示を受けた計算機に前記子ノードにあたる計算機グループへの加入指示を行い、多くないと判定したときには、前記加入指示を受けた計算機の計算機アドレスをアドレスリストに登録し、その更新内容を同じ計算機グループ内の他の全ての計算機に通知してそれぞれの計算機が備える前記アドレスリストを更新させるとともに、自計算機グループの一部の計算機を分割して新たな計算機グループとし、分割の対象とならないもとの計算機グループに残る計算機には、もとの計算機グループに属する計算機のアドレスリストを通知してそれぞれの計算機が備える前期アドレスリストを更新させ、分割の対象となった計算機には、新たな計算機グループに属する計算機のアドレスリストおよび親ノードにあたる計算機グループの親アドレスリストを通知してそれぞれの計算機において、前記アドレスリストおよび前記親アドレスリストを更新させるとともに、計算機グループの分割に関する情報を親ノードにあたる計算機グループに属する全ての計算機に通知してそれぞれの計算機が備える子アドレスリストを更新させるステップを含むことを特徴とする請求項14記載の計算機監視方法。
【請求項16】 前記加入する旨の通知を受けた計算機が、子ノードにあたる計算機グループが存在する場合は、前記子ノードにあたる計算機グループに属するいずれか一つの計算機に、計算機グループの分割に関する情報を通知して親アドレスリストを更新させ、その更新内容を同じ計算機グループ内の他の全ての計算機に通知させ、それぞれの計算機が備える親アドレスリストを更新させるステップを含むことを特徴とする請求項15記載の計算機監視方法。
【請求項17】 管理コンソールと複数の計算機とが通信路を介して相互に接続され、前記複数の計算機のそれぞれは、自計算機が属する計算機グループを構成する計算機の計算機アドレスを含むアドレスリストと、自計算機の親ノードにあたる計算機グループを構成する計算機の計算機アドレスを含む親アドレスリストと、自計算機の子ノードにあたる計算機グループを構成する計算機の計算機アドレスを含む子アドレスリストを備え、さらに前記複数の計算機は、一以上の計算機グループを構成し、前記一以上の計算機グループは、前記管理コンソールをルートとする木構造により論理的に関連付けられているコンピュータネットワークシステムであって、前記アドレスリストに登録されている計算機アドレスに基づいて、前記通信路を通じて自計算機グループ内の他の計算機と相互に通信することにより相互監視する監視処理と、障害を検出する障害検出処理と、前記障害検出手段で障害が検出された場合には、前記障害の検出結果を親ノードにあたる計算機グループに属する全ての計算機に通知する障害通知処理とを前記複数の計算機のそれぞれに実行させ、前記障害通知処理は、自グループ内で共有される記憶装置に前記障害の検出結果を記憶し、親ノードにあたる計算機グループに属する計算機からの問い合わせを受けた場合には、前記記憶装置に記憶した前記障害の検出結果を通知することを特徴とする計算機監視用プログラム。
【請求項18】 前記監視処理は、子ノードにあたる計算機グループが存在する場合には、前記子アドレスリストに登録されている計算機アドレスに基づいて、前記通信路を通じて前記子ノードにあたる計算機グループに属する計算機と相互に通信することにより相互監視し、前記障害通知処理は、前記障害検出処理で障害が検出された場合には、前記障害の検出結果を親ノードにあたる計算機グループに属する全ての計算機に通知するとともに、前記記憶装置に前記障害の検出結果を記憶し、前記親ノードにあたる計算機グループに属する計算機からの問い合わせを受けた場合には、前記障害の検出結果を通知することを特徴とする請求項17記載の計算機監視用プログラム。
【請求項19】 管理コンソールと複数の計算機とが通信路を介して相互に接続され、前記複数の計算機のそれぞれは、自計算機が属する計算機グループを構成する計算機の計算機アドレスを含むアドレスリストと、自計算機の親ノードにあたる計算機グループを構成する計算機の計算機アドレスを含む親アドレスリストと、自計算機の子ノードにあたる計算機グループを構成する計算機の計算機アドレスを含む子アドレスリストを備え、さらに前記複数の計算機は、一以上の計算機グループを構成し、前記一以上の計算機グループは、前記管理コンソールをルートとする木構造により論理的に関連付けられているコンピュータネットワークシステムであって、前記アドレスリストに登録されている計算機アドレスに基づいて、前記通信路を通じて自計算機グループ内の他の計算機と相互に通信することにより相互監視し、障害を検出した場合には、障害が発生した計算機の計算機アドレスを前記アドレスリストから削除し、その更新内容を自計算機グループ内の他の計算機に通知してそれぞれの計算機が備える前記アドレスリストを更新させるとともに、障害が発生した前記計算機を自計算機グループから除外した旨を親ノードにあたる計算機グループに属する全ての計算機に通知してそれぞれの計算機が備える前記子アドレスリストを更新させるとともに、子ノードにあたる計算機グループが存在する場合には、障害が発生した前記計算機を自計算機グループから除外した旨を前記子ノードにあたる計算機グループに属する計算機の内のいずれか一つに通知して前記親アドレスリストを更新させ、その更新内容を同じ計算機グループ内の他の計算機の全てに通知させ、それぞれの計算機が備える前記親アドレスリストを更新させる処理を前記複数の計算機のそれぞれに実行させることを特徴とする計算機監視用プログラム。
【請求項20】 自計算機が属する計算機グループを構成する計算機数が予め定められた計算機数よりも少ないかどうか判定し、少ないと判定した場合には、子ノードにあたる計算機グループが存在するときは、前記子ノードにあたる計算機グループに属する計算機の内のいずれかに自計算機グループへの移動指示を行い、子ノードにあたる計算機グループが存在しないときには、自計算機グループに属する他の全ての計算機に対して親ノードへの加入指示を行うとともに、親ノードにあたる計算機グループに属する全ての計算機に対して、自計算機グループを解散する旨を通知してそれぞれの計算機が備える前記子アドレスリストから自計算機グループに属する全ての計算機の計算機アドレスを削除させる処理を前記複数の計算機のそれぞれに実行させることを特徴とする請求項19記載の計算機監視用プログラム。
【請求項21】 移動させる計算機を選択し、選択した前記計算機の計算機アドレスをアドレスリストから削除し、その更新内容を同じ計算機グループ内の他の全ての計算機に通知してそれぞれの計算機が備える前記アドレスリストを更新させるとともに、選択した前記計算機に親ノードにあたる計算機グループへの加入指示を行う処理を前記移動指示を受けた計算機に実行させることを特徴とする請求項20記載の計算機監視用プログラム。
【請求項22】 自計算機が加入する計算機グループに属するいずれか一つの計算機に対して、自計算機が加入する旨の通知を行う処理を前記加入指示を受けた計算機に実行させ、前記加入指示を受けた計算機が加入した場合、自計算機グループを構成する計算機数が予め定められた既定数よりも多くなるかどうかを判定し、多くならないと判定した場合には、前記加入指示を受けた計算機の計算機アドレスを前記アドレスリストに登録するとともに、その更新内容を同じ計算機グループ内の他の全ての計算機に通知してそれぞれの計算機が備える前記アドレスリストを更新させる処理を前記加入する旨の通知を受けた計算機に実行させることを特徴とする請求項20または請求項21記載の計算機監視用プログラム。
【請求項23】 前記計算機グループを構成する計算機数が予め定められた既定数より多くなると判定した場合には、自計算機グループの子ノードにあたる計算機グループの計算機数が予め定められた既定数より多いかどうか判定し、多いと判定したときは、前記加入指示を受けた計算機に前記子ノードにあたる計算機グループへの加入指示を行い、多くないと判定したときには、前記加入指示を受けた計算機の計算機アドレスをアドレスリストに登録し、その更新内容を同じ計算機グループ内の他の全ての計算機に通知してそれぞれの計算機が備える前記アドレスリストを更新させるとともに、自計算機グループの一部の計算機を分割して新たな計算機グループとし、分割の対象とならないもとの計算機グループに残る計算機には、もとの計算機グループに属する計算機のアドレスリストを通知してそれぞれの計算機が備える前期アドレスリストを更新させ、分割の対象となった計算機には、新たな計算機グループに属する計算機のアドレスリストおよび親ノードにあたる計算機グループの親アドレスリストを通知してそれぞれの計算機において、前記アドレスリストおよび前記親アドレスリストを更新させるとともに、計算機グループの分割に関する情報を親ノードにあたる計算機グループに属する全ての計算機に通知してそれぞれの計算機が備える子アドレスリストを更新させる処理を前記加入する旨の通知を受けた計算機に実行させることを特徴とする請求項22記載の計算機監視用プログラム。
【請求項24】 子ノードにあたる計算機グループが存在する場合は、前記子ノードにあたる計算機グループに属するいずれか一つの計算機に、計算機グループの分割に関する情報を通知して親アドレスリストを更新させ、その更新内容を同じ計算機グループ内の他の全ての計算機に通知させ、それぞれの計算機が備える親アドレスリストを更新させる処理を前記加入する旨の通知を受けた計算機に実行させることを特徴とする請求項23記載の計算機監視用プログラム。
【発明の詳細な説明】【0001】
【発明の属する技術分野】計算機監視方式、計算機監視方法および計算機監視用プログラムに関し、特に、計算機が数百〜数千台となるような大規模システムにおいても、計算機の相互監視ができ、かつ、動的に計算機の構成変更が可能な計算機監視方式、計算機監視方法および計算機監視用プログラムに関する。
【0002】
【従来の技術】従来の計算機監視方式の一例が、特開昭633356号公報に記載されている。この従来の計算機監視方式は、複数の計算機とこれら計算機間を接続する通信路からなり、ヘルス通知の送信権が与えられたときにすべての他計算機にヘルス通知を送信する手段と、他計算機のヘルス通知に対して応答通知を送信する手段と、応答通知を受信する手段と、応答通知の内容に従って障害判定を行う手段とから構成されている。
【0003】このような構成を有する従来の計算機監視方式は、次のように動作する。すなわち、複数計算機間で定められた順番でヘルス通知の送信権が譲渡される。送信権を持つ計算機はヘルス通知を他の計算機に送信し、それに対する応答通知を受信する。定められた順番で送信権が譲渡されていなかったり、応答通知が無かった場合に、障害の発生を検出することができる。
【0004】
【発明が解決しようとする課題】しかし、この従来の技術には、次のような問題点があった。第1の問題点は、計算機の台数を増やした場合の拡張性が無いことである。ヘルス通知の送信権を持つ計算機と他の計算機が一対一で通信を行うため、ヘルス通知の送信間隔の一定時間内にヘルス通知の送信と応答通知の受信を行うことのできる回数に限度がある。計算機が数百〜数千台となると相互監視を行うことができない。第2の問題点は、相互監視を行う計算機の動的な構成変更に対応できないことである。複数の計算機からなるシステムでは、処理内容の負荷状況に応じて計算機の台数を増減したり、定期保守のために一部の計算機を停止したり、また、消費電力削減のために無負荷状態の計算機を自動的にサスペンド状態にすることもある。計算機相互の監視は、相互監視対象の計算機の一覧、ヘルス通知送信権の譲渡の順番等の予め定められた情報をもとに行うため、このように運用中に動的に構成が変わる場合に対処できない。本発明の目的は、計算機が数百〜数千台となるような大規模システムにおいても、計算機の相互監視ができ、かつ、動的に計算機の構成変更が可能な計算機監視方式を提供することにある。
【0005】
【課題を解決するための手段】本発明の第1の計算機監視方式は、管理コンソールと複数の計算機とが通信路を介して相互に接続され、前記複数の計算機は、一以上の計算機グループを構成し、前記一以上の計算機グループは、前記管理コンソールをルートとする木構造により論理的に関連付けられているコンピュータネットワークシステムであって、前記複数の計算機のそれぞれは、自計算機が属する計算機グループを構成する計算機の計算機アドレスを含むアドレスリストと、自計算機の親ノードにあたる計算機グループを構成する計算機の計算機アドレスを含む親アドレスリストと、自計算機の子ノードにあたる計算機グループを構成する計算機の計算機アドレスを含む子アドレスリストと、前記アドレスリストに登録されている計算機アドレスに基づいて、前記通信路を通じて自計算機グループ内の他の計算機と相互に通信することにより相互監視する監視手段と、障害を検出する障害検出手段と、前記障害検出手段で障害が検出された場合には、前記障害の検出結果を親ノードにあたる計算機グループに属する全ての計算機に通知する障害通知手段とを備え、前記障害通知手段は、自グループ内で共有される記憶装置に前記障害の検出結果を記憶し、親ノードにあたる計算機グループに属する計算機からの問い合わせを受けた場合には、前記記憶装置に記憶した前記障害の検出結果を通知することを特徴とする。
【0006】本発明の第2の計算機監視方式は、第1の計算機監視方式において、前記監視手段は、子ノードにあたる計算機グループが存在する場合には、前記子アドレスリストに登録されている計算機アドレスに基づいて、前記通信路を通じて前記子ノードにあたる計算機グループに属する計算機と相互に通信することにより相互監視し、前記障害検出手段は、障害を検出し、前記障害通知手段は、前記障害検出手段で障害が検出された場合には、前記障害の検出結果を親ノードにあたる計算機グループに属する全ての計算機に通知するとともに、前記記憶装置に前記障害の検出結果を記憶し、前記親ノードにあたる計算機グループに属する計算機からの問い合わせを受けた場合には、前記障害の検出結果を通知することを特徴とする。
【0007】本発明の第3の計算機監視方式は、管理コンソールと複数の計算機とが通信路を介して相互に接続され、前記複数の計算機は、一以上の計算機グループを構成し、前記一以上の計算機グループは、前期管理コンソールをルートとする木構造により論理的に関連付けられているコンピュータネットワークシステムであって、前記複数の計算機のそれぞれは、自計算機が属する計算機グループを構成する計算機の計算機アドレスを含むアドレスリストと、自計算機の親ノードにあたる計算機グループを構成する計算機の計算機アドレスを含む親アドレスリストと、自計算機の子ノードにあたる計算機グループを構成する計算機の計算機アドレスを含む子アドレスリストと、前記アドレスリストに登録されている計算機アドレスに基づいて、前記通信路を通じて自計算機グループ内の他の計算機と相互に通信することにより相互監視し、障害を検出した場合には、障害が発生した計算機の計算機アドレスを前記アドレスリストから削除し、その更新内容を自計算機グループ内の他の計算機に通知してそれぞれの計算機が備える前記アドレスリストを更新させるとともに、障害が発生した前記計算機を自計算機グループから除外した旨を親ノードにあたる計算機グループに属する全ての計算機に通知してそれぞれの計算機が備える前記子アドレスリストを更新させるとともに、子ノードにあたる計算機グループが存在する場合には、障害が発生した前記計算機を自計算機グループから除外した旨を前記子ノードにあたる計算機グループに属する計算機の内のいずれか一つに通知して前記親アドレスリストを更新させ、その更新内容を同じ計算機グループ内の他の計算機の全てに通知させ、それぞれの計算機が備える前記親アドレスリストを更新させる手段を備えたことを特徴とする。
【0008】本発明の第4の計算機監視方式は、第3の計算機監視方式において、前記複数の計算機のそれぞれは、自計算機が属する計算機グループを構成する計算機数が予め定められた計算機数よりも少ないかどうか判定し、少ないと判定した場合には、子ノードにあたる計算機グループが存在するときは、前記子ノードにあたる計算機グループに属する計算機の内のいずれかに自計算機グループへの移動指示を行い、子ノードにあたる計算機グループが存在しないときには、自計算機グループに属する他の全ての計算機に対して親ノードへの加入指示を行うとともに、親ノードにあたる計算機グループに属する全ての計算機に対して、自計算機グループを解散する旨を通知してそれぞれの計算機が備える前記子アドレスリストから自計算機グループに属する全ての計算機の計算機アドレスを削除させる手段を備えたことを特徴とする。
【0009】本発明の第5の計算機監視方式は、第4の計算機監視方式において、前記移動指示を受けた計算機は、移動させる計算機を選択し、選択した前記計算機の計算機アドレスをアドレスリストから削除し、その更新内容を同じ計算機グループ内の他の全ての計算機に通知してそれぞれの計算機が備える前記アドレスリストを更新させるとともに、選択した前記計算機に親ノードにあたる計算機グループへの加入指示を行う手段を備えたことを特徴とする。
【0010】本発明の第6の計算機監視方式は、第4または第5の計算機監視方式において、前記加入指示を受けた計算機は、自計算機が加入する計算機グループに属するいずれか一つの計算機に対して、自計算機が加入する旨の通知を行う手段を備え、前記加入する旨の通知を受けた計算機は、前記加入指示を受けた計算機が加入した場合、自計算機グループを構成する計算機数が予め定められた既定数よりも多くなるかどうかを判定し、多くならないと判定した場合には、前記加入指示を受けた計算機の計算機アドレスを前記アドレスリストに登録するとともに、その更新内容を同じ計算機グループ内の他の全ての計算機に通知してそれぞれの計算機が備える前記アドレスリストを更新させる手段を備えたことを特徴とする。
【0011】本発明の第7の計算機監視方式は、第6の計算機監視方式において、前記加入する旨の通知を受けた計算機は、前記計算機グループを構成する計算機数が予め定められた既定数より多くなると判定した場合には、自計算機グループの子ノードにあたる計算機グループの計算機数が予め定められた既定数より多いかどうか判定し、多いと判定したときは、前記加入指示を受けた計算機に前記子ノードにあたる計算機グループへの加入指示を行い、多くないと判定したときには、前記加入指示を受けた計算機の計算機アドレスをアドレスリストに登録し、その更新内容を同じ計算機グループ内の他の全ての計算機に通知してそれぞれの計算機が備える前記アドレスリストを更新させるとともに、自計算機グループの一部の計算機を分割して新たな計算機グループとし、分割の対象とならないもとの計算機グループに残る計算機には、もとの計算機グループに属する計算機のアドレスリストを通知してそれぞれの計算機が備える前期アドレスリストを更新させ、分割の対象となった計算機には、新たな計算機グループに属する計算機のアドレスリストおよび親ノードにあたる計算機グループの親アドレスリストを通知してそれぞれの計算機において、前記アドレスリストおよび前記親アドレスリストを更新させるとともに、計算機グループの分割に関する情報を親ノードにあたる計算機グループに属する全ての計算機に通知してそれぞれの計算機が備える子アドレスリストを更新させる手段を備えたことを特徴とする。
【0012】本発明の第8の計算機監視方式は、第7の計算機監視方式において、前記が加入する旨の通知を受けた計算機は、子ノードにあたる計算機グループが存在する場合は、前記子ノードにあたる計算機グループに属するいずれか一つの計算機に、計算機グループの分割に関する情報を通知して親アドレスリストを更新させ、その更新内容を同じ計算機グループ内の他の全ての計算機に通知させ、それぞれの計算機が備える親アドレスリストを更新させる手段を備えたことを特徴とする。
【0013】本発明の第1の計算機監視方法は、管理コンソールと複数の計算機とが通信路を介して相互に接続され、前記複数の計算機のそれぞれは、自計算機が属する計算機グループを構成する計算機の計算機アドレスを含むアドレスリストと、自計算機の親ノードにあたる計算機グループを構成する計算機の計算機アドレスを含む親アドレスリストと、自計算機の子ノードにあたる計算機グループを構成する計算機の計算機アドレスを含む子アドレスリストを備え、さらに前記複数の計算機は、一以上の計算機グループを構成し、前記一以上の計算機グループは、前記管理コンソールをルートとする木構造により論理的に関連付けられているコンピュータネットワークシステムであって、前記複数の計算機のそれぞれが、前記アドレスリストに登録されている計算機アドレスに基づいて、前記通信路を通じて自計算機グループ内の他の計算機と相互に通信することにより相互監視する監視ステップと、前記複数の計算機のそれぞれが、障害を検出する障害検出ステップと、前記複数の計算機のそれぞれが、前記障害検出手段で障害が検出された場合には、前記障害の検出結果を親ノードにあたる計算機グループに属する全ての計算機に通知する障害通知ステップとを含み、前記障害通知ステップは、自グループ内で共有される記憶装置に前記障害の検出結果を記憶し、親ノードにあたる計算機グループに属する計算機からの問い合わせを受けた場合には、前記記憶装置に記憶した前記障害の検出結果を通知することを特徴とする。
【0014】本発明の第2の計算機監視方法は、第1の計算機監視方法において、前記監視ステップは、子ノードにあたる計算機グループが存在する場合には、前記子アドレスリストに登録されている計算機アドレスに基づいて、前記通信路を通じて前記子ノードにあたる計算機グループに属する計算機と相互に通信することにより相互監視し、前記障害通知ステップは、前記障害検出ステップで障害が検出された場合には、前記障害の検出結果を親ノードにあたる計算機グループに属する全ての計算機に通知するとともに、前記記憶装置に前記障害の検出結果を記憶し、前記親ノードにあたる計算機グループに属する計算機からの問い合わせを受けた場合には、前記障害の検出結果を通知することを特徴とする。
【0015】本発明の第3の計算機監視方法は、管理コンソールと複数の計算機とが通信路を介して相互に接続され、前記複数の計算機のそれぞれは、自計算機が属する計算機グループを構成する計算機の計算機アドレスを含むアドレスリストと、自計算機の親ノードにあたる計算機グループを構成する計算機の計算機アドレスを含む親アドレスリストと、自計算機の子ノードにあたる計算機グループを構成する計算機の計算機アドレスを含む子アドレスリストを備え、さらに前記複数の計算機は、一以上の計算機グループを構成し、前記一以上の計算機グループは、前記管理コンソールをルートとする木構造により論理的に関連付けられているコンピュータネットワークシステムであって、前記複数の計算機のそれぞれが、前記アドレスリストに登録されている計算機アドレスに基づいて、前記通信路を通じて自計算機グループ内の他の計算機と相互に通信することにより相互監視し、障害を検出した場合には、障害が発生した計算機の計算機アドレスを前記アドレスリストから削除し、その更新内容を自計算機グループ内の他の計算機に通知してそれぞれの計算機が備える前記アドレスリストを更新させるとともに、障害が発生した前記計算機を自計算機グループから除外した旨を親ノードにあたる計算機グループに属する全ての計算機に通知してそれぞれの計算機が備える前記子アドレスリストを更新させるとともに、子ノードにあたる計算機グループが存在する場合には、障害が発生した前記計算機を自計算機グループから除外した旨を前記子ノードにあたる計算機グループに属する計算機の内のいずれか一つに通知して前記親アドレスリストを更新させ、その更新内容を同じ計算機グループ内の他の計算機の全てに通知させ、それぞれの計算機が備える前記親アドレスリストを更新させるステップを含むことを特徴とする。
【0016】本発明の第4の計算機監視方法は、第3の計算機監視方法において、前記複数の計算機のそれぞれが、自計算機が属する計算機グループを構成する計算機数が予め定められた計算機数よりも少ないかどうか判定し、少ないと判定した場合には、子ノードにあたる計算機グループが存在するときは、前記子ノードにあたる計算機グループに属する計算機の内のいずれかに自計算機グループへの移動指示を行い、子ノードにあたる計算機グループが存在しないときには、自計算機グループに属する他の全ての計算機に対して親ノードへの加入指示を行うとともに、親ノードにあたる計算機グループに属する全ての計算機に対して、自計算機グループを解散する旨を通知してそれぞれの計算機が備える前記子アドレスリストから自計算機グループに属する全ての計算機の計算機アドレスを削除させるステップを含むことを特徴とする。
【0017】本発明の第5の計算機監視方法は、第4の計算機監視方法において、前記移動指示を受けた計算機が、移動させる計算機を選択し、選択した前記計算機の計算機アドレスをアドレスリストから削除し、その更新内容を同じ計算機グループ内の他の全ての計算機に通知してそれぞれの計算機が備える前記アドレスリストを更新させるとともに、選択した前記計算機に親ノードにあたる計算機グループへの加入指示を行うステップを含むことを特徴とする。
【0018】本発明の第6の計算機監視方法は、第4または第5の計算機監視方法において、前記加入指示を受けた計算機が、自計算機が加入する計算機グループに属するいずれか一つの計算機に対して、自計算機が加入する旨の通知を行うステップを含み、前記加入する旨の通知を受けた計算機が、前記加入指示を受けた計算機が加入した場合、自計算機グループを構成する計算機数が予め定められた既定数よりも多くなるかどうかを判定し、多くならないと判定した場合には、前記加入指示を受けた計算機の計算機アドレスを前記アドレスリストに登録するとともに、その更新内容を同じ計算機グループ内の他の全ての計算機に通知してそれぞれの計算機が備える前記アドレスリストを更新させるステップを含むことを特徴とする。
【0019】本発明の第7の計算機監視方法は、第6の計算機監視方法において、前記加入する旨の通知を受けた計算機が、前記計算機グループを構成する計算機数が予め定められた既定数より多くなると判定した場合には、自計算機グループの子ノードにあたる計算機グループの計算機数が予め定められた既定数より多いかどうか判定し、多いと判定したときは、前記加入指示を受けた計算機に前記子ノードにあたる計算機グループへの加入指示を行い、多くないと判定したときには、前記加入指示を受けた計算機の計算機アドレスをアドレスリストに登録し、その更新内容を同じ計算機グループ内の他の全ての計算機に通知してそれぞれの計算機が備える前記アドレスリストを更新させるとともに、自計算機グループの一部の計算機を分割して新たな計算機グループとし、分割の対象とならないもとの計算機グループに残る計算機には、もとの計算機グループに属する計算機のアドレスリストを通知してそれぞれの計算機が備える前期アドレスリストを更新させ、分割の対象となった計算機には、新たな計算機グループに属する計算機のアドレスリストおよび親ノードにあたる計算機グループの親アドレスリストを通知してそれぞれの計算機において、前記アドレスリストおよび前記親アドレスリストを更新させるとともに、計算機グループの分割に関する情報を親ノードにあたる計算機グループに属する全ての計算機に通知してそれぞれの計算機が備える子アドレスリストを更新させるステップを含むことを特徴とする。
【0020】本発明の第8の計算機監視方法は、第7の計算機監視方法において、前記加入する旨の通知を受けた計算機が、子ノードにあたる計算機グループが存在する場合は、前記子ノードにあたる計算機グループに属するいずれか一つの計算機に、計算機グループの分割に関する情報を通知して親アドレスリストを更新させ、その更新内容を同じ計算機グループ内の他の全ての計算機に通知させ、それぞれの計算機が備える親アドレスリストを更新させるステップを含むことを特徴とする。
【0021】本発明の第1の計算機監視用プログラムは、管理コンソールと複数の計算機とが通信路を介して相互に接続され、前記複数の計算機のそれぞれは、自計算機が属する計算機グループを構成する計算機の計算機アドレスを含むアドレスリストと、自計算機の親ノードにあたる計算機グループを構成する計算機の計算機アドレスを含む親アドレスリストと、自計算機の子ノードにあたる計算機グループを構成する計算機の計算機アドレスを含む子アドレスリストを備え、さらに前記複数の計算機は、一以上の計算機グループを構成し、前記一以上の計算機グループは、前記管理コンソールをルートとする木構造により論理的に関連付けられているコンピュータネットワークシステムであって、前記アドレスリストに登録されている計算機アドレスに基づいて、前記通信路を通じて自計算機グループ内の他の計算機と相互に通信することにより相互監視する監視処理と、障害を検出する障害検出処理と、前記障害検出手段で障害が検出された場合には、前記障害の検出結果を親ノードにあたる計算機グループに属する全ての計算機に通知する障害通知処理とを前記複数の計算機のそれぞれに実行させ、前記障害通知処理は、自グループ内で共有される記憶装置に前記障害の検出結果を記憶し、親ノードにあたる計算機グループに属する計算機からの問い合わせを受けた場合には、前記記憶装置に記憶した前記障害の検出結果を通知することを特徴とする。
【0022】本発明の第2の計算機監視用プログラムは、第1の計算機監視用プログラムにおいて、前記監視処理は、子ノードにあたる計算機グループが存在する場合には、前記子アドレスリストに登録されている計算機アドレスに基づいて、前記通信路を通じて前記子ノードにあたる計算機グループに属する計算機と相互に通信することにより相互監視し、前記障害通知処理は、前記障害検出処理で障害が検出された場合には、前記障害の検出結果を親ノードにあたる計算機グループに属する全ての計算機に通知するとともに、前記記憶装置に前記障害の検出結果を記憶し、前記親ノードにあたる計算機グループに属する計算機からの問い合わせを受けた場合には、前記障害の検出結果を通知することを特徴とする。
【0023】本発明の第3の計算機監視用プログラムは、管理コンソールと複数の計算機とが通信路を介して相互に接続され、前記複数の計算機のそれぞれは、自計算機が属する計算機グループを構成する計算機の計算機アドレスを含むアドレスリストと、自計算機の親ノードにあたる計算機グループを構成する計算機の計算機アドレスを含む親アドレスリストと、自計算機の子ノードにあたる計算機グループを構成する計算機の計算機アドレスを含む子アドレスリストを備え、さらに前記複数の計算機は、一以上の計算機グループを構成し、前記一以上の計算機グループは、前記管理コンソールをルートとする木構造により論理的に関連付けられているコンピュータネットワークシステムであって、前記アドレスリストに登録されている計算機アドレスに基づいて、前記通信路を通じて自計算機グループ内の他の計算機と相互に通信することにより相互監視し、障害を検出した場合には、障害が発生した計算機の計算機アドレスを前記アドレスリストから削除し、その更新内容を自計算機グループ内の他の計算機に通知してそれぞれの計算機が備える前記アドレスリストを更新させるとともに、障害が発生した前記計算機を自計算機グループから除外した旨を親ノードにあたる計算機グループに属する全ての計算機に通知してそれぞれの計算機が備える前記子アドレスリストを更新させるとともに、子ノードにあたる計算機グループが存在する場合には、障害が発生した前記計算機を自計算機グループから除外した旨を前記子ノードにあたる計算機グループに属する計算機の内のいずれか一つに通知して前記親アドレスリストを更新させ、その更新内容を同じ計算機グループ内の他の計算機の全てに通知させ、それぞれの計算機が備える前記親アドレスリストを更新させる処理を前記複数の計算機のそれぞれに実行させることを特徴とする。
【0024】本発明の第4の計算機監視用プログラムは、第3の計算機監視用プログラムにおいて、自計算機が属する計算機グループを構成する計算機数が予め定められた計算機数よりも少ないかどうか判定し、少ないと判定した場合には、子ノードにあたる計算機グループが存在するときは、前記子ノードにあたる計算機グループに属する計算機の内のいずれかに自計算機グループへの移動指示を行い、子ノードにあたる計算機グループが存在しないときには、自計算機グループに属する他の全ての計算機に対して親ノードへの加入指示を行うとともに、親ノードにあたる計算機グループに属する全ての計算機に対して、自計算機グループを解散する旨を通知してそれぞれの計算機が備える前記子アドレスリストから自計算機グループに属する全ての計算機の計算機アドレスを削除させる処理を前記複数の計算機のそれぞれに実行させることを特徴とする。
【0025】本発明の第5の計算機監視用プログラムは、第4の計算機監視用プログラムにおいて、移動させる計算機を選択し、選択した前記計算機の計算機アドレスをアドレスリストから削除し、その更新内容を同じ計算機グループ内の他の全ての計算機に通知してそれぞれの計算機が備える前記アドレスリストを更新させるとともに、選択した前記計算機に親ノードにあたる計算機グループへの加入指示を行う処理を前記移動指示を受けた計算機に実行させることを特徴とする。
【0026】本発明の第6の計算機監視用プログラムは、第4または第5の計算機監視用プログラムにおいて、自計算機が加入する計算機グループに属するいずれか一つの計算機に対して、自計算機が加入する旨の通知を行う処理を前記加入指示を受けた計算機に実行させ、前記加入指示を受けた計算機が加入した場合、自計算機グループを構成する計算機数が予め定められた既定数よりも多くなるかどうかを判定し、多くならないと判定した場合には、前記加入指示を受けた計算機の計算機アドレスを前記アドレスリストに登録するとともに、その更新内容を同じ計算機グループ内の他の全ての計算機に通知してそれぞれの計算機が備える前記アドレスリストを更新させる処理を前記加入する旨の通知を受けた計算機に実行させることを特徴とする。
【0027】本発明の第7の計算機監視用プログラムは、第6の計算機監視用プログラムにおいて、前記計算機グループを構成する計算機数が予め定められた既定数より多くなると判定した場合には、自計算機グループの子ノードにあたる計算機グループの計算機数が予め定められた既定数より多いかどうか判定し、多いと判定したときは、前記加入指示を受けた計算機に前記子ノードにあたる計算機グループへの加入指示を行い、多くないと判定したときには、前記加入指示を受けた計算機の計算機アドレスをアドレスリストに登録し、その更新内容を同じ計算機グループ内の他の全ての計算機に通知してそれぞれの計算機が備える前記アドレスリストを更新させるとともに、自計算機グループの一部の計算機を分割して新たな計算機グループとし、分割の対象とならないもとの計算機グループに残る計算機には、もとの計算機グループに属する計算機のアドレスリストを通知してそれぞれの計算機が備える前期アドレスリストを更新させ、分割の対象となった計算機には、新たな計算機グループに属する計算機のアドレスリストおよび親ノードにあたる計算機グループの親アドレスリストを通知してそれぞれの計算機において、前記アドレスリストおよび前記親アドレスリストを更新させるとともに、計算機グループの分割に関する情報を親ノードにあたる計算機グループに属する全ての計算機に通知してそれぞれの計算機が備える子アドレスリストを更新させる処理を前記加入する旨の通知を受けた計算機に実行させることを特徴とする。
【0028】本発明の第8の計算機監視用プログラムは、第7の計算機監視用プログラムにおいて、子ノードにあたる計算機グループが存在する場合は、前記子ノードにあたる計算機グループに属するいずれか一つの計算機に、計算機グループの分割に関する情報を通知して親アドレスリストを更新させ、その更新内容を同じ計算機グループ内の他の全ての計算機に通知させ、それぞれの計算機が備える親アドレスリストを更新させる処理を前記加入する旨の通知を受けた計算機に実行させることを特徴とする。
【0029】
【発明の実施の形態】次に、本発明について図面を参照して詳細に説明する。
【0030】まず、本発明の実施の形態について詳細に説明する。図1を参照すると、本発明の実施の形態は、管理コンソール10と、計算機30−120−2、・・、30−Nと、これらを相互に接続する通信路20とから構成されている。管理コンソール10は、プログラム制御により動作するコンピュータであり、監視手段11、障害検出手段12および障害通知手段13から構成され、さらに通信路20上で管理コンソール10を特定するためのアドレス(例えば、IPアドレス)として管理コンソールアドレス14を保持する。計算機30−1は、プログラム制御により動作するコンピュータであり、監視手段31、障害検出手段32および障害通知手段33から構成され、さらに通信路20上で計算機30−1を特定するためのアドレス(例えば、IPアドレス)として計算機アドレス34−1を保持するとともに、管理コンソールアドレス14と同様のアドレスである管理コンソールアドレス35を保持する。他の計算機30−2〜30−Nも同様に、通信路20上で計算機30−2〜30−Nのそれぞれを特定するためのアドレス(例えば、IPアドレス)として、それぞれ計算機アドレス34−2〜34−Nを保持する。それ以外の構成は、計算機30−1の構成と同様である。図2は、管理コンソール10と各計算機30−1〜30−10との関連を示したものである。計算機30−120−2、30−3は、計算機グループ40−1として構成され、計算機30−4、30−5、30−6、30−7は、計算機グループ40−2として構成され、計算機30−8、30−9、30−10は、計算機グループ40−3として構成されている。また、各計算機グループ40−130−2、40−3は、管理コンソール10をルートとする木構造により論理的に関連付けられている。
【0031】これらの関連付けを表すために、管理コンソール10は、木構造の子ノードにあたる計算機グループ40−1に属するそれぞれの計算機を特定するためのアドレスとしてアドレスリスト15を保持する。アドレスリスト15には、アドレス34−125−2、34−3と同様のアドレスが格納される。
【0032】計算機グループ40−1に属する計算機30−120−2、30−3のそれぞれは、当該計算機グループ40−1に属する計算機のそれぞれを特定するためのアドレスであるアドレスリスト36−1、木構造の親ノードにあたる計算機グループに属する計算機のそれぞれを特定するためのアドレスである親アドレスリスト37−1、木構造の子ノードにあたる計算機グループに属する計算機のそれぞれを特定するためのアドレスである子アドレスリスト38−1を保持する。具体的には、アドレスリスト36−1には、計算機アドレス34−125−2、34−3と同様のアドレスが格納される。親アドレスリスト37−1には、管理コンソールアドレス14と同様のアドレスが格納される。子アドレスリスト38−1には、計算機アドレス34−4、34−5、34−6、34−7および計算機アドレス34−8、34−9、34−10と同様のアドレスが格納される。同様に、計算機グループ40−2に属する計算機30−4、30−5、30−6、30−7のそれぞれは、当該計算機グループ40−2に属する計算機のそれぞれを特定するためのアドレスであるアドレスリスト36−2、木構造の親ノードにあたる計算機グループに属する計算機のそれぞれを特定するためのアドレスである親アドレスリスト37−2、木構造の子ノードにあたる計算機グループに属する計算機のそれぞれを特定するためのアドレスである子アドレスリスト38−2を保持する。具体的には、アドレスリスト36−2には、計算機アドレス34−4、34−5、34−6、34−7と同様のアドレスが格納される。親アドレスリスト37−2には、計算機アドレス34−1、34−2、34−3と同様のアドレスが格納される。子アドレスリスト38−2には、何も格納されない。計算機グループ40−3のアドレスリスト36−3、親アドレスリスト37−3および子アドレスリスト38−3についても同様である。
【0033】管理コンソール10および計算機30−1〜30−10が備える各手段は、それぞれ概略次のように動作する。
【0034】監視手段11は、アドレスリスト15に登録されているアドレスに対応する計算機、即ち子ノードにあたる計算機グループに属する計算機の状態を監視する。
【0035】障害検出手段12は、監視手段11による監視結果または子ノードにあたる計算機グループに属する計算機からの障害通知により障害を検出する。
【0036】障害通知手段13は、障害検出手段12によって検出した障害を、管理コンソール10のオペレータなどに通知する。
【0037】監視手段31は、その計算機が備えるアドレスリスト36−Nに登録されているアドレスに対応する計算機、即ちその計算機が属する計算機グループ40−Nに属する計算機の状態と、その計算機が備える子アドレスリスト38−Nに登録されているアドレスに対応する計算機、即ちその計算機が属する計算機グループ40−Nの子ノードにあたる計算機グループに属する計算機の状態を通信路20を通じて計算機間相互に通信することにより監視する。
【0038】障害検出手段32は、監視手段31より通信された監視結果の解析および子ノードにあたる計算機グループに属する計算機からの障害通知により障害を検出する。
【0039】障害通知手段33は、障害検出手段32によって検出された障害を親ノードにあたる計算機グループに通知する。また、親ノードにあたる計算機グループに属する計算機から問い合わせに応じて通知する。
【0040】次に、図1〜図7を参照して本実施の形態の全体の動作について詳細に説明する。
【0041】まず、図1および図2を参照して計算機の監視動作について詳細に説明する。
【0042】計算機グループ40−2に属する計算機30−4、30−5、30−6、30−7のそれぞれは、監視手段31により、相互の監視を行う。尚、計算機グループ40−2には、子ノードにあたる計算機グループは存在しないため、監視を行わない。監視手段31による相互監視は、アドレスリスト36−2に登録されている計算機アドレスに基づいて、通信路20を通じて計算機間相互に通信することにより行われ、障害検出手段32が障害を検出する。障害の検出結果は、障害通知手段33が親ノードにあたる計算機グループ40−1に属する全ての計算機に通知し、計算機グループ40−1に属する計算機のいずれにも通知できなかった場合には、管理コンソール10に直接通知する。さらに、障害通知手段33は、記憶装置(図示なし)に障害の検出結果を記憶し、障害の検出結果は、計算機グループ40−2に属する全ての計算機30−4〜30−7において共有され、親ノードにあたる計算機グループ40−1に属する計算機からの問い合わせを受けた場合には、その問い合わせを受けた計算機が通知する。計算機40−1に属する計算機30−1〜30−3のそれぞれは、監視手段31により、相互の監視と、子ノードにあたる計算機グループ40−2、40−3に属する計算機30−4〜30−10の監視を行う。相互監視は、計算機30−1〜30−3のそれぞれが備える計算機アドレスリスト36−1に登録されている計算機アドレスに基づいて、通信路20を通じて計算機間相互に通信を行うことにより行われ、障害検出手段32が障害を検出する。障害の検出結果は、障害通知手段33によって親ノードにあたる管理コンソール10に通知される。さらに、障害の検出結果は障害通知手段33によって記憶装置(図示なし)に記憶され、計算機グループ40−1に属する計算機30−1〜30−3において共有され、親ノードにあたる管理コンソール10からの問い合わせを受けた場合には、その問い合わせを受けた計算機が通知する。一方、子ノードにあたる計算機グループ40−2、40−3に属する計算機30−4〜30−10の監視は、親ノードにあたる計算機グループ40−1に属する全ての計算機30−1〜30−3が、子アドレスリスト38−1に登録されているアドレスに基づいて、通信路20を通じて計算機間相互に通信することにより行われ、障害検出手段32が障害を検出する。障害の検出結果は、障害通知手段33によって親ノードにあたる管理コンソール10に通知される。さらに、障害の検出結果は障害通知手段33によって記憶装置(図示なし)に記憶され、計算機グループ40−1に属する計算機30−1〜30−3において共有され、親ノードにあたる管理コンソール10からの問い合わせを受けた場合には、その問い合わせを受けた計算機が通知する。また、子ノードにあたる計算機グループ40−2または40−3に属するいずれかの計算機から障害の検出結果の通知を受けていた場合にも、記憶装置(図示なし)に記憶され、親ノードにあたる管理コンソール10からの問い合わせを受けた場合に、その内容が通知される。管理コンソール10は、監視手段11により、アドレスリスト15に登録されているアドレスの内の一つに対応する計算機に対し、通信路20を通じて問い合わせをすることにより行われ、子ノードの計算機グループ40−1の内のいずれかの計算機と通信し、計算機グループ40−1に属する計算機のみならず、計算機グループ40−1の子ノードである計算機グループ40−2および計算機グループ40−3に属する全ての計算機の状態を知ることができる。
【0043】次に、図3〜図7を参照して構成を動的に変更する場合の動作について詳細に説明する。第一に、図3を参照して計算機グループ内で障害を検出した場合の動作について説明する。まず、相互監視により計算機グループ内の監視を行う(図3のステップA1)。障害を検出した場合(ステップA2)、検出した計算機は、障害が発生した計算機のアドレスをアドレスリスト36から削除し、その更新内容を同じ計算機グループ内の他の全ての計算機に通知する。通知を受けた計算機は、それぞれが保持するアドレスリスト36を更新する(ステップA3)。以上により、障害が発生した計算機を計算機グループから除外する。次に、障害が発生した計算機を計算機グループから除外した旨を親ノードにあたる計算機グループに属する全ての計算機に通知し、通知を受けた親ノードにあたる計算機グループの各計算機は、それぞれが保持する子アドレスリスト38を更新する(ステップA4)。また、子ノードにあたる計算機グループが存在する場合には、障害が生じた計算機を計算機グループから除外した旨を子ノードにあたる計算機グループに属する計算機の内のいずれか一つに通知する。通知を受けた当該計算機は、親アドレスリスト37を更新するとともに、その更新内容を計算機グループ内の他の計算機の全てに通知する。通知を受けた計算機は、それぞれが保持する親アドレスリスト37を更新する(ステップA6)。さらに、障害が発生した結果、グループを構成する計算機が予め定められた計算機数よりも少なくなってしまったかどうかを判定する(ステップA7)。判定した結果、予め定められた計算機数よりも少ない場合は、子ノードが存在するときは、子ノードにあたる計算機グループに属する計算機のいずれかに親ノードに移動するよう通知する(ステップA9)(その後の動作については、以下の第三の説明において詳説する)。一方、子ノードが存在しないときには、自計算機グループに属する全ての計算機に対して親ノードに加わるように指示を出す(ステップA10)(親ノードに加わる動作については、以下の第四の説明において詳説する)。また、親ノードにあたる計算機グループの全ての計算機に対して、自計算機グループを解散する旨を通知する。その通知を受けた各計算機は、それぞれが保持する子アドレスリスト38から解散する子ノードにあたる計算機グループに属する計算機の計算機アドレスを削除する。第二に、図4を参照して計算機グループの計算機が正常なシャットダウンあるいはサスペンドにより停止する場合の動作について説明する。まず、計算機は停止動作を開始し(図4のステップB1)、当該計算機が属する計算機グループ内の他の全ての計算機に停止する旨を通知する(ステップB2)。通知を受けた各計算機は、それぞれが保持するアドレスリスト36から停止する計算機の計算機アドレスを削除することにより計算機グループから除外する(ステップB3)。以降の動作は図3のステップA4以降と同じであるので説明を省略する。第三に、図5を参照して計算機グループ内の計算機を別の計算機グループに移動する場合の動作について説明する。まず、親ノードにあたる計算機グループに属する計算機から計算機を移動するよう指示を受けた(図5のステップC1)子ノードにあたる計算機グループに属する計算機は、移動させる計算機を選択し(ステップC2)、その計算機の計算機アドレスをアドレスリスト36から削除し、そのアドレスリスト36の更新内容を計算機グループ内の他の全ての計算機に通知する。通知を受けた各計算機は、それぞれが保持するアドレスリスト36を更新する。以上により、選択した計算機を計算機グループから除外する(ステップC3)。次に、選択した計算機に親ノードあたる計算機グループに加わるよう指示を出す(ステップC4)。その指示を受けた計算機の動作については、以下の第四の説明において詳説する。その他の各計算機の以降の動作は、図3のステップA4以降と同じであるので説明を省略する。第四に、図6を参照して計算機グループに計算機を追加する場合の動作について説明する。まず、追加対象となる計算機に対し、当該計算機が加入する計算機グループのアドレスリストを渡すことにより加入指示を行う(図6のステップD1)。これは、図3のステップA10または図5のステップC4において行われる指示である。追加対象となる計算機は、当該計算機が加入する計算機グループに属するいずれか一つの計算機に対し、当該計算機が加入する旨を通知する(ステップD2)。次に、その通知を受けた計算機は、新たに計算機が加入した場合にグループを構成する計算機数が既定数より多くなるかどうかを判定する(ステップD3)。判定の結果、グループを構成する計算機数が既定数より多くない場合は、ステップD2において通知を受けた計算機は、追加対象の計算機の計算機アドレスをアドレスリスト36に登録するとともに、そのアドレスリスト36の更新内容を同じ計算機グループ内の他の全ての計算機に通知する。アドレスリスト36の更新内容の通知を受けた計算機は、それぞれが保持するアドレスリスト36を更新する。以上により、追加対象の計算機は、計算機グループに追加される(ステップD4)。ステップD3における判定の結果、グループを構成する計算機数が既定数より多い場合には、ステップD2において通知を受けた計算機は、当該計算機グループの子ノードにあたる計算機グループの計算機数が既定数より多いかどうかを判定する(ステップD5)。判定の結果、子ノードにあたる計算機グループの計算機数が既定数よりも多いときは、ステップD2において通知を受けた計算機は、追加対象の計算機に対し、当該子ノードにあたる計算機グループに加入するよう指示する(ステップD6)。この場合、子ノードの計算機グループに追加する動作は、ステップD1から行われることになる。ステップD5における判定の結果、子ノードにあたる計算機グループの計算機数が既定数よりも多くないときには、ステップD2において通知を受けた計算機は、追加対象の計算機の計算機アドレスをアドレスリスト36に登録するとともに、そのアドレスリスト36の更新内容を同じ計算機グループ内の他の全ての計算機に通知する。アドレスリスト36の更新内容の通知を受けた計算機は、それぞれが保持するアドレスリスト36を更新する。また、ステップD2において通知を受けた計算機は、当該計算機が属する計算機グループの一部の計算機を分割し、新たな計算機グループとする。具体的には、ステップD2において通知を受けた計算機は、分割の対象とならないもとの計算機グループに残る計算機には、そのもとの計算機グループを構成する計算機のアドレスリスト36を通知してそれぞれの計算機が備えるアドレスリスト36を更新させるとともに、分割の対象となった計算機には、新たな計算機グループを構成する計算機のアドレスリスト36と親ノードにあたる計算機グループの親アドレスリスト37を通知してそれぞれの計算機が備えるアドレスリスト36および親アドレスリスト37を更新させる(ステップD7)。また、ステップD2において通知を受けた計算機は、計算機グループを分割した旨、アドレスリスト36を更新した旨、分割の内容等分割に関する情報を親ノードにあたる計算機グループに属する全ての計算機に通知する。親ノードにあたる計算機グループに属する計算機は、それぞれの子アドレスリスト38を更新する(ステップD8)。さらに、ステップD2において通知を受けた計算機は、子ノードにあたる計算機グループが存在する場合には、子ノードにあたる計算機グループに属するいずれか一つの計算機に対して、計算機グループを分割した旨、アドレスリスト36を更新した旨、分割の内容等分割に関する情報を通知する。通知を受けた当該計算機は、親アドレスリスト37を更新し、その更新内容を同じ計算機グループ内の他の全ての計算機に通知する。通知を受けた各計算機は、それぞれの親アドレスリスト37を更新する(ステップD10)。第五に、図7を参照して新たに起動した計算機を監視対象として追加する場合の動作について説明する。これは障害あるいは正常なシャットダウンやサスペンドにより監視対象から外された計算機が動作を再開した場合も含む。まず、計算機が新たに起動される(図7のステップE1)と、当該計算機は、管理コンソール10に対し、監視対象として追加する旨を通知すると(ステップE2)、管理コンソール10は、子ノードにあたる計算機グループが存在するか調べる(ステップE3)。調べた結果、子ノードにあたる計算機グループが存在しない場合、即ち、初めて新たに起動された計算機が監視対象になる場合は、新たな計算機グループを生成するため、管理コンソール10は、新たに起動された計算機に計算機グループのアドレスリスト36と、親ノードにあたる管理コンソール10のアドレスを含む親アドレスリスト37を通知し(ステップE4)、新たに起動された計算機は、アドレスリスト36および親アドレスリスト37を作成する。この場合、その計算機は、グループを構成する計算機が1台のみであるので相互監視は行わず、管理コンソール10が、その計算機グループを監視することによってのみ監視が行われる。調べた結果、子ノードにあたる計算機グループが存在する場合には、管理コンソール10の子ノードにあたる計算機グループの中から最も計算機数が少ない計算機グループを選択し(ステップE5)、当該計算機グループの計算機数が既定数より多いかどうかを判定する(ステップE6)。判定した結果、既定数より多くないときは、新たに起動された計算機にステップE5において選択した計算機グループに加入するよう指示する(ステップE7)。この場合、以降の動作は図6のステップD1以降と同じであるので説明を省略する。判定した結果、既定数より多いときには、管理コンソール10の子ノードにあたる計算機グループの数が既定数より多いかどうかを判定する(ステップE8)。判定した結果、既定数より多くないときは、新たな子ノードにあたる計算機グループを生成する(ステップE4)。判定した結果、既定数より多いときには、新たな子ノードにあたる計算機グループを生成できないので、ステップE5で選択した計算機グループに加入するよう指示する(ステップE7)。この場合、以降の動作は図6のステップD1以降と同じであるので説明を省略する。
【0044】
【発明の効果】以上説明したように、本発明によれば以下の効果が奏される。第1の効果は、1台の管理コンソールから多数の計算機の状態を監視できることにある。
【0045】その理由は、計算機グループを構成してグループ内で相互監視を行うとともに、木構造で関連付けられた各計算機グループが子ノードにあたる計算機グループを監視するためである。
【0046】第2の効果は、計算機の障害、サスペンド等により、計算機が停止した場合においても、全体の構成を動的に変更して監視できることにある。
【0047】その理由は、木構造の各ノードにあたる計算機グループを複数の計算機で構成し、そのうちの1台が停止してもグループ内や子ノードの監視を継続するためである。また、計算機グループを構成する計算機が減った場合には、子ノードから計算機を移動あるいはグループを解消して親ノードの計算機グループに結合することにより、複数計算機の計算機グループによる木構造を維持するためである。
【0048】第3の効果は、監視対象の計算機が新たに追加された場合に、全体の構成を動的に変更して監視できることにある。その理由は、計算機グループに計算機を動的に追加し、相互監視を行うためである。また、計算機グループの計算機が多くなりすぎた場合には、計算機グループを分割し、木構造を自動的に拡張するためである。
【出願人】 【識別番号】000004237
【氏名又は名称】日本電気株式会社
【住所又は居所】東京都港区芝五丁目7番1号
【出願日】 平成14年3月19日(2002.3.19)
【代理人】 【識別番号】100109313
【弁理士】
【氏名又は名称】机 昌彦 (外2名)
【公開番号】 特開2003−271471(P2003−271471A)
【公開日】 平成15年9月26日(2003.9.26)
【出願番号】 特願2002−76316(P2002−76316)