まえがき

昨年から4台のCentOS7でHACluster+GFS2を組んで遊んでるんですが
思ったより文献が無いんですよね。

HACluster+GFS2で運用してたら問題がいろいろ起こってて面白いです。

スタックしてサーバー4台とストレージ2台と10Gigaのスイッチ2台スタックし、IP-SANを構築してるんですが
GFS2が壊れる壊れる... クラスタも分裂する... いつのまにかpingも当たらない...
なんてことがあり、

サポートさんに状況を説明すると
ファームウェアのバグで
スタック環境においてCPUに負荷がかかる作業(show run等)を行うと、
ハングする現象やそのタイミングにてトラフィックに影響を及ぼす....
なんてことが発覚しました。
show runで2分近く返ってこないスイッチって今まで遭遇したこと無いな....

GFS2に起因する問題ではないのですけどね。
結局、使い物にならなかったので10Gigaのスイッチは交換してもらいました。

その後も運用中に起きた問題と言えば
GFS2内のデータをコピーするなど、バックアップを取ってたら
帯域食いつぶしちゃってPacemaker同士で通信ができず
通信が途絶えたと判断されたノード1台がfenceされるなんてこともあったり。

と、いろいろあって面白いです。
VMWare使ってた時代では，こんなことは無かったので結構ワクワクしてます。

監視について

死んでから何時間も経ってから気付くのではちょっとマズいなと思い
HACluster+GFS2の監視もZabbixでやっておりました。
といってもそんなに難しいことはやってません。
ノード4台にzabbix-agentを仕込み
zabbix-server側でproc.numで
pacemakerd，gfs2_quotad，dlm_controld，corosync，clvmdデーモンの死活監視をやっているだけです。
後は、proc.numの返り値が0になったらアラートを飛ばすなどをやっております。