サーバ監視に関する基本中の基本の話 part3

サーバ監視に関する基本中の基本について話していきたいと思います。
この記事の続きになります。

サーバ監視に関する基本中の基本の話 part2 - ressyのナレッジ的なブログ

注意

サーバ監視に関する基礎を書いて行こうと思いますが、私自身の考えも色々と含まれております。
中には、反論したくなるような考えもあるかもしれませんが、考え方の一つという程度に留めていただければと思います。

サーバで起きやすいトラブル

こちらの参考書をベースに、サーバで起きやすいトラブルについて勉強していきたいと思います。
サーバ/インフラエンジニア養成読本 管理/監視編 [24時間365日稼働を支える知恵と知識が満載!] (Software Design plus)

本書では、以下の6つの例を取り上げているので、これベースで勉強します。

  1. Webサービスを使っているときに、画面が表示されないことがある
  2. まったくWebサーバへ接続できなくなった
  3. Webサーバを再起動したら、Webサーバにアクセスできなくなった
  4. 急にデータベースにデータを追加できなくなった
  5. サーバから英文メールが通知される
  6. Webサービスが重い

1. Webサービスを使っているときに、画面が表示されないことがある

こんな現象が発生したとします。

  • Webサービスを使っているときに、画面が表示されない症状が起きた
  • ブラウザのリロードをすると、ページが表示された
  • 画面が表示されない事象は不規則におきる

この現象が発生したとき、考えられる原因(例)はこの通りです。

  1. アプリケーションの更新による不具合
  2. Webサーバの負荷が高い
  3. Webサーバ内部のエラー

1) アプリケーションの更新による不具合

topコマンドなどを使用して、アプリケーション更新後にWebサーバの負荷が急増してないか確認しましょう。
負荷が急増している場合は、アプリケーション更新が原因の可能性があります。
更新前との差分を比較し、ボトルネックを特定してアプリケーションを修正する必要があります。

2) Webサーバの負荷が高い

ロードアベレージを確認したり、エラーログ(/var/log/httpd/error_logなど)を確認しましょう。
ここで問題を見つけた場合、エラーログの内容に従って対策が必要です。

3) Webサーバ内部のエラー

システムログ(/var/log/messagesなど)を確認して、原因特定のヒントになる情報がないかを確認しましょう。
その原因に応じた対応が対応が必要になります。

参考

本記事は、以下を参考にしています。