スキル devops-troubleshooter

🔧

devops-troubleshooter

Name: devops-troubleshooter
Author: sickn33

安全

本番インシデントを迅速にデバッグ

AI ガイド付きデバッグ、ログ分析、および体系的なトラブルシューティング手法により、本番インシデントを迅速に診断および解決します。

対応: Claude Codex Code(CC)

📊 71 十分

スキルZIPをダウンロード

Claudeでアップロード

設定 → 機能 → スキル → スキルをアップロードへ移動

オンにして利用開始

テストする

「devops-troubleshooter」を使用しています。 Kubernetes ポッドで頻繁に OOMKilled が発生しています。メモリ制限は 512Mi に設定されていますが、アプリケーションは Java を使用しています。

期待される結果:

これは Kubernetes 上の Java に関する一般的な問題です。JVM ヒープメモリはメモリフットプリントの一部に過ぎません。以下が評価結果です：

**即時アクション:**
1. 実際のメモリ使用量を確認：`kubectl top pods`
2. JVM フラグを確認：-Xmx が適切に設定されていることを確認（通常はコンテナ制限の 50-75%）
3. Kubernetes Downward API を使用して、JVM メモリがコンテナ制限と一致するように設定することを検討

**根本原因:** Java プロセスはヒープ + メタスペース + スレッドスタック + ネイティブメモリを使用します。デフォルトの JVM 設定で 512Mi 制限では OOMKill が発生します。

**推奨される修正:**
```yaml
resources:
limits:
memory: "1Gi"
env:
- name: JAVA_OPTS
value: "-XX:MaxRAMPercentage=75.0 -XX:+UseG1GC"
```

**予防:** 80% しきい値でメモリ使用量のアラートを追加します。

「devops-troubleshooter」を使用しています。ロードバランサーから断続的な 504 エラーが発生しています。バックエンドサービスは正常に見えます。

期待される結果:

これは複数の要因によって引き起こされている可能性があります。トラブルシューティング手順についてご案内します：

**即時調査:**
1. バックエンドの応答時間を確認：`curl -w '%{time_total}' http://backend/health`
2. ロードバランサーのアクセスログをレビューしてタイミングパターンを確認
3. 接続キューの蓄積を確認

**一般的な原因:**
- バックエンドの応答時間が長すぎる（低速なデータベースクエリを確認）
- アイドルタイムアウト設定が攻撃的すぎる
- ロードバランサーとバックエンド間のキープアライブ設定の不整合
- TLS ハンドシェイクの遅延
- ヘルスチェックがトラフィックに干渉

**次のステップ:**
1. ロードバランサーで詳細ログを有効化
2. バックエンドレイテンシのパーセンタイルのカスタムメトリクスを追加
3. 問題が特定のリクエストパターンや時間と相関しているかを確認

これらの特定の領域について調査のサポートが必要ですか？

セキュリティ監査

安全

v1 • 2/24/2026

Prompt-only skill with no executable code. Static analysis scanned 0 files (0 lines) and detected 0 security issues. This is a pure text-based skill that provides debugging guidance through structured prompts. No risk factors present.

スキャンされたファイル

解析された行数

検出結果

総監査数

セキュリティ問題は見つかりませんでした

監査者: claude

品質スコア

アーキテクチャ

100

保守性

コンテンツ

コミュニティ

100

セキュリティ

100

仕様準拠

作れるもの

本番インシデント対応

初期評価から根本原因分析まで、本番障害の診断と解決のための即座のガイダンスを取得します。

Kubernetes クラスターデバッグ

Kubernetes 環境におけるポッド障害、ネットワーク問題、サービスメッシュの問題、リソース制約をトラブルシュートします。

パフォーマンス最適化

ログ分析、分散トレーシングの相関関係、システムプロファイリングの推奨事項を通じてパフォーマンスボトルネックを特定します。

これらのプロンプトを試す

基本インシデントトリアージ

本番サービスで [高遅延/エラー/ダウンタイムなど、問題を説明] が発生しています。[X からのログ、Y からのメトリクスなど、利用可能なデータを説明] があります。根本原因の診断をサポートしてください。

Kubernetes ポッドデバッグ

[CrashLoopBackOff/実行状態] の Kubernetes ポッドがあり、以下のイベントが発生しています：[kubectl describe 出力を貼り付け]。ログには以下内容が表示されています：[関連ログを貼り付け]。何を調査すべきですか？

ログ分析リクエスト

[ELK/Loki/クラウドログ] でこのエラーパターンが表示されています：[エラーメッセージとタイムスタンプを貼り付け]。エラーは [いつ] 開始されました。これらのログを相関付け、根本原因を特定するサポートをしてください。

事後分析

[インシデントを説明] というインシデントが発生しました。タイムライン：[タイムラインを貼り付け]。以下のシステムが影響を受けました：[リスト]。この障害に寄与したシステム的な問題は何であり、再発をどのように防ぐことができますか？

ベストプラクティス

誤診を避けるために、仮説を形成する前に常にログ、メトリクス、システム状態を収集する
最も単純な説明から始め、除外された場合にのみ複雑な原因にエスカレートする
事後分析と知識共有のために、すべての調査手順と発見事項を文書化する

回避

制御された環境で問題を再現する前に、本番システムに変更を加える
主要な問題とは無関係に見えるエラーメッセージや症状を無視する
根本原因ではなく症状に焦点を当て、後で失敗する一時的な修正につながる

よくある質問

このスキルは私のサーバーでコマンドを実行できますか？

いいえ。これはガイダンスと推奨事項を提供するプロンプトベースのスキルです。コマンドの実行はユーザー自身で行う必要があります。

このスキルはどのような観測可能性プラットフォームをサポートしていますか？

ELK Stack、Loki/Grafana、DataDog、New Relic、Jaeger、Zipkin、Prometheus、OpenTelemetry などをサポートしています。

このスキルをセキュリティインシデント対応に使用できますか？

はい。このスキルには認証デバッグ、証明書の問題、セキュリティログ分析のガイダンスが含まれています。

このスキルは AWS や Azure などのクラウドプラットフォームで動作しますか？

はい。AWS CloudWatch、Azure Monitor、GCP Cloud Logging、マルチクラウドトラブルシューティングシナリオをカバーしています。

このスキルは Kubernetes デバッグをどのように処理しますか？

kubectl コマンド、ポッドのトラブルシューティング、サービスメッシュの問題、ネットワーキング、ストレージ問題のガイダンスを提供します。

このスキルは CI/CD パイプラインの問題を支援できますか？

はい。ビルド障害、デプロイメントの問題、GitOps の問題、パイプラインの最適化をカバーしています。

開発者の詳細

作成者

sickn33

ライセンス

MIT

リポジトリ

https://github.com/sickn33/antigravity-awesome-skills/tree/main/skills/devops-troubleshooter

参照

main

ファイル構成

📄 SKILL.md