技能 devops-troubleshooter
🔧

devops-troubleshooter

安全

本番インシデントを迅速にデバッグ

AI ガイド付きデバッグ、ログ分析、および体系的なトラブルシューティング手法により、本番インシデントを迅速に診断および解決します。

支持: Claude Codex Code(CC)
🥉 75 青铜
1

下载技能 ZIP

2

在 Claude 中上传

前往 设置 → 功能 → 技能 → 上传技能

3

开启并开始使用

测试它

正在使用“devops-troubleshooter”。 Kubernetes ポッドで頻繁に OOMKilled が発生しています。メモリ制限は 512Mi に設定されていますが、アプリケーションは Java を使用しています。

预期结果:

これは Kubernetes 上の Java に関する一般的な問題です。JVM ヒープメモリはメモリフットプリントの一部に過ぎません。以下が評価結果です:

**即時アクション:**
1. 実際のメモリ使用量を確認:`kubectl top pods`
2. JVM フラグを確認:-Xmx が適切に設定されていることを確認(通常はコンテナ制限の 50-75%)
3. Kubernetes Downward API を使用して、JVM メモリがコンテナ制限と一致するように設定することを検討

**根本原因:** Java プロセスはヒープ + メタスペース + スレッドスタック + ネイティブメモリを使用します。デフォルトの JVM 設定で 512Mi 制限では OOMKill が発生します。

**推奨される修正:**
```yaml
resources:
limits:
memory: "1Gi"
env:
- name: JAVA_OPTS
value: "-XX:MaxRAMPercentage=75.0 -XX:+UseG1GC"
```

**予防:** 80% しきい値でメモリ使用量のアラートを追加します。

正在使用“devops-troubleshooter”。 ロードバランサーから断続的な 504 エラーが発生しています。バックエンドサービスは正常に見えます。

预期结果:

これは複数の要因によって引き起こされている可能性があります。トラブルシューティング手順についてご案内します:

**即時調査:**
1. バックエンドの応答時間を確認:`curl -w '%{time_total}' http://backend/health`
2. ロードバランサーのアクセスログをレビューしてタイミングパターンを確認
3. 接続キューの蓄積を確認

**一般的な原因:**
- バックエンドの応答時間が長すぎる(低速なデータベースクエリを確認)
- アイドルタイムアウト設定が攻撃的すぎる
- ロードバランサーとバックエンド間のキープアライブ設定の不整合
- TLS ハンドシェイクの遅延
- ヘルスチェックがトラフィックに干渉

**次のステップ:**
1. ロードバランサーで詳細ログを有効化
2. バックエンドレイテンシのパーセンタイルのカスタムメトリクスを追加
3. 問題が特定のリクエストパターンや時間と相関しているかを確認

これらの特定の領域について調査のサポートが必要ですか?

安全审计

安全
v1 • 2/24/2026

Prompt-only skill with no executable code. Static analysis scanned 0 files (0 lines) and detected 0 security issues. This is a pure text-based skill that provides debugging guidance through structured prompts. No risk factors present.

0
已扫描文件
0
分析行数
0
发现项
1
审计总数
未发现安全问题
审计者: claude

质量评分

38
架构
100
可维护性
87
内容
50
社区
100
安全
100
规范符合性

你能构建什么

本番インシデント対応

初期評価から根本原因分析まで、本番障害の診断と解決のための即座のガイダンスを取得します。

Kubernetes クラスターデバッグ

Kubernetes 環境におけるポッド障害、ネットワーク問題、サービスメッシュの問題、リソース制約をトラブルシュートします。

パフォーマンス最適化

ログ分析、分散トレーシングの相関関係、システムプロファイリングの推奨事項を通じてパフォーマンスボトルネックを特定します。

试试这些提示

基本インシデントトリアージ
本番サービスで [高遅延/エラー/ダウンタイムなど、問題を説明] が発生しています。[X からのログ、Y からのメトリクスなど、利用可能なデータを説明] があります。根本原因の診断をサポートしてください。
Kubernetes ポッドデバッグ
[CrashLoopBackOff/実行状態] の Kubernetes ポッドがあり、以下のイベントが発生しています:[kubectl describe 出力を貼り付け]。ログには以下内容が表示されています:[関連ログを貼り付け]。何を調査すべきですか?
ログ分析リクエスト
[ELK/Loki/クラウドログ] でこのエラーパターンが表示されています:[エラーメッセージとタイムスタンプを貼り付け]。エラーは [いつ] 開始されました。これらのログを相関付け、根本原因を特定するサポートをしてください。
事後分析
[インシデントを説明] というインシデントが発生しました。タイムライン:[タイムラインを貼り付け]。以下のシステムが影響を受けました:[リスト]。この障害に寄与したシステム的な問題は何であり、再発をどのように防ぐことができますか?

最佳实践

  • 誤診を避けるために、仮説を形成する前に常にログ、メトリクス、システム状態を収集する
  • 最も単純な説明から始め、除外された場合にのみ複雑な原因にエスカレートする
  • 事後分析と知識共有のために、すべての調査手順と発見事項を文書化する

避免

  • 制御された環境で問題を再現する前に、本番システムに変更を加える
  • 主要な問題とは無関係に見えるエラーメッセージや症状を無視する
  • 根本原因ではなく症状に焦点を当て、後で失敗する一時的な修正につながる

常见问题

このスキルは私のサーバーでコマンドを実行できますか?
いいえ。これはガイダンスと推奨事項を提供するプロンプトベースのスキルです。コマンドの実行はユーザー自身で行う必要があります。
このスキルはどのような観測可能性プラットフォームをサポートしていますか?
ELK Stack、Loki/Grafana、DataDog、New Relic、Jaeger、Zipkin、Prometheus、OpenTelemetry などをサポートしています。
このスキルをセキュリティインシデント対応に使用できますか?
はい。このスキルには認証デバッグ、証明書の問題、セキュリティログ分析のガイダンスが含まれています。
このスキルは AWS や Azure などのクラウドプラットフォームで動作しますか?
はい。AWS CloudWatch、Azure Monitor、GCP Cloud Logging、マルチクラウドトラブルシューティングシナリオをカバーしています。
このスキルは Kubernetes デバッグをどのように処理しますか?
kubectl コマンド、ポッドのトラブルシューティング、サービスメッシュの問題、ネットワーキング、ストレージ問題のガイダンスを提供します。
このスキルは CI/CD パイプラインの問題を支援できますか?
はい。ビルド障害、デプロイメントの問題、GitOps の問題、パイプラインの最適化をカバーしています。

开发者详情

文件结构

📄 SKILL.md