技能 error-diagnostics-error-analysis
📦

error-diagnostics-error-analysis

安全

本番環境のエラーを診断

このスキルは、システマティックなデバッグ技術、分散トレーシング分析、および包括的な可観測性パターンを使用して、開発者が本番環境のエラーを迅速に診断し解決することを支援します。

支持: Claude Codex Code(CC)
🥉 74 青铜
1

下载技能 ZIP

2

在 Claude 中上传

前往 设置 → 功能 → 技能 → 上传技能

3

开启并开始使用

测试它

正在使用“error-diagnostics-error-analysis”。 Error: Database connection timeout after 30s in order-service

预期结果:

  • 分析:コネクションプールの枯渇を検出
  • 根本原因:長時間実行されるクエリがすべてのコネクションを占有
  • 推奨修正:クエリタイムアウトの実装と N+1 パターンの最適化
  • 予防:サーキットブレーカーとコネクションプールモニタリングの追加

正在使用“error-diagnostics-error-analysis”。 Intermittent 502 errors in API gateway

预期结果:

  • パターン:エラーはトラフィックピーク時に発生
  • 相関関係:昨日新しいオートスケーリングポリシーがデプロイされた
  • 根本原因:バックエンドサービスがロードバランサーより遅くスケール
  • 推奨:スケーリングパラメータの調整とヘルスチェック検証の追加

安全审计

安全
v1 • 2/24/2026

After evaluating 108 static findings, all detections are false positives. The scanner misinterpreted markdown documentation patterns as security issues: backticks in code blocks were flagged as shell execution, example URLs were flagged as network exfiltration, and environment variable reads in example error-tracking code were flagged as credential access. The sensitive data deletion code (lines 751-752) is a security best practice that removes cookies/authorization headers before sending error reports. This is a legitimate error diagnostics skill providing observability documentation.

2
已扫描文件
1,194
分析行数
0
发现项
1
审计总数
未发现安全问题
审计者: claude

质量评分

38
架构
100
可维护性
87
内容
50
社区
100
安全
91
规范符合性

你能构建什么

本番インシデントの調査

本番環境のエラーを分析し、デプロイメントとの相関関係を特定し、分散トレーシングとログ分析を使用して根本原因を特定します。

アプリケーションエラーのデバッグ

スタックトレースを検査し、エラーパターンを特定して、アプリケーションレベルのエラーに対する修正を実装します。

システムの可観測性の向上

より良いインシデント検出のため、包括的なエラー追跡、モニタリング、アラートソリューションを設計・実装します。

试试这些提示

基本エラー分析
このエラーメッセージとスタックトレースを分析してください。考えられる原因を特定し、修正を提案してください:$ERROR_MESSAGE
分散システムのデバッグ
この分散システムのエラーをデバッグしてください。エラーはサービス $SERVICE_NAME でトレース ID $TRACE_ID と共に発生しました。分散トレースを検査し、どのアップストリームサービスが失敗の原因となったかを特定してください。
インシデント後レビュー
この障害のインシデント後レビューを実施してください。エラーパターン:$ERROR_PATTERN。タイムライン:$TIMELINE。寄与要因は何であり、どのような予防策を推奨しますか?
可観測性の実装
Node.js/Express アプリケーション向けの可観測性実装を設計してください。Sentry によるエラー追跡セットアップ、OpenTelemetry による分散トレーシング、および重大なエラー向けのアラートルールを含めてください。

最佳实践

  • 常にエラーをデプロイメント、設定変更、外部イベントと相関させる
  • 分散トレーシングのために相関 ID を含む構造化ログを実装する
  • 一時的な障害のために指数関数的バックオフによる再試行ロジックを作成する
  • ユーザー影響に基づくエラーバジェットとアラート閾値を確立する

避免

  • 断続的なエラーを無視する - これらは多くの場合システム的な問題を示している
  • 文脈固有のリカバリなしに汎用的なエラーハンドリングを実装する
  • 機密情報をスクラビングせずに生のエラーデータを外部システムに送信する
  • アラート閾値を低く設定しすぎてアラート疲労を引き起こす

常见问题

効果的なエラー分析のためにどのような情報を提供すべきですか?
完全なエラーメッセージ、スタックトレース全体、タイムスタンプ、影響を受けたサービス名、最近のデプロイメント履歴、および関連するログ抜粋を提供してください。
分散システムでエラーをデバッグするにはどうすればよいですか?
相関 ID を使用してサービス間のリクエストを追跡し、分散トレーシングデータを検査して障害ポイントを特定し、根本原因を見つけるために遡ってトレースしてください。
このスキルはどのような可観測性ツールをサポートしていますか?
このスキルは Sentry、DataDog、OpenTelemetry、Prometheus、Grafana、Jaeger、およびその他の主要な可観測性プラットフォームをカバーしています。
このスキルはエラー追跡の実装を支援できますか?
はい、実装プレイブックには Sentry、DataDog、およびその他のエラー追跡 SDK 統合のためのコードサンプルが含まれています。
修正のためのエラーの優先順位をどのように付けますか?
ユーザー影響、エラー頻度、重大度、およびエラーがシステム的な問題を示しているか単一障害点を示しているかに基づいて優先順位を付けます。
推奨されるエラーハンドリング戦略は何ですか?
多層防御を実装してください:バックオフによる再試行ロジック、サーキットブレーカー、適切なエラー伝播、包括的なログ記録、および自動化されたアラート。