datadog-automation
Automatiser les tâches de surveillance et d'observabilité Datadog
La gestion manuelle des opérations de surveillance Datadog prend du temps et est sujette aux erreurs. Cette compétence automatise les requêtes de métriques, les recherches de logs, la gestion des monitors et les opérations de tableaux de bord via l'intégration Rube MCP.
Télécharger le ZIP du skill
Importer dans Claude
Allez dans Paramètres → Capacités → Skills → Importer un skill
Activez et commencez à utiliser
Tester
Utilisation de "datadog-automation". Query CPU usage for web01 last 5 minutes
Résultat attendu:
Récupéré 60 points de données montrant une utilisation moyenne du CPU allant de 12% à 45%, avec une valeur actuelle de 23%. Aucune anomalie détectée dans la série temporelle.
Utilisation de "datadog-automation". Search error logs for payment service
Résultat attendu:
Trouvé 127 logs d'erreurs correspondant aux critères. Principales erreurs : ConnectionTimeout (45%), DatabaseError (30%), ValidationError (25%). L'erreur la plus récente s'est produite il y a 2 minutes.
Audit de sécurité
SûrThis skill is documentation-only (SKILL.md) describing workflows for Datadog automation via Rube MCP. All 116 static analysis findings are false positives: backtick detections are Markdown code formatting, not shell execution. The hardcoded URL is documentation for MCP server setup. No executable code present. Network and external command risks are managed through the Rube MCP intermediary service with user-authenticated Datadog connections.
Problèmes à risque faible (1)
Facteurs de risque
🌐 Accès réseau (1)
⚙️ Commandes externes (1)
Score de qualité
Ce que vous pouvez construire
Réponse aux incidents pour ingénieurs DevOps
Interrogez rapidement les logs d'erreurs et les métriques pendant les incidents, créez des monitors pour les nouveaux modèles de défaillance, et rendez muets les alertes pendant les fenêtres de maintenance planifiées.
Gestion des tableaux de bord pour SRE
Créez et maintenez des tableaux de bord de santé de service, configurez des monitors d'alerte avec des seuils appropriés, et gérez les plannings de maintenance pour les déploiements.
Configuration d'observabilité pour les équipes plateforme
Automatisez la configuration initiale de la surveillance pour les nouveaux services, y compris les requêtes de métriques, les indexes de logs, les monitors de référence et les tableaux de bord d'équipe.
Essayez ces prompts
Interroger l'utilisation moyenne du CPU pour l'host web01 au cours des 5 dernières minutes en utilisant les métriques Datadog.
Rechercher tous les logs d'erreurs du service payment au cours de la dernière heure, triés par plus récent, limiter à 50 entrées.
Créer un monitor d'alerte de métrique nommé 'High Memory Usage' qui se déclenche lorsque l'utilisation moyenne de la mémoire dépasse 85% sur les hosts de production. Envoyer les notifications au canal ops-slack.
Planifier une période de maintenance pour tous les hosts avec le tag env:staging de 2h à 4h UTC demain avec le message 'Fenêtre de maintenance de déploiement planifiée'.
Bonnes pratiques
- Appelez toujours RUBE_SEARCH_TOOLS d'abord pour obtenir les schémas des outils actuels avant d'exécuter les workflows
- Utilisez des filtres de tags spécifiques dans les requêtes pour réduire le bruit des résultats et améliorer les performances
- Définissez des heures de fin explicites pour les périodes de maintenance afin d'éviter la suppression indéfinie des alertes
Éviter
- Ne créez pas de monitors sans définir des seuils d'alerte clairs et des messages de notification
- Évitez d'interroger des plages horaires trop larges qui dépassent les limites de conservation de Datadog
- Ne supprimez pas de tableaux de bord sans confirmer la sauvegarde des configurations des widgets