Compétences data-cleaning-pipeline
📦

data-cleaning-pipeline

Sûr

Nettoyer et structurer des données brutes

Les données brutes contiennent souvent des doublons, des valeurs manquantes et des formats incohérents qui ralentissent l’analyse. Cette compétence automatise la déduplication, le remplissage, la normalisation et la détection d’anomalies afin de produire des jeux de données propres et prêts à l’emploi.

Prend en charge: Claude Codex Code(CC)
🥉 78 Bronze
1

Télécharger le ZIP du skill

2

Importer dans Claude

Allez dans Paramètres → Capacités → Skills → Importer un skill

3

Activez et commencez à utiliser

Ressources lisibles par les agents

Utilisez ces liens lorsqu'un AI Agent, un crawler ou un script a besoin d'un contexte propre au lieu de lire toute la page.

Tester

Utilisation de "data-cleaning-pipeline". Un CSV contenant 200 enregistrements clients avec des e-mails en double, des numéros de téléphone manquants et des dates dans des formats mixtes comme '01/05/2023' et '2023-05-01'.

Résultat attendu:

Un jeu de données nettoyé dans lequel les e-mails en double sont consolidés en lignes uniques, les numéros de téléphone manquants sont marqués comme 'N/A', toutes les dates sont normalisées au format 'YYYY-MM-DD', et un rapport récapitulatif indique 12 doublons supprimés, 8 numéros de téléphone remplis et 45 dates reformatées.

Utilisation de "data-cleaning-pipeline". Une feuille de calcul de ventes avec des noms de produits à la casse incohérente, des cellules de prix vides et des quantités commandées incluant des valeurs négatives.

Résultat attendu:

Les données nettoyées ont des noms de produits en casse de titre, les prix vides sont remplacés par la médiane de la catégorie, et les quantités négatives sont signalées comme anomalies dans un rapport séparé pour vérification manuelle.

Utilisation de "data-cleaning-pipeline". Une exportation d’enquête avec des réponses dans plusieurs langues, des espaces superflus et des valeurs oui/non incohérentes comme 'Y', 'yes', '1' et 'No'.

Résultat attendu:

Des réponses standardisées avec les espaces superflus supprimés, des valeurs oui/non unifiées en 'Yes' et 'No', et un tableau de fréquences indiquant combien de réponses ont été modifiées pendant le nettoyage.

Audit de sécurité

Sûr
v1 • 5/21/2026

Static analysis flagged two high-severity patterns in SKILL.md, but both are false positives. The 'weak cryptographic algorithm' alert was triggered by Chinese text and Unicode arrows in the skill description, while the 'high file entropy' alert reflects the naturally higher entropy of CJK characters compared to ASCII. The file contains only a skill description with no code execution, network access, or malicious intent.

1
Fichiers analysés
34
Lignes analysées
2
résultats
1
Total des audits
Problèmes à risque faible (2)
Weak Cryptographic Algorithm (False Positive)
Static scanner flagged 'weak cryptographic algorithm' with high confidence. Evaluation confirms this is a false positive. The pattern match was triggered by Unicode arrow symbols and Chinese characters in the description text at line 4. No actual cryptography, hashing, or encryption is present in the skill.
High File Entropy (False Positive)
Static scanner reported high entropy (6.23 bits) suggesting binary or encrypted content. Evaluation confirms this is a false positive. Chinese CJK characters naturally have higher per-byte entropy than ASCII English text. The file is a plain UTF-8 markdown document containing only a skill description.
Audité par: claude

Score de qualité

55
Architecture
95
Maintenabilité
85
Contenu
65
Communauté
100
Sécurité
83
Conformité aux spécifications

Ce que vous pouvez construire

Nettoyer les résultats d’une enquête

Un analyste de données téléverse un CSV de réponses à une enquête contenant des champs vides, des soumissions en double et des échelles de notation incohérentes. La compétence supprime les doublons, remplit les réponses manquantes avec 'Not Provided' et normalise toutes les notes sur une échelle de 1 à 5.

Préparer des rapports de ventes

Un utilisateur métier colle des données de ventes mensuelles avec des formats de devise mixtes, des cellules de remise vides et des espaces de fin dans les noms de produits. La compétence standardise les devises, remplit les remises vides avec zéro et supprime les espaces superflus dans tous les champs texte.

Prétraiter des données d’entraînement

Un développeur doit préparer un jeu de données pour le machine learning avec des valeurs catégorielles encodées, des plages numériques normalisées et des valeurs aberrantes supprimées. La compétence encode les catégories, applique une mise à l’échelle min-max et signale les valeurs extrêmes.

Essayez ces prompts

Nettoyage rapide
Nettoie ces données CSV : supprime les doublons et remplis les valeurs manquantes
Normalisation des formats
J’ai un jeu de données avec des formats de date incohérents. Normalise toutes les dates au format ISO 8601 et standardise les noms de colonnes en snake_case.
Pipeline complet
Construis un pipeline de nettoyage complet pour ces données de ventes : déduplique par order_id, remplis les prix manquants avec la médiane par catégorie, signale les valeurs aberrantes au-dessus de 3 écarts types et génère un rapport de nettoyage.
Conception d’un flux de travail réutilisable
Conçois un flux de travail de nettoyage des données réutilisable pour les rapports mensuels d’attrition client. Inclue la validation du schéma, la coercition des types, des règles métier personnalisées pour signaler les e-mails invalides et une notation automatisée de la qualité.

Bonnes pratiques

  • Sauvegardez toujours vos données brutes avant d’exécuter des opérations de nettoyage
  • Examinez les indicateurs d’anomalies avant de supprimer les valeurs aberrantes de votre jeu de données
  • Documentez les étapes de nettoyage effectuées afin de maintenir la reproductibilité

Éviter

  • N’utilisez pas cette compétence pour des informations personnellement identifiables sans consentement approprié
  • N’acceptez pas aveuglément tous les remplacements automatisés sans examen
  • N’essayez pas de nettoyer des données qui dépassent la fenêtre de contexte de votre outil

Foire aux questions

Quels formats de fichiers cette compétence prend-elle en charge ?
Cette compétence fonctionne avec les données CSV, Excel, JSON et les données textuelles structurées collées directement dans la conversation.
Cette compétence modifiera-t-elle mes fichiers d’origine ?
Non. La compétence lit uniquement les données que vous collez ou téléversez. Elle produit des résultats nettoyés que vous pouvez enregistrer séparément.
Peut-elle gérer des jeux de données avec des milliers de lignes ?
Oui pour des tailles modérées. Les très grands jeux de données doivent être divisés en segments afin de rester dans les limites de contexte.
Supprime-t-elle des lignes ou signale-t-elle simplement les problèmes ?
Les deux. Vous pouvez choisir de supprimer les doublons et les valeurs aberrantes, ou simplement de les signaler pour examen manuel.
Puis-je personnaliser les règles de nettoyage ?
Oui. Décrivez vos règles spécifiques dans le prompt, comme des formats de date personnalisés ou une validation propre à un domaine.
Mes données sont-elles partagées avec des tiers ?
Non. Les données sont traitées dans votre conversation et sont soumises à la politique de confidentialité du fournisseur de votre outil d’IA.

Détails du développeur

Structure de fichiers

📄 SKILL.md