Compétences data-cleaning-pipeline

📦

data-cleaning-pipeline

Name: data-cleaning-pipeline
Author: Hermes-Sedimentary

Sûr

Nettoyer et structurer des données brutes

Les données brutes contiennent souvent des doublons, des valeurs manquantes et des formats incohérents qui ralentissent l’analyse. Cette compétence automatise la déduplication, le remplissage, la normalisation et la détection d’anomalies afin de produire des jeux de données propres et prêts à l’emploi.

Prend en charge: Claude Codex Code(CC)

🥉 78 Bronze

Télécharger le ZIP du skill

Importer dans Claude

Allez dans Paramètres → Capacités → Skills → Importer un skill

Activez et commencez à utiliser

Ressources lisibles par les agents

Utilisez ces liens lorsqu'un AI Agent, un crawler ou un script a besoin d'un contexte propre au lieu de lire toute la page.

Détail Markdown GET /skills/zhangchenlai-dev-data-cleaning-pipeline.md Manifest signé GET /api/skills/zhangchenlai-dev-data-cleaning-pipeline/manifest Lockfile signé GET /api/skills/zhangchenlai-dev-data-cleaning-pipeline/lockfile

Tester

Utilisation de "data-cleaning-pipeline". Un CSV contenant 200 enregistrements clients avec des e-mails en double, des numéros de téléphone manquants et des dates dans des formats mixtes comme '01/05/2023' et '2023-05-01'.

Résultat attendu:

Un jeu de données nettoyé dans lequel les e-mails en double sont consolidés en lignes uniques, les numéros de téléphone manquants sont marqués comme 'N/A', toutes les dates sont normalisées au format 'YYYY-MM-DD', et un rapport récapitulatif indique 12 doublons supprimés, 8 numéros de téléphone remplis et 45 dates reformatées.

Utilisation de "data-cleaning-pipeline". Une feuille de calcul de ventes avec des noms de produits à la casse incohérente, des cellules de prix vides et des quantités commandées incluant des valeurs négatives.

Résultat attendu:

Les données nettoyées ont des noms de produits en casse de titre, les prix vides sont remplacés par la médiane de la catégorie, et les quantités négatives sont signalées comme anomalies dans un rapport séparé pour vérification manuelle.

Utilisation de "data-cleaning-pipeline". Une exportation d’enquête avec des réponses dans plusieurs langues, des espaces superflus et des valeurs oui/non incohérentes comme 'Y', 'yes', '1' et 'No'.

Résultat attendu:

Des réponses standardisées avec les espaces superflus supprimés, des valeurs oui/non unifiées en 'Yes' et 'No', et un tableau de fréquences indiquant combien de réponses ont été modifiées pendant le nettoyage.

Audit de sécurité

Sûr

v1 • 5/21/2026

Static analysis flagged two high-severity patterns in SKILL.md, but both are false positives. The 'weak cryptographic algorithm' alert was triggered by Chinese text and Unicode arrows in the skill description, while the 'high file entropy' alert reflects the naturally higher entropy of CJK characters compared to ASCII. The file contains only a skill description with no code execution, network access, or malicious intent.

Fichiers analysés

Lignes analysées

résultats

Total des audits

Problèmes à risque faible (2)

SKILL.md:4

Weak Cryptographic Algorithm (False Positive)

Static scanner flagged 'weak cryptographic algorithm' with high confidence. Evaluation confirms this is a false positive. The pattern match was triggered by Unicode arrow symbols and Chinese characters in the description text at line 4. No actual cryptography, hashing, or encryption is present in the skill.

SKILL.md:1

High File Entropy (False Positive)

Static scanner reported high entropy (6.23 bits) suggesting binary or encrypted content. Evaluation confirms this is a false positive. Chinese CJK characters naturally have higher per-byte entropy than ASCII English text. The file is a plain UTF-8 markdown document containing only a skill description.

Audité par: claude

Score de qualité

Architecture

Maintenabilité

Contenu

Communauté

100

Sécurité

Conformité aux spécifications

Ce que vous pouvez construire

Nettoyer les résultats d’une enquête

Un analyste de données téléverse un CSV de réponses à une enquête contenant des champs vides, des soumissions en double et des échelles de notation incohérentes. La compétence supprime les doublons, remplit les réponses manquantes avec 'Not Provided' et normalise toutes les notes sur une échelle de 1 à 5.

Préparer des rapports de ventes

Un utilisateur métier colle des données de ventes mensuelles avec des formats de devise mixtes, des cellules de remise vides et des espaces de fin dans les noms de produits. La compétence standardise les devises, remplit les remises vides avec zéro et supprime les espaces superflus dans tous les champs texte.

Prétraiter des données d’entraînement

Un développeur doit préparer un jeu de données pour le machine learning avec des valeurs catégorielles encodées, des plages numériques normalisées et des valeurs aberrantes supprimées. La compétence encode les catégories, applique une mise à l’échelle min-max et signale les valeurs extrêmes.

Essayez ces prompts

Nettoyage rapide

Nettoie ces données CSV : supprime les doublons et remplis les valeurs manquantes

Normalisation des formats

J’ai un jeu de données avec des formats de date incohérents. Normalise toutes les dates au format ISO 8601 et standardise les noms de colonnes en snake_case.

Pipeline complet

Construis un pipeline de nettoyage complet pour ces données de ventes : déduplique par order_id, remplis les prix manquants avec la médiane par catégorie, signale les valeurs aberrantes au-dessus de 3 écarts types et génère un rapport de nettoyage.

Conception d’un flux de travail réutilisable

Conçois un flux de travail de nettoyage des données réutilisable pour les rapports mensuels d’attrition client. Inclue la validation du schéma, la coercition des types, des règles métier personnalisées pour signaler les e-mails invalides et une notation automatisée de la qualité.

Bonnes pratiques

Sauvegardez toujours vos données brutes avant d’exécuter des opérations de nettoyage
Examinez les indicateurs d’anomalies avant de supprimer les valeurs aberrantes de votre jeu de données
Documentez les étapes de nettoyage effectuées afin de maintenir la reproductibilité

Éviter

N’utilisez pas cette compétence pour des informations personnellement identifiables sans consentement approprié
N’acceptez pas aveuglément tous les remplacements automatisés sans examen
N’essayez pas de nettoyer des données qui dépassent la fenêtre de contexte de votre outil

Foire aux questions

Quels formats de fichiers cette compétence prend-elle en charge ?

Cette compétence fonctionne avec les données CSV, Excel, JSON et les données textuelles structurées collées directement dans la conversation.

Cette compétence modifiera-t-elle mes fichiers d’origine ?

Non. La compétence lit uniquement les données que vous collez ou téléversez. Elle produit des résultats nettoyés que vous pouvez enregistrer séparément.

Peut-elle gérer des jeux de données avec des milliers de lignes ?

Oui pour des tailles modérées. Les très grands jeux de données doivent être divisés en segments afin de rester dans les limites de contexte.

Supprime-t-elle des lignes ou signale-t-elle simplement les problèmes ?

Les deux. Vous pouvez choisir de supprimer les doublons et les valeurs aberrantes, ou simplement de les signaler pour examen manuel.

Puis-je personnaliser les règles de nettoyage ?

Oui. Décrivez vos règles spécifiques dans le prompt, comme des formats de date personnalisés ou une validation propre à un domaine.

Mes données sont-elles partagées avec des tiers ?

Non. Les données sont traitées dans votre conversation et sont soumises à la politique de confidentialité du fournisseur de votre outil d’IA.

Détails du développeur

Auteur

Hermes-Sedimentary

Licence

MIT

Dépôt

https://github.com/zhangchenlai-dev/hermes-skill-store/tree/master/data-cleaning-pipeline

Réf

master

Structure de fichiers

📄 SKILL.md