data-cleaning-pipeline
生データのクリーニングと構造化
生データには、重複、欠損値、一貫性のない形式が含まれることが多く、分析の速度を低下させます。このスキルは、重複排除、補完、正規化、異常検出を自動化し、すぐに利用できるクリーンなデータセットを作成します。
スキルZIPをダウンロード
Claudeでアップロード
設定 → 機能 → スキル → スキルをアップロードへ移動
オンにして利用開始
Agent向けリソース
AI Agent、クローラー、またはスクリプトがページ全体ではなくクリーンなコンテキストを必要とする場合は、これらのリンクを使ってください。
テストする
「data-cleaning-pipeline」を使用しています。 '01/05/2023' や '2023-05-01' のような混在形式の日付、重複メールアドレス、欠損した電話番号を含む200件の顧客レコードのCSV。
期待される結果:
重複メールアドレスが単一行に統合され、欠損した電話番号が 'N/A' としてマークされ、すべての日付が 'YYYY-MM-DD' 形式に正規化されたクリーンなデータセット。また、削除された重複12件、補完された電話番号8件、再フォーマットされた日付45件を一覧化した要約レポート。
「data-cleaning-pipeline」を使用しています。 商品名の大文字小文字が一貫しておらず、価格セルが空で、注文数量に負の値が含まれる売上スプレッドシート。
期待される結果:
クリーン化されたデータでは、商品名がタイトルケースになり、空の価格はカテゴリ中央値で置き換えられ、負の数量は手動確認用の別レポートで異常としてフラグ付けされます。
「data-cleaning-pipeline」を使用しています。 複数言語の回答、余分な空白、'Y'、'yes'、'1'、'No' のような一貫性のないはい/いいえ値を含むアンケートエクスポート。
期待される結果:
空白がトリミングされ、はい/いいえ値が 'Yes' と 'No' に統一された標準化済み回答、およびクリーニング中に変更された回答数を示す頻度表。
セキュリティ監査
安全Static analysis flagged two high-severity patterns in SKILL.md, but both are false positives. The 'weak cryptographic algorithm' alert was triggered by Chinese text and Unicode arrows in the skill description, while the 'high file entropy' alert reflects the naturally higher entropy of CJK characters compared to ASCII. The file contains only a skill description with no code execution, network access, or malicious intent.
低リスクの問題 (2)
品質スコア
作れるもの
アンケート結果のクリーニング
データアナリストが、空欄、重複した送信、一貫性のない評価尺度を含むアンケート回答のCSVをアップロードします。このスキルは重複を削除し、欠損回答を 'Not Provided' で補完し、すべての評価を1-5の尺度に正規化します。
売上レポートの準備
ビジネスユーザーが、混在した通貨形式、空の割引セル、商品名の末尾の空白を含む月次売上データを貼り付けます。このスキルは通貨を標準化し、空の割引をゼロで補完し、すべてのテキストフィールドの空白をトリミングします。
トレーニングデータの前処理
開発者が、カテゴリ値のエンコード、数値範囲の正規化、外れ値の削除を行って機械学習用データセットを準備する必要があります。このスキルはカテゴリをエンコードし、min-maxスケーリングを適用し、極端な値にフラグを付けます。
これらのプロンプトを試す
このCSVデータをクリーニングしてください: 重複を削除し、欠損値を補完してください
日付形式が一貫していないデータセットがあります。すべての日付をISO 8601に正規化し、列名をsnake_caseに標準化してください。
この売上データ向けに完全なクリーニングパイプラインを構築してください: order_idで重複排除し、欠損価格をカテゴリごとの中央値で補完し、3標準偏差を超える外れ値にフラグを付け、クリーニングレポートを生成してください。
月次の顧客チャーンレポート向けに、再利用可能なデータクリーニングワークフローを設計してください。スキーマ検証、型強制、無効なメールアドレスにフラグを付けるためのカスタムビジネスルール、自動品質スコアリングを含めてください。
ベストプラクティス
- クリーニング操作を実行する前に、必ず生データをバックアップしてください
- データセットから外れ値を削除する前に、異常フラグをレビューしてください
- 再現性を維持するために、実施したクリーニング手順を文書化してください
回避
- 適切な同意なしに、個人を特定できる情報にこのスキルを使用しないでください
- レビューせずに、すべての自動置換を盲目的に受け入れないでください
- ツールのコンテキストウィンドウを超えるデータをクリーニングしようとしないでください