スキル data-cleaning-pipeline
📦

data-cleaning-pipeline

安全

生データのクリーニングと構造化

生データには、重複、欠損値、一貫性のない形式が含まれることが多く、分析の速度を低下させます。このスキルは、重複排除、補完、正規化、異常検出を自動化し、すぐに利用できるクリーンなデータセットを作成します。

対応: Claude Codex Code(CC)
🥉 78 ブロンズ
1

スキルZIPをダウンロード

2

Claudeでアップロード

設定 → 機能 → スキル → スキルをアップロードへ移動

3

オンにして利用開始

Agent向けリソース

AI Agent、クローラー、またはスクリプトがページ全体ではなくクリーンなコンテキストを必要とする場合は、これらのリンクを使ってください。

テストする

「data-cleaning-pipeline」を使用しています。 '01/05/2023' や '2023-05-01' のような混在形式の日付、重複メールアドレス、欠損した電話番号を含む200件の顧客レコードのCSV。

期待される結果:

重複メールアドレスが単一行に統合され、欠損した電話番号が 'N/A' としてマークされ、すべての日付が 'YYYY-MM-DD' 形式に正規化されたクリーンなデータセット。また、削除された重複12件、補完された電話番号8件、再フォーマットされた日付45件を一覧化した要約レポート。

「data-cleaning-pipeline」を使用しています。 商品名の大文字小文字が一貫しておらず、価格セルが空で、注文数量に負の値が含まれる売上スプレッドシート。

期待される結果:

クリーン化されたデータでは、商品名がタイトルケースになり、空の価格はカテゴリ中央値で置き換えられ、負の数量は手動確認用の別レポートで異常としてフラグ付けされます。

「data-cleaning-pipeline」を使用しています。 複数言語の回答、余分な空白、'Y'、'yes'、'1'、'No' のような一貫性のないはい/いいえ値を含むアンケートエクスポート。

期待される結果:

空白がトリミングされ、はい/いいえ値が 'Yes' と 'No' に統一された標準化済み回答、およびクリーニング中に変更された回答数を示す頻度表。

セキュリティ監査

安全
v1 • 5/21/2026

Static analysis flagged two high-severity patterns in SKILL.md, but both are false positives. The 'weak cryptographic algorithm' alert was triggered by Chinese text and Unicode arrows in the skill description, while the 'high file entropy' alert reflects the naturally higher entropy of CJK characters compared to ASCII. The file contains only a skill description with no code execution, network access, or malicious intent.

1
スキャンされたファイル
34
解析された行数
2
検出結果
1
総監査数
低リスクの問題 (2)
Weak Cryptographic Algorithm (False Positive)
Static scanner flagged 'weak cryptographic algorithm' with high confidence. Evaluation confirms this is a false positive. The pattern match was triggered by Unicode arrow symbols and Chinese characters in the description text at line 4. No actual cryptography, hashing, or encryption is present in the skill.
High File Entropy (False Positive)
Static scanner reported high entropy (6.23 bits) suggesting binary or encrypted content. Evaluation confirms this is a false positive. Chinese CJK characters naturally have higher per-byte entropy than ASCII English text. The file is a plain UTF-8 markdown document containing only a skill description.
監査者: claude

品質スコア

55
アーキテクチャ
95
保守性
85
コンテンツ
65
コミュニティ
100
セキュリティ
83
仕様準拠

作れるもの

アンケート結果のクリーニング

データアナリストが、空欄、重複した送信、一貫性のない評価尺度を含むアンケート回答のCSVをアップロードします。このスキルは重複を削除し、欠損回答を 'Not Provided' で補完し、すべての評価を1-5の尺度に正規化します。

売上レポートの準備

ビジネスユーザーが、混在した通貨形式、空の割引セル、商品名の末尾の空白を含む月次売上データを貼り付けます。このスキルは通貨を標準化し、空の割引をゼロで補完し、すべてのテキストフィールドの空白をトリミングします。

トレーニングデータの前処理

開発者が、カテゴリ値のエンコード、数値範囲の正規化、外れ値の削除を行って機械学習用データセットを準備する必要があります。このスキルはカテゴリをエンコードし、min-maxスケーリングを適用し、極端な値にフラグを付けます。

これらのプロンプトを試す

クイッククリーニング
このCSVデータをクリーニングしてください: 重複を削除し、欠損値を補完してください
形式の正規化
日付形式が一貫していないデータセットがあります。すべての日付をISO 8601に正規化し、列名をsnake_caseに標準化してください。
完全なパイプライン
この売上データ向けに完全なクリーニングパイプラインを構築してください: order_idで重複排除し、欠損価格をカテゴリごとの中央値で補完し、3標準偏差を超える外れ値にフラグを付け、クリーニングレポートを生成してください。
再利用可能なワークフロー設計
月次の顧客チャーンレポート向けに、再利用可能なデータクリーニングワークフローを設計してください。スキーマ検証、型強制、無効なメールアドレスにフラグを付けるためのカスタムビジネスルール、自動品質スコアリングを含めてください。

ベストプラクティス

  • クリーニング操作を実行する前に、必ず生データをバックアップしてください
  • データセットから外れ値を削除する前に、異常フラグをレビューしてください
  • 再現性を維持するために、実施したクリーニング手順を文書化してください

回避

  • 適切な同意なしに、個人を特定できる情報にこのスキルを使用しないでください
  • レビューせずに、すべての自動置換を盲目的に受け入れないでください
  • ツールのコンテキストウィンドウを超えるデータをクリーニングしようとしないでください

よくある質問

このスキルはどのファイル形式をサポートしていますか?
このスキルは、CSV、Excel、JSON、および会話に直接貼り付けられた構造化テキストデータに対応しています。
このスキルは元のファイルを変更しますか?
いいえ。このスキルは、貼り付けまたはアップロードされたデータのみを読み取ります。別途保存できるように、クリーン化された結果を出力します。
数千行のデータセットを処理できますか?
中程度のサイズであれば可能です。非常に大きなデータセットは、コンテキスト制限内に収まるようにチャンクに分割する必要があります。
行を削除しますか、それとも問題にフラグを付けるだけですか?
どちらも可能です。重複や外れ値を削除することも、手動レビュー用にフラグ付けだけすることもできます。
クリーニングルールをカスタマイズできますか?
はい。カスタム日付形式やドメイン固有の検証など、具体的なルールをプロンプトで説明してください。
私のデータは第三者と共有されますか?
いいえ。データは会話内で処理され、利用しているAIツール提供者のプライバシーポリシーの対象となります。

開発者の詳細

ファイル構成

📄 SKILL.md