data-cleaning-pipeline
清理並結構化原始資料
原始資料通常包含重複項目、缺漏值和不一致的格式,會拖慢分析速度。此技能會自動執行去重、補全、正規化和異常偵測,以產生可直接使用的乾淨資料集。
下載技能 ZIP
在 Claude 中上傳
前往 設定 → 功能 → 技能 → 上傳技能
開啟並開始使用
Agent 可讀資源
當 AI Agent、爬蟲或腳本需要乾淨上下文、而不是讀取完整頁面時,請使用這些連結。
測試它
正在使用「data-cleaning-pipeline」。 一份包含 200 筆客戶記錄的 CSV,其中有重複電子郵件、缺漏電話號碼,以及像 '01/05/2023' 和 '2023-05-01' 這樣混合格式的日期。
預期結果:
一個清理後的資料集,其中重複電子郵件已合併為單一列,缺漏電話號碼標記為 'N/A',所有日期都正規化為 'YYYY-MM-DD' 格式,且摘要報告列出已移除 12 筆重複項目、填補 8 個電話號碼,並重新格式化 45 個日期。
正在使用「data-cleaning-pipeline」。 一份銷售試算表,其中產品名稱大小寫不一致、價格儲存格空白,且訂單數量包含負值。
預期結果:
清理後的資料將產品名稱轉為標題式大小寫,空白價格以類別中位數取代,並在獨立報告中將負數量標記為異常,以供人工驗證。
正在使用「data-cleaning-pipeline」。 一份問卷匯出資料,其中回覆包含多種語言、額外空白,以及像 'Y'、'yes'、'1' 和 'No' 這類不一致的是/否值。
預期結果:
標準化後的回覆會修剪空白、將是/否值統一為 'Yes' 和 'No',並提供頻率表,顯示清理期間修改了多少筆回覆。
安全審計
安全Static analysis flagged two high-severity patterns in SKILL.md, but both are false positives. The 'weak cryptographic algorithm' alert was triggered by Chinese text and Unicode arrows in the skill description, while the 'high file entropy' alert reflects the naturally higher entropy of CJK characters compared to ASCII. The file contains only a skill description with no code execution, network access, or malicious intent.
低風險問題 (2)
品質評分
你能建構什麼
清理問卷結果
資料分析師上傳一份問卷回覆 CSV,其中包含空白欄位、重複提交,以及不一致的評分量表。此技能會移除重複項目、以 'Not Provided' 填補缺漏答案,並將所有評分正規化為 1-5 量表。
準備銷售報告
商務使用者貼上每月銷售資料,其中包含混用的貨幣格式、空白折扣儲存格,以及產品名稱中的尾端空白。此技能會標準化貨幣、以零填補空白折扣,並修剪所有文字欄位。
前處理訓練資料
開發者需要為機器學習準備資料集,包括編碼類別值、正規化數值範圍,以及移除離群值。此技能會編碼類別、套用 min-max 縮放,並標記極端值。
試試這些提示
Clean this CSV data: remove duplicates and fill missing values
I have a dataset with inconsistent date formats. Normalize all dates to ISO 8601 and standardize column names to snake_case.
Build a full cleaning pipeline for this sales data: deduplicate by order_id, fill missing prices with the median per category, flag outliers above 3 standard deviations, and generate a cleaning report.
Design a reusable data cleaning workflow for monthly customer churn reports. Include schema validation, type coercion, custom business rules for flagging invalid emails, and automated quality scoring.
最佳實務
- 執行清理操作前,務必備份原始資料
- 從資料集中移除離群值前,請先檢閱異常標記
- 記錄已採取的清理步驟,以維持可重現性
避免
- 未取得適當同意時,請勿將此技能用於個人識別資訊
- 請勿在未檢閱的情況下盲目接受所有自動替換
- 請勿嘗試清理超出工具上下文視窗的資料