data-cleaning-pipeline
清理并结构化原始数据
原始数据通常包含重复项、缺失值和不一致的格式,会拖慢分析速度。此技能可自动执行去重、补全、规范化和异常检测,生成可直接使用的干净数据集。
下载技能 ZIP
在 Claude 中上传
前往 设置 → 功能 → 技能 → 上传技能
开启并开始使用
Agent 可读资源
当 AI Agent、爬虫或脚本需要干净上下文、而不是读取完整页面时,请使用这些链接。
测试它
正在使用“data-cleaning-pipeline”。 一份包含 200 条客户记录的 CSV,其中有重复电子邮件、缺失电话号码,以及类似 '01/05/2023' 和 '2023-05-01' 的混合格式日期。
预期结果:
清理后的数据集中,重复电子邮件被合并为单行,缺失电话号码标记为 'N/A',所有日期都规范化为 'YYYY-MM-DD' 格式,并且摘要报告列出已移除 12 个重复项、填充 8 个电话号码、重新格式化 45 个日期。
正在使用“data-cleaning-pipeline”。 一份销售电子表格,其中产品名称大小写不一致,价格单元格为空,并且订单数量包含负值。
预期结果:
清理后的数据将产品名称设为标题大小写,空白价格替换为类别中位数,并在单独报告中将负数量标记为异常,以供人工验证。
正在使用“data-cleaning-pipeline”。 一份调查导出数据,其中回复包含多种语言、额外空白,以及类似 'Y'、'yes'、'1' 和 'No' 的不一致 yes/no 值。
预期结果:
标准化后的回复会修剪空白,将 yes/no 值统一为 'Yes' 和 'No',并提供频率表显示清理过程中修改了多少条回复。
安全审计
安全Static analysis flagged two high-severity patterns in SKILL.md, but both are false positives. The 'weak cryptographic algorithm' alert was triggered by Chinese text and Unicode arrows in the skill description, while the 'high file entropy' alert reflects the naturally higher entropy of CJK characters compared to ASCII. The file contains only a skill description with no code execution, network access, or malicious intent.
低风险问题 (2)
质量评分
你能构建什么
清理调查结果
数据分析师上传一份 CSV 调查回复数据,其中包含空白字段、重复提交和不一致的评分尺度。此技能会移除重复项,将缺失答案填充为 'Not Provided',并将所有评分规范化为 1-5 分制。
准备销售报告
业务用户粘贴月度销售数据,其中包含混合的货币格式、空的折扣单元格,以及产品名称中的尾随空格。此技能会标准化货币格式,将空白折扣填充为零,并修剪所有文本字段。
预处理训练数据
开发者需要为机器学习准备数据集,包括编码后的分类值、规范化的数值范围,以及移除离群值。此技能会对类别进行编码,应用 min-max 缩放,并标记极端值。
试试这些提示
清理这份 CSV 数据:移除重复项并填充缺失值
我有一个日期格式不一致的数据集。请将所有日期规范化为 ISO 8601,并将列名标准化为 snake_case。
为这份销售数据构建完整的清理管道:按 order_id 去重,使用每个类别的中位数填充缺失价格,标记超过 3 个标准差的离群值,并生成清理报告。
为月度客户流失报告设计可复用的数据清理工作流。包括 schema 验证、类型强制转换、用于标记无效电子邮件的自定义业务规则,以及自动化质量评分。
最佳实践
- 在运行清理操作之前,始终备份原始数据
- 在从数据集中移除离群值之前,先审核异常标记
- 记录已执行的清理步骤,以保持可复现性
避免
- 未经适当同意,不要将此技能用于个人身份信息
- 不要在未审核的情况下盲目接受所有自动替换
- 不要尝试清理超出工具上下文窗口的数据