技能 data-cleaning-pipeline

📦

data-cleaning-pipeline

Name: data-cleaning-pipeline
Author: Hermes-Sedimentary

安全

清理并结构化原始数据

原始数据通常包含重复项、缺失值和不一致的格式，会拖慢分析速度。此技能可自动执行去重、补全、规范化和异常检测，生成可直接使用的干净数据集。

支持: Claude Codex Code(CC)

🥉 78 青铜

下载技能 ZIP

在 Claude 中上传

前往设置 → 功能 → 技能 → 上传技能

开启并开始使用

Agent 可读资源

当 AI Agent、爬虫或脚本需要干净上下文、而不是读取完整页面时，请使用这些链接。

Markdown 详情 GET /skills/zhangchenlai-dev-data-cleaning-pipeline.md 已签名 manifest GET /api/skills/zhangchenlai-dev-data-cleaning-pipeline/manifest 已签名 lockfile GET /api/skills/zhangchenlai-dev-data-cleaning-pipeline/lockfile

测试它

正在使用“data-cleaning-pipeline”。一份包含 200 条客户记录的 CSV，其中有重复电子邮件、缺失电话号码，以及类似 '01/05/2023' 和 '2023-05-01' 的混合格式日期。

预期结果:

清理后的数据集中，重复电子邮件被合并为单行，缺失电话号码标记为 'N/A'，所有日期都规范化为 'YYYY-MM-DD' 格式，并且摘要报告列出已移除 12 个重复项、填充 8 个电话号码、重新格式化 45 个日期。

正在使用“data-cleaning-pipeline”。一份销售电子表格，其中产品名称大小写不一致，价格单元格为空，并且订单数量包含负值。

预期结果:

清理后的数据将产品名称设为标题大小写，空白价格替换为类别中位数，并在单独报告中将负数量标记为异常，以供人工验证。

正在使用“data-cleaning-pipeline”。一份调查导出数据，其中回复包含多种语言、额外空白，以及类似 'Y'、'yes'、'1' 和 'No' 的不一致 yes/no 值。

预期结果:

标准化后的回复会修剪空白，将 yes/no 值统一为 'Yes' 和 'No'，并提供频率表显示清理过程中修改了多少条回复。

安全审计

安全

v1 • 5/21/2026

Static analysis flagged two high-severity patterns in SKILL.md, but both are false positives. The 'weak cryptographic algorithm' alert was triggered by Chinese text and Unicode arrows in the skill description, while the 'high file entropy' alert reflects the naturally higher entropy of CJK characters compared to ASCII. The file contains only a skill description with no code execution, network access, or malicious intent.

已扫描文件

分析行数

发现项

审计总数

低风险问题 (2)

SKILL.md:4

Weak Cryptographic Algorithm (False Positive)

Static scanner flagged 'weak cryptographic algorithm' with high confidence. Evaluation confirms this is a false positive. The pattern match was triggered by Unicode arrow symbols and Chinese characters in the description text at line 4. No actual cryptography, hashing, or encryption is present in the skill.

SKILL.md:1

High File Entropy (False Positive)

Static scanner reported high entropy (6.23 bits) suggesting binary or encrypted content. Evaluation confirms this is a false positive. Chinese CJK characters naturally have higher per-byte entropy than ASCII English text. The file is a plain UTF-8 markdown document containing only a skill description.

审计者: claude

质量评分

架构

可维护性

内容

社区

100

安全

规范符合性

你能构建什么

清理调查结果

数据分析师上传一份 CSV 调查回复数据，其中包含空白字段、重复提交和不一致的评分尺度。此技能会移除重复项，将缺失答案填充为 'Not Provided'，并将所有评分规范化为 1-5 分制。

准备销售报告

业务用户粘贴月度销售数据，其中包含混合的货币格式、空的折扣单元格，以及产品名称中的尾随空格。此技能会标准化货币格式，将空白折扣填充为零，并修剪所有文本字段。

预处理训练数据

开发者需要为机器学习准备数据集，包括编码后的分类值、规范化的数值范围，以及移除离群值。此技能会对类别进行编码，应用 min-max 缩放，并标记极端值。

试试这些提示

快速清理

清理这份 CSV 数据：移除重复项并填充缺失值

格式规范化

我有一个日期格式不一致的数据集。请将所有日期规范化为 ISO 8601，并将列名标准化为 snake_case。

完整管道

为这份销售数据构建完整的清理管道：按 order_id 去重，使用每个类别的中位数填充缺失价格，标记超过 3 个标准差的离群值，并生成清理报告。

可复用工作流设计

为月度客户流失报告设计可复用的数据清理工作流。包括 schema 验证、类型强制转换、用于标记无效电子邮件的自定义业务规则，以及自动化质量评分。

最佳实践

在运行清理操作之前，始终备份原始数据
在从数据集中移除离群值之前，先审核异常标记
记录已执行的清理步骤，以保持可复现性

避免

未经适当同意，不要将此技能用于个人身份信息
不要在未审核的情况下盲目接受所有自动替换
不要尝试清理超出工具上下文窗口的数据

常见问题

此技能支持哪些文件格式？

此技能适用于 CSV、Excel、JSON，以及直接粘贴到对话中的结构化文本数据。

此技能会修改我的原始文件吗？

不会。此技能只读取你粘贴或上传的数据。它会输出清理后的结果，供你单独保存。

它能处理包含数千行的数据集吗？

对于中等规模可以。超大型数据集应拆分成多个块，以保持在上下文限制内。

它会移除行，还是只标记问题？

两者都可以。你可以选择移除重复项和离群值，也可以仅标记它们以供人工审核。

我可以自定义清理规则吗？

可以。在提示中描述你的具体规则，例如自定义日期格式或特定领域的验证。

我的数据会与第三方共享吗？

不会。数据会在你的对话中处理，并受你的 AI 工具提供商隐私政策约束。

开发者详情

作者

Hermes-Sedimentary

许可证

MIT

仓库

https://github.com/zhangchenlai-dev/hermes-skill-store/tree/master/data-cleaning-pipeline

引用

master

文件结构

📄 SKILL.md