技能 data-quality-frameworks
📦
使用 Great Expectations、dbt 测试和数据契约的综合验证,确保可靠的数据管道。通过生产级质量模式减少数据事件并建立分析可信度。
支持: Claude Codex Code(CC)
1
下载技能 ZIP
2
在 Claude 中上传
前往 设置 → 功能 → 技能 → 上传技能
3
开启并开始使用
测试它
正在使用“data-quality-frameworks”。 为每日订单验证生成 Great Expectations 检查点,并配置 Slack 警报
预期结果:
- 已配置每日验证计划的检查点
- 操作:存储结果、更新 Data Docs、失败时发送 Slack
- 使用 SLACK_WEBHOOK 环境变量进行 Webhook 集成
- 运行方式:context.run_checkpoint(checkpoint_name='orders_checkpoint')
正在使用“data-quality-frameworks”。 创建包含 PII 处理的用户事件数据契约
预期结果:
- 契约定义 user_id(UUID,必填,唯一)
- email 字段标记为 PII,分类为 indirect
- 质量检查:row_count > 0,duplicate_count = 0
- SLA:99.9% 可用性,1 小时新鲜度,5 分钟延迟
安全审计
安全v1 • 2/24/2026
This is a documentation-only skill providing markdown guides for data quality frameworks. All static analysis findings are false positives: code blocks are markdown examples not executable code, URLs are documentation references, and pattern matches on SQL terms are not actual system calls.
2
已扫描文件
617
分析行数
0
发现项
1
审计总数
未发现安全问题
审计者: claude
质量评分
38
架构
100
可维护性
87
内容
50
社区
100
安全
100
规范符合性
你能构建什么
分析工程师构建 dbt 测试
为您的 dbt 模型创建全面的测试套件,包括列级验证、关系检查和自定义业务规则。
数据平台团队建立契约
在数据生产者和消费者之间定义数据契约,包含明确的模式期望、质量 SLA 和所有权。
数据质量负责人实施 Great Expectations
部署企业级数据质量验证,包括期望套件、检查点和自动化报告仪表板。
试试这些提示
基本列验证
为 orders 表创建 Great Expectations 套件,以 order_id 为主键。包含 not null、unique 的期望,以及有效的 order status 值(pending、processing、shipped、delivered、cancelled)的期望。
dbt 测试配置
为客户维度表生成 dbt schema.yml 测试配置。包含 customer_id 的 unique 和 not_null 测试、status 的 accepted_values 测试,以及验证引用完整性的 relationship 测试。
数据契约规范
为来自电子商务平台的订单事件设计数据契约。包含带类型的模式字段、PII 分类、使用 SodaCL 语法的质量检查,以及新鲜度和可用性的 SLA 定义。
自定义业务规则测试
编写一个自定义 dbt 测试,验证订单总额的一致性:subtotal + tax + shipping 必须在 total_amount 的 0.01 误差范围内。包含完整的宏和使用示例。
最佳实践
- 在管道早期进行测试 - 在转换之前验证源数据,以便在摄入阶段发现问题
- 关注关键列 - 优先处理高影响力字段,而非追求全面覆盖
- 为每个期望提供清晰的描述,以便团队成员理解业务规则
避免
- 在没有备用方案的情况下阻止生产管道 - 对于关键数据流始终保留手动覆盖路径
- 单独测试 - 验证表之间的关系,而不仅仅是单个列约束
- 硬编码阈值 - 使用动态基线和统计范围来适应数据增长
常见问题
Great Expectations 和 dbt 测试有什么区别?
Great Expectations 提供丰富的期望套件,具有详细的验证报告和 Data Docs。dbt 测试是基于 SQL 的,作为 dbt 构建过程的一部分运行。两者结合使用:dbt 用于转换时检查,Great Expectations 用于更深入的验证。
如何在验证输出中处理 PII 数据?
切勿在验证结果或报告中包含原始 PII 值。使用聚合、掩码或仅报告行数和统计摘要。在数据契约中标记 PII 字段并实施额外的访问控制。
数据质量检查失败时我应该怎么做?
首先,验证是数据问题还是测试问题。警报数据所有者,如果正在阻止则隔离受影响的数据,并记录事件。利用失败来改进测试并防止再次发生。
如何对数据契约进行版本控制?
将契约视为代码:存储在 git 中,使用语义版本控制,并维护变更日志。对于重大变更,增加主版本号并为消费者提供迁移指导。
我可以在 CI/CD 管道中运行 Great Expectations 吗?
可以。在 CI 中运行轻量级期望套件以捕获模式变更和关键违规。单独安排全面套件的运行,以避免减慢部署速度。
我应该跟踪哪些数据质量指标?
跟踪按套件的通过率、平均检测失败时间、平均解决时间,以及随时间的趋势分析。分别监控新鲜度、完整性和有效性维度。