技能 data-orchestrator
📦

data-orchestrator

安全

通过质量强制执行编排数据流水线

管理跨 ETL 流程、分析和特征工程的复杂数据工作流需要协调编排和质量强制执行。此技能充当 CTO-Data 角色,协调数据任务同时维持 95% 的最低质量标准。

支持: Claude Codex Code(CC)
📊 69 充足
1

下载技能 ZIP

2

在 Claude 中上传

前往 设置 → 功能 → 技能 → 上传技能

3

开启并开始使用

测试它

正在使用“data-orchestrator”。 为客户细分设置每日流水线

预期结果:

我将协调客户细分流水线设置。首先,我将在 ai-state/active/data/pipelines.json 中创建每日调度的流水线定义。接下来,我将配置完整性和准确性的数据质量检查。然后我将设置特征依赖关系,包括客户交易和人口统计数据。最后,我将添加流水线成功率和处理时间的监控。

正在使用“data-orchestrator”。 我应该为交易表添加哪些质量检查?

预期结果:

对于交易表,我推荐这些质量检查:对必需字段如 transaction_id、customer_id、amount 和 timestamp 进行完整性检查。准确性验证确保金额为正且在预期范围内。一致性规则检查 customer_ids 是否存在于客户表中。及时性指标确认数据在交易时间后 1 小时内到达。transaction_id 的唯一性约束。日期格式和货币代码的有效性检查。

正在使用“data-orchestrator”。 如何跟踪特征之间的依赖关系?

预期结果:

特征依赖关系在 ai-state/active/data/features.json 中跟踪。每个特征定义包含一个 dependencies 数组,列出计算所需的源表和其他特征。当您创建新特征时,记录上游依赖关系,该技能将在执行前验证它们是否存在。这确保了流水线执行中的正确顺序,并有助于在源数据更改时识别影响。

安全审计

安全
v6 • 1/21/2026

Static analysis detected 34 pattern matches, all evaluated as false positives. The skill contains documentation and configuration examples for data orchestration workflows. No executable code, network requests, or security risks identified. Safe for publication.

2
已扫描文件
647
分析行数
0
发现项
6
审计总数
未发现安全问题
审计者: claude 查看审计历史 →

质量评分

38
架构
100
可维护性
87
内容
22
社区
100
安全
83
规范符合性

你能构建什么

每日 ETL 流水线协调

协调每日聚合流水线,处理客户交易、验证数据质量,并通过适当的错误处理和监控更新分析表。

特征工程工作流

管理机器学习模型的特征创建任务,跟踪特征之间的依赖关系,并确保跨环境的计算逻辑一致性。

数据质量监控

编排跨多个数据源的质量检查,跟踪完整性、准确性和及时性指标,以维护数据治理标准。

试试这些提示

设置每日流水线
设置一个每日 ETL 流水线,提取客户交易、按产品类别聚合收入,并将结果加载到分析数据库,同时进行质量检查。
创建收入特征
创建一个名为 revenue_30d 的特征,计算过去 30 天的客户总收入,包括处理缺失数据和边缘情况。
实施质量监控
为交易表实施数据质量监控,检查完整性、有效的日期范围和重复检测,并配置告警。
协调多源流水线
协调一个流水线,从三个来源合并客户数据,使用定义的业务规则解决冲突,验证跨数据集的一致性,并更新主客户表。

最佳实践

  • 在实施流水线之前定义明确的数据质量阈值,并在每个转换阶段强制执行,以便及早发现问题。
  • 维护从源到目标的全面数据血缘跟踪,以便在架构更改或数据问题发生时进行影响分析。
  • 在长期运行的流水线中实施检查点和恢复机制,避免在失败后从头开始重新处理。

避免

  • 不进行输入验证就处理数据会导致下游的级联错误。始终在流水线入口点验证数据质量。
  • 在没有文档的情况下硬编码转换逻辑使流水线难以维护。记录业务规则并对特征定义进行版本控制。
  • 在没有监控或告警的情况下运行流水线会延迟故障检测。从一开始就实施全面的可观察性。

常见问题

所需的最低数据质量分数是多少?
该技能强制执行完整性和准确性指标的 95% 最低质量阈值。低于此阈值的流水线将触发告警,并可能被阻止将数据加载到生产表。
该技能如何在不同的数据任务之间进行协调?
该技能使用 JSON 文件在 ai-state/active/data 目录中维护流水线状态,用于流水线、特征和质量指标。它将任务分配给专门的技能,如 etl-skill 或 feature-engineering-skill,并提供包含依赖关系和标准的完整上下文包。
此技能能否执行实际的 ETL 代码?
不,这是一个协调技能,编排数据工作流但不执行处理代码。它与现有的数据基础设施和工具配合使用,提供任务协调和质量强制执行。
当流水线未通过质量检查时会发生什么?
当质量检查失败时,该技能记录失败详情,计算质量分数,如果低于阈值可以阻止数据加载。它广播事件以通知其他系统,并更新 ai-state 中的质量指标以跟踪趋势。
如何跟踪特征依赖关系?
特征在 features.json 中注册,包含明确的依赖数组,列出所需的表和上游特征。该技能在执行前验证依赖关系是否存在,并维护版本历史以实现可重现性。
这是否适用于实时流数据?
是的,该技能支持批处理和流处理模式。对于流处理,它提供有关窗口化、延迟到达处理和状态管理的指导,同时保持相同的质量标准。

开发者详情

文件结构

📄 SKILL.md