技能 ML Engineer
📦
ML Engineer
安全
在专家指导下构建生产级ML系统
将机器学习模型部署到生产环境需要服务、监控和基础设施方面的专业知识,而许多团队缺乏这些经验。本技能提供经过实战验证的模式,帮助您使用PyTorch 2.x和TensorFlow等现代框架构建可靠、可扩展的ML系统。
支持: Claude Codex Code(CC)
1
下载技能 ZIP
2
在 Claude 中上传
前往 设置 → 功能 → 技能 → 上传技能
3
开启并开始使用
测试它
正在使用“ML Engineer”。 设计一个图像分类模型服务架构,要求延迟SLA为50毫秒
预期结果:
- 推荐使用TorchServe和GPU实例的架构
- 用于吞吐量优化的请求批处理配置
- 用于重复输入预测缓存的Redis层
- 基于队列深度和延迟指标的自动扩展策略
- 故障期间优雅降级的断路器模式
正在使用“ML Engineer”。 如何实现模型比较的A/B测试
预期结果:
- 使用粘性会话确保用户一致性的流量分割策略
- 用于检测2%改进的统计功效计算
- 监控负面副作用的护栏指标
- 带早期停止标准的序贯测试方法
- 基于基线转化率的样本量估算
安全审计
安全v1 • 2/25/2026
Prompt-only skill with no executable code. Static analysis found 0 files with executable content and computed risk score of 0/100. The SKILL.md file contains only markdown documentation and AI assistant instructions for ML engineering tasks. No security concerns identified.
0
已扫描文件
0
分析行数
0
发现项
1
审计总数
未发现安全问题
审计者: claude
质量评分
38
架构
100
可维护性
87
内容
24
社区
100
安全
74
规范符合性
你能构建什么
实时推荐系统
设计一个高吞吐量的推荐引擎,每秒处理100K次预测,使用Redis缓存和TorchServe进行模型服务。
ML流水线自动化
使用Apache Airflow或Kubeflow构建端到端ML流水线,自动化数据处理、训练、验证和部署。
模型性能监控
使用Prometheus和Grafana实施全面监控,跟踪生产环境中的数据漂移、预测延迟和业务指标。
试试这些提示
初学者:ML模型部署基础
我有一个训练好的PyTorch模型,保存为model.pth。指导我使用FastAPI和Docker将其部署为REST API。包括健康检查、输入验证和基本日志记录。
中级:特征存储设计
为我们的电子商务推荐系统设计特征存储架构。我们需要批量特征(用户购买历史)和实时特征(会话活动)。比较Feast和Tecton哪个更适合我们的用例。
高级:分布式训练策略
我们需要在8个A100 GPU上训练一个20亿参数的Transformer模型。推荐使用PyTorch FSDP或DeepSpeed的分布式训练策略。包括梯度检查点、混合精度和通信优化。
专家:生产ML监控
为我们的欺诈检测模型设计全面的监控系统,每秒处理10K请求。包括数据漂移检测、模型性能跟踪、告警阈值和自动回滚触发器。
最佳实践
- 在模型推理前始终实施全面的输入验证和数据质量检查,以便及早发现漂移
- 使用基础设施即代码(Terraform、CloudFormation)实现可重复的ML基础设施部署
- 设计具有回退模型和断路器的优雅降级,以在故障期间维持服务
避免
- 在没有监控数据漂移或性能下降的情况下部署模型会导致静默故障
- 在应用程序代码中硬编码模型路径或超参数,而不是使用模型注册表
- 在同一基础设施上运行训练和推理会导致资源争用和不可预测的延迟
常见问题
此技能支持哪些ML框架?
主要支持PyTorch 2.x和TensorFlow 2.x。还涵盖用于研究工作负载的JAX/Flax、用于经典ML的scikit-learn和梯度提升库,以及用于LLM应用的Hugging Face Transformers。
此技能能否帮助处理云特定的ML服务?
是的。为AWS SageMaker、Azure ML、GCP Vertex AI和Databricks ML提供指导。包括每个平台的基础设施即代码模板和最佳实践。
此技能能否帮助优化边缘部署的模型?
是的。涵盖用于边缘设备的TensorFlow Lite、PyTorch Mobile和ONNX Runtime。包括量化、剪枝和蒸馏技术,适用于资源受限的环境。
生产ML推荐使用哪些监控工具?
推荐使用Prometheus和Grafana进行基础设施指标监控,使用Evidently AI或WhyLabs进行ML特定监控,以及自定义业务指标仪表板。包括告警配置指导。