技能 ML Engineer

📦

ML Engineer

Name: ML Engineer
Author: sickn33

安全

打造專業級機器學習系統

將機器學習模型部署到生產環境需要模型服務、監控和基礎設施方面的專業知識，許多團隊缺乏這些技能。本技能提供使用 PyTorch 2.x 和 TensorFlow 等現代框架打造可靠、可擴展 ML 系統的實戰經驗。

支援: Claude Codex Code(CC)

⚠️ 68 差

下載技能 ZIP

在 Claude 中上傳

前往設定 → 功能 → 技能 → 上傳技能

開啟並開始使用

測試它

正在使用「ML Engineer」。為影像分類設計模型服務架構，延遲 SLA 為 50ms

預期結果:

使用 GPU 實例的 TorchServe 推薦架構
用於吞吐量優化的請求批次配置
用於重複輸入預測快取的 Redis 層
基於佇列深度和延遲指標的自動擴展策略
故障期間優雅降級的斷路器模式

正在使用「ML Engineer」。如何實施 A/B 測試進行模型比較

預期結果:

流量分割策略，具有粘性工作階段以確保使用者一致性
偵測 2% 改進的統計檢定力計算
監控負面副作用的防護指標
具有提前停止條件的順序測試方法
基於基準轉換率的樣本數估算

安全審計

安全

v1 • 2/25/2026

Prompt-only skill with no executable code. Static analysis found 0 files with executable content and computed risk score of 0/100. The SKILL.md file contains only markdown documentation and AI assistant instructions for ML engineering tasks. No security concerns identified.

已掃描檔案

分析行數

發現項

審計總數

未發現安全問題

審計者: claude

品質評分

架構

100

可維護性

內容

社群

100

安全

規範符合性

你能建構什麼

即時推薦系統

設計高吞吐量的推薦引擎，使用 Redis 快取和透過 TorchServe 進行模型服務，每秒處理 100K 次預測。

ML 管線自動化

使用 Apache Airflow 或 Kubeflow 建立端到端 ML 管線，自動化資料處理、訓練、驗證和部署。

模型效能監控

使用 Prometheus 和 Grafana 實施全面監控，追蹤生產環境中的資料漂移、預測延遲和業務指標。

試試這些提示

初學者：ML 模型部署基礎

我有一個訓練好的 PyTorch 模型，已儲存為 model.pth。請指導我如何使用 FastAPI 和 Docker 將其部署為 REST API。包含健康檢查、輸入驗證和基本日誌記錄。

中級：特徵儲存區設計

為我們的電子商務推薦系統設計特徵儲存區架構。我們需要批次特徵（使用者購買歷史）和即時特徵（工作階段活動）。比較 Feast 和 Tecton 在我們使用案例中的優缺點。

高級：分散式訓練策略

我們需要在 8xA100 GPU 上訓練一個 20 億參數的 transformer 模型。推薦使用 PyTorch FSDP 或 DeepSpeed 的分散式訓練策略。包含梯度檢查點、混合精度訓練和通訊優化。

專家級：生產 ML 監控

為我們的詐欺偵測模型設計全面的監控系統，每秒服務 10K 次請求。包含資料漂移偵測、模型效能追蹤、警報閾值和自動回滾觸發機制。

最佳實務

在模型推論前務必實施全面的輸入驗證和資料品質檢查，以早期發現漂移
使用基礎設施即程式碼（Terraform、CloudFormation）進行可重複的 ML 基礎設施部署
設計優雅降級機制，包含備用模型和斷路器，以在故障期間維持服務

避免

部署模型時未監控資料漂移或效能退化會導致靜默故障
在應用程式程式碼中硬編碼模型路徑或超參數，而非使用模型註冊表
在同一基礎設施上執行訓練和推論會導致資源競爭和不可預測的延遲

常見問題

本技能支援哪些 ML 框架？

主要支援 PyTorch 2.x 和 TensorFlow 2.x。也涵蓋 JAX/Flax 用於研究工作負載、scikit-learn 和梯度提升函式庫用於傳統 ML，以及 Hugging Face Transformers 用於 LLM 應用。

本技能能否協助雲端特定的 ML 服務？

是的。提供 AWS SageMaker、Azure ML、GCP Vertex AI 和 Databricks ML 的指導。包含每個平台的基础設施即程式碼範本和最佳實踐。

本技能能否協助邊緣部署的模型優化？

是的。涵蓋 TensorFlow Lite、PyTorch Mobile 和 ONNX Runtime 用於邊緣裝置。包含量化、剪枝和蒸餾技術，適用於資源受限環境。

生產 ML 推薦使用哪些監控工具？

推薦 Prometheus 和 Grafana 用於基礎設施指標，Evidently AI 或 WhyLabs 用於 ML 特定監控，以及自訂業務指標儀表板。包含警報配置指導。

本技能如何處理模型版本控制和回滾？

涵蓋 MLflow Model Registry、DVC 和 Git LFS 用於版本控制。提供藍綠部署、金絲雀發布和基於效能閾值的自動回滾策略。

本技能能否協助分散式訓練設定？

是的。提供 PyTorch DDP、FSDP、Horovod 和 DeepSpeed 的配置。涵蓋多節點設定、梯度累積、混合精度訓練和通訊優化。

開發者詳情

作者

sickn33

授權

MIT

儲存庫

https://github.com/sickn33/antigravity-awesome-skills/tree/main/skills/ml-engineer

引用

main

檔案結構

📄 SKILL.md