ML Engineer
打造專業級機器學習系統
將機器學習模型部署到生產環境需要模型服務、監控和基礎設施方面的專業知識,許多團隊缺乏這些技能。本技能提供使用 PyTorch 2.x 和 TensorFlow 等現代框架打造可靠、可擴展 ML 系統的實戰經驗。
Die Skill-ZIP herunterladen
In Claude hochladen
Gehe zu Einstellungen → Fähigkeiten → Skills → Skill hochladen
Einschalten und loslegen
Teste es
Verwendung von "ML Engineer". 為影像分類設計模型服務架構,延遲 SLA 為 50ms
Erwartetes Ergebnis:
- 使用 GPU 實例的 TorchServe 推薦架構
- 用於吞吐量優化的請求批次配置
- 用於重複輸入預測快取的 Redis 層
- 基於佇列深度和延遲指標的自動擴展策略
- 故障期間優雅降級的斷路器模式
Verwendung von "ML Engineer". 如何實施 A/B 測試進行模型比較
Erwartetes Ergebnis:
- 流量分割策略,具有粘性工作階段以確保使用者一致性
- 偵測 2% 改進的統計檢定力計算
- 監控負面副作用的防護指標
- 具有提前停止條件的順序測試方法
- 基於基準轉換率的樣本數估算
Sicherheitsaudit
SicherPrompt-only skill with no executable code. Static analysis found 0 files with executable content and computed risk score of 0/100. The SKILL.md file contains only markdown documentation and AI assistant instructions for ML engineering tasks. No security concerns identified.
Qualitätsbewertung
Was du bauen kannst
即時推薦系統
設計高吞吐量的推薦引擎,使用 Redis 快取和透過 TorchServe 進行模型服務,每秒處理 100K 次預測。
ML 管線自動化
使用 Apache Airflow 或 Kubeflow 建立端到端 ML 管線,自動化資料處理、訓練、驗證和部署。
模型效能監控
使用 Prometheus 和 Grafana 實施全面監控,追蹤生產環境中的資料漂移、預測延遲和業務指標。
Probiere diese Prompts
我有一個訓練好的 PyTorch 模型,已儲存為 model.pth。請指導我如何使用 FastAPI 和 Docker 將其部署為 REST API。包含健康檢查、輸入驗證和基本日誌記錄。
為我們的電子商務推薦系統設計特徵儲存區架構。我們需要批次特徵(使用者購買歷史)和即時特徵(工作階段活動)。比較 Feast 和 Tecton 在我們使用案例中的優缺點。
我們需要在 8xA100 GPU 上訓練一個 20 億參數的 transformer 模型。推薦使用 PyTorch FSDP 或 DeepSpeed 的分散式訓練策略。包含梯度檢查點、混合精度訓練和通訊優化。
為我們的詐欺偵測模型設計全面的監控系統,每秒服務 10K 次請求。包含資料漂移偵測、模型效能追蹤、警報閾值和自動回滾觸發機制。
Bewährte Verfahren
- 在模型推論前務必實施全面的輸入驗證和資料品質檢查,以早期發現漂移
- 使用基礎設施即程式碼(Terraform、CloudFormation)進行可重複的 ML 基礎設施部署
- 設計優雅降級機制,包含備用模型和斷路器,以在故障期間維持服務
Vermeiden
- 部署模型時未監控資料漂移或效能退化會導致靜默故障
- 在應用程式程式碼中硬編碼模型路徑或超參數,而非使用模型註冊表
- 在同一基礎設施上執行訓練和推論會導致資源競爭和不可預測的延遲