Habilidades ML Engineer
📦

ML Engineer

Seguro

Construir Sistemas ML de Producción con Guía Experta

Desplegar modelos de aprendizaje automático en producción requiere experiencia en servicio, monitoreo e infraestructura que muchos equipos no tienen. Esta habilidad proporciona patrones probados en batalla para construir sistemas ML confiables y escalables usando marcos modernos como PyTorch 2.x y TensorFlow.

Soporta: Claude Codex Code(CC)
⚠️ 68 Deficiente
1

Descargar el ZIP de la skill

2

Subir en Claude

Ve a Configuración → Capacidades → Skills → Subir skill

3

Activa y empieza a usar

Pruébalo

Usando "ML Engineer". Diseñar una arquitectura de servicio de modelos para clasificación de imágenes con SLA de latencia de 50ms

Resultado esperado:

  • Arquitectura recomendada usando TorchServe con instancias GPU
  • Configuración de procesamiento por lotes de solicitudes para optimización de rendimiento
  • Capa Redis para caché de predicciones en entradas repetidas
  • Política de auto-escalado basada en profundidad de cola y métricas de latencia
  • Patrón de interruptor de circuito para degradación graceful durante fallos

Usando "ML Engineer". ¿Cómo implemento pruebas A/B para comparación de modelos?

Resultado esperado:

  • Estrategia de división de tráfico con sesiones persistentes para consistencia del usuario
  • Cálculo de poder estadístico para detectar mejora del 2%
  • Métricas de protección para monitorear efectos secundarios negativos
  • Enfoque de prueba secuencial con criterios de parada temprana
  • Estimación de tamaño de muestra basada en tasa de conversión base

Auditoría de seguridad

Seguro
v1 • 2/25/2026

Prompt-only skill with no executable code. Static analysis found 0 files with executable content and computed risk score of 0/100. The SKILL.md file contains only markdown documentation and AI assistant instructions for ML engineering tasks. No security concerns identified.

0
Archivos escaneados
0
Líneas analizadas
0
hallazgos
1
Auditorías totales
No se encontraron problemas de seguridad
Auditado por: claude

Puntuación de calidad

38
Arquitectura
100
Mantenibilidad
87
Contenido
24
Comunidad
100
Seguridad
74
Cumplimiento de la especificación

Lo que puedes crear

Sistema de Recomendación en Tiempo Real

Diseñar un motor de recomendación de alto rendimiento que maneja 100K predicciones por segundo con caché Redis y servicio de modelo vía TorchServe.

Automatización de Pipelines ML

Construir pipelines ML de extremo a extremo con Apache Airflow o Kubeflow que automatizan procesamiento de datos, entrenamiento, validación y despliegue.

Monitoreo de Rendimiento de Modelos

Implementar monitoreo integral con Prometheus y Grafana para rastrear deriva de datos, latencia de predicciones y métricas de negocio en producción.

Prueba estos prompts

Principiante: Fundamentos del Despliegue de Modelos ML
Tengo un modelo PyTorch entrenado guardado como model.pth. Guíame a desplegarlo como una API REST usando FastAPI y Docker. Incluye verificaciones de salud, validación de entrada y registro básico.
Intermedio: Diseño de Tienda de Características
Diseña una arquitectura de tienda de características para nuestro sistema de recomendación de comercio electrónico. Necesitamos tanto características por lotes (historial de compras del usuario) como características en tiempo real (actividad de sesión). Compara Feast vs Tecton para nuestro caso de uso.
Avanzado: Estrategia de Entrenamiento Distribuido
Necesitamos entrenar un modelo transformer de 2B parámetros en 8xA100 GPUs. Recomienda una estrategia de entrenamiento distribuido usando PyTorch FSDP o DeepSpeed. Incluye verificación de puntos de control de gradiente, precisión mixta y optimización de comunicación.
Experto: Monitoreo de ML en Producción
Diseña un sistema de monitoreo integral para nuestro modelo de detección de fraude que sirve 10K solicitudes/segundo. Incluye detección de deriva de datos, seguimiento del rendimiento del modelo, umbrales de alertas y disparadores de reversión automatizada.

Mejores prácticas

  • Siempre implementa validación de entrada integral y verificaciones de calidad de datos antes de la inferencia del modelo para detectar deriva temprano
  • Usa infraestructura como código (Terraform, CloudFormation) para despliegues reproducibles de infraestructura ML
  • Diseña para degradación graceful con modelos de respaldo e interruptores de circuito para mantener el servicio durante fallos

Evitar

  • Desplegar modelos sin monitoreo para deriva de datos o degradación del rendimiento conduce a fallos silenciosos
  • Codificar rutas de modelos o hiperparámetros en código de aplicación en lugar de usar registros de modelos
  • Ejecutar entrenamiento e inferencia en la misma infraestructura causa contención de recursos y latencia impredecible

Preguntas frecuentes

¿Qué marcos ML soporta esta habilidad?
Soporte primario para PyTorch 2.x y TensorFlow 2.x. También cubre JAX/Flax para cargas de trabajo de investigación, scikit-learn y bibliotecas de gradient boosting para ML clásico, y Hugging Face Transformers para aplicaciones LLM.
¿Puede esta habilidad ayudar con servicios ML específicos de la nube?
Sí. Proporciona orientación para AWS SageMaker, Azure ML, GCP Vertex AI y Databricks ML. Incluye plantillas de infraestructura como código y mejores prácticas para cada plataforma.
¿Esta habilidad ayuda con optimización de modelos para despliegue en edge?
Sí. Cubre TensorFlow Lite, PyTorch Mobile y ONNX Runtime para dispositivos edge. Incluye técnicas de cuantización, poda y destilación para entornos con recursos limitados.
¿Qué herramientas de monitoreo se recomiendan para ML en producción?
Recomienda Prometheus y Grafana para métricas de infraestructura, Evidently AI o WhyLabs para monitoreo específico de ML, y dashboards personalizados de métricas de negocio. Incluye orientación de configuración de alertas.

Detalles del desarrollador

Estructura de archivos

📄 SKILL.md