📦

ML Engineer

Name: ML Engineer
Author: sickn33

Seguro

Construir Sistemas ML de Producción con Guía Experta

Desplegar modelos de aprendizaje automático en producción requiere experiencia en servicio, monitoreo e infraestructura que muchos equipos no tienen. Esta habilidad proporciona patrones probados en batalla para construir sistemas ML confiables y escalables usando marcos modernos como PyTorch 2.x y TensorFlow.

Soporta: Claude Codex Code(CC)

⚠️ 68 Deficiente

Descargar el ZIP de la skill

Subir en Claude

Ve a Configuración → Capacidades → Skills → Subir skill

Activa y empieza a usar

Pruébalo

Usando "ML Engineer". Diseñar una arquitectura de servicio de modelos para clasificación de imágenes con SLA de latencia de 50ms

Resultado esperado:

Arquitectura recomendada usando TorchServe con instancias GPU
Configuración de procesamiento por lotes de solicitudes para optimización de rendimiento
Capa Redis para caché de predicciones en entradas repetidas
Política de auto-escalado basada en profundidad de cola y métricas de latencia
Patrón de interruptor de circuito para degradación graceful durante fallos

Usando "ML Engineer". ¿Cómo implemento pruebas A/B para comparación de modelos?

Resultado esperado:

Estrategia de división de tráfico con sesiones persistentes para consistencia del usuario
Cálculo de poder estadístico para detectar mejora del 2%
Métricas de protección para monitorear efectos secundarios negativos
Enfoque de prueba secuencial con criterios de parada temprana
Estimación de tamaño de muestra basada en tasa de conversión base

Auditoría de seguridad

Seguro

v1 • 2/25/2026

Prompt-only skill with no executable code. Static analysis found 0 files with executable content and computed risk score of 0/100. The SKILL.md file contains only markdown documentation and AI assistant instructions for ML engineering tasks. No security concerns identified.

Archivos escaneados

Líneas analizadas

hallazgos

Auditorías totales

No se encontraron problemas de seguridad

Auditado por: claude

Puntuación de calidad

Arquitectura

100

Mantenibilidad

Contenido

Comunidad

100

Seguridad

Cumplimiento de la especificación

Lo que puedes crear

Sistema de Recomendación en Tiempo Real

Diseñar un motor de recomendación de alto rendimiento que maneja 100K predicciones por segundo con caché Redis y servicio de modelo vía TorchServe.

Automatización de Pipelines ML

Construir pipelines ML de extremo a extremo con Apache Airflow o Kubeflow que automatizan procesamiento de datos, entrenamiento, validación y despliegue.

Monitoreo de Rendimiento de Modelos

Implementar monitoreo integral con Prometheus y Grafana para rastrear deriva de datos, latencia de predicciones y métricas de negocio en producción.

Prueba estos prompts

Principiante: Fundamentos del Despliegue de Modelos ML

Tengo un modelo PyTorch entrenado guardado como model.pth. Guíame a desplegarlo como una API REST usando FastAPI y Docker. Incluye verificaciones de salud, validación de entrada y registro básico.

Intermedio: Diseño de Tienda de Características

Diseña una arquitectura de tienda de características para nuestro sistema de recomendación de comercio electrónico. Necesitamos tanto características por lotes (historial de compras del usuario) como características en tiempo real (actividad de sesión). Compara Feast vs Tecton para nuestro caso de uso.

Avanzado: Estrategia de Entrenamiento Distribuido

Necesitamos entrenar un modelo transformer de 2B parámetros en 8xA100 GPUs. Recomienda una estrategia de entrenamiento distribuido usando PyTorch FSDP o DeepSpeed. Incluye verificación de puntos de control de gradiente, precisión mixta y optimización de comunicación.

Experto: Monitoreo de ML en Producción

Diseña un sistema de monitoreo integral para nuestro modelo de detección de fraude que sirve 10K solicitudes/segundo. Incluye detección de deriva de datos, seguimiento del rendimiento del modelo, umbrales de alertas y disparadores de reversión automatizada.

Mejores prácticas

Siempre implementa validación de entrada integral y verificaciones de calidad de datos antes de la inferencia del modelo para detectar deriva temprano
Usa infraestructura como código (Terraform, CloudFormation) para despliegues reproducibles de infraestructura ML
Diseña para degradación graceful con modelos de respaldo e interruptores de circuito para mantener el servicio durante fallos

Evitar

Desplegar modelos sin monitoreo para deriva de datos o degradación del rendimiento conduce a fallos silenciosos
Codificar rutas de modelos o hiperparámetros en código de aplicación en lugar de usar registros de modelos
Ejecutar entrenamiento e inferencia en la misma infraestructura causa contención de recursos y latencia impredecible

Preguntas frecuentes

¿Qué marcos ML soporta esta habilidad?

Soporte primario para PyTorch 2.x y TensorFlow 2.x. También cubre JAX/Flax para cargas de trabajo de investigación, scikit-learn y bibliotecas de gradient boosting para ML clásico, y Hugging Face Transformers para aplicaciones LLM.

¿Puede esta habilidad ayudar con servicios ML específicos de la nube?

Sí. Proporciona orientación para AWS SageMaker, Azure ML, GCP Vertex AI y Databricks ML. Incluye plantillas de infraestructura como código y mejores prácticas para cada plataforma.

¿Esta habilidad ayuda con optimización de modelos para despliegue en edge?

Sí. Cubre TensorFlow Lite, PyTorch Mobile y ONNX Runtime para dispositivos edge. Incluye técnicas de cuantización, poda y destilación para entornos con recursos limitados.

¿Qué herramientas de monitoreo se recomiendan para ML en producción?

Recomienda Prometheus y Grafana para métricas de infraestructura, Evidently AI o WhyLabs para monitoreo específico de ML, y dashboards personalizados de métricas de negocio. Incluye orientación de configuración de alertas.

Detalles del desarrollador

Autor

sickn33

Licencia

MIT

Repositorio

https://github.com/sickn33/antigravity-awesome-skills/tree/main/skills/ml-engineer

Ref.

main

Estructura de archivos

📄 SKILL.md