Construisez rapidement des modèles d'apprentissage automatique avec l'aide de scikit-learn. Couvre la classification, la régression, le clustering, le prétraitement, les pipelines et l'évaluation de modèles avec des exemples prêts à l'emploi.
下載技能 ZIP
在 Claude 中上傳
前往 設定 → 功能 → 技能 → 上傳技能
開啟並開始使用
測試它
正在使用「scikit-learn」。 Build a classification model to predict customer churn
預期結果:
- Model: RandomForestClassifier with 100 estimators
- Preprocessing: StandardScaler for numeric features, OneHotEncoder for categorical
- Cross-validation accuracy: 94.2% (+/- 1.3%)
- Top predictive features: contract_type, monthly_charges, tenure
- Recommendations: Consider GradientBoosting for higher accuracy, collect more features about customer complaints
安全審計
安全All 566 static findings are FALSE POSITIVES. The static analyzer misidentified markdown documentation syntax (backticks for code formatting) as shell commands, Python import examples as dynamic imports, and 'PC2' (Principal Component 2) as C2 command-and-control keywords. This is a pure documentation/reference skill containing legitimate scikit-learn ML examples with no network calls, credential access, or file exfiltration capabilities.
風險因素
品質評分
你能建構什麼
Construire des pipelines ML de production
Créez des flux de travail ML de bout en bout avec prétraitement, entraînement de modèle, évaluation et ajustement des hyperparamètres.
Comparer les algorithmes ML
Évaluez différents classificateurs, régresseurs et méthodes de regroupement à l'aide de métriques standardisées et de validation croisée.
Appliquer l'apprentissage non supervisé
Découvrez des motifs dans les données à l'aide de techniques de clustering, de réduction de dimensionnalité et de détection d'anomalies.
試試這些提示
Build a classification model using scikit-learn. Use the breast cancer dataset. Train with train-test split, StandardScaler preprocessing, RandomForest classifier, and show classification report.
Perform clustering analysis on the iris dataset using scikit-learn. Compare K-Means, DBSCAN, and AgglomerativeClustering. Use elbow method and silhouette score to find optimal clusters. Visualize results with PCA.
Create a complete ML pipeline with ColumnTransformer for mixed numeric and categorical data. Include preprocessing (imputation, scaling, encoding), PCA for dimensionality reduction, and GradientBoosting classifier. Use GridSearchCV for hyperparameter tuning.
Evaluate a classification model using cross-validation. Show accuracy, precision, recall, F1-score, and ROC AUC. Create confusion matrix and learning curves. Compare with stratified k-fold for imbalanced classes.
最佳實務
- Toujours utiliser des Pipelines pour éviter les fuites de données dans la validation croisée
- Mettre à l'échelle les features avant d'entraîner des algorithmes qui nécessitent des entrées normalisées (SVM, KNN, Réseaux de neurones)
- Utiliser un fractionnement stratifié pour la classification afin de préserver la distribution des classes
避免
- Ajuster le prétraitement sur toutes les données avant le fractionnement (provoque des fuites de données)
- Utiliser uniquement la précision pour les problèmes de classification déséquilibrés
- Ne pas définir random_state pour la reproductibilité des expériences