スキル scikit-learn
🔬

scikit-learn

安全 ⚡ スクリプトを含む⚙️ 外部コマンド

MLモデルにscikit-learnを適用する

こちらからも入手できます: K-Dense-AI

scikit-learnのガイダンスで機械学習モデルを迅速に構築。分類、回帰、クラスタリング、前処理、パイプライン、すぐに使える例によるモデル評価をカバーします。

対応: Claude Codex Code(CC)
🥉 76 ブロンズ
1

スキルZIPをダウンロード

2

Claudeでアップロード

設定 → 機能 → スキル → スキルをアップロードへ移動

3

オンにして利用開始

テストする

「scikit-learn」を使用しています。 Build a classification model to predict customer churn

期待される結果:

  • Model: RandomForestClassifier with 100 estimators
  • Preprocessing: StandardScaler for numeric features, OneHotEncoder for categorical
  • Cross-validation accuracy: 94.2% (+/- 1.3%)
  • Top predictive features: contract_type, monthly_charges, tenure
  • Recommendations: Consider GradientBoosting for higher accuracy, collect more features about customer complaints

セキュリティ監査

安全
v5 • 1/17/2026

All 566 static findings are FALSE POSITIVES. The static analyzer misidentified markdown documentation syntax (backticks for code formatting) as shell commands, Python import examples as dynamic imports, and 'PC2' (Principal Component 2) as C2 command-and-control keywords. This is a pure documentation/reference skill containing legitimate scikit-learn ML examples with no network calls, credential access, or file exfiltration capabilities.

10
スキャンされたファイル
4,543
解析された行数
2
検出結果
5
総監査数
監査者: claude 監査履歴を表示 →

品質スコア

68
アーキテクチャ
100
保守性
83
コンテンツ
22
コミュニティ
100
セキュリティ
87
仕様準拠

作れるもの

プロダクションMLパイプラインを構築する

前処理、モデル訓練、評価、ハイパーパラメータチューニングを含むエンドツーエンドのMLワークフローを作成する。

MLアルゴリズムを比較する

標準化されたメトリックとクロスバリデーションを使用して、異なる分類器、回帰器、クラスタリング手法を評価する。

教師なし学習を適用する

クラスタリング、次元削減、異常検知技術を使用して、データのパターンを発見する。

これらのプロンプトを試す

クイック分類
Build a classification model using scikit-learn. Use the breast cancer dataset. Train with train-test split, StandardScaler preprocessing, RandomForest classifier, and show classification report.
クラスタリング分析
Perform clustering analysis on the iris dataset using scikit-learn. Compare K-Means, DBSCAN, and AgglomerativeClustering. Use elbow method and silhouette score to find optimal clusters. Visualize results with PCA.
MLパイプライン
Create a complete ML pipeline with ColumnTransformer for mixed numeric and categorical data. Include preprocessing (imputation, scaling, encoding), PCA for dimensionality reduction, and GradientBoosting classifier. Use GridSearchCV for hyperparameter tuning.
モデル評価
Evaluate a classification model using cross-validation. Show accuracy, precision, recall, F1-score, and ROC AUC. Create confusion matrix and learning curves. Compare with stratified k-fold for imbalanced classes.

ベストプラクティス

  • クロスバリデーションでデータリークを防ぐために常にパイプラインを使用する
  • 正規化入力を必要とするアルゴリズム(SVM、KNN、ニューラルネットワーク)では、訓練前に特徴量をスケーリングする
  • 分類ではクラス分布を保持するために層化分割を使用する

回避

  • 分割前にすべてのデータに前処理を適用する(データリークの原因となる)
  • 不均衡な分類問題に対して精度のみを使用する
  • 実験の再現性のためにrandom_stateを設定しない

よくある質問

分類にはどのアルゴリズムから始めればいいですか?
高速なベースラインとしてLogisticRegressionから始めてから、堅牢なデフォルトとしてRandomForestを試してください。精度が重要でハイパーパラメータチューニングに時間を費やせる場合は、GradientBoostingを使用してください。
すべてのアルゴリズムで特徴量をスケーリングする必要がありますか?
いいえ。ツリーベースのモデル(Random Forest、決定木)はスケーリングを必要としません。SVM、KNN、ニューラルネットワーク、PCA、正則化付き線形モデルでは特徴量をスケーリングしてください。
数値とカテゴリの特徴量が混在しているデータはどのように処理すればよいですか?
異なる列に異なる前処理を適用するにはColumnTransformerを使用します。数値特徴量にはStandardScalerでスケーリングし、カテゴリ変数にはOneHotEncoderでエンコーディングしてください。
これらのスクリプトを使用する場合、データは安全ですか?
はい。スクリプトはローカルでscikit-learn APIを使用して実行されます。提供されたデータのみを読み取り、メモリ内で処理し、オプションの視覚化を選択的に現在のディレクトリに保存します。
モデルが収束しないのはなぜですか?
max_iterパラメータを増やすか、特徴量をスケーリングしてください。線形モデルの場合は、StandardScalerでのスケーリングを試してください。深い木の場合は、max_depthを制限するかmin_samples_leafを増やすことを検討してください。
TensorFlowやPyTorchと比較するとどうですか?
scikit-learnは構造化データでの古典的MLに優れています。画像、テキスト、複雑なニューラルアーキテクチャでの深学習にはTensorFlowまたはPyTorchを使用してください。scikit-learnは従来のタスクでより良い解釈可能性とより高速な反復を提供します。