Question 1

分類にはどのアルゴリズムから始めればいいですか？

Accepted Answer

高速なベースラインとしてLogisticRegressionから始めてから、堅牢なデフォルトとしてRandomForestを試してください。精度が重要でハイパーパラメータチューニングに時間を費やせる場合は、GradientBoostingを使用してください。

Question 2

すべてのアルゴリズムで特徴量をスケーリングする必要がありますか？

Accepted Answer

いいえ。ツリーベースのモデル（Random Forest、決定木）はスケーリングを必要としません。SVM、KNN、ニューラルネットワーク、PCA、正則化付き線形モデルでは特徴量をスケーリングしてください。

Question 3

数値とカテゴリの特徴量が混在しているデータはどのように処理すればよいですか？

Accepted Answer

異なる列に異なる前処理を適用するにはColumnTransformerを使用します。数値特徴量にはStandardScalerでスケーリングし、カテゴリ変数にはOneHotEncoderでエンコーディングしてください。

Question 4

これらのスクリプトを使用する場合、データは安全ですか？

Accepted Answer

はい。スクリプトはローカルでscikit-learn APIを使用して実行されます。提供されたデータのみを読み取り、メモリ内で処理し、オプションの視覚化を選択的に現在のディレクトリに保存します。

Question 5

モデルが収束しないのはなぜですか？

Accepted Answer

max_iterパラメータを増やすか、特徴量をスケーリングしてください。線形モデルの場合は、StandardScalerでのスケーリングを試してください。深い木の場合は、max_depthを制限するかmin_samples_leafを増やすことを検討してください。

Question 6

TensorFlowやPyTorchと比較するとどうですか？

Accepted Answer

scikit-learnは構造化データでの古典的MLに優れています。画像、テキスト、複雑なニューラルアーキテクチャでの深学習にはTensorFlowまたはPyTorchを使用してください。scikit-learnは従来のタスクでより良い解釈可能性とより高速な反復を提供します。

scikit-learn

テストする