Question 1

분류에 어떤 알고리즘으로 시작해야 하나요?

Accepted Answer

빠른 베이스라인으로 LogisticRegression으로 시작한 다음 로버스트 기본값으로 RandomForest를 시도하세요. 정확도가 중요하고 하이퍼파라미터 튜닝에 시간을 투자할 수 있을 때는 GradientBoosting을 사용하세요.

Question 2

모든 알고리즘에 기능을 스케일링해야 하나요?

Accepted Answer

아닙니다. 트리 기반 모델(Random Forest, Decision Trees)은 스케일링이 필요 없습니다. SVM, KNN, 신경망, PCA, 정규화가 있는 선형 모델에는 스케일링하세요.

Question 3

숫자와 범주형 혼합 기능은 어떻게 처리하나요?

Accepted Answer

다른 전처리를 다른 열에 적용하려면 ColumnTransformer를 사용하세요. StandardScaler로 숫자 기능을 스케일링하고 OneHotEncoder로 범주형을 인코딩하세요.

Question 4

이 스크립트를使用时 데이터가 안전한가요?

Accepted Answer

네. 스크립트가 로컬에서 scikit-learn API를 사용하여 실행됩니다. 제공하는 데이터만 읽고, 메모리에서 처리하고, 선택적 시각화를 현재 디렉터리에 저장합니다.

Question 5

모델이 수렴하지 않는 이유는 무엇인가요?

Accepted Answer

max_iter 파라미터를 늘리거나 기능을 스케일링하세요. 선형 모델의 경우 StandardScaler로 스케일링을 시도하세요. 깊은 트리의 경우 max_depth를 제한하거나 min_samples_leaf를 늘리는 것을 고려하세요.

Question 6

TensorFlow나 PyTorch와 비교하면 어떤가요?

Accepted Answer

Scikit-learn는 구조화된 데이터의 고전적 ML에 탁월합니다. 이미지, 텍스트, 복잡한 신경망 아키텍처에는 TensorFlow나 PyTorch를 사용하세요. Scikit-learn는 전통적인 작업에 더 나은 해석 가능성과 빠른 반복을 제공합니다.

scikit-learn

Pruébalo