scikit-survival
scikit-survival로 생존 데이터 분석
또한 다음에서 사용할 수 있습니다: davila7
생존 분석은 모든 피험자에 대해 사건이 발생하지 않은 데이터를 처리합니다. 이 스킬은 절단 데이터와 함께 Cox 모델, 랜덤 생존 숲, SVM 및 일치성 지수와 같은 특수 평가 지표를 사용하여 사건 발생 시각 모델링을 위한 Python 도구를 제공합니다.
스킬 ZIP 다운로드
Claude에서 업로드
설정 → 기능 → 스킬 → 스킬 업로드로 이동
토글을 켜고 사용 시작
테스트해 보기
"scikit-survival" 사용 중입니다. veteranos 폐암 데이터셋에 대한 생존 모델을 구축하고 성능을 평가합니다
예상 결과:
- 137명의 환자가 포함된 veteranos_폐암 데이터셋 로드됨
- 절단율: 8.0% (11건 사건, 126건 절단)
- concordance_index_ipcw = 0.73으로 CoxPHSurvivalAnalysis 피팅됨
- 상위 위험 요인: Karnofsky 점수 (HR=0.96), 연령 (HR=1.02)
- 180일에서의 시간 의존적 AUC: 0.81
"scikit-survival" 사용 중입니다. GBSG2 유방암 데이터에서 랜덤 생존 숲과 Cox 모델을 비교합니다
예상 결과:
- 2238명의 환자, 1548건 사건이 포함된 GBSG2 데이터셋 로드됨
- RandomSurvivalForest C-index: 0.68 (5-fold CV)
- CoxPHSurvivalAnalysis C-index: 0.66 (5-fold CV)
- RSF가 순열 중요도를 통해 12/7 특징 선택함
- 권장사항: RSF가 약간 더 나은 순위 능력을 제공함
보안 감사
안전All 277 static findings are FALSE POSITIVES. This skill contains only markdown documentation for the legitimate scikit-survival Python library. The 'Ruby/shell backtick execution' detections are markdown code fences (```python) for Python syntax highlighting. No executable code, scripts, or malicious patterns exist. The 'C2 keywords' and 'weak cryptographic algorithm' detections are false positives caused by statistical/medical terminology being misidentified by the pattern scanner.
위험 요인
⚡ 스크립트 포함 (2)
🌐 네트워크 접근 (1)
품질 점수
만들 수 있는 것
환자 생존 예측
환자 생존 확률을 예측하고 부작용에 대한 위험 요인을 식별하기 위해 임상 시험 데이터를 분석합니다.
사건 발생 시각 기계 학습
예측 유지보수 또는 고객 이탈을 위해 Cox, 랜덤 생존 숲, SVM을 포함한 여러 생존 모델을 구축하고 비교합니다.
질환 진행 모델링
질환 진행 연구에서 다양한 원인으로 인한 사망과 같은 경쟁 위험이 있는 사건 발생 시각 데이터를 연구합니다.
이 프롬프트를 사용해 보세요
scikit-survival를 사용하여 유방암 데이터셋을 로드하고 훈련 및 테스트 세트로 분할한 후, Cox 비례위험 모델을 피팅하고 Uno의 일치성 지수를 사용하여 평가합니다.
일치성 지수 점수화를 사용하여 교차 검증과 함께 GBSG2 데이터셋에서 CoxPHSurvivalAnalysis, RandomSurvivalForest, GradientBoostingSurvivalAnalysis, FastSurvivalSVM을 비교합니다.
탄성망 정규화와 함께 CoxnetSurvivalAnalysis를 사용하여 고차원 생존 데이터에서 특징 선택을 수행한 후, 선택된 특징을 식별합니다.
누적_경쟁_위험_발생을 사용하여 경쟁 위험 분석을 시연합니다. 다양한 사건 유형에 대한 누적 발생을 추정하고 치료 그룹 간 비교 방법을 보여줍니다.
모범 사례
- 피팅 전에 SVM 및 정규화된 Cox 모델에 대해 항상 특징을 표준화하세요
- 절단이 40%를 초과할 때는 Harrell's 대신 Uno의 C-index (concordance_index_ipcw)를 사용하세요
- C-index, 통합 Brier 점수, 시간 의존적 AUC를 포함한 여러 평가 지표를 보고하세요
피하기
- 경쟁 위험이 있을 때 Kaplan-Meier 추정량 사용 (대신 누적 발생 사용)
- 랜덤 생존 숲에 내장된 특징 중요도 사용 (순열 중요도 사용)
- 해석 전에 Cox 모델에 대한 비례 가정 확인하지 않기
자주 묻는 질문
Harrell의 C-index와 Uno의 C-index의 차이점은 무엇인가요?
경쟁 위험을 어떻게 처리해야 하나요?
고차원 데이터에는 어떤 모델을 선택해야 하나요?
모델 교정을 어떻게 평가하나요?
scikit-survival를 scikit-learn 파이프라인과 함께 사용할 수 있나요?
생존 데이터에 필요한 전처리는 무엇인가요?
개발자 세부 정보
작성자
K-Dense-AI라이선스
GPL-3.0 license
리포지토리
https://github.com/K-Dense-AI/claude-scientific-skills/tree/main/scientific-skills/scikit-survival참조
main