스킬 minimal-run-and-audit

📦

minimal-run-and-audit

Name: minimal-run-and-audit
Author: lllllllama

낮은 위험 ⚙️ 외부 명령어

AI 리포지토리 재현 명령 실행 및 감사

AI 논문 재현 실험을 실행하려면 일관된 명령 실행과 표준화된 보고가 필요합니다. 이 스킬은 스모크 테스트, 추론 실행, 또는 평가 명령을 실행하면서 감사 추적을 위한 구조화된 출력 번들을 자동으로 생성합니다.

지원: Claude Codex Code(CC)

🥉 73 브론즈

스킬 ZIP 다운로드

Claude에서 업로드

설정 → 기능 → 스킬 → 스킬 업로드로 이동

토글을 켜고 사용 시작

테스트해 보기

"minimal-run-and-audit" 사용 중입니다. 성공적으로 완료된 스모크 테스트 명령

예상 결과:

status.json 은 success 상태를 보고하고, SUMMARY.md 는 명령이 0 종료 코드로 완료되었음을 보여주며, LOG.md 는 캡처된 stdout/stderr 을 포함하고, COMMANDS.md 는 재현성을 위해 실행된 명령을 나열합니다

"minimal-run-and-audit" 사용 중입니다. 60 초 후 타임아웃된 추론 명령

예상 결과:

status.json 은 타임아웃 표시자와 함께 partial 상태를 보고하고, SUMMARY.md 는 명령이 전체 타임아웃 기간 동안 실행되었음을 보여주며, 실행 로그는 타임아웃 이전의 부분 출력을 포함합니다

"minimal-run-and-audit" 사용 중입니다. 구성 파일을 수정하는 평가 명령

예상 결과:

status.json 은 changed_files 목록을 포함하고, PATCHES.md 는 수정 사항의 git diff 를 문서화하며, SUMMARY.md 는 전체 감사 참조와 함께 패치 상태를 기록합니다

보안 감사

낮은 위험

v1 • 4/9/2026

Static analysis flagged 16 patterns, but 15 are false positives from misidentified file types (markdown docs flagged as Ruby, YAML config flagged as crypto). One true positive: Python subprocess.run for command execution is legitimate and properly sandboxed with timeout handling and shlex parsing. External command execution is the intended function of this skill.

스캔된 파일

384

분석된 줄 수

발견 사항

총 감사 수

낮은 위험 문제 (1)

scripts/run_command.py:55 scripts/run_command.py:148

External Command Execution

Script executes user-provided commands via subprocess.run with shlex.split parsing. Commands run with timeout protection (default 60s) and capture stdout/stderr. Risk is mitigated by timeout limits and lack of shell=True flag.

위험 요인

⚙️ 외부 명령어 (2)

scripts/run_command.py:55 scripts/run_command.py:148

감사자: claude

품질 점수

아키텍처

100

유지보수성

콘텐츠

커뮤니티

보안

사양 준수

만들 수 있는 것

스모크 테스트 실행

문서화된 스모크 명령을 실행하고 표준화된 증거 번들을 생성하여 리포지토리가 기능하는지 빠르게 검증합니다.

평가 실행 정규화

논문의 README 에 있는 평가 명령을 실행하고 여러 재현 시도 간 비교를 위한 일관된 출력 형식을 생성합니다.

패치 인식 실행 감사

리포지토리 파일을 수정할 수 있는 추론 명령을 실행하고, 변경 사항을 자동으로 추적하며 감사 추적을 위한 패치 문서를 생성합니다.

이 프롬프트를 사용해 보세요

기본 스모크 테스트

README 에서 스모크 테스트 명령을 실행하고 repro_outputs/ 에 표준화된 출력을 생성합니다

지표 포함 추론 실행

docs/evaluation.md 에 지정된 추론 명령을 120 초 타임아웃으로 실행하고 stdout 에서 모든 지표를 캡처합니다.

패치 리포트 포함 Git 인식 명령

파인튜닝 검증 명령을 실행하고 실행 중 발생한 리포지토리 수정 사항을 문서화하는 PATCHES.md 를 생성합니다.

다중 명령 감사 파이프라인

세 가지 검증 명령을 순서대로 실행합니다: 무결성 검사, 추론 테스트, 지표 검증. 각 명령에 대한 pass/fail 상태가 포함된 통합 SUMMARY.md 를 생성합니다.

모범 사례

명령 유형에 적합한 명시적 타임아웃 값을 항상 지정하세요 - 스모크 테스트는 30-60 초, 추론은 120-300 초가 필요합니다
실행 중 이루어진 리포지토리 수정 사항을 커밋하기 전에 생성된 PATCHES.md 를 검토하세요
git status 검증을 사용하여 명령 실행 중 어떤 파일이 변경되었는지 파악하세요

피하기

학습 실행에 이 스킬을 사용하지 마세요 - 짧은 비학습 명령만을 위해 설계되었습니다
검토 없이 신뢰할 수 없는 명령을 실행하지 마세요 - 샌드박스 처리되더라도 명령은 사용자 권한으로 실행됩니다
partial 상태 보고를 무시하지 마세요 - 타임아웃 또는 0 이 아닌 종료 코드는 명령이 예상대로 완료되지 않았음을 나타냅니다

자주 묻는 질문

이 스킬로 어떤 유형의 명령을 실행해야 하나요?

수 분 내에 완료되는 스모크 테스트, 추론 실행, 평가 명령 및 무결성 검사에 사용하세요. 학습 작업이나 장기간 실행되는 프로세스에는 사용하지 마세요.

이 스킬은 명령 타임아웃을 어떻게 처리하나요?

명령은 지정된 지속 시간 (기본값 60 초) 후 타임아웃됩니다. 이 스킬은 부분 출력을 캡처하고 실행 로그의 타임아웃 세부 정보와 함께 상태를 partial 로 보고합니다.

이 스킬은 어떤 파일을 생성하나요?

표준 출력은 repro_outputs/ 디렉토리로 이동합니다: 사람이 읽을 수 있는 결과를 위한 SUMMARY.md, 재현성을 위한 COMMANDS.md, 전체 출력을 위한 LOG.md, 그리고 기계가 읽을 수 있는 상태를 위한 status.json.

이 스킬은 비 Git 리포지토리에서도 작동하나요?

네, 하지만 git 기반 변경 사항 추적은 사용할 수 없습니다. 이 스킬은 디렉토리가 git worktree 인지 감지하고 그에 따라 증거 수집을 조정합니다.

명령 출력에서 지표는 어떻게 추출되나요?

이 스킬은 stdout/stderr 에서 key=value 또는 key:number 패턴을 파싱하고 loss/lr/time/mem 과 같은 노이즈를 필터링하며 요약 보고를 위해 최상의 지표를 식별합니다.

명령이 리포지토리 파일을 수정하면 어떻게 되나요?

이 스킬은 git status diff 를 통해 파일 변경 사항을 감지하고 수정 사항을 문서화하는 PATCHES.md 를 생성합니다. 이를 통해 AI 지원 코드 변경에 대한 감사 추적이 가능합니다.

개발자 세부 정보

작성자

lllllllama

라이선스

MIT

리포지토리

https://github.com/lllllllama/ai-paper-reproduction-skill/tree/main/skills/minimal-run-and-audit/

참조

main

파일 구조

📁 agents/

📄 openai.yaml

📁 references/

📄 reporting-policy.md

📁 scripts/

📄 run_command.py

📄 write_outputs.py

📄 SKILL.md