연구자들은 분석을 위해 유전체 데이터에 효율적으로 접근해야 합니다. 이 스킬은 REST API와 FTP를 통해 ENA에 프로그래밍 방식으로 접근하여 접근 번호로 DNA/RNA 서열, FASTQ 파일 및 유전체 어셈블리를 검색할 수 있도록 합니다.
스킬 ZIP 다운로드
Claude에서 업로드
설정 → 기능 → 스킬 → 스킬 업로드로 이동
토글을 켜고 사용 시작
테스트해 보기
"ena-database" 사용 중입니다. 어셈블리 레벨이 chromosome인 SARS-CoV-2 어셈블리 찾기
예상 결과:
Found 5 assemblies matching criteria:
- ERR1234567: Complete Genome (MN908947.3)
- ERR2345678: Complete Genome (MW123456.1)
- ERR3456789: Assembly Level: chromosome
Access the sequences at: https://www.ebi.ac.uk/ena/browser/api/xml/[ACCESSION]
"ena-database" 사용 중입니다. Escherichia coli의 분류 정보 가져오기
예상 결과:
Taxonomy ID: 562
Scientific Name: Escherichia coli
Lineage: Bacteria; Proteobacteria; Gammaproteobacteria; Enterobacterales; Enterobacteriaceae; Escherichia
Rank: Species
"ena-database" 사용 중입니다. 연구 PRJEB12345에서 RNA-seq 실험 검색
예상 결과:
Found 12 RNA-seq experiments:
- ERX123456: Paired-end, ILLUMINA
- ERX123457: Single-end, ILLUMINA
- ERX123458: Paired-end, BGI
Run accessions available for FASTQ download.
보안 감사
낮은 위험This is a legitimate bioinformatics data access skill for querying the European Nucleotide Archive. All static findings are false positives. The 'external_commands' detections are backtick characters in documentation examples, not shell execution. 'Network' findings are HTTP requests to public ENA APIs (www.ebi.ac.uk). Critical/high severity flags (SAM database, C2 keywords, weak crypto) match generic terms in documentation (sample=sam, MD5/SHA1 for checksums). No actual security risks present.
위험 요인
🌐 네트워크 접근 (2)
📁 파일 시스템 액세스 (1)
품질 점수
만들 수 있는 것
분석을 위한 시퀀싱 데이터 검색
다운스트림 생물정보학 분석 파이프라인을 위해 접근 번호로 원시 FASTQ 파일과 유전체 어셈블리를 다운로드합니다.
연구 또는 유기체별 데이터셋 검색
ENA Portal API를 쿼리하여 특정 연구 또는 분류학적 분류와 관련된 모든 샘플, 실행 또는 어셈블리를 찾습니다.
재현 가능한 연구 워크플로우 구축
재현 가능한 유전체학 연구를 위해 특정 접근 번호를 가져오고 인용하는 자동화된 파이프라인에 ENA 데이터 검색을 통합합니다.
이 프롬프트를 사용해 보세요
ENA Portal API를 사용하여 연구 PRJNA[STUDY_ID]의 모든 샘플을 검색하세요. 접근 번호와 샘플 제목을 반환하세요.
ENA Browser API를 사용하여 접근 번호 [ACCESSION]의 뉴클레오타이드 서열을 FASTA 형식으로 조회하세요.
ENA Portal API를 사용하여 contig N50 >= [N50_VALUE]인 [ORGANISM]의 모든 어셈블리를 찾으세요.
연구 [STUDY_ID]의 모든 리드 실행을 검색하고, FTP URL을 추출하여, FTP를 통해 모든 파일을 다운로드하는 스크립트를 생성하세요.
모범 사례
- 초당 50개 요청 제한을 준수하기 위해 지수 백오프를 사용한 속도 제한 구현
- 100MB 이상의 파일 다운로드 시 FTP 또는 Aspera 사용
- ENA 데이터에서 도출된 결과를 게시할 때 연구 및 샘플 접근 번호 인용
피하기
- 수천 개의 레코드를 배치 처리하지 않고 개별 API 호출하기
- FTP/Aspera를 사용할 수 있는데 HTTP로 대용량 파일 다운로드하기
- ENA Browser API 응답의 XML 파싱 오류 처리 실패
자주 묻는 질문
ENA Portal API와 Browser API의 차이점은 무엇인가요?
대용량 FASTQ 파일을 어떻게 다운로드하나요?
어떤 형식으로 서열을 조회할 수 있나요?
특정 연구의 모든 데이터를 어떻게 찾나요?
ENA API의 속도 제한은 어떻게 되나요?
논문에서 ENA 데이터를 어떻게 인용하나요?
개발자 세부 정보
작성자
K-Dense-AI라이선스
Unknown
리포지토리
https://github.com/K-Dense-AI/claude-scientific-skills/tree/main/scientific-skills/ena-database참조
main
파일 구조