스킬 fiftyone-find-duplicates

🔍

fiftyone-find-duplicates

Name: fiftyone-find-duplicates
Author: AdonaiVera

안전 🌐 네트워크 접근⚙️ 외부 명령어

데이터셋에서 중복 이미지 찾기

중복 이미지는 저장 공간을 낭비하고 머신러닝 모델에 편향을 유발합니다. 이 스킬은 딥러닝 임베딩을 사용해 FiftyOne 데이터셋에서 정확히 중복된 이미지와 유사 중복 이미지를 식별하고 제거합니다. 탐지 과정을 자동화해 학습 전에 데이터셋을 정리할 수 있도록 돕습니다.

지원: Claude Codex Code(CC)

📊 70 적절함

스킬 ZIP 다운로드

Claude에서 업로드

설정 → 기능 → 스킬 → 스킬 업로드로 이동

토글을 켜고 사용 시작

테스트해 보기

"fiftyone-find-duplicates" 사용 중입니다. Find duplicate images in my training-dataset

예상 결과:

유사 중복 발견: 3개 그룹, 총 12장
그룹 1: 유사 이미지 5장 (대표: sample-abc123)
그룹 2: 유사 이미지 4장 (대표: sample-def456)
그룹 3: 유사 이미지 3장 (대표: sample-ghi789)
대표를 유지하면서 중복을 제거하려면 deduplicate_near_duplicates를 실행하세요.

"fiftyone-find-duplicates" 사용 중입니다. Find images similar to sample ABC123

예상 결과:

샘플 ABC123과 가장 유사한 이미지 20장을 찾았습니다
유사도 점수 기준 상위 매치:
- sample-001: 거리 0.12 (매우 유사)
- sample-002: 거리 0.15
- sample-003: 거리 0.18
시각적 유사도 순으로 정렬된 20장의 이미지를 보려면 앱을 여세요.

보안 감사

안전

v5 • 1/16/2026

Documentation-only skill containing only SKILL.md and skill-report.json. All 92 static findings are false positives triggered by markdown code fences, documentation URLs, and JSON metadata fields. No executable code, scripts, network calls, or file system access exists. The skill guides AI assistants to use pre-existing FiftyOne MCP server tools for dataset operations.

스캔된 파일

523

분석된 줄 수

발견 사항

총 감사 수

위험 요인

🌐 네트워크 접근 (4)

skill-report.json:6 SKILL.md:172 SKILL.md:338 SKILL.md:339

⚙️ 외부 명령어 (76)

SKILL.md:21 SKILL.md:29-31 SKILL.md:31-35 SKILL.md:35-37 SKILL.md:37-41 SKILL.md:41-47 SKILL.md:47-50 SKILL.md:50-55 SKILL.md:55-58 SKILL.md:58-60 SKILL.md:60-65 SKILL.md:65-71 SKILL.md:71-74 SKILL.md:74-84 SKILL.md:84-87 SKILL.md:87-96 SKILL.md:96-99 SKILL.md:99-108 SKILL.md:108-111 SKILL.md:111-119 SKILL.md:119-122 SKILL.md:122-123 SKILL.md:123-124 SKILL.md:124-125 SKILL.md:125-128 SKILL.md:128-129 SKILL.md:129-133 SKILL.md:133-136 SKILL.md:136-139 SKILL.md:139-142 SKILL.md:142-145 SKILL.md:145-148 SKILL.md:148-151 SKILL.md:151-154 SKILL.md:154-156 SKILL.md:156-158 SKILL.md:158 SKILL.md:158-163 SKILL.md:163-168 SKILL.md:168-171 SKILL.md:171-177 SKILL.md:177-179 SKILL.md:179-187 SKILL.md:187-188 SKILL.md:188-189 SKILL.md:189-190 SKILL.md:190-191 SKILL.md:191-192 SKILL.md:192-196 SKILL.md:196 SKILL.md:196-200 SKILL.md:200-201 SKILL.md:201-202 SKILL.md:202-203 SKILL.md:203-204 SKILL.md:204-205 SKILL.md:205-211 SKILL.md:211-226 SKILL.md:226-230 SKILL.md:230-258 SKILL.md:258-262 SKILL.md:262-281 SKILL.md:281-288 SKILL.md:288 SKILL.md:288-292 SKILL.md:292 SKILL.md:292-296 SKILL.md:296 SKILL.md:296-300 SKILL.md:300 SKILL.md:300-302 SKILL.md:302-308 SKILL.md:308-313 SKILL.md:313-319 SKILL.md:319 SKILL.md:319-322

감사자: claude 감사 이력 보기 →

품질 점수

아키텍처

100

유지보수성

콘텐츠

커뮤니티

100

보안

사양 준수

만들 수 있는 것

학습 데이터셋 정리

학습 전에 중복 이미지를 제거하여 모델 편향을 방지하고 저장 비용을 줄입니다.

이미지 컬렉션 분석

대규모 데이터셋에서 시각적으로 유사한 이미지를 찾아 클러스터링 및 분석 작업에 활용합니다.

연구 데이터 중복 제거

중복되거나 거의 동일한 샘플을 제거해 수집된 이미지 데이터를 정리합니다.

이 프롬프트를 사용해 보세요

기본 중복 검색

Find and remove duplicate images in my FiftyOne dataset called '[dataset-name]'. First compute embeddings, then find near duplicates, and show me the results in the app.

임계값 조정

Find near-duplicate images in [dataset-name] with a lower threshold of 0.1 to catch only very similar images. Show the duplicate groups in the app for review.

정확 중복 vs 유사 중복

First find and remove exact duplicate files in [dataset-name], then find near-duplicates with threshold 0.3 and show me the groups.

유사도 검색

Find the 20 images most similar to sample ID [sample-id] in [dataset-name]. Sort them by similarity and display in the app.

모범 사례

기본 임계값 0.3으로 시작하고 결과에 따라 조정하세요
삭제 전에 FiftyOne App에서 중복을 시각적으로 검토하세요
여러 작업에서 임베딩을 재사용할 때는 동일한 brain_key를 사용하세요

피하기

중복 삭제 전에 시각적 검토 단계를 건너뛰지 마세요
대규모 데이터셋에서 테스트 없이 0.5보다 높은 임계값을 사용하지 마세요
작업을 완료한 후 앱을 닫는 것을 잊지 마세요

자주 묻는 질문

어떤 FiftyOne 버전이 필요하나요?

MCP 서버가 설치되어 있고 @voxel51/brain 플러그인이 활성화된 FiftyOne 0.21 이상이 필요합니다.

이 처리는 얼마나 많은 이미지를 다룰 수 있나요?

어떤 크기든 동작합니다. 임베딩 계산은 이미지 1,000장당 약 1~2분을 예상하세요.

내 임베딩 모델을 사용할 수 있나요?

네. compute_similarity operator 호출 시 FiftyOne에서 지원하는 어떤 모델이든 지정할 수 있습니다.

처리 중 내 데이터는 안전한가요?

모든 처리는 로컬 머신에서 이루어집니다. 외부 서버로 데이터가 전송되지 않습니다.

왜 앱을 실행해야 하나요?

Brain operator는 위임되어 있으며 UI 작업을 위해 FiftyOne App executor가 필요합니다.

단순 해시 매칭과 무엇이 다른가요?

단순한 해시 매칭이 아니라 딥러닝 임베딩을 사용해 시각적으로 유사한 이미지를 찾습니다.

개발자 세부 정보

작성자

AdonaiVera

라이선스

Apache-2.0

리포지토리

https://github.com/AdonaiVera/fiftyone-skills/tree/main/find-duplicates/skills/fiftyone-find-duplicates

참조

main

파일 구조

📄 SKILL.md