スキル fiftyone-find-duplicates
🔍

fiftyone-find-duplicates

安全 🌐 ネットワークアクセス⚙️ 外部コマンド

데이터셋에서 중복 이미지 찾기

중복 이미지는 저장 공간을 낭비하고 머신러닝 모델에 편향을 유발합니다. 이 스킬은 딥러닝 임베딩을 사용해 FiftyOne 데이터셋에서 정확히 중복된 이미지와 유사 중복 이미지를 식별하고 제거합니다. 탐지 과정을 자동화해 학습 전에 데이터셋을 정리할 수 있도록 돕습니다.

対応: Claude Codex Code(CC)
📊 69 十分
1

スキルZIPをダウンロード

2

Claudeでアップロード

設定 → 機能 → スキル → スキルをアップロードへ移動

3

オンにして利用開始

テストする

「fiftyone-find-duplicates」を使用しています。 Find duplicate images in my training-dataset

期待される結果:

  • 유사 중복 발견: 3개 그룹, 총 12장
  • 그룹 1: 유사 이미지 5장 (대표: sample-abc123)
  • 그룹 2: 유사 이미지 4장 (대표: sample-def456)
  • 그룹 3: 유사 이미지 3장 (대표: sample-ghi789)
  • 대표를 유지하면서 중복을 제거하려면 deduplicate_near_duplicates를 실행하세요.

「fiftyone-find-duplicates」を使用しています。 Find images similar to sample ABC123

期待される結果:

  • 샘플 ABC123과 가장 유사한 이미지 20장을 찾았습니다
  • 유사도 점수 기준 상위 매치:
  • - sample-001: 거리 0.12 (매우 유사)
  • - sample-002: 거리 0.15
  • - sample-003: 거리 0.18
  • 시각적 유사도 순으로 정렬된 20장의 이미지를 보려면 앱을 여세요.

セキュリティ監査

安全
v5 • 1/16/2026

Documentation-only skill containing only SKILL.md and skill-report.json. All 92 static findings are false positives triggered by markdown code fences, documentation URLs, and JSON metadata fields. No executable code, scripts, network calls, or file system access exists. The skill guides AI assistants to use pre-existing FiftyOne MCP server tools for dataset operations.

2
スキャンされたファイル
523
解析された行数
2
検出結果
5
総監査数
監査者: claude 監査履歴を表示 →

品質スコア

38
アーキテクチャ
100
保守性
87
コンテンツ
20
コミュニティ
100
セキュリティ
91
仕様準拠

作れるもの

학습 데이터셋 정리

학습 전에 중복 이미지를 제거하여 모델 편향을 방지하고 저장 비용을 줄입니다.

이미지 컬렉션 분석

대규모 데이터셋에서 시각적으로 유사한 이미지를 찾아 클러스터링 및 분석 작업에 활용합니다.

연구 데이터 중복 제거

중복되거나 거의 동일한 샘플을 제거해 수집된 이미지 데이터를 정리합니다.

これらのプロンプトを試す

기본 중복 검색
Find and remove duplicate images in my FiftyOne dataset called '[dataset-name]'. First compute embeddings, then find near duplicates, and show me the results in the app.
임계값 조정
Find near-duplicate images in [dataset-name] with a lower threshold of 0.1 to catch only very similar images. Show the duplicate groups in the app for review.
정확 중복 vs 유사 중복
First find and remove exact duplicate files in [dataset-name], then find near-duplicates with threshold 0.3 and show me the groups.
유사도 검색
Find the 20 images most similar to sample ID [sample-id] in [dataset-name]. Sort them by similarity and display in the app.

ベストプラクティス

  • 기본 임계값 0.3으로 시작하고 결과에 따라 조정하세요
  • 삭제 전에 FiftyOne App에서 중복을 시각적으로 검토하세요
  • 여러 작업에서 임베딩을 재사용할 때는 동일한 brain_key를 사용하세요

回避

  • 중복 삭제 전에 시각적 검토 단계를 건너뛰지 마세요
  • 대규모 데이터셋에서 테스트 없이 0.5보다 높은 임계값을 사용하지 마세요
  • 작업을 완료한 후 앱을 닫는 것을 잊지 마세요

よくある質問

어떤 FiftyOne 버전이 필요하나요?
MCP 서버가 설치되어 있고 @voxel51/brain 플러그인이 활성화된 FiftyOne 0.21 이상이 필요합니다.
이 처리는 얼마나 많은 이미지를 다룰 수 있나요?
어떤 크기든 동작합니다. 임베딩 계산은 이미지 1,000장당 약 1~2분을 예상하세요.
내 임베딩 모델을 사용할 수 있나요?
네. compute_similarity operator 호출 시 FiftyOne에서 지원하는 어떤 모델이든 지정할 수 있습니다.
처리 중 내 데이터는 안전한가요?
모든 처리는 로컬 머신에서 이루어집니다. 외부 서버로 데이터가 전송되지 않습니다.
왜 앱을 실행해야 하나요?
Brain operator는 위임되어 있으며 UI 작업을 위해 FiftyOne App executor가 필요합니다.
단순 해시 매칭과 무엇이 다른가요?
단순한 해시 매칭이 아니라 딥러닝 임베딩을 사용해 시각적으로 유사한 이미지를 찾습니다.

開発者の詳細

ファイル構成

📄 SKILL.md