Навыки data-cleaning-pipeline

📦

data-cleaning-pipeline

Name: data-cleaning-pipeline
Author: Hermes-Sedimentary

Безопасно

Очистка и структурирование необработанных данных

Необработанные данные часто содержат дубликаты, пропущенные значения и несогласованные форматы, которые замедляют анализ. Этот навык автоматизирует дедупликацию, заполнение, нормализацию и обнаружение аномалий, чтобы создавать чистые наборы данных, готовые к использованию.

Поддерживает: Claude Codex Code(CC)

🥉 78 Бронза

Скачать ZIP навыка

Загрузить в Claude

Перейдите в Settings → Capabilities → Skills → Upload skill

Включите и начните использовать

Ресурсы для Agent

Используйте эти ссылки, когда AI Agent, crawler или script нужен чистый контекст вместо чтения всей страницы.

Markdown-детали GET /skills/zhangchenlai-dev-data-cleaning-pipeline.md Подписанный manifest GET /api/skills/zhangchenlai-dev-data-cleaning-pipeline/manifest Подписанный lockfile GET /api/skills/zhangchenlai-dev-data-cleaning-pipeline/lockfile

Протестировать

Использование «data-cleaning-pipeline». CSV с 200 записями клиентов, содержащий повторяющиеся email, пропущенные номера телефонов и даты в смешанных форматах, таких как '01/05/2023' и '2023-05-01'.

Ожидаемый результат:

Очищенный набор данных, где повторяющиеся email объединены в отдельные строки, пропущенные номера телефонов помечены как 'N/A', все даты нормализованы к формату 'YYYY-MM-DD', а сводный отчет перечисляет 12 удаленных дубликатов, 8 заполненных номеров телефонов и 45 переформатированных дат.

Использование «data-cleaning-pipeline». Таблица продаж с названиями товаров в несогласованном регистре, пустыми ячейками цен и количествами заказов, содержащими отрицательные значения.

Ожидаемый результат:

В очищенных данных названия товаров приведены к заглавному регистру слов, пустые цены заменены медианой по категории, а отрицательные количества помечены как аномалии в отдельном отчете для ручной проверки.

Использование «data-cleaning-pipeline». Экспорт опроса с ответами на нескольких языках, лишними пробелами и несогласованными значениями да/нет, такими как 'Y', 'yes', '1' и 'No'.

Ожидаемый результат:

Стандартизированные ответы с обрезанными пробелами, унифицированными значениями да/нет в 'Yes' и 'No', а также таблицей частот, показывающей, сколько ответов было изменено во время очистки.

Аудит безопасности

Безопасно

v1 • 5/21/2026

Static analysis flagged two high-severity patterns in SKILL.md, but both are false positives. The 'weak cryptographic algorithm' alert was triggered by Chinese text and Unicode arrows in the skill description, while the 'high file entropy' alert reflects the naturally higher entropy of CJK characters compared to ASCII. The file contains only a skill description with no code execution, network access, or malicious intent.

Просканировано файлов

Проанализировано строк

находки

Всего аудитов

Проблемы низкого риска (2)

SKILL.md:4

Weak Cryptographic Algorithm (False Positive)

Static scanner flagged 'weak cryptographic algorithm' with high confidence. Evaluation confirms this is a false positive. The pattern match was triggered by Unicode arrow symbols and Chinese characters in the description text at line 4. No actual cryptography, hashing, or encryption is present in the skill.

SKILL.md:1

High File Entropy (False Positive)

Static scanner reported high entropy (6.23 bits) suggesting binary or encrypted content. Evaluation confirms this is a false positive. Chinese CJK characters naturally have higher per-byte entropy than ASCII English text. The file is a plain UTF-8 markdown document containing only a skill description.

Проверено: claude

Оценка качества

Архитектура

Сопровождаемость

Контент

Сообщество

100

Безопасность

Соответствие спецификации

Что вы можете построить

Очистка результатов опроса

Аналитик данных загружает CSV с ответами на опрос, где есть пустые поля, повторные отправки и несогласованные шкалы оценок. Навык удаляет дубликаты, заполняет пропущенные ответы значением 'Не указано' и нормализует все оценки к шкале 1-5.

Подготовка отчетов о продажах

Бизнес-пользователь вставляет ежемесячные данные о продажах со смешанными форматами валют, пустыми ячейками скидок и пробелами в конце названий товаров. Навык стандартизирует валюты, заполняет пустые скидки нулем и обрезает пробелы во всех текстовых полях.

Предварительная обработка обучающих данных

Разработчику нужно подготовить набор данных для машинного обучения с закодированными категориальными значениями, нормализованными числовыми диапазонами и удаленными выбросами. Навык кодирует категории, применяет масштабирование min-max и помечает экстремальные значения.

Попробуйте эти промпты

Быстрая очистка

Очисти эти CSV-данные: удали дубликаты и заполни пропущенные значения

Нормализация форматов

У меня есть набор данных с несогласованными форматами дат. Нормализуй все даты к ISO 8601 и стандартизируй имена столбцов в snake_case.

Полный конвейер

Создай полный конвейер очистки для этих данных о продажах: выполни дедупликацию по order_id, заполни пропущенные цены медианой по категории, пометь выбросы выше 3 стандартных отклонений и создай отчет об очистке.

Проектирование переиспользуемого рабочего процесса

Спроектируй переиспользуемый рабочий процесс очистки данных для ежемесячных отчетов об оттоке клиентов. Включи проверку схемы, приведение типов, пользовательские бизнес-правила для пометки недействительных email и автоматизированную оценку качества.

Лучшие практики

Всегда создавайте резервную копию необработанных данных перед выполнением операций очистки
Проверяйте пометки аномалий перед удалением выбросов из набора данных
Документируйте выполненные шаги очистки, чтобы сохранять воспроизводимость

Избегать

Не используйте этот навык для персональных данных без надлежащего согласия
Не принимайте вслепую все автоматические замены без проверки
Не пытайтесь очищать данные, которые превышают контекстное окно вашего инструмента

Часто задаваемые вопросы

Какие форматы файлов поддерживает этот навык?

Этот навык работает с CSV, Excel, JSON и структурированными текстовыми данными, вставленными прямо в разговор.

Изменит ли этот навык мои исходные файлы?

Нет. Навык только читает данные, которые вы вставляете или загружаете. Он выводит очищенные результаты, чтобы вы сохранили их отдельно.

Может ли он обрабатывать наборы данных с тысячами строк?

Да, для умеренных объемов. Очень большие наборы данных следует разбивать на части, чтобы оставаться в пределах ограничений контекста.

Он удаляет строки или только помечает проблемы?

И то и другое. Вы можете выбрать удаление дубликатов и выбросов или только пометить их для ручной проверки.

Могу ли я настроить правила очистки?

Да. Опишите свои конкретные правила в запросе, например пользовательские форматы дат или предметно-специфическую проверку.

Передаются ли мои данные третьим сторонам?

Нет. Данные обрабатываются в рамках вашего разговора и регулируются политикой конфиденциальности поставщика вашего AI-инструмента.

Сведения для разработчиков

Автор

Hermes-Sedimentary

Лицензия

MIT

Репозиторий

https://github.com/zhangchenlai-dev/hermes-skill-store/tree/master/data-cleaning-pipeline

Ссылка

master

Структура файлов

📄 SKILL.md