data-cleaning-pipeline
Очистка и структурирование необработанных данных
Необработанные данные часто содержат дубликаты, пропущенные значения и несогласованные форматы, которые замедляют анализ. Этот навык автоматизирует дедупликацию, заполнение, нормализацию и обнаружение аномалий, чтобы создавать чистые наборы данных, готовые к использованию.
Скачать ZIP навыка
Загрузить в Claude
Перейдите в Settings → Capabilities → Skills → Upload skill
Включите и начните использовать
Ресурсы для Agent
Используйте эти ссылки, когда AI Agent, crawler или script нужен чистый контекст вместо чтения всей страницы.
Протестировать
Использование «data-cleaning-pipeline». CSV с 200 записями клиентов, содержащий повторяющиеся email, пропущенные номера телефонов и даты в смешанных форматах, таких как '01/05/2023' и '2023-05-01'.
Ожидаемый результат:
Очищенный набор данных, где повторяющиеся email объединены в отдельные строки, пропущенные номера телефонов помечены как 'N/A', все даты нормализованы к формату 'YYYY-MM-DD', а сводный отчет перечисляет 12 удаленных дубликатов, 8 заполненных номеров телефонов и 45 переформатированных дат.
Использование «data-cleaning-pipeline». Таблица продаж с названиями товаров в несогласованном регистре, пустыми ячейками цен и количествами заказов, содержащими отрицательные значения.
Ожидаемый результат:
В очищенных данных названия товаров приведены к заглавному регистру слов, пустые цены заменены медианой по категории, а отрицательные количества помечены как аномалии в отдельном отчете для ручной проверки.
Использование «data-cleaning-pipeline». Экспорт опроса с ответами на нескольких языках, лишними пробелами и несогласованными значениями да/нет, такими как 'Y', 'yes', '1' и 'No'.
Ожидаемый результат:
Стандартизированные ответы с обрезанными пробелами, унифицированными значениями да/нет в 'Yes' и 'No', а также таблицей частот, показывающей, сколько ответов было изменено во время очистки.
Аудит безопасности
БезопасноStatic analysis flagged two high-severity patterns in SKILL.md, but both are false positives. The 'weak cryptographic algorithm' alert was triggered by Chinese text and Unicode arrows in the skill description, while the 'high file entropy' alert reflects the naturally higher entropy of CJK characters compared to ASCII. The file contains only a skill description with no code execution, network access, or malicious intent.
Проблемы низкого риска (2)
Оценка качества
Что вы можете построить
Очистка результатов опроса
Аналитик данных загружает CSV с ответами на опрос, где есть пустые поля, повторные отправки и несогласованные шкалы оценок. Навык удаляет дубликаты, заполняет пропущенные ответы значением 'Не указано' и нормализует все оценки к шкале 1-5.
Подготовка отчетов о продажах
Бизнес-пользователь вставляет ежемесячные данные о продажах со смешанными форматами валют, пустыми ячейками скидок и пробелами в конце названий товаров. Навык стандартизирует валюты, заполняет пустые скидки нулем и обрезает пробелы во всех текстовых полях.
Предварительная обработка обучающих данных
Разработчику нужно подготовить набор данных для машинного обучения с закодированными категориальными значениями, нормализованными числовыми диапазонами и удаленными выбросами. Навык кодирует категории, применяет масштабирование min-max и помечает экстремальные значения.
Попробуйте эти промпты
Очисти эти CSV-данные: удали дубликаты и заполни пропущенные значения
У меня есть набор данных с несогласованными форматами дат. Нормализуй все даты к ISO 8601 и стандартизируй имена столбцов в snake_case.
Создай полный конвейер очистки для этих данных о продажах: выполни дедупликацию по order_id, заполни пропущенные цены медианой по категории, пометь выбросы выше 3 стандартных отклонений и создай отчет об очистке.
Спроектируй переиспользуемый рабочий процесс очистки данных для ежемесячных отчетов об оттоке клиентов. Включи проверку схемы, приведение типов, пользовательские бизнес-правила для пометки недействительных email и автоматизированную оценку качества.
Лучшие практики
- Всегда создавайте резервную копию необработанных данных перед выполнением операций очистки
- Проверяйте пометки аномалий перед удалением выбросов из набора данных
- Документируйте выполненные шаги очистки, чтобы сохранять воспроизводимость
Избегать
- Не используйте этот навык для персональных данных без надлежащего согласия
- Не принимайте вслепую все автоматические замены без проверки
- Не пытайтесь очищать данные, которые превышают контекстное окно вашего инструмента
Часто задаваемые вопросы
Какие форматы файлов поддерживает этот навык?
Изменит ли этот навык мои исходные файлы?
Может ли он обрабатывать наборы данных с тысячами строк?
Он удаляет строки или только помечает проблемы?
Могу ли я настроить правила очистки?
Передаются ли мои данные третьим сторонам?
Сведения для разработчиков
Автор
Hermes-SedimentaryЛицензия
MIT
Репозиторий
https://github.com/zhangchenlai-dev/hermes-skill-store/tree/master/data-cleaning-pipelineСсылка
master
Структура файлов
📄 SKILL.md