المهارات umap-learn
📊

umap-learn

آمن ⚙️ الأوامر الخارجية

تطبيق تقليل الأبعاد UMAP لتصور البيانات

متاح أيضًا من: davila7

البيانات عالية الأبعاد يصعب تصورها وتحليلها. يقلل UMAP الأبعاد مع الحفاظ على البنية، مما يتيح تصورات واضحة ثنائية وثلاثية الأبعاد نتائج تجميع أفضل.

يدعم: Claude Codex Code(CC)
📊 69 كافٍ
1

تنزيل ZIP المهارة

2

رفع في Claude

اذهب إلى Settings → Capabilities → Skills → Upload skill

3

فعّل وابدأ الاستخدام

اختبرها

استخدام "umap-learn". طبّق UMAP لتصور مجموعة بيانات iris الخاصة بي في بُعدين

النتيجة المتوقعة:

  • تم إنشاء تضمين UMAP بالشكل (150, 2)
  • تم تطبيق المعالجة المسبقة StandardScaler
  • تم إنشاء مخطط مبعثر يُظهر ثلاث تجمعات مميزة
  • تم الحفاظ على 92% من بنية الجوار المحلي
  • مستعد للاستكشاف التفاعلي للعلاقات بين الأنواع

استخدام "umap-learn". استخدم UMAP لمعالجة بيانات العملاء الخاصة بي مسبقاً للتجمعات

النتيجة المتوقعة:

  • تم تطبيق UMAP المُحسّن للتجمعات مع n_neighbors=30، min_dist=0.0
  • تم تقليل إلى 10 أبعاد لـ HDBSCAN
  • تم تحديد 5 شرائح عملاء باستخدام HDBSCAN
  • تم العثور على 23 نقطة ضوضاء (عملاء غير معينين)
  • تم الحفاظ على الكثافة بشكل أفضل منReduction المباشر ثنائي الأبعاد

استخدام "umap-learn". طبّق UMAP الخاضع للإشراف مع مجموعة البيانات المسمى الخاصة بي

النتيجة المتوقعة:

  • تم استخدام 5000 عينة مسماة بـ 50 سمة
  • حقق التضمين الخاضع للإشراف فصلاً للتجمع بنسبة 0.89
  • الفئات مرئية بوضوح في التصور ثنائي الأبعاد
  • تم الحفاظ على البنية الداخلية ضمن كل فئة

التدقيق الأمني

آمن
v4 • 1/17/2026

All static findings are false positives. The 'external_commands' detections are markdown code blocks (```python, ```bash) in documentation files, not actual shell execution. No malicious code, network requests, or security risks exist. This is a legitimate data science library documentation for UMAP dimensionality reduction.

3
الملفات التي تم فحصها
1,740
الأسطر التي تم تحليلها
1
النتائج
4
إجمالي عمليات التدقيق
تم تدقيقه بواسطة: claude عرض سجل التدقيق →

درجة الجودة

41
الهندسة المعمارية
100
قابلية الصيانة
87
المحتوى
21
المجتمع
100
الأمان
83
الامتثال للمواصفات

ماذا يمكنك بناءه

تصور مجموعات البيانات عالية الأبعاد

إنشاء مخططات مبعثرة ثنائية الأبعاد للبيانات المعقدة مثل تعبير الجينات أو تضمينات النصوص أو سلوك العملاء لاكتشاف الأنماط.

معالجة البيانات مسبقاً للتجمعات

تقليل الأبعاد قبل تطبيق HDBSCAN للتغلب على لعنة الأبعاد وتحسين جودة التجمع.

هندسة المعالم لخطوط أنابيب التعلم الآلي

إنشاء تضمينات مدمجة من 10 إلى 50 بعداً تحافظ على البنية لمهام التصنيف أو الانحدار اللاحقة.

جرّب هذه الموجهات

تصور أساسي
طبّق UMAP لتقليل مجموعة البيانات الخاصة بي إلى بُعدين للتصور. استخدم المعلمات القياسية وأنشئ مخططاً مبعثراً ملوناً حسب المتغير الهدف.
تحسين التجمع
اضبط UMAP للمعالجة المسبقة للتجمعات مع n_neighbors=30، min_dist=0.0، n_components=10، ثم طبّق HDBSCAN للعثور على التجمعات.
تضمين خاضع للإشراف
أنشئ تضمين UMAP خاضعاً للإشراف باستخدام تسميات الفص الخاصة بي لفصل الفئات مع الحفاظ على البنية الداخلية ضمن كل فئة.
اختيار مقياس مخصص
طبّق UMAP مع مسافة جيب التمام لتضمينات المستندات الخاصة بي، أو استخدم مسافة هامنغ للبيانات ذات السمات الثنائية.

أفضل الممارسات

  • قم دائماً بتوحيد السمات قبل تطبيق UMAP لضمان ترجيح متساوٍ عبر الأبعاد
  • عيّن معلمة random_state للحصول على نتائج قابلة للتكرار عبر التشغيلات
  • استخدم n_neighbors=30، min_dist=0.0، n_components=10 لمسارات عمل المعالجة المسبقة للتجمعات

تجنب

  • تطبيق UMAP على البيانات الخام غير المقاسة سيُنتج تضمينات متحيزة مع ترجيح سمات غير متساوٍ
  • استخدام المعلمات الافتراضية لجميع المهام دون ضبطها لأهداف محددة يقلل الفعالية
  • افتراض أن UMAP يحافظ على الكثافة بشكل مثالي - يمكن أن يخلق تقسيمات تجمعات اصطناعية

الأسئلة المتكررة

متى يجب أن أستخدم UMAP بدلاً من t-SNE؟
استخدم UMAP لحساب أسرع، وحفاظ أفضل على البنية العالمية، وعندما تحتاج إلى تحويل بيانات جديدة. يتوسع UMAP بشكل أفضل لمجموعات البيانات الأكبر.
لماذا تكون تجمعاتي منفصلة؟
قم بزيادة معلمة n_neighbors لإبراز بنية عالمية أكثر وتوصيل المكونات المجزأة. تعمل القيم من 50 إلى 200 بشكل جيد.
كيف أجعل النتائج قابلة للتكرار؟
عيّن معلمة random_state إلى أي قيمة عددية. هذا يُصلح بذرة التحسين العشوائي للتضمينات المتسقة.
هل يمكن لـ UMAP التعامل مع المتغيرات الفئوية؟
يعمل UMAP مع البيانات الرقمية. قم بترميز المتغيرات الفئوية باستخدام الترميز الواحد الساخن أو استخدم مسافة هامنغ للبيانات المُرمّزة ثنائياً.
ما الفرق بين fit() و fit_transform()؟
fit_transform() يجمع التدريب والتحويل في خطوة واحدة. استخدم fit() متبوعاً بـ transform() عندما تحتاج إلى تطبيق نفس التضمين على بيانات جديدة.
كيف أختار العدد الصحيح من المكونات؟
استخدم 2-3 للتصور، 5-10 للمعالجة المسبقة للتجمعات، و10-50 لهندسة المعالم في خطوط أنابيب التعلم الآلي.

تفاصيل المطور

المؤلف

K-Dense-AI

الترخيص

BSD-3-Clause license

مرجع

main

بنية الملفات