vaex
تحليل مجموعات البيانات الضخمة باستخدام Vaex
متاح أيضًا من: davila7
يتطلب معالجة مجموعات البيانات الجدولية الكبيرة التي تتجاوز ذاكرة الوصول العشوائي أدوات متخصصة. يتيح Vaex عمليات DataFrame خارج النوى، والتقييم الكسول، ومعالجة مليارات الصفوف في الثانية على مجموعات البيانات الكبيرة جداً بالنسبة للذاكرة. مثالي للبيانات الفلكية، وسلسلة البيانات المالية، والتحليل العلمي واسع النطاق.
تنزيل ZIP المهارة
رفع في Claude
اذهب إلى Settings → Capabilities → Skills → Upload skill
فعّل وابدأ الاستخدام
اختبرها
استخدام "vaex". Load my parquet file and show statistics
النتيجة المتوقعة:
- DataFrame shape: (10,000,000, 15) rows x columns
- Column types: int64 (5), float64 (7), string (3)
- Memory usage: 0.5 GB (virtual columns)
- Mean age: 34.2 | Std income: 45200.5
استخدام "vaex". Filter and group data
النتيجة المتوقعة:
- Filtered to 2.3 million rows (age > 25)
- Group by category results:
- - Electronics: 450K rows, mean $52,000
- - Clothing: 890K rows, mean $31,000
- - Home: 960K rows, mean $42,000
استخدام "vaex". Convert CSV to HDF5 for performance
النتيجة المتوقعة:
- Original CSV: 15 GB, 45 minutes to load
- Converted HDF5: 8 GB, instant loading
- Memory-mapped access - zero RAM for exploration
التدقيق الأمني
آمنThis is a pure documentation skill for the Vaex Python library. All 498 static findings are false positives caused by markdown code block formatting. The scanner misinterpreted backticks in code examples as Ruby/shell commands, flagged memory-mapping as filesystem access, and misidentified DataFrame inspection methods as reconnaissance. No executable code, credential handling, or malicious patterns exist.
عوامل الخطر
⚙️ الأوامر الخارجية (7)
📁 الوصول إلى نظام الملفات (3)
🌐 الوصول إلى الشبكة (2)
درجة الجودة
ماذا يمكنك بناءه
استكشاف مجموعات البيانات بمليارات الصفوف
تحليل مجموعات البيانات الضخمة CSV/HDF5 بشكل تفاعلي دون قيود الذاكرة أو المعالجة المسبقة.
معالجة البيانات الفلكية
العمل مع مجموعات البيانات العلمية بتيرابايت باستخدام الحساب خارج النوى والتقييم الكسول.
بناء خطوط أنابيب قابلة للتوسع
إنشاء هندسة المعالم وخطوط عمل التعلم الآلي التي تتعامل مع مجموعات البيانات التي تتجاوز ذاكرة الوصول العشوائي المتاحة.
جرّب هذه الموجهات
Use Vaex to open my HDF5 file at data/large_dataset.hdf5 and show its structure, column types, and row count.
Filter the dataset for records where age > 25 and calculate the mean and standard deviation of income grouped by category.
Create a heatmap showing the relationship between x and y coordinates with 100 bins on each axis.
Use Vaex ML to create a StandardScaler for features age and income, then apply PCA for dimensionality reduction.
أفضل الممارسات
- استخدم صيغ HDF5 أو Apache Arrow للتحميل الفوري المعتمد على الذاكرة بدلاً من CSV
- استفد من الأعمدة الافتراضية والتعبيرات للحسابات دون تجسيد البيانات
- استخدم العمليات الدفعية مع delay=True عند تنفيذ عدة تجميعات لكفاءة أفضل
تجنب
- تجنب تحميل مجموعات البيانات بالكامل في ذاكرة الوصول العشوائي - استخدم vaex.open() للوصول المعتمد على الذاكرة
- لا تحول مجموعات البيانات الكبيرة إلى pandas - استخدم عمليات Vaex طوال خط الأنابيب
- تجنب التصديرات الصغيرة المتعددة - اجمع الكتابات واستخدم صيغاً فعالة مثل HDF5