scanlume-ocr-api
استخراج النصوص والجداول من الصور باستخدام تقنية التعرف الضوئي على الحروف (OCR)
استخراج النصوص يدوياً من الصور ولقطات الشاشة عملية بطيئة وعرضة للأخطاء. تعمل هذه المهارة على أتمتة معالجة التعرف الضوئي على الحروف من خلال واجهة برمجة تطبيقات Scanlume، وتوفر نصوصاً منظمة أو تنسيق Markdown أو HTML أو بيانات جداول من ملفات الصور.
تنزيل ZIP المهارة
رفع في Claude
اذهب إلى Settings → Capabilities → Skills → Upload skill
فعّل وابدأ الاستخدام
اختبرها
استخدام "scanlume-ocr-api". لقطة شاشة لصفحة منتج تعرض عنواناً وفقرة وصف وجدول أسعار
النتيجة المتوقعة:
- الوضع البسيط: يُرجع نصاً خاماً مع العنوان ونص الوصف وبيانات الأسعار بتنسيق مسطح.
- الوضع المنسق: يُرجع Markdown مع بنية العناوين ونص الفقرات وعرض جدول HTML لبيانات الأسعار. تتضمن الاستجابة كتلاً بمعلومات النوع (h1 وp وtable) وجدول tableSummary يعرض tableCount وrecordCount.
استخدام "scanlume-ocr-api". صورة فوتوغرافية لفاتورة مطبوعة تحتوي على جدول متعدد الصفوف بأعمدة للسلعة والكمية والسعر
النتيجة المتوقعة:
- يستخرج الوضع المنسق كل خلية جدول مع بيانات الموقع (rowStart وcolStart) ومحتوى النص وإشارات الرأس. يرسم مصفوفة السجلات كل صف بأسماء الحقول والقيم. يُبلغ tableSummary عن عدد الجداول والسجلات الموجودة.
التدقيق الأمني
مخاطر منخفضةThe static analyzer reported 168 potential issues with a risk score of 100/100. After evaluation, the vast majority are false positives. The 116 'Ruby/shell backtick execution' findings result from the scanner confusing markdown code fences (```) in documentation files with actual shell execution. The 'Weak cryptographic algorithm' findings flag base64 encoding used for API data URL construction, which is not cryptographic. 'Hardcoded URL' findings reference the skill's own documented API endpoints (api.scanlume.com, www.scanlume.com). The critical heuristic flag for 'Code execution + Network + Credential access' describes expected behavior for a legitimate API client skill. Real risk factors are limited to standard API client patterns: network requests to the Scanlume API, environment variable access for the SCANLUME_API_KEY, and execution of a bundled Python helper script. No malicious intent, credential exfiltration, or prompt injection attempts were detected.
مشكلات منخفضة المخاطر (4)
عوامل الخطر
🌐 الوصول إلى الشبكة (4)
⚙️ الأوامر الخارجية (2)
🔑 متغيرات البيئة (4)
درجة الجودة
ماذا يمكنك بناءه
استخراج النص من أرشيفات لقطات الشاشة
معالجة مجموعة من لقطات الشاشة لاستخراج النص المضمن لأغراض التوثيق وتقارير الأخطاء أو إدارة المعرفة. استخدم الوضع البسيط للسرعة أو الوضع المنسق للمخرجات المنظمة.
تحويل صور الجداول إلى بيانات منظمة
استخراج بيانات الجداول من صور التقارير المالية أو الفواتير أو جداول البيانات بتنسيق Markdown أو HTML قابل للتحرير والتحليل.
رقمنة المستندات المطبوعة
تحويل الصور الفوتوغرافية أو عمليات المسح للمستندات المطبوعة إلى نص قابل للبحث والتحرير. مفيد للأرشفة وإتاحة المحتوى المطبوع.
جرّب هذه الموجهات
استخرج كل النص من هذه الصورة في <image_path> باستخدام واجهة برمجة تطبيقات التعرف الضوئي على الحروف Scanlume في الوضع البسيط. أرجع الناتج النصي الخام.
استخدم واجهة برمجة تطبيقات التعرف الضوئي على الحروف Scanlume في الوضع المنسق لمعالجة هذه الصورة في <image_path>. أرجع نتيجة Markdown حتى أتمكن من رؤية العناوين والفقرات والبنية.
عالج هذه الصورة في <image_path> بالوضع المنسق لاستخراج بيانات الجدول. أرجع استجابة JSON ولخص عدد الجداول ومجموعات الصفوف وعدد السجلات من tableSummary.
شغّل النص البرمجي المساعد بلغة Python لاستدعاء واجهة برمجة تطبيقات التعرف الضوئي على الحروف Scanlume للملف المحلي في <image_path> بالوضع المنسق، مع إخراج Markdown. اعرض الأمر واشرح كل معلمة.
أفضل الممارسات
- تأكد من أن المدخلات ملف صورة (JPG أو PNG) وليست ملف PDF قبل استدعاء واجهة برمجة التطبيقات. لا تدعم واجهة برمجة التطبيقات العامة التعرف الضوئي على ملفات PDF.
- استخدم الوضع البسيط لاستخراج النص الخام عندما تكون السرعة والتكلفة أولويات. استخدم الوضع المنسق عندما تكون بنية المستند أو الجداول أو تنسيقات الإخراج الغنية مطلوبة.
- اضبط متغير البيئة SCANLUME_API_KEY بدلاً من تمريره في سطر الأوامر لتجنب كشف بيانات الاعتماد في سجل الصدفة.
تجنب
- لا تستخدم الوضع البسيط عندما تحتوي الصورة على جداول أو تخطيط منظم. يوفر الوضع المنسق المخرجات الواعية بالجداول اللازمة لاستخراج البيانات المنظمة.
- لا تفترض أن دعم عناوين URL البعيدة متاح. تقبل واجهة برمجة التطبيقات العامة فقط عناوين URL للبيانات base64 في حمولة الطلب.
- لا تقدم مسار التعرف الضوئي على الحروف لملفات PDF كمتاح علنياً. إنه حالياً خلف قائمة انتظار تجريبية وغير متاح بشكل عام.