langfuse
Fügen Sie Ihren KI-Anwendungen LLM-Observability und Tracing hinzu
Debuggen und überwachen Sie Ihre LLM-Anwendungen mit umfassendem Tracing und Evaluation. Langfuse bietet Open-Source-Observability zur Verfolgung von Kosten, Latenz und Qualität in Ihren KI-Workflows.
تنزيل ZIP المهارة
رفع في Claude
اذهب إلى Settings → Capabilities → Skills → Upload skill
فعّل وابدأ الاستخدام
اختبرها
استخدام "langfuse". Benutzer bittet um Hilfe beim Tracen einer OpenAI-Chat-Anwendung mit Langfuse
النتيجة المتوقعة:
- Initialisierungscode, der die Langfuse-Client-Einrichtung mit API-Schlüsseln und Host-Konfiguration zeigt
- Trace-Erstellung mit user_id-, session_id- und Metadaten-Feldern
- Generation-Logging, das Eingabenachrichten, Modellparameter und Token-Nutzung erfasst
- Beispiel für das Bewerten von Traces basierend auf Benutzerfeedback oder automatisierten Kriterien
استخدام "langfuse". Benutzer benötigt LangChain-Callback-Integration für seine RAG-Pipeline
النتيجة المتوقعة:
- CallbackHandler-Einrichtung mit öffentlichem Schlüssel, geheimem Schlüssel und optionalem Sitzungs-Tracking
- Konfiguration, die zeigt, wie Handler an chain.invoke()-Aufrufe übergeben werden
- Beispiel für das Einrichten eines globalen Callback-Handlers für automatisches Tracing
- Beispiel-Trace-Ausgabe, die verschachtelte Spans für Retriever- und LLM-Aufrufe zeigt
التدقيق الأمني
آمنAll 17 static analysis findings are false positives. The skill is documentation for Langfuse, an open-source LLM observability platform. External command detections are Python code examples, not shell execution. Network URLs are legitimate API endpoints. API key references are placeholder examples in documentation.
عوامل الخطر
🌐 الوصول إلى الشبكة (2)
🔑 متغيرات البيئة (2)
درجة الجودة
ماذا يمكنك بناءه
Produktions-LLM-Anwendungsmonitoring
Verfolgen und debuggen Sie live KI-Anwendungen mit vollständiger Trace-Sichtbarkeit. Überwachen Sie Token-Kosten, Antwortlatenz und Fehlerraten über Benutzersitzungen hinweg.
Prompt-Entwicklung und -Testing
Versionieren Sie Prompts, vergleichen Sie Ausgaben über Iterationen hinweg und führen Sie A/B-Tests durch. Verwenden Sie Datensätze, um Prompt-Änderungen vor der Bereitstellung systematisch zu evaluieren.
KI-Kosten- und Leistungsoptimierung
Analysieren Sie Token-Nutzungsmuster, identifizieren Sie teure Operationen und optimieren Sie die Modellauswahl. Richten Sie Warnungen für Kostenanomalien und Leistungsverschlechterungen ein.
جرّب هذه الموجهات
Helfen Sie mir, Langfuse-Tracing für meine OpenAI-Anwendung einzurichten. Ich muss Chat-Completions mit Benutzer-IDs und Sitzungs-IDs verfolgen. Zeigen Sie mir den Python-Code, um Langfuse zu initialisieren und meine vorhandenen OpenAI-Aufrufe zu wrappen.
Ich habe eine LangChain-Anwendung mit benutzerdefinierten Chains und Agenten. Führen Sie mich durch das Hinzufügen von Langfuse-Callback-Handlern, um alle Chain-Ausführungen zu tracen, einschließlich verschachtelter Aufrufe und Tool-Nutzung.
Ich möchte mehrere Versionen meiner System-Prompts in Langfuse verwalten und ihre Leistung vergleichen. Zeigen Sie mir, wie ich Prompts in Langfuse erstelle, im Code abrufe und analysiere, welche Versionen besser abschneiden.
Helfen Sie mir, eine Evaluations-Pipeline zu erstellen, die meine LLM-Ausgaben basierend auf Relevanz und Genauigkeit bewertet. Ich muss Testdatensätze erstellen, Bewertungskriterien definieren und Batch-Evaluationen durchführen, um Modellversionen zu vergleichen.
أفضل الممارسات
- Rufen Sie immer langfuse.flush() in Serverless-Umgebungen auf, um sicherzustellen, dass Traces vor Funktionsexit gesendet werden
- Fügen Sie user_id und session_id zu allen Traces hinzu, um Benutzerlevel-Debugging und Sitzungsanalysen zu ermöglichen
- Verwenden Sie aussagekräftige Trace- und Span-Namen, die die Geschäftslogik widerspiegeln, anstatt generische Funktionsnamen
تجنب
- Traces nicht in Serverless-Funktionen leeren (flush), was zu Datenverlust beim Beenden der Ausführung führt
- Jede Operation ohne Filterung tracen, was Rauschen und Leistungsaufwand erzeugt
- Fehlende Benutzer- und Sitzungsidentifikatoren, was die Fähigkeit einschränkt, bestimmte Benutzererfahrungen zu debuggen