langfuse
AI アプリケーションに LLM の可観測性とトレーシングを追加する
包括的なトレーシングと評価により、LLM アプリケーションをデバッグ・監視します。Langfuse は、AI ワークフロー全体でコスト、レイテンシ、品質を追跡するオープンソースの可観測性を提供します。
スキルZIPをダウンロード
Claudeでアップロード
設定 → 機能 → スキル → スキルをアップロードへ移動
オンにして利用開始
テストする
「langfuse」を使用しています。 Langfuse を使用した OpenAI チャットアプリケーションのトレーシングに関するヘルプをユーザーが要求
期待される結果:
- API キーとホスト設定を含む Langfuse クライアント設定の初期化コード
- user_id、session_id、および metadata フィールドを含むトレース作成
- 入力メッセージ、モデルパラメータ、トークン使用量をキャプチャする Generation ロギング
- ユーザーフィードバックまたは自動基準に基づいてトレースをスコアリングする例
「langfuse」を使用しています。 RAG パイプライン用の LangChain コールバック統合をユーザーが必要
期待される結果:
- 公開鍵、秘密鍵、およびオプションのセッショントラッキングを含む CallbackHandler 設定
- ハンドラーを chain.invoke() 呼び出しに渡す方法を示す設定
- 自動トレーシングのためのグローバルコールバックハンドラーを設定する例
- リトリーバーと LLM 呼び出しのネストされたスパンを示すサンプルトレース出力
セキュリティ監査
安全All 17 static analysis findings are false positives. The skill is documentation for Langfuse, an open-source LLM observability platform. External command detections are Python code examples, not shell execution. Network URLs are legitimate API endpoints. API key references are placeholder examples in documentation.
リスク要因
🌐 ネットワークアクセス (2)
🔑 環境変数 (2)
品質スコア
作れるもの
本番環境の LLM アプリケーションモニタリング
トレースの完全な可視性により、ライブ AI アプリケーションを追跡・デバッグします。ユーザーセッション全体でトークンコスト、応答レイテンシ、エラーレートを監視します。
プロンプト開発とテスト
プロンプトをバージョン管理し、反復間の出力を比較して、A/B テストを実行します。データセットを使用して、デプロイ前にプロンプトの変更を体系的に評価します。
AI コストとパフォーマンスの最適化
トークン使用量のパターンを分析し、コストのかかる操作を特定して、モデル選択を最適化します。コスト異常とパフォーマンス劣化のアラートを設定します。
これらのプロンプトを試す
OpenAI アプリケーション用に Langfuse トレーシングを設定するのを手伝ってください。ユーザー ID とセッション ID でチャット完了を追跡する必要があります。Langfuse を初期化して既存の OpenAI 呼び出しをラップする Python コードを示してください。
カスタムチェーンとエージェントを備えた LangChain アプリケーションがあります。ネストされた呼び出しとツール使用を含め、すべてのチェーン実行を追跡するために Langfuse コールバックハンドラーを追加する手順を説明してください。
Langfuse でシステムプロンプトの複数のバージョンを管理し、それらのパフォーマンスを比較したいです。Langfuse でプロンプトを作成し、コードで取得し、どのバージョンのパフォーマンスが優れているかを分析する方法を示してください。
関連性と正確性に基づいて LLM 出力をスコアリングする評価パイプラインの構築を手伝ってください。テストデータセットを作成し、スコアリング基準を定義し、バッチ評価を実行してモデルバージョンを比較する必要があります。
ベストプラクティス
- 関数終了前にトレースが送信されることを確認するため、サーバーレス環境では必ず langfuse.flush() を呼び出す
- ユーザーレベルのデバッグとセッション分析を有効にするため、すべてのトレースに user_id と session_id を含める
- 一般的な関数名ではなくビジネスロジックを反映する意味のあるトレース名とスパン名を使用する
回避
- サーバーレス関数でトレースをフラッシュせず、実行終了時にデータ損失を引き起こす
- フィルタリングなしですべての操作をトレースし、ノイズとパフォーマンスオーバーヘッドを作成する
- ユーザーとセッションの識別子を欠き、特定のユーザー体験をデバッグする機能を制限する