スキル langfuse
📦

langfuse

安全 🌐 ネットワークアクセス🔑 環境変数

AI アプリケーションに LLM の可観測性とトレーシングを追加する

包括的なトレーシングと評価により、LLM アプリケーションをデバッグ・監視します。Langfuse は、AI ワークフロー全体でコスト、レイテンシ、品質を追跡するオープンソースの可観測性を提供します。

対応: Claude Codex Code(CC)
🥉 75 ブロンズ
1

スキルZIPをダウンロード

2

Claudeでアップロード

設定 → 機能 → スキル → スキルをアップロードへ移動

3

オンにして利用開始

テストする

「langfuse」を使用しています。 Langfuse を使用した OpenAI チャットアプリケーションのトレーシングに関するヘルプをユーザーが要求

期待される結果:

  • API キーとホスト設定を含む Langfuse クライアント設定の初期化コード
  • user_id、session_id、および metadata フィールドを含むトレース作成
  • 入力メッセージ、モデルパラメータ、トークン使用量をキャプチャする Generation ロギング
  • ユーザーフィードバックまたは自動基準に基づいてトレースをスコアリングする例

「langfuse」を使用しています。 RAG パイプライン用の LangChain コールバック統合をユーザーが必要

期待される結果:

  • 公開鍵、秘密鍵、およびオプションのセッショントラッキングを含む CallbackHandler 設定
  • ハンドラーを chain.invoke() 呼び出しに渡す方法を示す設定
  • 自動トレーシングのためのグローバルコールバックハンドラーを設定する例
  • リトリーバーと LLM 呼び出しのネストされたスパンを示すサンプルトレース出力

セキュリティ監査

安全
v1 • 2/25/2026

All 17 static analysis findings are false positives. The skill is documentation for Langfuse, an open-source LLM observability platform. External command detections are Python code examples, not shell execution. Network URLs are legitimate API endpoints. API key references are placeholder examples in documentation.

1
スキャンされたファイル
243
解析された行数
2
検出結果
1
総監査数

リスク要因

🌐 ネットワークアクセス (2)
🔑 環境変数 (2)
監査者: claude

品質スコア

38
アーキテクチャ
100
保守性
87
コンテンツ
50
コミュニティ
100
セキュリティ
100
仕様準拠

作れるもの

本番環境の LLM アプリケーションモニタリング

トレースの完全な可視性により、ライブ AI アプリケーションを追跡・デバッグします。ユーザーセッション全体でトークンコスト、応答レイテンシ、エラーレートを監視します。

プロンプト開発とテスト

プロンプトをバージョン管理し、反復間の出力を比較して、A/B テストを実行します。データセットを使用して、デプロイ前にプロンプトの変更を体系的に評価します。

AI コストとパフォーマンスの最適化

トークン使用量のパターンを分析し、コストのかかる操作を特定して、モデル選択を最適化します。コスト異常とパフォーマンス劣化のアラートを設定します。

これらのプロンプトを試す

基本的なトレーシング設定
OpenAI アプリケーション用に Langfuse トレーシングを設定するのを手伝ってください。ユーザー ID とセッション ID でチャット完了を追跡する必要があります。Langfuse を初期化して既存の OpenAI 呼び出しをラップする Python コードを示してください。
LangChain 統合
カスタムチェーンとエージェントを備えた LangChain アプリケーションがあります。ネストされた呼び出しとツール使用を含め、すべてのチェーン実行を追跡するために Langfuse コールバックハンドラーを追加する手順を説明してください。
プロンプトのバージョニングと比較
Langfuse でシステムプロンプトの複数のバージョンを管理し、それらのパフォーマンスを比較したいです。Langfuse でプロンプトを作成し、コードで取得し、どのバージョンのパフォーマンスが優れているかを分析する方法を示してください。
カスタム評価パイプライン
関連性と正確性に基づいて LLM 出力をスコアリングする評価パイプラインの構築を手伝ってください。テストデータセットを作成し、スコアリング基準を定義し、バッチ評価を実行してモデルバージョンを比較する必要があります。

ベストプラクティス

  • 関数終了前にトレースが送信されることを確認するため、サーバーレス環境では必ず langfuse.flush() を呼び出す
  • ユーザーレベルのデバッグとセッション分析を有効にするため、すべてのトレースに user_id と session_id を含める
  • 一般的な関数名ではなくビジネスロジックを反映する意味のあるトレース名とスパン名を使用する

回避

  • サーバーレス関数でトレースをフラッシュせず、実行終了時にデータ損失を引き起こす
  • フィルタリングなしですべての操作をトレースし、ノイズとパフォーマンスオーバーヘッドを作成する
  • ユーザーとセッションの識別子を欠き、特定のユーザー体験をデバッグする機能を制限する

よくある質問

Langfuse は無料で使用できますか?
Langfuse は開発および小規模利用向けの無料プランを提供しています。セルフホスティングは完全に無料でオープンソースです。クラウドホスティングには、より大量の利用および追加機能向けの有料プランがあります。
Langfuse は OpenAI 以外のモデルでも動作しますか?
はい。Langfuse は OpenAI、Anthropic Claude、LlamaIndex、LangChain、およびカスタム統合をサポートしています。独自の計装による手動トレーシング API を使用して、あらゆる LLM をトレースできます。
トレース内の機微なデータはどのように扱いますか?
Langfuse に送信する前に機微なフィールドを編集するためにメタデータマスキング機能を使用します。また、Langfuse をセルフホストして、すべてのトレースデータをインフラストラクチャ内に保持することもできます。
ストリーミングレスポンスで Langfuse を使用できますか?
はい。Langfuse はサポートされている統合のためにストリーミングを自動的に処理します。手動トレーシングの場合、ストリーム完了後に完全な応答をログに記録するか、長時間実行されるストリームのために増分更新を使用します。
異なるプロバイダー間でモデルパフォーマンスを比較するにはどうすればよいですか?
Langfuse データセットを使用して、異なるモデルに対して同じテストケースを実行します。トレースにモデル名にタグを付け、ダッシュボードを使用してレイテンシ、コスト、品質スコアを並べて比較します。
トレーシング中に Langfuse が利用できない場合はどうなりますか?
Langfuse SDK はトレースを非同期にバッチ処理し、失敗時に再試行します。Langfuse が一時的に到達不能でも、アプリケーションは通常どおり動作し続けます。トレースはキューイングされ、接続が再開されたときに送信されます。

開発者の詳細

作成者

sickn33

ライセンス

MIT

参照

main

ファイル構成

📄 SKILL.md