スキル podcast-generation
📦

podcast-generation

低リスク

テキストからAIポッドキャスト音声を生成

このスキルは、Azure OpenAIのGPT Realtime Miniモデルを使用してポッドキャストスタイルの音声ナレーションを作成できます。WebSocket接続、音声ストリーミング、フォーマット変換を処理し、自然な speechを生成します。

対応: Claude Codex Code(CC)
📊 69 十分
1

スキルZIPをダウンロード

2

Claudeでアップロード

設定 → 機能 → スキル → スキルをアップロードへ移動

3

オンにして利用開始

テストする

「podcast-generation」を使用しています。 テックニュースショーのポッドキャストイントロを生成

期待される結果:

ブラウザでの再生 готовый Base64エンコードWAVファイル、生成されたナレーションテキストを示すトランスクリプト付き

「podcast-generation」を使用しています。 AIの進歩についての記事を音声に変換

期待される結果:

WebSocket経由で配信されるストリーミング音声チャンクを完全なWAVファイルに統合し、同期付きトランスクリプト

セキュリティ監査

低リスク
v1 • 2/24/2026

Static analysis flagged 23 potential issues, but evaluation confirms all are false positives. The skill uses environment variables for Azure API authentication (legitimate), makes network calls to Azure OpenAI WebSocket endpoint (expected for TTS functionality), and uses base64 encoding for audio data transfer (standard practice). No malicious intent or data exfiltration patterns found. This is a legitimate podcast generation skill using Azure OpenAI Realtime API.

1
スキャンされたファイル
127
解析された行数
5
検出結果
1
総監査数
中リスクの問題 (4)
Environment Variable Access for API Authentication
Skill accesses AZURE_OPENAI_AUDIO_API_KEY from environment. This is legitimate behavior for Azure OpenAI integration - API keys are required for authentication. No user input is concatenated with these values.
Network Access to Azure OpenAI Endpoint
Skill connects to Azure OpenAI WebSocket endpoint for realtime audio generation. This is expected behavior for a TTS service.
Base64 Encoding for Audio Data
Skill uses base64 encoding/decoding for audio PCM chunks. This is standard practice for transferring binary audio data over text-based protocols.
Code Fences Detected as Shell Commands
Static analyzer misidentified markdown backtick code fences as Ruby/shell backtick execution. The backticks are markdown delimiters for code blocks, not actual shell commands.
低リスクの問題 (1)
Misidentified Weak Cryptographic Algorithm
Static analyzer incorrectly flagged YAML frontmatter and plain text references as weak cryptographic algorithms. No cryptographic code exists in this skill.
監査者: claude

品質スコア

38
アーキテクチャ
100
保守性
85
コンテンツ
50
コミュニティ
68
セキュリティ
100
仕様準拠

作れるもの

コンテンツクリエイター向けオーディオブログ

ブログ記事や記事をポッドキャストスタイルの音声に変換し、アクセシビリティとリーチの拡大を実現。

E-Learning音声ナレーション

教育コンテンツやオンラインコース用の音声ナレーションを生成。

アクセシビリティ音声ツール

テキストベースのUIコンテンツをスクリーンリーダー互換性の音声に変換。

これらのプロンプトを試す

基本テキスト読み上げ
Azure OpenAI Realtime APIを使用してこのテキストをポッドキャストスタイルの音声に変換: {text_input}
カスタムボイス選択
{voice_name}ボイスでこのコンテンツの音声ナレーションを生成: {text_content}
トランスクリプト付き音声
{article_content}のポッドキャスト音声とトランスクリプトを作成。音声出力とテキストトランスクリプトの両方を含める。
バッチコンテンツ処理
複数のテキストセグメントを音声ファイルに変換。セグメント1: {text1}、セグメント2: {text2}、セグメント3: {text3}。それぞれ個別の音声ファイルを生成。

ベストプラクティス

  • 認証のためにスキルを使用する前にAzure環境変数を設定
  • コンテンツタイプに基づいて適切なボイス選択を使用(正式なコンテンツにはonyx、表現的なコンテンツにはfable)
  • リトライロジックでWebSocket接続エラーを適切に処理

回避

  • APIキーをクライアントサイドコードに公開しない - サーバーサイドのみに保持
  • 暗号化せずに機密情報や個人情報をテキストプロンプトで送信しない
  • 無制限のAPIクォータを前提にしない - レート制限とキャッシュを実装

よくある質問

このスキルにはどのAzureサービスが必要ですか?
このスキルにはGPT Realtime Miniデプロイと有効なAPI認証情報を含むAzure OpenAIが必要です。
このスキルはオフラインで使用できますか?
いいえ、このスキルはAzure OpenAIサービスと通信するためにアクティブなインターネット接続が必要です。
このスキルは何の音声形式を出力しますか?
スキルはWAV形式(24kHz、16ビット、モノラル)の音声を出力し、転送しやすいようにbase64でエンコードされます。
利用可能なボイスはいくつですか?
6つのボイスがサポートされています:alloy、echo、fable、onyx、nova、shimmer。
このスキルは本番使用に適していますか?
適切なエラー処理とAPIキー管理があれば本番アプリケーションで使用できます。
このスキルは音声データを保存しますか?
いいえ、スキルは音声をメモリで処理し、永続化せずに呼び出し元に返します。

開発者の詳細

ファイル構成

📄 SKILL.md