技能 podcast-generation
📦

podcast-generation

低風險

從文字生成 AI 播客音訊

此技能使開發人員能夠使用 Azure OpenAI 的 GPT Realtime Mini 模型創建播客風格的音訊敘述。它處理 WebSocket 連線、音訊串流和格式轉換,以產生自然語音。

支援: Claude Codex Code(CC)
⚠️ 66
1

下載技能 ZIP

2

在 Claude 中上傳

前往 設定 → 功能 → 技能 → 上傳技能

3

開啟並開始使用

測試它

正在使用「podcast-generation」。 生成科技新聞節目的播客介紹

預期結果:

Base64 編碼的 WAV 音訊檔案,可直接在瀏覽器中播放,並附有顯示所生成敘述文字的逐字稿

正在使用「podcast-generation」。 將這篇關於 AI 進展的文章轉換為音訊

預期結果:

透過 WebSocket 傳送的串流音訊片段,組合成完整的 WAV 檔案並附上同步逐字稿

安全審計

低風險
v1 • 2/24/2026

Static analysis flagged 23 potential issues, but evaluation confirms all are false positives. The skill uses environment variables for Azure API authentication (legitimate), makes network calls to Azure OpenAI WebSocket endpoint (expected for TTS functionality), and uses base64 encoding for audio data transfer (standard practice). No malicious intent or data exfiltration patterns found. This is a legitimate podcast generation skill using Azure OpenAI Realtime API.

1
已掃描檔案
127
分析行數
5
發現項
1
審計總數
中風險問題 (4)
Environment Variable Access for API Authentication
Skill accesses AZURE_OPENAI_AUDIO_API_KEY from environment. This is legitimate behavior for Azure OpenAI integration - API keys are required for authentication. No user input is concatenated with these values.
Network Access to Azure OpenAI Endpoint
Skill connects to Azure OpenAI WebSocket endpoint for realtime audio generation. This is expected behavior for a TTS service.
Base64 Encoding for Audio Data
Skill uses base64 encoding/decoding for audio PCM chunks. This is standard practice for transferring binary audio data over text-based protocols.
Code Fences Detected as Shell Commands
Static analyzer misidentified markdown backtick code fences as Ruby/shell backtick execution. The backticks are markdown delimiters for code blocks, not actual shell commands.
低風險問題 (1)
Misidentified Weak Cryptographic Algorithm
Static analyzer incorrectly flagged YAML frontmatter and plain text references as weak cryptographic algorithms. No cryptographic code exists in this skill.
審計者: claude

品質評分

38
架構
100
可維護性
85
內容
31
社群
68
安全
100
規範符合性

你能建構什麼

內容創作者音訊部落格

將部落格文章或文章轉換為播客風格音訊,提升無障礙性和擴大受眾範圍。

電子學習音訊旁白

為教育內容和線上課程生成語音音訊旁白。

無障礙音訊工具

將基於文字的 UI 內容轉換為語音,以相容螢幕閱讀器。

試試這些提示

基本文字轉語音
使用 Azure OpenAI Realtime API 將此文字轉換為播客風格音訊:{text_input}
自訂語音選擇
使用 {voice_name} 語音為此內容生成音訊旁白:{text_content}
附逐字稿的音訊
為以下內容創建播客音訊和逐字稿:{article_content}。包含音訊輸出和文字逐字稿。
批次內容處理
將多個文字段落處理為音訊檔案。段落 1:{text1},段落 2:{text2},段落 3:{text3}。為每個段落生成獨立的音訊檔案。

最佳實務

  • 使用技能前請設定 Azure 環境變數以進行身分驗證
  • 根據內容類型選擇適當的語音(onyx 用於正式場合,fable 用於富有表現力的內容)
  • 使用重試邏輯優雅地處理 WebSocket 連線錯誤

避免

  • 不要在用戶端程式碼中暴露 API 金鑰 - 僅在伺服器端使用
  • 避免在未加密的情況下在文字提示中傳送敏感或個人資訊
  • 不要假設 API 配額無限 - 請實作速率限制和快取

常見問題

此技能需要哪些 Azure 服務?
此技能需要具有 GPT Realtime Mini 部署的 Azure OpenAI 和有效的 API 憑證。
我可以離線使用此技能嗎?
不行,此技能需要活躍的網際網路連線才能與 Azure OpenAI 服務通訊。
此技能輸出什麼音訊格式?
此技能輸出 WAV 格式音訊(24kHz、16 位元、單聲道),編碼為 base64 以便傳輸。
有多少種語音可用?
支援六種語音:alloy、echo、fable、onyx、nova 和 shimmer。
此技能適合用於生產環境嗎?
是的,透過適當的錯誤處理和 API 金鑰管理,此技能可用於生產應用程式。
此技能會儲存任何音訊資料嗎?
不會,此技能在記憶體中處理音訊並將其回傳給呼叫者,不會進行持久化儲存。

開發者詳情

檔案結構

📄 SKILL.md