Question 1

什麼是 inference.sh CLI？如何安裝？

Accepted Answer

inference.sh CLI 是訪問 AI 服務的官方命令列介面。請按照 inference.sh 文件中的說明進行安裝。在使用此技能之前，請執行 'infsh login' 進行身份驗證。

Question 2

我應該選擇哪個 ElevenLabs 模型？

Accepted Answer

需要最高品質和多語言支援時使用 eleven_multilingual_v2，在速度和品質之間取得平衡時使用 eleven_turbo_v2_5，需要超低延遲即時應用時使用 eleven_flash_v2_5。

Question 3

如何控制聲音特性？

Accepted Answer

使用 stability 參數（0-1）控制一致性與表現力之間的平衡，similarity_boost 來匹配原始聲音特徵，style 來誇張化聲音風格。較低的 stability 會產生更具表現力的輸出。

Question 4

支援哪些音訊格式？

Accepted Answer

輸出格式包括各種位元率（預設 128kbps，高品質 192kbps）的 MP3，以及從 16kHz 到 44.1kHz 取樣率的原始 PCM。請根據您的品質和檔案大小需求進行選擇。

Question 5

我可以在多種語言中使用此技能嗎？

Accepted Answer

可以，eleven_multilingual_v2 模型支援 32 種語言，包括英語、西班牙語、法語、德語、義大利語、葡萄牙語、中文、日語、韓語、阿拉伯語、印地語和俄語，具有母語水準的發音。

Question 6

如何將語音旁白與影片生成結合？

Accepted Answer

首先使用此技能生成語音旁白音訊，然後使用回應中的音訊 URL 作為輸入，傳送給像 bytedance/omnihuman-1-5 這樣的影片生成技能來製作 talking head 影片。

elevenlabs-tts

测试它