feat: add ASR provider support for voice co-creation

2026-04-24 17:58:49 +08:00
parent 7e450aa5fc
commit 3805c18622
22 changed files with 471 additions and 126 deletions
--- a/backend/.env.example
+++ b/backend/.env.example
@@ -43,6 +43,8 @@ IMAGE_PROVIDERS=["cqtai"]
 TTS_PROVIDERS=["minimax", "elevenlabs", "edge_tts"]
 # 绘本结构生成: 默认复用 Gemini Storybook adapter
 STORYBOOK_PROVIDERS=["storybook_primary"]
+# 语音识别: 本地演示默认 demo；真实转写可设置为 ["openai_asr", "demo"]
+ASR_PROVIDERS=["demo"]

 # [模型参数]
 TEXT_MODEL=gemini-2.0-flash
@@ -82,6 +84,9 @@ ELEVENLABS_API_KEY=
 # OpenAI (如需使用)
 OPENAI_API_KEY=
 OPENAI_API_BASE=
+# OpenAI ASR
+VOICE_TRANSCRIPTION_MODEL=gpt-4o-mini-transcribe
+VOICE_TRANSCRIPTION_LANGUAGE=zh

 # ----------------------------------------------
 # 3. 第三方登录 (OAuth Config) [可选]