feat: add ASR provider support for voice co-creation

2026-04-24 17:58:49 +08:00
parent 7e450aa5fc
commit 3805c18622
22 changed files with 471 additions and 126 deletions
--- a/docs/planning/demo-checklist.md
+++ b/docs/planning/demo-checklist.md
@@ -26,6 +26,7 @@ docker compose ps

 - 用户端：http://localhost:52080
 - 本地登录：http://localhost:52080/auth/dev/signin
+- 语音共创：http://localhost:52080/voice-studio
 - Admin：http://localhost:52888
 - 后端健康：http://localhost:52000/health
 - Admin 后端健康：http://localhost:52800/health
@@ -46,6 +47,18 @@ docker compose ps
 SMOKE_AUDIO=1 ./scripts/demo_smoke.sh
 ```

+需要检查语音共创 Alpha 时：
+
+```bash
+SMOKE_VOICE=1 ./scripts/demo_smoke.sh
+```
+
+需要同时检查 TTS 和语音共创时：
+
+```bash
+SMOKE_AUDIO=1 SMOKE_VOICE=1 ./scripts/demo_smoke.sh
+```
+
 通过标准：

 - [ ] backend health 返回 `ok`
@@ -62,9 +75,10 @@ SMOKE_AUDIO=1 ./scripts/demo_smoke.sh
 - [ ] 绘本 provider stats 返回成功率、耗时和成本字段
 - [ ] 绘本图片 retry 后 `image_status=ready`
 - [ ] 绘本阅读页能看到生成轨迹和资源重试历史
- [ ] `/admin/providers/capabilities` 返回 `text/image/tts/storybook`
+- [ ] `/admin/providers/capabilities` 返回 `text/image/tts/storybook/asr`
 - [ ] `/api/audio/{story_id}/status` 能查询音频缓存状态且不触发生成
 - [ ] 如果启用 `SMOKE_AUDIO=1`，音频 retry 后 `audio_status=ready`
+- [ ] 如果启用 `SMOKE_VOICE=1`，语音共创会话可完成文本 fallback、上传回合、analytics 和 finalize 到 Story
 - [ ] 验证结果已记录到 `docs/planning/demo-validation-log.md`

 ---
@@ -101,11 +115,26 @@ SMOKE_AUDIO=1 ./scripts/demo_smoke.sh
 1. 打开 Admin。
 2. 说明管理端不是用户主链路，而是产品拥有者维护供应链路的辅助能力。
 3. 通过接口或页面说明：
-   - Capability: `text/image/tts/storybook`
+   - Capability: `text/image/tts/storybook/asr`
   - Provider: 具体供应商配置
   - Adapter: API 调用实现
   - Routing Policy: 优先级/成本/延迟/轮询

+### 路径 D: 语音共创 Alpha
+
+1. 打开用户端并进入“语音共创”。
+2. 创建一个新会话，先使用文本 fallback 快速演示：
+   - 首轮：`我想听一个小熊和星星一起找家的故事`
+   - 修正：`不要让小熊害怕，让月亮姐姐帮它`
+3. 展示每轮内容：
+   - 用户表达 / 系统理解
+   - 系统文字回应
+   - TTS 语音回应状态
+   - 最近事件和待处理提示
+4. 演示低置信度确认：说明系统会提示“本轮系统理解为”，家长可选择继续、重说或改成文本。
+5. 点击结束并保存，确认正式 Story 进入故事库。
+6. 打开生成轨迹，说明语音共创 finalize 后的封面资产补全已经接回统一 generation job。
+
 ---

 ## 4. 3 分钟讲解结构
@@ -137,6 +166,8 @@ DreamWeaver 是面向 3-8 岁亲子场景的个性化 AI 绘本与陪伴式讲
 | 网络导致 TTS 失败 | 说明音频是可恢复资产，不阻塞故事阅读；使用已缓存样本或跳过 TTS |
 | 图片 provider 未补全 | 展示 partial ready，说明主内容已可读、资产可稍后补全 |
 | 图片 provider 失败 | 展示 degraded completed 与 retry 机制 |
+| 录音或 ASR 不稳定 | 切到文本 fallback，说明 Alpha 阶段已保留降级路径 |
+| 语音共创低置信度卡住 | 使用“按这个理解继续”或“改成文本输入”完成本轮 |
 | Docker 冷启动慢 | 演示前提前运行 smoke 脚本并保持容器运行 |
 | Admin 页面不适合主展示 | 只用 Provider 分层说明辅助讲系统设计 |
 | 面试官追问生产部署 | 明确当前是求职版 MVP，本轮重点是产品闭环和系统边界 |
@@ -149,4 +180,5 @@ DreamWeaver 是面向 3-8 岁亲子场景的个性化 AI 绘本与陪伴式讲
 - [ ] 能现场看到普通故事和绘本结果。
 - [ ] 能解释失败降级和资产重试。
 - [ ] 能解释为什么 Provider 分层是产品设计，而不是单纯技术炫技。
+- [ ] 能说明语音共创当前是 Phase A Alpha，而不是实时语音最终形态。
 - [ ] 能说明下一步计划，而不是让项目停在 demo。