feat: add ASR provider support for voice co-creation
This commit is contained in:
@@ -1,9 +1,9 @@
|
||||
# Product Requirements Document: 语音共创模式增量方案
|
||||
|
||||
**Version**: 0.1
|
||||
**Date**: 2026-04-19
|
||||
**Author**: Codex (based on founder direction)
|
||||
**Status**: Discovery Track / 不插队当前主开发线
|
||||
**Version**: 0.2
|
||||
**Date**: 2026-04-24
|
||||
**Author**: Codex (based on founder direction)
|
||||
**Status**: Phase A Alpha / 已进入可演示收束
|
||||
|
||||
---
|
||||
|
||||
@@ -13,7 +13,7 @@ DreamWeaver 当前已经具备“输入主题 -> 生成故事/绘本 -> 补全
|
||||
|
||||
这个方向的价值不在于再加一个输入方式,而在于把 DreamWeaver 从“生成结果”推进到“陪伴式创作过程”。孩子不是先写清楚需求再等待结果,而是可以像和讲故事的人对话一样,说出自己想要的角色、情节和变化,系统实时或准实时地接住这些表达,再继续讲下去。
|
||||
|
||||
本增量 PRD 的目标不是立刻把语音共创插入当前主开发线,而是先把它定义为一条独立、可评估、可拆阶段落地的产品路线。当前主线仍应继续沿着统一生成工作流、跨环境观测、断点续跑与稳定性治理推进;语音共创作为下一波产品升级方向,先完成需求定义、架构判断和分阶段实施策略。
|
||||
本增量 PRD 最初用于把语音共创定义为一条独立、可评估、可拆阶段落地的产品路线。2026-04-24 更新后,远端 `main` 已经提前跑通 Phase A Alpha:独立 Voice Studio、语音/文本回合、低置信度确认、安全改写、TTS 回复、会话恢复、finalize 保存为 Story,以及接回统一 generation job 的资产补全与 trace。下一步不应继续扩大到 Phase B 实时化,而应先完成 Alpha 验收、真实 ASR Provider 接入、成本/观测补齐,并回到原主线的跨环境 Provider 汇聚、监控告警和断点续跑。
|
||||
|
||||
---
|
||||
|
||||
@@ -21,19 +21,20 @@ DreamWeaver 当前已经具备“输入主题 -> 生成故事/绘本 -> 补全
|
||||
|
||||
### Decision
|
||||
|
||||
语音共创模式 **现在进入产品发现与方案设计阶段**,但 **不插队当前主开发线**。
|
||||
语音共创模式已经从 **产品发现与方案设计阶段** 进入 **Phase A Alpha 可演示收束阶段**。
|
||||
|
||||
### Why
|
||||
|
||||
- 当前主线已经明确:统一生成工作流、任务控制、Provider 运营分析、监控与恢复能力。
|
||||
- 语音共创会引入新的交互模式、新的数据模型和新的低延迟系统要求,如果直接插入,会同时打断稳定性主线和架构收束节奏。
|
||||
- 先写清楚增量 PRD,可以避免后续“想到什么做什么”,也能帮助后面的技术选型、原型验证和资源预估。
|
||||
- 当前主线已经完成统一生成工作流、任务控制、Provider 运营分析、资产补全 trace 和基本恢复能力。
|
||||
- Phase A 的数据模型、API、Voice Studio 和 finalize 链路已经落地,但仍处于 Alpha;它需要验收、真实 ASR 接入和观测补齐,而不是继续扩大范围。
|
||||
- Phase B/Phase C 会引入流式 ASR、WebSocket、barge-in 和更高实时性要求,应等 Phase A 的产品价值和稳定性被验证后再启动。
|
||||
|
||||
### Proposed Sequencing
|
||||
|
||||
1. 继续推进当前主线:跨环境 Provider 汇聚、监控告警、断点续跑与更细粒度任务控制。
|
||||
2. 并行完成语音共创模式的交互原型、增量 PRD 和技术预研。
|
||||
3. 等当前主线进入相对稳定阶段后,再按分阶段方案启动语音共创 MVP。
|
||||
1. 先完成 Phase A Alpha 收束:回归验证、演示清单、验收矩阵和已知限制记录。
|
||||
2. 补齐真实 ASR Provider、turn 级成本/指标归因、Voice Studio smoke 路径和失败降级验收。
|
||||
3. 回到生产化主线:跨环境 Provider 汇聚、监控告警、断点续跑与更细粒度任务控制。
|
||||
4. Phase A 稳定并验证产品价值后,再评估 Phase B 准实时共创。
|
||||
|
||||
---
|
||||
|
||||
@@ -498,6 +499,32 @@ DreamWeaver 的语音共创模式应当成为一种“孩子可以开口参与
|
||||
|
||||
## MoSCoW Prioritization
|
||||
|
||||
## Phase A Alpha Acceptance Snapshot(2026-04-24)
|
||||
|
||||
| Requirement | Status | Evidence | Next Action |
|
||||
| --- | --- | --- | --- |
|
||||
| FR-001 语音发起故事共创会话 | Alpha Done | `VoiceStudio` 已提供独立入口,支持录音上传回合和文本 fallback;后端有 `POST /api/voice-sessions/{id}/turns` | 用真实儿童表达样本补演示 smoke |
|
||||
| FR-002 区分开始、继续、修正 | Alpha Done | turn service 已按 `start/continue/correct` 更新会话状态,修正不会清空整段故事 | 增加更多真实儿童表达样本验收 |
|
||||
| FR-003 系统语音回应并继续讲述 | Alpha Done | 每轮生成 assistant 文本后调用 TTS,TTS 失败保留文本响应 | 记录 TTS 延迟与失败率到更细指标 |
|
||||
| FR-004 保存为正式故事资产 | Alpha Done | `finalize` 已持久化 Story,并返回 `generation_job_id` 接回封面资产补全 trace | 补 finalize 后故事库/详情页端到端 smoke |
|
||||
| FR-005 记录语音会话状态 | Alpha Done | 已有 `voice_sessions / voice_turns / voice_session_events`,前端展示最近 turn 与事件 | 补 turn 级成本与 Provider 归因 |
|
||||
| FR-006 家长确认关键改写 | Alpha Done | 低 `transcript_confidence` 或 `intent_confidence` 会触发确认,支持继续、重说、改文本 | 打磨确认文案和移动端操作密度 |
|
||||
| FR-007 分段插图节点 | Partial | 当前支持结束后统一封面补全,并为 asset job 接回统一 trace | 后续评估关键段落插图,不进当前 P0 |
|
||||
| FR-008 分支剧情 | Deferred | 当前状态模型不阻断未来扩展,但未实现分叉体验 | 保持 P2,Phase A 不做 |
|
||||
| NFR-001 响应可接受 | Needs Measurement | 回合式体验已实现,但尚无 p95 指标采集 | 加入 ASR/TTS/turn 编排耗时埋点 |
|
||||
| NFR-002 儿童内容安全 | Alpha Done | 已新增用户转写安全检查、assistant 柔性改写和 `safety_flags` 事件 | 扩充安全样本和误伤回归 |
|
||||
| NFR-003 成本可观测 | Partial | generation job/provider analytics 已覆盖资产补全;voice turn 级 ASR/TTS 成本仍需细化 | 把 ASR/Dialogue/TTS 成本写入 turn/event metadata |
|
||||
| NFR-004 会话可恢复 | Alpha Done | Voice Studio 支持最近会话恢复和 active session 查询 | 补刷新/切页手动验收记录 |
|
||||
| NFR-005 架构可插拔 | Alpha Done | ASR 已纳入 `asr` Provider capability,默认 demo fallback,可配置 `openai_asr` | 后续补更多 ASR provider 与管理端体验 |
|
||||
|
||||
### Alpha Exit Criteria
|
||||
|
||||
- 后端测试、前端构建、管理端构建和 Docker smoke 在当前环境可重复通过。
|
||||
- Voice Studio 手动路径覆盖:创建会话、文本 fallback、录音回合、低置信度确认、重说/改文本、finalize、故事库回看、资产 trace。
|
||||
- 真实 ASR Provider 至少完成一个可配置适配器,并保留 demo fallback。(已接入 `openai_asr`,待真实 Key 环境验收)
|
||||
- turn 级事件至少能区分 ASR、Dialogue、TTS、Safety、Confirmation、Finalize 和 Asset Generation。
|
||||
- PRD、技术方案、演示 checklist 与当前实现保持一致。
|
||||
|
||||
### Must Have
|
||||
|
||||
- 语音发起故事
|
||||
|
||||
Reference in New Issue
Block a user