feat: improve generation analytics and maintenance

2026-04-19 09:03:40 +08:00
parent d5a173aa0d
commit 5318de670f
21 changed files with 1155 additions and 57 deletions
--- a/docs/technical/generation-job-state.md
+++ b/docs/technical/generation-job-state.md
@@ -19,9 +19,10 @@
 - `GET /api/generations/jobs/{job_id}`：查询单次生成/补全任务及其事件流。
 - `GET /api/generations/{story_id}/jobs`：查询某个故事或绘本的生成与重试历史。
 - `GET /api/generations/{story_id}/provider-stats`：按故事聚合 Provider 调用成功率、平均耗时、预估成本和 adapter 明细。
- `GET /api/generations/provider-analytics`：按当前用户聚合跨故事 Provider 调用、任务数、故事数、成功率、平均耗时和预估成本。
+- `GET /api/generations/provider-analytics`：按当前用户聚合跨故事 Provider 调用、任务数、故事数、成功率、平均耗时和预估成本，并支持 `days` / `capability` 筛选。
+- `GET /api/generations/ops-summary`：按当前用户聚合最近任务健康度，包括运行中数量、超时阈值、卡住任务数和最近失败摘要。

-job 响应会返回 `progress_percent`、`progress_label` 和 `is_terminal`，用户端与管理端已经消费这些查询入口，在故事详情页和绘本阅读页展示最近任务、任务历史、事件时间线、进度条和 Provider 聚合指标；当任务未终止时，前端会自动轮询，为后台 worker 进度流预留体验形态。
+job 响应会返回 `progress_percent`、`progress_label` 和 `is_terminal`，用户端与管理端已经消费这些查询入口，在故事详情页和绘本阅读页展示最近任务、任务历史、事件时间线、进度条和 Provider 聚合指标；当任务未终止时，前端会自动轮询，为后台 worker 进度流预留体验形态。当前 analytics 还会聚合失败原因，便于快速解释“最近为什么失败”；ops summary 会额外把“哪些任务卡住了、最近哪些任务失败了”压缩成故事库首页能直接看的摘要。

 ## 现有状态模型

@@ -37,6 +38,12 @@ job 响应会返回 `progress_percent`、`progress_label` 和 `is_terminal`，

 这些字段足够支撑前端展示、smoke 检查、失败降级、资产重试和生成轨迹解释。

+## 当前维护策略
+
+- 音频缓存由 `STORY_AUDIO_CACHE_TTL_DAYS` 控制过期时间，Celery beat 会每日清理。
+- 生成任务由 `GENERATION_JOB_STALE_MINUTES` 控制卡住阈值，Celery beat 会每 30 分钟扫描一次，将超时运行中的任务标记为 `generation_stale_failed`。
+- 当某个故事已经有运行中的 job 时，封面补全、音频生成和统一资产重试会直接拒绝重复请求，避免用户连点造成重复成本。
+
 ## 什么时候需要落库 job

 如果后续进入真实生产化，需要扩展当前 job/event 模型：
@@ -52,7 +59,7 @@ job 响应会返回 `progress_percent`、`progress_label` 和 `is_terminal`，
 当前已有两层记录，未来可以继续扩展字段和事件颗粒度：

 - 将同步生成请求迁移到真正异步 worker 后，继续复用现有 job 查询和前端轮询进度条。
- 将当前跨故事 provider 指标扩展为跨时间窗口、跨用户和失败原因维度的运营分析。
+- 将当前跨故事 provider 指标扩展为跨用户、跨环境和更细颗粒度的失败原因维度分析。

 ## 面试表达