FA 知识库建设 - 待讨论备忘录
背景:6月知识库进入产品设计阶段。以下是需要想清楚的问题,供下次讨论。 设计归属:强哥做整体设计,初产配合执行。
一、初产执行事项(纯体力活,无设计空间)
1. 竞品资料收集
| 竞品 | 关注点 |
|---|---|
| ServiceNow ITSM | 工单+知识库+AI 诊断一条链,行业标杆 |
| Jira Service Management | 工单+知识库+AI Agent |
| Zendesk | Ticket + 知识库 + AI 自动回复 |
| 明源云/空间智联 | 国内物业/资产管理 SaaS |
| Coze/Dify 官方模板 | 知识库 RAG 配置方式 |
执行方式:给初产填表模板(产品名 / 功能模块 / 界面截图 / 功能描述),她填格,强哥分析。
2. 设备手册收集
优先收集已有数字版的文档:
- 空调/暖通设备手册
- 配电设备手册
- 照明控制系统手册
- 电梯设备手册
- 消防/安防设备手册
- 楼宇自控系统(BAS/自控平台)操作手册
- 已有的竣工图纸 PDF
执行方式:初产盘点可用资料清单(文件名 / 格式 / 页数 / 语言),强哥看完定哪些让她手动切片。
3. 历史工单收集
(取决于业务系统是否有数据)
- 按强哥定的字段模板从系统导出
- 字段:工单 ID / 设备 / 故障描述 / 根因 / 处理方案 / 处理时长 / 结果
执行方式:强哥出字段模板,初产导出清洗。
二、知识库两层架构
第一层:静态知识库(文档导入型)
- 数据来源:设备手册、竣工图纸、维保规约 —— 人工导入
- 元数据:文档名、章节、页码、设备型号、适用故障类别 —— 人工标注
- 优点:权威、来源可控
- 缺点:维护成本高、容易过期
第二层:动态知识库(业务沉淀型)
- 数据来源:历史工单「故障→维修方案→结果」链路 —— 自动沉淀
- 元数据:工单 ID、设备 ID、故障码、故障现象、根因、处理方案摘要 —— 自动标注
- 触发机制:工单闭合后自动提取关键信息入库
- 优点:自动生长、时效性强
- 缺点:有噪音、需清洗策略
诊断场景的检索路径
用户报修 → 查动态库(历史同类故障) → 不够再查静态库(设备手册/图纸)三、需要决策的技术问题
1. 文档格式转换
- PDF/Word → 纯文本 还是 保留结构(表格)?
- PDF 中表格提取:Dify 自带能力够用还是需要外部工具?
2. Chunking 策略(强哥定)
- Dify 提供基础 chunking 工具,但需按文档类型调参数
- 设备手册 → 章节级切片 + 重叠窗口
- 工单案例 → 条目级切片
- 需要拿 2-3 份典型文档手动试切,找到合理粒度
3. 图片/图表处理
- 方案 A:Dify pipeline 内嵌 VLM 节点,图转文字描述再索引
- 方案 B:外部 OCR 引擎单独处理
- 关键判断:诊断场景是否需要看图?(如需看设备铭牌/故障照片,则 VLM 必要)
4. 元数据 Schema(分两层)
静态知识库:
- 基础层:文档名、上传时间、版本号、有效期限
- 内容层:章节标题、页码范围
- 业务层:设备型号、设备类型、适用故障类别、品牌
- 控制层:审核状态、过期标志
动态知识库:
- 工单层:工单 ID、建单时间、结单时间、处理时长
- 设备层:设备 ID、设备型号、空间位置
- 故障层:故障码、故障现象(NL 描述)、根因(NL 摘要)
- 方案层:处理方案(NL 摘要)、处理人、处理结果
5. 多路召回
- 向量检索:语义相似度
- 全文检索:设备名/型号/故障码等精确实体匹配
- 混合检索策略(立项计划已新增此任务)
6. Reference 溯源
- AI 诊断建议需精确到「第几章第几段」
- 这是 PRD「证据链溯源」要求的技术落地
- 动态库至少需精确到「某工单」
四、需要决策的产品问题
1. 知识库范围边界
- 只做工单诊断相关(窄)?
- 还是扩展到设备运维全领域(宽)?
- 静态库的文档导入流程:谁提供资料?谁审核?谁标注?
2. 动态库的自动沉淀规则(强哥定)
- 工单闭合后自动触发提取 → 提取哪些字段?
- 清洗策略:低质量工单(信息缺失)是否跳过?
- 审核机制:自动沉淀的内容是否需要人工确认?
3. 与 RAG 路由的关系
- 知识库是 FA 独用,还是全系统共享?
- Master Agent 的 KB RAG 兜底是否用同一套库?
五、6 月建议做的事
| 事项 | 产出 | 谁做 |
|---|---|---|
| 竞品资料收集 | 填表模板 + 截图 | 初产 |
| 设备手册盘点 | 可用资料清单 | 初产 |
| 历史工单导出清洗 | 按字段模板的表格 | 初产 |
| 知识库整体设计 | 两层架构方案 | 强哥 |
| 切片策略定稿 | 各文档类型切片规则 | 强哥 |
| 静态库元数据 Schema | 标签体系设计 | 初产(强哥定框) |
| 图片策略决策 | VLM/OCR 技术方案 | 强哥 + AI 应用专家 |
记录于 2026-05-22,待强哥有空时讨论。
