Skip to content

FA 知识库建设 - 待讨论备忘录

背景:6月知识库进入产品设计阶段。以下是需要想清楚的问题,供下次讨论。 设计归属:强哥做整体设计,初产配合执行。


一、初产执行事项(纯体力活,无设计空间)

1. 竞品资料收集

竞品关注点
ServiceNow ITSM工单+知识库+AI 诊断一条链,行业标杆
Jira Service Management工单+知识库+AI Agent
ZendeskTicket + 知识库 + AI 自动回复
明源云/空间智联国内物业/资产管理 SaaS
Coze/Dify 官方模板知识库 RAG 配置方式

执行方式:给初产填表模板(产品名 / 功能模块 / 界面截图 / 功能描述),她填格,强哥分析。

2. 设备手册收集

优先收集已有数字版的文档:

  • 空调/暖通设备手册
  • 配电设备手册
  • 照明控制系统手册
  • 电梯设备手册
  • 消防/安防设备手册
  • 楼宇自控系统(BAS/自控平台)操作手册
  • 已有的竣工图纸 PDF

执行方式:初产盘点可用资料清单(文件名 / 格式 / 页数 / 语言),强哥看完定哪些让她手动切片。

3. 历史工单收集

(取决于业务系统是否有数据)

  • 按强哥定的字段模板从系统导出
  • 字段:工单 ID / 设备 / 故障描述 / 根因 / 处理方案 / 处理时长 / 结果

执行方式:强哥出字段模板,初产导出清洗。


二、知识库两层架构

第一层:静态知识库(文档导入型)

  • 数据来源:设备手册、竣工图纸、维保规约 —— 人工导入
  • 元数据:文档名、章节、页码、设备型号、适用故障类别 —— 人工标注
  • 优点:权威、来源可控
  • 缺点:维护成本高、容易过期

第二层:动态知识库(业务沉淀型)

  • 数据来源:历史工单「故障→维修方案→结果」链路 —— 自动沉淀
  • 元数据:工单 ID、设备 ID、故障码、故障现象、根因、处理方案摘要 —— 自动标注
  • 触发机制:工单闭合后自动提取关键信息入库
  • 优点:自动生长、时效性强
  • 缺点:有噪音、需清洗策略

诊断场景的检索路径

用户报修 → 查动态库(历史同类故障) → 不够再查静态库(设备手册/图纸)

三、需要决策的技术问题

1. 文档格式转换

  • PDF/Word → 纯文本 还是 保留结构(表格)?
  • PDF 中表格提取:Dify 自带能力够用还是需要外部工具?

2. Chunking 策略(强哥定)

  • Dify 提供基础 chunking 工具,但需按文档类型调参数
  • 设备手册 → 章节级切片 + 重叠窗口
  • 工单案例 → 条目级切片
  • 需要拿 2-3 份典型文档手动试切,找到合理粒度

3. 图片/图表处理

  • 方案 A:Dify pipeline 内嵌 VLM 节点,图转文字描述再索引
  • 方案 B:外部 OCR 引擎单独处理
  • 关键判断:诊断场景是否需要看图?(如需看设备铭牌/故障照片,则 VLM 必要)

4. 元数据 Schema(分两层)

静态知识库:

  • 基础层:文档名、上传时间、版本号、有效期限
  • 内容层:章节标题、页码范围
  • 业务层:设备型号、设备类型、适用故障类别、品牌
  • 控制层:审核状态、过期标志

动态知识库:

  • 工单层:工单 ID、建单时间、结单时间、处理时长
  • 设备层:设备 ID、设备型号、空间位置
  • 故障层:故障码、故障现象(NL 描述)、根因(NL 摘要)
  • 方案层:处理方案(NL 摘要)、处理人、处理结果

5. 多路召回

  • 向量检索:语义相似度
  • 全文检索:设备名/型号/故障码等精确实体匹配
  • 混合检索策略(立项计划已新增此任务)

6. Reference 溯源

  • AI 诊断建议需精确到「第几章第几段」
  • 这是 PRD「证据链溯源」要求的技术落地
  • 动态库至少需精确到「某工单」

四、需要决策的产品问题

1. 知识库范围边界

  • 只做工单诊断相关(窄)?
  • 还是扩展到设备运维全领域(宽)?
  • 静态库的文档导入流程:谁提供资料?谁审核?谁标注?

2. 动态库的自动沉淀规则(强哥定)

  • 工单闭合后自动触发提取 → 提取哪些字段?
  • 清洗策略:低质量工单(信息缺失)是否跳过?
  • 审核机制:自动沉淀的内容是否需要人工确认?

3. 与 RAG 路由的关系

  • 知识库是 FA 独用,还是全系统共享?
  • Master Agent 的 KB RAG 兜底是否用同一套库?

五、6 月建议做的事

事项产出谁做
竞品资料收集填表模板 + 截图初产
设备手册盘点可用资料清单初产
历史工单导出清洗按字段模板的表格初产
知识库整体设计两层架构方案强哥
切片策略定稿各文档类型切片规则强哥
静态库元数据 Schema标签体系设计初产(强哥定框)
图片策略决策VLM/OCR 技术方案强哥 + AI 应用专家

记录于 2026-05-22,待强哥有空时讨论。

Released under the Private License.