知识库数据清洗说明文档

一、概述

为获得更好的知识库问答效果,需要人为清洗知识库数据。本文档通过一些说明示例,来简单介绍知识库清洗的方法。

二、清洗说明

1. 修改知识库中的错别字或错误描述

示例:

数据清洗说明 - 图1

2. 重述语义不明的内容

在知识库文件中,存在部分描述不清楚的文本,需要整理重述,便于理解内容和提高模型识别能力。

示例:

数据清洗说明 - 图2

3. 整理重述难以识别的文件

“PPT”,”MP4”,“Excel”,“图片格式”等格式文字内容可能出现错位,造成识别效果较差,且文件内容的表述结构或方式难以让模型理解,因此需要人为修改调整。

示例:

数据清洗说明 - 图3

数据清洗说明 - 图4

4. 其它不符合规范的文本修改

一些不合理的文本内容会对结果产生不良影响

示例:

数据清洗说明 - 图5

5. 清除无意义的文档,避免带来干扰

在整理和上传知识库时,不要上传对问答无意义的文档,以避免带来负面干扰。

数据清洗说明 - 图6

6.所有文档最好都转化为文本文档:txt格式

示例:

数据清洗说明 - 图7

7. 流程图转换示例

数据清洗说明 - 图8

8. 上传单条内容注意事项

上传单调内容时,需要将完整的描述写到“内容”中,“标题”可以类比为上传文件时的文件名,对回答问题没有实际作用。