知识库数据清洗说明文档
一、概述
为获得更好的知识库问答效果,需要人为清洗知识库数据。本文档通过一些说明示例,来简单介绍知识库清洗的方法。
二、清洗说明
1. 修改知识库中的错别字或错误描述
示例:
2. 重述语义不明的内容
在知识库文件中,存在部分描述不清楚的文本,需要整理重述,便于理解内容和提高模型识别能力。
示例:
3. 整理重述难以识别的文件
“PPT”,”MP4”,“Excel”,“图片格式”等格式文字内容可能出现错位,造成识别效果较差,且文件内容的表述结构或方式难以让模型理解,因此需要人为修改调整。
示例:
4. 其它不符合规范的文本修改
一些不合理的文本内容会对结果产生不良影响
示例:
5. 清除无意义的文档,避免带来干扰
在整理和上传知识库时,不要上传对问答无意义的文档,以避免带来负面干扰。
6.所有文档最好都转化为文本文档:txt格式
示例:
7. 流程图转换示例
8. 上传单条内容注意事项
上传单调内容时,需要将完整的描述写到“内容”中,“标题”可以类比为上传文件时的文件名,对回答问题没有实际作用。