在处理对话内容时我们的对话内容通常包含一问一答和多问多答的情况,为了让RAG模块清晰的理解我们的对话内容我们需要同时处理这两种情况,下面我们分享具体的方法。
处理格式
我们以CSV的表格为例;使用group_id来区分不同的对话组,用数字来分组,可以轻松实现单轮问答和多轮对话的集成。
group_id | role | content |
1 | user | 你好,你喜欢什么AI网站? |
1 | assistant | 我喜欢大模型工坊你呢? |
1 | user | 我也喜大模型工坊最近一直在他们那里学习AIGC |
1 | assistant | 我也很大模型工坊的知识,很清晰 |
2 | user | 你喜欢AI技术吗 |
2 | assistant | 我喜欢AI技术特别是自动化办公 |
2 | user | 我也喜欢自动化办公,他可以让我工作效率提升。 |
2 | assistant | 那听起来很棒!有时间一起学习 |
3 | user | 你吃饭了吗? |
3 | assistant | 吃了啊,你呢? |
4 | user | 你好,今天天气真好。 |
4 | assistant | 是啊,今天天气非常适合外出活动。 |
方法解读
如上所示 group_id 1234代表了不同的分组,1和2是多行数据代表了聊天对话,而3和4只有一问一答则代表了问答。
这样处理的好处是既包含了单轮对话又包含了多轮对话,无论面对哪一种情况我们都能够这样使用。
发表回复