索引构造与信息检索 让ChatGPT成为Selenium问答助手
这是 chatgpt 为我生成的 3 个标题,我选了第 3 个。
- 利用 Langchain 和 GPT 实现 Selenium 机器人自动问答
- 向量化存储和检索:如何用相似度搜索匹配 Selenium 知识?
- 索引构造与信息检索:让 ChatGPT 成为 Selenium 问答助手
之前有很多同学会问我一些有关 selenium 的问题,因为精力有限,不能一一回答。最近正好 chatgpt 为代表的生成式 ai 非常火爆,那么我们能不能训练一个有 selenium 知识的 机器人帮我回答问题呢?人的时间有限,但是机器人可以一直在线工作,妥妥的劳模了。
经过一番调研,我发现 langchain 这个库也许可以祝我一臂之力。
整体思路
整理思路很简单,就是 gpt 是预先训练好的模型,有自己的先见知识,这也是为什么我们问它问题它会给出答案的原因,因为它的模型里就固化了这些知识。然而 gpt3 模型用的数据应该是截止到 2021 年的,也就是 2 年多之前的数据了。尽管 selenium 总体得带速度不快,但这两年也多多少少发生了一些变化,直接用 gpt 模型的先见知识可能会造成一些回答不准确的情况。
所以我们可以用 gpt 的两大能力,而不是先见知识。
- 推断的能力。给出一些上下文,让 gpt 总结和推断问题的答案
- 生成内容的能力
所以现在问题就变成了如何给 gpt”灌“入最近的 selenium 知识?
其实我们可以在 gpt 的 prompt 里面加上一些实时的准确的上下文,然后让 gpt 去根据上下文内容实时的生成问题的答案,比如下面这个 prompt
你是selenium问答机器人,你的任务是根据我提供的selenium相关信息来回答用户提出的问题。忘掉你之前的学到的知识,只用我提供的信息去回答。如果问题超出了我提供的信息范围,你就回答不知道。
==============
selenium的一些最新的介绍
...
...
...
==============
问题:selenium是什么?
这样一来任务就变成了如何根据用户的问题搜索相关的 selenium 知识? 这里就要用到向量化存储和检索了。