三、Few-Shot Prompting

同样在推理场景，我提到了 Few-Shot Prompting 的技术，本章介绍下它的优缺点和技巧。

介绍

我们在技巧2 中，提到我们可以给模型一些示例，从而让模型返回更符合我们需求的答案。这个技巧其实使用了一个叫 Few-Shot 的方法。

这个方法最早是 Brown 等人在 2020 年发现的，论文里有一个这样的例子，非常有意思，通过这个例子你应该更能体会，像 ChatGPT 这类统计语言模型，其实并不懂意思，只是懂概率 😁

Brown 输入的内容是这样的（whatpu 和 farduddle 其实根本不存在）：

A "whatpu" is a small, furry animal native to Tanzania. An example of a sentence that uses
the word whatpu is:
We were traveling in Africa and we saw these very cute whatpus.
To do a "farduddle" means to jump up and down really fast. An example of a sentence that uses
the word farduddle is:
 

Output 是这样的：

When we won the game, we all started to farduddle in celebration.

不过这并不代表，Few-Shot 就没有缺陷，我们试试下面这个例子：

Prompt：

The odd numbers in this group add up to an even number: 4, 8, 9, 15, 12, 2, 1.
A: The answer is False.

The odd numbers in this group add up to an even number: 17,  10, 19, 4, 8, 12, 24.
A: The answer is True.

The odd numbers in this group add up to an even number: 16,  11, 14, 4, 8, 13, 24.
A: The answer is True.

The odd numbers in this group add up to an even number: 17,  9, 10, 12, 13, 4, 2.
A: The answer is False.

The odd numbers in this group add up to an even number: 15, 32, 5, 13, 82, 7, 1. 
A:
 

Output 是这样的：

The answer is True.

输出的答案其实是错误的，实际上的答案应该是：

Adding all the odd numbers (15, 5, 13, 7, 1) gives 41. The answer is False.

那我们有没有什么方法解决？

技巧8：Few-Shot Chain of Thought

要解决这个缺陷，就要使用到新的技巧，Few-Shot Chain of Thought。

根据 Wei 他们团队在 2022 年的研究表明：

通过向大语言模型展示一些少量的样例，并在样例中解释推理过程，大语言模型在回答提示时也会显示推理过程。这种推理的解释往往会引导出更准确的结果。

下面是论文里的案例，使用方法很简单，在技巧2 的基础上，再将逻辑过程告知给模型即可。从下面这个案例里，你可以看到加入解释后，输出的结果就正确了。

那本章开头提的例子就应该是这样的（注：本例子同样来自 Wei 团队论文）：

The odd numbers in this group add up to an even number: 4, 8, 9, 15, 12, 2, 1.
A: Adding all the odd numbers (9, 15, 1) gives 25. The answer is False.

The odd numbers in this group add up to an even number: 17,  10, 19, 4, 8, 12, 24.
A: Adding all the odd numbers (17, 19) gives 36. The answer is True.

The odd numbers in this group add up to an even number: 16,  11, 14, 4, 8, 13, 24.
A: Adding all the odd numbers (11, 13) gives 24. The answer is True.

The odd numbers in this group add up to an even number: 17,  9, 10, 12, 13, 4, 2.
A: Adding all the odd numbers (17, 9, 13) gives 39. The answer is False.

The odd numbers in this group add up to an even number: 15, 32, 5, 13, 82, 7, 1. 
A:
 

聊完技巧，我们再结合前面的 Zero-Shot Chain of Thought，来聊聊 Chain of Thought 的关键知识。根据 Sewon Min 等人在 2022 年的研究表明，思维链有以下特点：

“the label space and the distribution of the input text specified by the demonstrations are both key (regardless of whether the labels are correct for individual inputs)” 标签空间和输入文本的分布都是关键因素（无论这些标签是否正确）。
the format you use also plays a key role in performance, even if you just use random labels, this is much better than no labels at all. 即使只是使用随机标签，使用适当的格式也能提高性能。

理解起来有点难，我找一个 prompt 案例给大家解释（🆘 如果你有更好的解释，不妨反馈给我）。我给 ChatGPT 一些不一定准确的例子：

I loved the new Batman movie!  // Negative
This is bad // Positive
This is good // Negative
What a good show! //
 

Output 是这样的：

Positive

在上述的案例里，每一行，我都写了一句话和一个情感词，并用 // 分开，但我给这些句子都标记了错误的答案，比如第一句其实应该是 Positive 才对。但：

即使我给内容打的标签是错误的（比如第一句话，其实应该是 Positive），对于模型来说，它仍然会知道需要输出什么东西。换句话说，模型知道 // 划线后要输出一个衡量该句子表达何种感情的词（Positive or Negative）。这就是前面论文里 #1 提到的，即使我给的标签是错误的，或者换句话说，是否基于事实，并不重要。标签和输入的文本，以及格式才是关键因素。
只要给了示例，即使随机的标签，对于模型生成结果来说，都是有帮助的。这就是前面论文里 #2 提到的内容。

最后，需要记住，思维链仅在使用大于等于 100B 参数的模型时，才会生效。

BTW，如果你想要了解更多相关信息，可以看看斯坦福大学的讲义：Natural Language Processing with Deep Learning

四、Self-Consistency

Self-Consistency 自洽是对 Chain of Thought 的一个补充，它能让模型生成多个思维链，然后取最多数答案的作为最终结果。

按照 Xuezhi Wang 等人在 2022 年发表的论文表明。当我们只用一个逻辑链进行优化时，模型依然有可能会算错，所以 XueZhi Wang 等人提出了一种新的方法，让模型进行多次运算，然后选取最多的答案作为最终结果：

就我目前使用下来，在 ChatGPT 上，其自洽性非常高，暂时没有遇到过出现多种答案的情况。查阅多份资料，我发现这个自洽性可能更多的用于评估模型的优劣，好的模型一般自洽性会比较高。

在此案例中，考虑如下多步推理问题：

Consider a multi-step reasoning problem like the following:

Question: If a store has 10 apples and 8 oranges, and it sells 6 apples and 4 oranges, how many fruits are left in the store?

Instead of directly answering the question, the chain-of-thought prompting would require the language model to produce a series of short sentences that mimic a human's reasoning process:

The store has 10 apples.
The store has 8 oranges.
6 apples are sold.
4 oranges are sold.
There are 10 - 6 = 4 apples left.
There are 8 - 4 = 4 oranges left.
The store now has 4 apples + 4 oranges = 8 fruits.

 

Using self-consistency, the language model generates multiple reasoning paths:

Reasoning Path A:

The store has 10 apples.
The store has 8 oranges.
6 apples are sold.
4 oranges are sold.
There are 10 - 6 = 4 apples left.
There are 8 - 4 = 4 oranges left.
The store now has 4 apples + 4 oranges = 8 fruits.
Reasoning Path B:

The store initially has 10 apples and 8 oranges.
It sells 6 apples, so there are 10 - 6 = 4 apples left.
It sells 4 oranges, so there are 8 - 4 = 4 oranges left.
The store now has 4 apples + 4 oranges = 8 fruits.
 

翻译过来则为：

问题：如果一家商店有 10 个苹果和 8 个橙子，此时店里卖出了 6 个苹果和 4 个橙子，那么店里还剩下多少水果？

思维链提示（chain-of-thought prompting）不是直接回答问题，而是要求语言模型生成一系列模仿人类推理过程的短句：

商店有 10 个苹果。
店里有 8 个橙子。
卖了 6 个苹果。
卖了 4 个橙子。
还剩下 10 - 6 = 4 个苹果。
剩下 8 - 4 = 4 个橙子。
商店现在有 4 个苹果 + 4 个橙子 = 8 个水果。
 

使用 Self-consistency，语言模型生成多个推理路径：

推理路径A：

商店有 10 个苹果。
店里有 8 个橙子。
卖了 6 个苹果。
卖了 4 个橙子。
还剩下 10 - 6 = 4 个苹果。
剩下 8 - 4 = 4 个橙子。
商店现在有 4 个苹果 + 4 个橙子 = 8 个水果。

推理路径 B：

商店最初有 10 个苹果和 8 个橙子。
商店卖了 6 个苹果，所以还剩下 10 - 6 = 4 个苹果。
商店卖了 4 个橙子，所以还剩下 8 - 4 = 4 个橙子。
商店现在有 4 个苹果 + 4 个橙子 = 8 个水果。
 

Self-consistency 从生成的多个推理路径中选择最一致的答案。在这个例子中，推理路径 A 和 B 都得出相同的答案（8 个水果）。可以看到这种做法增加了模型对最终答案正确的信心。

五、PAL Models

PAL Models，全称为 Program-Aided Language Models。需要各位注意，这个方法，真的非常高级，甚至我觉得有点 Hack，而且经过我的多次测试，我觉得以 ChatGPT 目前的能力，已经不再需要使用这个方法。

但我在很多 PE 的教程里都有看到这个方法，所以我这里就简单介绍一下，这个方法来自于 2022 年，Luyu Gao 等人的研究，根据他们的研究，在 LLM 模型中，即使使用了前面提到的 Chain of Thought 的方法，也未必能拿到答案，论文中使用的 prompt 是这样的：

Q: Roger has 5 tennis balls. He buys 2 more cans of
tennis balls. Each can has 3 tennis balls. How many
tennis balls does he have now?
A: Roger started with 5 tennis balls. 2 cans of 3 tennis
balls each is 6 tennis balls. 5 + 6 = 11. The answer is 11.

Q: The bakers at the Beverly Hills Bakery baked 200
loaves of bread on Monday morning. They sold 93 loaves
in the morning and 39 loaves in the afternoon. A grocery
store returned 6 unsold loaves. How many loaves of
bread did they have left?
 

论文里提到，当年他们的模型的 Output 是这样的：

A: The bakers started with 200 loaves. They sold 93 in
the morning and 39 in the afternoon. So they sold 93 +
39 = 132 loaves. The grocery store returned 6 loaves. So
they had 200 - 132 - 6 = 62 loaves left. 
The answer is 62.

如果你现在将这个 prompt 输入到最新的 ChatGPT 答案已经是正确的：

A: The bakers baked 200 loaves of bread. They sold 93 + 39 = 132 loaves. After the grocery store returned 6 unsold loaves, the bakery had 200 - 132 + 6 = 74 loaves of bread left. The answer is 74.

当年 Luyu Gao 的解决方法是在 prompt 里引入代码，并引导模型使用代码来运算和思考，最后答案就是正确的：

六、Playground 使用方法

如果你想要更好地了解相关大模型AI，建议你使用 Playground。它会比较稳定。

但需要注意，这个 Playground 会消耗你的免费 Credit。

你会在界面的右侧看到以下几个参数：

Mode： 最近更新了第四种 Chat 模式，一般使用 Complete 就好，当然你可以用其他模式，其他模式能通过 GUI 的方式辅助你撰写 prompt。
Model： 这里可以切换模型。不同的模型会擅长不同的东西，根据场景选对模型，能让你省很多成本：
1. Ada：这是最便宜，但运算速度最快的模型。官方推荐的使用场景是解析文本，简单分类，地址更正等。
2. Babbage：这个模型能处理比 Ada 复杂的场景。但稍微贵一些，速度也比较快。适合分类，语义搜索等。
3. Curie：这个模型官方解释是「和 Davinci 一样能力很强，且更便宜的模型」。但实际上，这个模型非常擅长文字类的任务，比如写文章、语言翻译、撰写总结等。
4. Davinci：这是 GPT-3 系列模型中能力最强的模型。可以输出更高的质量、更长的回答。每次请求可处理 4000 个 token。适合有复杂意图、因果关系的场景，还有创意生成、搜索、段落总结等。
Temperature： 这个主要是控制模型生成结果的随机性。简而言之，温度越低，结果越确定，但也会越平凡或无趣。如果你想要得到一些出人意料的回答，不妨将这个参数调高一些。但如果你的场景是基于事实的场景，比如数据提取、FAQ 场景，此参数就最好调成 0 。
Maximum length： 设置单次生成内容的最大长度。
Stop Sequence： 该选项设置停止生成文本的特定字符串序列。如果生成文本中包含此序列，则模型将停止生成更多文本。
Top P： 该选项是用于 nucleus 采样的一种技术，它可以控制模型生成文本的概率分布，从而影响模型生成文本的多样性和确定性。如果你想要准确的答案，可以将它设定为较低的值。如果你想要更多样化的回复，可以将其设得高一些。
Presence Penalty： 该选项控制模型生成文本时是否避免使用特定单词或短语，它可以用于生成文本的敏感话题或特定场景。
Best of： 这个选项允许你设置生成多少个文本后，从中选择最优秀的文本作为输出。默认为1，表示只生成一个文本输出。
Injection start text: 这个选项可以让你在输入文本的开头添加自定义文本，从而影响模型的生成结果。
Injection restart text: 这个选项可以让你在中间某个位置添加自定义文本，从而影响模型继续生成的结果。
Show probabilities: 这个选项可以让你查看模型生成每个单词的概率。打开此选项后，你可以看到每个生成的文本单词后面跟着一串数字，表示模型生成该单词的概率大小。

配置好参数后，你就可以在左侧输入 prompt 然后测试 prompt 了。

七、搭建基于知识库内容的机器人

如果你仅想要直接实践，可以注册并登陆相关大模型运营方的开发者平台，如百度、科大讯飞等，可以在最后一部分实践，以及倒数第二部分限制与注意的地方有描述。

简介

这个想法，来源于我的个人需求，我连载了将近 100 期 newsletter，积累了很多内容，我希望将这些资料导入给 AI，然后 AI 能拿这些数据回答我的问题，甚至能给我一些写作建议等。

最早的时候，我尝试过非常笨的方法，就是在提问的时候，将我的 newsletter 文本传给 AI，它的 prompt 大概是这样的：

Please summarize the following sentences to make them easier to understand.

Text: """
My newsletter
"""

这个方法能用是能用，但目前 ChatGPT 有个非常大的限制，它限制了最大的 token 数是 4096，大约是 16000 多个字符，注意这个是请求 + 响应，实际请求总数并没那么多。换句话来说，我一次没法导入太多的内容给 ChatGPT（我的一篇 Newsletter 就有将近 5000 字），这个问题就一直卡了我很久，直到我看到了 GPT Index 的库，以及 Lennys Newsletter 的例子。

试了下，非常好用，而且步骤也很简单，即使你不懂编程也能轻易地按照步骤实现这个功能。

我稍稍优化了下例子的代码，并增加了一些原理介绍。希望大家能喜欢。

原理介绍

其实我这个需求，在传统的机器人领域已经有现成方法，比如你应该看到不少电商客服产品，就有类似的功能，你说一句话，机器人就会回复你。

这种传统的机器人，通常是基于意图去回答人的问题。举个例子，我们构建了一个客服机器人，它的工作原理简单说来是这样的：

当用户问「忘记密码怎么办？」时，它会去找最接近这个意图「密码」，每个意图里会有很多个样本问题，比如「忘记密码如何找回」「忘记密码怎么办」，然后这些样本问题都会有个答案「点击 A 按钮找回密码」，机器人会匹配最接近样本问题的意图，然后返回答案。

但这样有个问题，我们需要设置特别多的意图，比如「无法登录」、「忘记密码」、「登录错误」，虽然有可能都在描述一个事情，但我们需要设置三个意图、三组问题和答案。

虽然传统的机器人有不少限制，但这种传统方式，给了我们一些灵感。

我们好像可以用这个方法来解决限制 token 的问题，我们仅需要传符合某个意图的文档给 AI，然后 AI 仅用该文档来生成答案：

比如还是上面的那个客服机器人的例子，当用户提问「忘记密码怎么办？」时，匹配到了「登录」相关的意图，接着匹配知识库中相同或相近意图的文档，比如「登录异常处理解决方案文档」，最后我们将这份文档传给 GPT-3，它再拿这个文档内容生成答案。

GPTIndex 这个库简单理解就是做上图左边的那个部分，它的工作原理是这这样的：

创建知识库或文档索引
找到最相关的索引
最后将对应索引的内容给 GPT-3

限制与注意的地方

虽然这个方法解决了 token 限制的问题，但也有不少限制：

当用户提一些比较模糊的问题时，匹配有可能错误，导致 GPT-3 拿到了错误的内容，最终生成了非常离谱的答案。
当用户提问一些没有多少上下文的信息时，机器人有时会生成虚假信息。

所以如果你想用这个技术做客服机器人，建议你：

通过一些引导问题来先明确用户的意图，就是类似传统客服机器人那样，搞几个按钮，先让用户点击（比如无法登录）。
如果相似度太低，建议增加兜底的回答「很抱歉，我无法回答你的问题，你需要转为人工客服吗？」

实践

为了让大家更方便使用，我将代码放在了 Google Colab，你无需安装任何环境，只需要用浏览器打开这个：代码文件

BTW 你可以将其复制保存到自己的 Google Drive。

信息

收到不少朋友的反馈，说下面的按钮没法点击。下面只是截图，你需要打开这个代码文件进行操作。另外，关于答案不符合预期的问题，主要还是向量匹配的问题，暂时没有解决方案。

第一步：导入数据

导入的方法有两种，第一种是导入在线数据。

导入 GitHub 数据是个相对简单的方式。如果你是第一次使用，我建议你先用这个方法试试。点击下方代码前的播放按钮，就会运行这段代码。

运行完成后，会导入我写的几份 newsletter。如果你也想像我那样导入数据，只需要修改 clone 后面的链接地址即可。

第二种方法是导入离线数据。点击左侧的文件夹按钮（如果你没有登录，这一步会让你登录），然后点击下图标识 2 的上传按钮，上传文件即可。如果你要传多个文件，建议你先建一个文件夹，然后将文件都上传到该文件夹内。

第二 & 三步：安装依赖库

直接点击播放按钮即可。

不过第三步里，你可以尝试改下参数，你可以改：

num_ouputs ：这个是设置最大的输出 token 数，越大，回答问题的时候，机器能回答的字就越多。
Temperature： 这个主要是控制模型生成结果的随机性。简而言之，温度越低，结果越确定，但也会越平凡或无趣。如果你想要得到一些出人意料的回答，不妨将这个参数调高一些。但如果你的场景是基于事实的场景，比如数据提取、FAQ 场景，此参数就最好调成 0。

其他参数不去管它就好，问题不大。

第四步：设置 API Key

这个需要你登录相关（注意是相关大模型运营方的开发者平台，如百度、科大讯飞等），点击右上角的头像，点击 View API Keys，或者你点击这个链接也可以直接访问。然后点击「Create New Secret Key」，然后复制那个 Key 并粘贴到文档里即可。

第五步：构建索引

这一步程序会将第一步导入的数据都跑一遍，并使用 OpenAI 的 embedings API。如果第一步你上传了自己的数据，只需要将 ‘ ‘ 里的 Jimmy-Newsletter-Corpus 修改为你上传的文件夹名称即可。

注意：

这一步会耗费你的AI 的 Credit，1000 个 token 的价格是 $0.02，运行以下代码前需要注意你的账号里是否还有钱。
如果你用的AI 账号是个免费账号，你有可能会遇到频率警告，此时可以等一等再运行下方代码（另外你的导入的知识库数据太多，也会触发）。解除这个限制，最好的方式是在你的 OpenAI 账号的 Billing 页面里绑定信用卡。如何绑卡，需要各位自行搜索。