Token 用量计算说明

Tokens 是什么?

Token 是 GPT 处理文本的基本单位。Token 可以是一个字、一个词或特定语言中的一个字符。它们负责将输入的文本数据转换为 GPT 可以处理的数据格式。1000token约750词,约400汉字。 每个 GPT 模型都有一个预设的最大 Tokens 数量。例如,GPT-3 允许处理的最大 Tokens 数量约为 4096。需要注意的是,这个数量包括输入和输出的所有 Tokens。

简而言之,token 是模型用来表示自然语言文本的基本单位,也是我们的计费单元,可以直观的理解为“字”或“词”;通常 1 个中文词语、1 个英文单词、1 个数字或 1 个符号计为 1 个 token。

一般情况下模型中 token 和字数的换算比例大致如下:

  • 1 个英文字符 ≈ 0.3 个 token。
  • 1 个中文字符 ≈ 0.6 个 token。

但因为不同模型的分词不同,所以换算比例也存在差异,每一次实际处理 token 数量以模型返回为准,您可以从返回结果中查看。