Token是大语言模型(LLM)处理和计算文本的基本单位。
你可以把它简单理解为:AI眼中的“文字碎片”。
人类阅读时是以“字”或“词”为单位的,但AI模型无法直接理解汉字或英文单词,它必须先把文本切割成一个个小的数字片段(即 Token),然后才能进行计算和预测。
1. Token 到底是什么?
- 对于英文:Token 通常对应一个单词的一部分或一个完整的单词。
- 例如:
"unbelievable"可能会被切分为["un", "believ", "able"]这 3 个 Token。 - 简单的词如
"cat"可能就是一个 Token。
- 例如:
- 对于中文:Token 的切分比较复杂,通常一个汉字对应 1.5 到 2 个 Token,或者几个常见的词组被合并为一个 Token。
- 例如:
“人工智能”可能被切分为["人工", "智能"](2个) 或者更细的碎片。 - 一般来说,1000 个 Token 大约相当于 750 个英文单词,或者 600-800 个中文字符(具体取决于模型和分词器)。
- 例如:
2. 为什么要用 Token?
- 统一处理:无论哪种语言,最终都变成数字序列,方便模型数学计算。
- 压缩效率:将常用词组作为一个整体 Token,可以减少序列长度,提高训练和推理效率。
- 处理生僻词:遇到没见过的词,模型可以将其拆解为更小的已知片段来理解,而不是直接报错。
3. Token 对普通用户意味着什么?
A. 计费标准(钱)
- 输入 Token:你发给 AI 的问题、背景资料、上传的文档内容。
- 输出 Token:AI 生成的回答内容。
- 通常输出 Token 的价格比输入 Token 贵(因为生成需要更多算力)。
- 例子:如果你让 AI 总结一本 10 万字的小说,你需要支付这 10 万字对应的输入 Token 费用 + 总结报告对应的输出 Token 费用。
B. 上下文窗口(记忆力)
每个模型都有一个最大上下文窗口(Context Window),单位也是 Token。
- 这代表了模型一次能“记住”和处理的最大信息量。
- 例子:如果一个模型的窗口是 8,000 Token,而你一次性喂给它 10,000 Token 的文章,它要么拒绝处理,要么会“遗忘”最早的那部分内容(截断)。
- 现在的先进模型(如 Claude 3.5, Gemini 1.5)支持百万级 Token,意味着可以一次性处理整本书甚至长达数小时的视频转录稿。
C. 生成速度
模型生成内容是逐个 Token 预测的(像打字机一样一个字一个字蹦出来)。
- Token 越短(切分越细),理论上需要预测的次数越多,但在硬件层面是并行处理的,主要影响的是总长度。
- 通常我们说的生成速度是 Tokens per second (TPS)。
4. 直观换算参考(估算值)
表格
| 内容类型 | 大约 Token 数 | 备注 |
|---|---|---|
| 1 个汉字 | ~1.5 – 2 Tokens | 中文通常比英文更“费”Token |
| 1 个英文单词 | ~1.3 Tokens | 平均而言 |
| 1 页 A4 纸 (纯文本) | ~500 – 800 Tokens | 取决于排版密度 |
| 《红楼梦》全书 | ~100 万+ Tokens | 需要超大上下文模型才能一次性读完 |
| 一次普通的对话 | ~50 – 200 Tokens | 一问一答 |
小编最后说下
Token 就是AI世界的“计量单位”。
- 对开发者来说,它是计算成本和性能的单位。
- 对用户来说,它决定了你能问多长的问题、AI 能记多少东西,以及你要付多少钱。
小技巧:如果你想省钱或让AI处理更长的内容,尽量精简你的提示词(Prompt),去掉不必要的废话,因为每一个字都在消耗 Token。

© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...



