词元(Token)的产生,是一个将人类语言转化为机器可计算数字序列的标准化过程。根据全国科学技术名词审定委员会的规范,“词元”是人工智能领域“Token”的官方标准中文名,它指的是大模型处理和交换信息的最小单位。
这个过程可以形象地理解为将一篇完整的文章(文本)切割成一个个有语义的“积木块”(词元),并为每个积木块贴上唯一的数字标签(ID)。

词元产生的四个标准步骤
词元的生成通常遵循一个标准化的流程,以确保不同AI系统能够兼容和处理:
- 文本预处理
首先,对输入的原始文本进行清洗和标准化。这包括统一字母大小写、规范标点符号等,为后续的切分做准备。 - 分词
这是最核心的一步。系统会使用特定的分词算法,将预处理后的文本切割成一个个片段。这些片段就是“词元”的雏形。 - 编码
模型会为每一个独特的词元片段分配一个唯一的数字编号,即“词元ID”。这个ID是模型内部进行计算和关联的基础。 - 序列调整
最后,根据模型的要求,对生成的词元ID序列进行长度调整。如果序列过长,超出模型处理上限,就会被截断;如果过短,则会用特定的填充ID补齐。
分词算法:如何切割文本?
第二步“分词”的具体方式决定了词元的形态。不同的模型会采用不同的分词策略,主要有以下几种:
- 单词分词
将文本按空格或标点等分隔符直接切分成单个单词。这种方法简单,但词表会非常庞大,且无法处理未登录词(如新词或拼写错误的词)。 - 字符分词
将文本切分成单个字符。这种方法词表很小,能处理任何文本,但会导致序列过长,且单个字符的语义信息较弱。 - 子词分词
这是目前主流大模型(如GPT系列)普遍采用的方法。它是一种折中方案,将文本切分成“子词”或“词片段”。例如,英文单词“unhappiness”可能被切分为“un”和“happiness”两个词元。这种方法既能有效处理生僻词和复杂词汇,又能保持词表大小在一个合理的范围。OpenAI开发的GPT模型使用的就是一种名为“字节对编码”(BPE)的子词分词算法。
理解词元的关键点
- 词元 ≠ 汉字或单词:一个词元可以是一个汉字、一个完整单词、一个词的一部分,甚至是一个标点符号。在中文里,1个词元约等于1.5到2个汉字。
- 分词是动作,词元是结果:“分词”(Tokenization)指的是将文本切割成词元的过程,而“词元”(Token)是这个过程的产出物。
- 经济属性:词元不仅是计算单位,也是AI服务的计价单位。无论是你输入的问题,还是AI生成的回答,都会消耗词元,并直接影响服务成本。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...



