词元是怎么产生的

词元(Token)的产生,是一个将人类语言转化为机器可计算数字序列的标准化过程。根据全国科学技术名词审定委员会的规范,“词元”是人工智能领域“Token”的官方标准中文名,它指的是大模型处理和交换信息的最小单位。

这个过程可以形象地理解为将一篇完整的文章(文本)切割成一个个有语义的“积木块”(词元),并为每个积木块贴上唯一的数字标签(ID)。

拆解词元(Token)生成的4个关键步骤

词元产生的四个标准步骤

词元的生成通常遵循一个标准化的流程,以确保不同AI系统能够兼容和处理:
  1. 文本预处理 
    首先,对输入的原始文本进行清洗和标准化。这包括统一字母大小写、规范标点符号等,为后续的切分做准备
  2. 分词
    这是最核心的一步。系统会使用特定的分词算法,将预处理后的文本切割成一个个片段。这些片段就是“词元”的雏形
  3. 编码
    模型会为每一个独特的词元片段分配一个唯一的数字编号,即“词元ID”。这个ID是模型内部进行计算和关联的基础。
  4. 序列调整 
    最后,根据模型的要求,对生成的词元ID序列进行长度调整。如果序列过长,超出模型处理上限,就会被截断;如果过短,则会用特定的填充ID补齐

分词算法:如何切割文本?

第二步“分词”的具体方式决定了词元的形态。不同的模型会采用不同的分词策略,主要有以下几种:
  • 单词分词
    将文本按空格或标点等分隔符直接切分成单个单词。这种方法简单,但词表会非常庞大,且无法处理未登录词(如新词或拼写错误的词)
  • 字符分词
    将文本切分成单个字符。这种方法词表很小,能处理任何文本,但会导致序列过长,且单个字符的语义信息较弱
  • 子词分词
    这是目前主流大模型(如GPT系列)普遍采用的方法。它是一种折中方案,将文本切分成“子词”或“词片段”。例如,英文单词“unhappiness”可能被切分为“un”和“happiness”两个词元。这种方法既能有效处理生僻词和复杂词汇,又能保持词表大小在一个合理的范围。OpenAI开发的GPT模型使用的就是一种名为“字节对编码”(BPE)的子词分词算法

理解词元的关键点

  • 词元 ≠ 汉字或单词:一个词元可以是一个汉字、一个完整单词、一个词的一部分,甚至是一个标点符号。在中文里,1个词元约等于1.5到2个汉字
  • 分词是动作,词元是结果:“分词”(Tokenization)指的是将文本切割成词元的过程,而“词元”(Token)是这个过程的产出物
  • 经济属性:词元不仅是计算单位,也是AI服务的计价单位。无论是你输入的问题,还是AI生成的回答,都会消耗词元,并直接影响服务成本
© 版权声明

相关文章

暂无评论

none
暂无评论...