AI计量单位——Token


发布于 2025-09-10 / 0 阅读 / 0 评论 /
Token是人工智能领域的核心概念,既可以看成是AI的计量单位,也可以看成是AI的货币单位。

Token简介

Token,直译为“令牌”或“代币”,在大语言模型(LLM)中,它是文本信息处理的基本单位。

Token的分类

通常情况下,一个token可以是一个单词、一个标点符号、一个数字,或者是其他更小的文本单元,如子词或字符。

单词级token

即token是按照单词进行划分的。一个句子中的每个单词通常都会成为一个独立的token。

例如,一句话"我是中国人"可以划分为三个单词级的token——"我"、"是"、"中国人"

标点符号级token

除了单词,标点符号通常也作为独立的token存在。这是因为标点符号在语义和语法上都具有重要的作用。

例如,一句问候"你最近好么?",最后的问号也是一个独立的token。

子词级token

为了更好地处理复杂的语言情况,有时候将单词进一步划分为子词级的token。

例如,单词"unhappiness"可以被划分为子词级token——"un-"、"happiness"

现在大模型比较流行的子词级token还有字节对编码(BPE),对一些频繁出现的字词进行合并实现。

字符级token

在某些情况下,特别是在字符级别的处理任务中,文本会被划分为字符级token。这样做可以处理字符级别的特征和模式。

例如,在句子"Great!"中,"G"、"r"、"e"、"a"、"t"分别是六个字符级token。

Token的作用

大模型处理中,将文本划分为token是对文本进行分析和处理的基本步骤之一。

以下是人工智能处理过程