Token简介
Token,直译为“令牌”或“代币”,在大语言模型(LLM)中,它是文本信息处理的基本单位。
Token的分类
通常情况下,一个token可以是一个单词、一个标点符号、一个数字,或者是其他更小的文本单元,如子词或字符。
单词级token
即token是按照单词进行划分的。一个句子中的每个单词通常都会成为一个独立的token。
例如,一句话"我是中国人"可以划分为三个单词级的token——"我"、"是"、"中国人"
标点符号级token
除了单词,标点符号通常也作为独立的token存在。这是因为标点符号在语义和语法上都具有重要的作用。
例如,一句问候"你最近好么?",最后的问号也是一个独立的token。
子词级token
为了更好地处理复杂的语言情况,有时候将单词进一步划分为子词级的token。
例如,单词"unhappiness"可以被划分为子词级token——"un-"、"happiness"
现在大模型比较流行的子词级token还有字节对编码(BPE),对一些频繁出现的字词进行合并实现。
字符级token
在某些情况下,特别是在字符级别的处理任务中,文本会被划分为字符级token。这样做可以处理字符级别的特征和模式。
例如,在句子"Great!"中,"G"、"r"、"e"、"a"、"t"分别是六个字符级token。
Token的作用
大模型处理中,将文本划分为token是对文本进行分析和处理的基本步骤之一。
以下是人工智能处理过程