NLP（五十四）tiktoken的使用

sockstack / 191 / 2024-02-27 13:02:37

ChatGPT 可用网址，仅供交流学习使用，如对您有所帮助，请收藏并推荐给需要的朋友。 <a href="https://ckai.xyz/?sockstack&section=detail" target="__blank">https://ckai.xyz</a> <article class="baidu_pl"><div id="article_content" class="article_content clearfix">
<link rel="stylesheet" href="https://csdnimg.cn/release/blogv2/dist/mdeditor/css/editerView/kdoc_html_views-1a98987dfd.css">
<link rel="stylesheet" href="https://csdnimg.cn/release/blogv2/dist/mdeditor/css/editerView/ck_htmledit_views-25cebea3f9.css">
<div id="content_views" class="markdown_views prism-dracula">
<svg xmlns="http://www.w3.org/2000/svg" style="display: none;"><path stroke-linecap="round" d="M5,0 0,2.5 5,5z" id="raphael-marker-block" style="-webkit-tap-highlight-color: rgba(0, 0, 0, 0);"></path></svg>  <code>tiktoken</code>是OpenAI于近期开源的Python第三方模块，该模块主要实现了tokenizer的BPE（Byte pair encoding）算法，并对运行性能做了极大的优化。本文将介绍tiktoken模块的使用。 
<h3>
<a id="tiktoken_2"></a>tiktoken简介</h3> 
  <code>BPE(Byte pair encoding)</code>算法是NLP中常见的tokenizer方式，关于其介绍和实现原理，读者可参考深入理解NLP Subword算法：BPE、WordPiece、ULM。   <code>tiktoken</code>已开源至Github，访问网址为：https://github.com/openai/tiktoken，tiktoken会比其它开源的tokenizer库运行快3-6倍，以下是它与hugging face的tokenizer库的性能比较： <img referrerpolicy="no-referrer" src="https://img-blog.csdnimg.cn/ff32f043729840328ec5edc8809d3a49.png#pic_center" alt="不同线程数下tiktoken与hugging face的性能比较"> 以上结果是使用GPT-2 tokenizer在1G文本上进行的性能测试，使用的<code>GPT2TokenizerFast</code>来源于<code>tokenizers==0.13.2</code>, <code>transformers==4.24.0</code> , <code>tiktoken==0.2.0</code>。 
<h3>
<a id="_8"></a>简单使用</h3> 
  <code>tiktoken</code>的Encodings（编码方式）用于展示文本是如何被转化为token的。不同的模型使用不同类型的编码方式。<code>tiktoken</code>支持如下三种OpenAI模型的编码方式： 
<table>
<thead><tr>
<th>编码方式</th>
<th>OpenAI模型</th>
</tr></thead>
<tbody>
<tr>
<td>cl100k_base</td>
<td>gpt-4, gpt-3.5-turbo, text-embedding-ada-002</td>
</tr>
<tr>
<td>p50k_base</td>
<td>Codex模型，如 text-davinci-002, text-davinci-003</td>
</tr>
<tr>
<td>r50k_base (或gpt2)</td>
<td>GPT-3模型，如davinci</td>
</tr>
</tbody>
</table> 
可以通过如下代码来获取模型的编码方式： 
<pre><code class="prism language-python"># -*- coding: utf-8 -*-
import tiktoken# get encoding name
print(tiktoken.encoding_for_model('gpt-3.5-turbo'))
</code></pre> 
输出结果为： 
<pre><code>&lt;Encoding 'cl100k_base'&gt;
</code></pre> 
注意，<code>p50k_base</code>与<code>r50k_base</code>基本类似，在非代码应用中，它们通常会给出相同的token。   <code>cl100k_base</code>中的100k代码该编码方式中的词汇表数量大约为100k，词汇表文件为cl100k_base_vocab.json，下载网址为：https://raw.githubusercontent.com/weikang-wang/ChatGPT-Vocabulary/main/cl100k_base_vocab.json，词汇数量为100256，如此庞大的词汇数量使得OpenAI模型在多种语言上都有不俗的表现。 
<h3>
<a id="_32"></a>编码与解码</h3> 
  编码（encode）是指将文本映射为token的数字列表，解码（decode）是指将token的数字列表转化为文本。参看以下的Python代码实现： 
<pre><code class="prism language-python"># -*- coding: utf-8 -*-
import tiktoken# simple test
enc = tiktoken.get_encoding("cl100k_base")
print(enc.encode("hello world") == [15339, 1917])
print(enc.decode([15339, 1917]) == "hello world")
print(enc.encode("hello &lt;|endoftext|&gt;", allowed_special="all") == [15339, 220, 100257])# encode
tokens = enc.encode("tiktoken is great!")
print(tokens)
print(len(tokens))# decode
print(enc.decode([83, 1609, 5963, 374, 2294, 0]))# chinese encode
tokens = enc.encode("大模型是什么？")
print(tokens)
print(len(tokens))# chinese decode
print(enc.decode([27384, 54872, 25287, 21043, 6271, 222, 82696, 11571]))
</code></pre> 
输出结果如下： 
<pre><code>True
True
True
[83, 1609, 5963, 374, 2294, 0]
6
tiktoken is great!
[27384, 54872, 25287, 21043, 6271, 222, 82696, 11571]
8
大模型是什么？
</code></pre> 
<h3>
<a id="token_72"></a>计算token数量</h3> 
  OpenAI模型中token数量较为关键，毕竟，OpenAI接口调用的收费方式是按照token数量来的。关于OpenAI接口调用的收费方式，可以参考网站：https://openai.com/pricing。   下面是用<code>tiktoken</code>来计算token数量的Python代码： 
<pre><code class="prism language-python"># -*- coding: utf-8 -*-
import tiktokendef num_tokens_from_string(string: str, encoding_name: str) -&gt; int:# Returns the number of tokens in a text string.encoding = tiktoken.get_encoding(encoding_name)num_tokens = len(encoding.encode(string))return num_tokensprint(num_tokens_from_string('tiktoken is great!', 'cl100k_base'))
print(num_tokens_from_string('大模型是什么？', 'cl100k_base'))
</code></pre> 
输出结果为： 
<pre><code>6
8
</code></pre> 
  在hugging face网站上，已经有人实现了tiktoken的token数量计算，访问网站为：https://huggingface.co/spaces/JacobLinCool/tiktoken-calculator ，页面如下： <img referrerpolicy="no-referrer" src="https://img-blog.csdnimg.cn/5155ec284e98487380ee800df00dfd7d.png" alt="tiktoken的token数量计算">   在对话补全（chat completion）场景中计算token数量，以模型<code>gpt-3.5-turbo</code>为例，实现Python代码如下： 
<pre><code class="prism language-python"># -*- coding: utf-8 -*-
import tiktoken
import openaidef num_tokens_from_messages(messages):# Returns the number of tokens used by a list of messages.encoding = tiktoken.encoding_for_model("gpt-3.5-turbo")tokens_per_message = 4 # every message follows &lt;|start|&gt;{role/name}\n{content}&lt;|end|&gt;\ntokens_per_name = -1 # if there's a name, the role is omittednum_tokens = 0for message in messages:num_tokens += tokens_per_messagefor key, value in message.items():num_tokens += len(encoding.encode(value))if key == "name":num_tokens += tokens_per_namenum_tokens += 3 # every reply is primed with &lt;|start|&gt;assistant&lt;|message|&gt;return num_tokensexample_messages = [{"role": "system","content": "You are a helpful, pattern-following assistant that translates corporate jargon into plain English.",},{"role": "system","name": "example_user","content": "New synergies will help drive top-line growth.",},{"role": "system","name": "example_assistant","content": "Things working well together will increase revenue.",},{"role": "system","name": "example_user","content": "Let's circle back when we have more bandwidth to touch base on opportunities for increased leverage.",},{"role": "system","name": "example_assistant","content": "Let's talk later when we're less busy about how to do better.",},{"role": "user","content": "This late pivot means we don't have time to boil the ocean for the client deliverable.",},
]# example token count from the function defined above
print(f"{num_tokens_from_messages(example_messages)} prompt tokens counted by num_tokens_from_messages().")
# example token count from the OpenAI API
openai.api_key = ""
response = openai.ChatCompletion.create(model="gpt-3.5-turbo",messages=example_messages,temperature=0,max_tokens=1
)
print(f'{response["usage"]["prompt_tokens"]} prompt tokens counted by the OpenAI API.')
</code></pre> 
输出结果如下： 
<pre><code>127 prompt tokens counted by num_tokens_from_messages().
127 prompt tokens counted by the OpenAI API.
</code></pre> 
可见，在<code>num_tokens_from_messages</code>中，对于输入messages中的每条message，token数量先加上4，然后对字典中的value值进行token数量统计，如果此时对应的key为name，则token数量减1，因为要忽略role字段的token数量。在模型<code>gpt-3.5-turbo</code>中，<code>num_tokens_from_messages</code>函数与OpenAI对话补全中的token数量计算方式是一致的。 
<h3>
<a id="_170"></a>总结</h3> 
  本文介绍了<code>tiktoken</code>模型和它的简单使用，以及token数量计算方式。 
<h3>
<a id="_172"></a>参考文献</h3> 
<ol>
<li>深入理解NLP Subword算法：BPE、WordPiece、ULM: https://zhuanlan.zhihu.com/p/86965595</li>
<li>tiktoken的Github网址：https://github.com/openai/tiktoken</li>
<li>tiktoken-calculator: https://huggingface.co/spaces/JacobLinCool/tiktoken-calculator</li>
<li>How_to_count_tokens_with_tiktoken.ipynb: https://github.com/openai/openai-cookbook/blob/main/examples/How_to_count_tokens_with_tiktoken.ipynb</li>
</ol>
</div>
<link href="https://csdnimg.cn/release/blogv2/dist/mdeditor/css/editerView/markdown_views-98b95bb57c.css" rel="stylesheet">
<link href="https://csdnimg.cn/release/blogv2/dist/mdeditor/css/style-c216769e99.css" rel="stylesheet">
</div>
<div id="treeSkill"></div>
</article>

NLP（五十四）tiktoken的使用

作者

sockstack

许可协议

CC BY 4.0

发布于

2024-02-27

修改于

2025-08-21

上一篇：软件：常用 Linux 软件汇总，值得收藏下一篇：手把手教你，用Auto-GPT自动写个网站（保姆级）

尚未登录

NLP（五十四）tiktoken的使用

文章分类

博客重构之路

Spring Boot简单入门

k8s 入门教程

MySQL 知识

NSQ 消息队列

ThinkPHP5 源码分析

使用 Docker 从零开始搭建私人代码仓库

日常开发汇总

标签列表

springboot

hyperf

swoole

webman

php

多线程

数据结构

docker

k8s

thinkphp

mysql

tailwindcss

flowbite

css

前端