Open main menu
首页
专栏
课程
分类
归档
Chat
Sci-Hub
谷歌学术
Libgen
GitHub镜像
登录/注册
搜索
关闭
Previous
Previous
Next
Next
手把手教你搭建自己本地的ChatGLM
sockstack
/
254
/
2024-02-27 00:02:37
<p><span style="color: red; font-size: 18px">ChatGPT 可用网址,仅供交流学习使用,如对您有所帮助,请收藏并推荐给需要的朋友。</span><br><a href="https://ckai.xyz/?sockstack§ion=detail" target="__blank">https://ckai.xyz</a><br><br></p> <article class="baidu_pl"><div id="article_content" class="article_content clearfix"> <link rel="stylesheet" href="https://csdnimg.cn/release/blogv2/dist/mdeditor/css/editerView/kdoc_html_views-1a98987dfd.css"> <link rel="stylesheet" href="https://csdnimg.cn/release/blogv2/dist/mdeditor/css/editerView/ck_htmledit_views-25cebea3f9.css"> <div id="content_views" class="markdown_views prism-atom-one-light"> <svg xmlns="http://www.w3.org/2000/svg" style="display: none;"><path stroke-linecap="round" d="M5,0 0,2.5 5,5z" id="raphael-marker-block" style="-webkit-tap-highlight-color: rgba(0, 0, 0, 0);"></path></svg><h2> <a id="_1"></a>前言</h2> <p>如果能够本地自己搭建一个ChatGPT的话,训练一个属于自己知识库体系的人工智能AI对话系统,那么能够高效的处理应对所属领域的专业知识,甚至加入职业思维的意识,训练出能够结合行业领域知识高效产出的AI。这必定是十分高效的生产力工具,且本地部署能够保护个人数据隐私,能够内网搭建办公使用也十分的方便。</p> <p>而对于ChatGLM来说最大的优点就是本地能快速部署且需要资源较比与ChatGPT相当低,还要什么自行车,够用就好。甚至能够在一些性能较高的服务器单点部署,INT4 量化级别下最低只需 6GB 显存。而且我们根本不需要那么宽泛的知识面,只需要垂直一个知识领域深度就足够应对较多业务场景,故ChatGLM确实是较好的二次开发基础工具。</p> <p>那么不继续发表意见了,本地部署ChatGLM还是会遇到较多问题,建议各位先弄清楚本地开发环境以及电脑配置再根据我给出的组件兼容表对照,不同的配置和环境需要采用不同的安装策略。当然我也只有一台电脑部署很多情况没遇到也不知道如何处理,若是大家根据我的文章部署遇到困难请在评论区或者私信告知我,谢谢各位的支持。</p> <h2> <a id="_9"></a>部署依赖</h2> <h3> <a id="1_11"></a>1.硬件需求</h3> <p>这是ChatGLM的开源项目:https://github.com/Fanstuck/ChatGLM-6B。里面可以看到硬件需求,这是硬性要求如果不满足肯定是部署不了的,只能升级电脑配置了:</p> <p><img referrerpolicy="no-referrer" src="https://img-blog.csdnimg.cn/201ed3da352542939c3d6ba7cdaed26d.png#pic_center" alt="在这里插入图片描述"></p> <h3> <a id="2_17"></a>2.环境需求</h3> <p>再看依赖文件requirements.txt:</p> <p><img referrerpolicy="no-referrer" src="https://img-blog.csdnimg.cn/379b884bf3d24e72a44f4f5f5760fc2d.png#pic_center" alt="在这里插入图片描述"></p> <p>很多人这里就已经开始pip install -r requirements.txt,但是这里需要注意的是torch下载会出问题,而且大概率下载的会是cpu版本。我这里不建议直接pip install,对于有GPU的同学来说肯定下载GPU版本的torch最优,且不清楚自己cuda的版本下很容易下载的torh和cudnn版本不兼容,所以这里单独说一下torch该如何安装合适的版本。</p> <p>首先先看一下NVIDIA支持最高的cuda版本:</p> <p>cmd输入nvidia-smi就可以看到:</p> <p><img referrerpolicy="no-referrer" src="https://img-blog.csdnimg.cn/758bca3954ea4b559311a68e4d8e4a6b.png#pic_center" alt="在这里插入图片描述"></p> <p>这里显示我的cuda版本为11.7,下载比这低的版本就好了。</p> <p>但是这里需要注意cuda版本和torch版本是对应的:</p> <p>pytorch历史版本下载:</p> <p>https://pytorch.org/get-started/previous-versions/,只要低于11.7版本的torch都是可以的。<br> <img referrerpolicy="no-referrer" src="https://img-blog.csdnimg.cn/2ed900d022a340f49019db76106bdf0b.png#pic_center" alt="在这里插入图片描述"></p> <p>若是pip下载time out的下载wheel:https://download.pytorch.org/whl/torch_stable.html</p> <h2> <a id="_45"></a>模型下载</h2> <p>下载ChatGLM有两种方式,一种是通过transformers直接下载,通过调用代码就可以下载到本地,下载默认本地的目录为:</p> <p>C:\Users.cache\huggingface\modules\transformers_modules</p> <pre><code class="prism language-python"><span class="token keyword">from</span> transformers <span class="token keyword">import</span> AutoTokenizer<span class="token punctuation">,</span> AutoModel tokenizer <span class="token operator">=</span> AutoTokenizer<span class="token punctuation">.</span>from_pretrained<span class="token punctuation">(</span><span class="token string">"THUDM/chatglm-6b"</span><span class="token punctuation">,</span> trust_remote_code<span class="token operator">=</span><span class="token boolean">True</span><span class="token punctuation">)</span> model <span class="token operator">=</span> AutoModel<span class="token punctuation">.</span>from_pretrained<span class="token punctuation">(</span><span class="token string">"THUDM/chatglm-6b"</span><span class="token punctuation">,</span> trust_remote_code<span class="token operator">=</span><span class="token boolean">True</span><span class="token punctuation">)</span><span class="token punctuation">.</span>half<span class="token punctuation">(</span><span class="token punctuation">)</span><span class="token punctuation">.</span>cuda<span class="token punctuation">(</span><span class="token punctuation">)</span> model <span class="token operator">=</span> model<span class="token punctuation">.</span><span class="token builtin">eval</span><span class="token punctuation">(</span><span class="token punctuation">)</span> </code></pre> <p>当然下载太慢的话也可以在Hugging Face Hub里面下载:https://huggingface.co/THUDM/chatglm-6b</p> <p>不需要frok直接clone就可以了。版主还提供了不同编译后的版本可供下载,我这边就下载了已经编译后的int4版本,我的内存只有16G且显存128M很低故带不起原生模型。</p> <p><img referrerpolicy="no-referrer" src="https://img-blog.csdnimg.cn/425de55e33d84b0aa818f2c0f13829e7.png#pic_center" alt="在这里插入图片描述"></p> <p>这样的话文件不需要下载到C盘下面,可以自己选择要下载的目录。</p> <p>下载完成之后里面提供了两个demo可以测试,需要修改函数AutoTokenizer.from_pretrained中的THUDM/chatglm-6b,也就是pretrained_model_name_or_path更换成你下载chatGLM的目录就可以使用了。</p> <p>如果你的显存配置有限的话可以选择以量化方式加载模型,比如:</p> <pre><code class="prism language-python"><span class="token comment"># 按需修改,目前只支持 4/8 bit 量化</span> model <span class="token operator">=</span> AutoModel<span class="token punctuation">.</span>from_pretrained<span class="token punctuation">(</span><span class="token string">"THUDM/chatglm-6b"</span><span class="token punctuation">,</span> trust_remote_code<span class="token operator">=</span><span class="token boolean">True</span><span class="token punctuation">)</span><span class="token punctuation">.</span>quantize<span class="token punctuation">(</span><span class="token number">4</span><span class="token punctuation">)</span><span class="token punctuation">.</span>half<span class="token punctuation">(</span><span class="token punctuation">)</span><span class="token punctuation">.</span>cuda<span class="token punctuation">(</span><span class="token punctuation">)</span> </code></pre> <p>模型量化会带来一定的性能损失,经过测试,ChatGLM-6B 在 4-bit 量化下仍然能够进行自然流畅的生成。</p> <p>量化过程需要在内存中首先加载 FP16 格式的模型,消耗大概 13GB 的内存。如果你的内存不足的话,可以直接加载量化后的模型,仅需大概 5.2GB 的内存:</p> <pre><code>model = AutoModel.from_pretrained("THUDM/chatglm-6b-int4", trust_remote_code=True).half().cuda() </code></pre> <p>我这边直接下载的int4模型不需要再加载整个模型了。</p> <p>如果你没有 GPU 硬件的话,也可以在 CPU 上进行推理,但是推理速度会更慢。使用方法如下,需要大概 32GB 内存:</p> <pre><code class="prism language-python">model <span class="token operator">=</span> AutoModel<span class="token punctuation">.</span>from_pretrained<span class="token punctuation">(</span><span class="token string">"THUDM/chatglm-6b"</span><span class="token punctuation">,</span> trust_remote_code<span class="token operator">=</span><span class="token boolean">True</span><span class="token punctuation">)</span><span class="token punctuation">.</span><span class="token builtin">float</span><span class="token punctuation">(</span><span class="token punctuation">)</span> </code></pre> <h2> <a id="_92"></a>模型使用</h2> <p>以我的计算机来说平常内存就有<br> <img referrerpolicy="no-referrer" src="https://img-blog.csdnimg.cn/7f6d5bb76133456581ad26c554cb8e37.png#pic_center" alt="在这里插入图片描述"></p> <p>11G占用了,运行该模型肯定会报OOM,推荐大家把一些暂时不需要的进程杀掉尽可能多的留多点内存再跑模型:</p> <p>这里推荐在终端上面运行不要用pycharm,内存更多:<br> <img referrerpolicy="no-referrer" src="https://img-blog.csdnimg.cn/5eff2c54f2dd4c8cbbfdc81b0154b9fe.png#pic_center" alt="在这里插入图片描述"></p> <p>使用web_demo.py可以直接在网站上面对话:</p> <p><img referrerpolicy="no-referrer" src="https://img-blog.csdnimg.cn/3593068bbd5641c0a087993562b7c42c.png#pic_center" alt="在这里插入图片描述"><br> <img referrerpolicy="no-referrer" src="https://img-blog.csdnimg.cn/beb64789b4fc42999e842e9ac3fb0172.png#pic_center" alt="在这里插入图片描述"><img referrerpolicy="no-referrer" src="https://img-blog.csdnimg.cn/4431efbc74ce41beb3db199a30f00995.png#pic_center" alt="在这里插入图片描述"></p> <p>我这里直接OOM了没有办法,大家计算机好点就没问题。</p> </div> <link href="https://csdnimg.cn/release/blogv2/dist/mdeditor/css/editerView/markdown_views-0407448025.css" rel="stylesheet"> <link href="https://csdnimg.cn/release/blogv2/dist/mdeditor/css/style-c216769e99.css" rel="stylesheet"> </div> <div id="treeSkill"></div> <div id="blogExtensionBox" style="width:400px;margin:auto;margin-top:12px" class="blog-extension-box"></div> </article>
手把手教你搭建自己本地的ChatGLM
作者
sockstack
许可协议
CC BY 4.0
发布于
2024-02-27
修改于
2025-02-05
上一篇:软件:常用 Linux 软件汇总,值得收藏
下一篇:openai ChatGPT服务配置使用azure微软云后,其他地方再去调用openai的原生API报错:500 internal server error
尚未登录
登录 / 注册
文章分类
博客重构之路
5
Spring Boot简单入门
4
k8s 入门教程
0
MySQL 知识
1
NSQ 消息队列
0
ThinkPHP5 源码分析
5
使用 Docker 从零开始搭建私人代码仓库
3
日常开发汇总
4
标签列表
springboot
hyperf
swoole
webman
php
多线程
数据结构
docker
k8s
thinkphp
mysql
tailwindcss
flowbite
css
前端