Open main menu
首页
专栏
课程
分类
归档
Chat
Sci-Hub
谷歌学术
Libgen
GitHub镜像
登录/注册
搜索
关闭
Previous
Previous
Next
Next
一文谈谈文心一言对比ChatGPT4.0的差距
sockstack
/
223
/
2023-11-19 12:00:30
<p><span style="color: red; font-size: 18px">ChatGPT 可用网址,仅供交流学习使用,如对您有所帮助,请收藏并推荐给需要的朋友。</span><br><a href="https://ckai.xyz/?sockstack§ion=detail" target="__blank">https://ckai.xyz</a><br><br></p> <article class="baidu_pl"><div id="article_content" class="article_content clearfix"> <link rel="stylesheet" href="https://csdnimg.cn/release/blogv2/dist/mdeditor/css/editerView/kdoc_html_views-1a98987dfd.css"> <link rel="stylesheet" href="https://csdnimg.cn/release/blogv2/dist/mdeditor/css/editerView/ck_htmledit_views-25cebea3f9.css"> <div id="content_views" class="htmledit_views"> <p>对于想体验文心一言的朋友,可以进行申请尝试,快速入口</p> <p>如果想体验ChatGPT的朋友,可以自行fq注册;但是由于现在限制注册并且不稳定,对于不会用梯子不想注册的朋友可以使用这个进行访问,快速入口</p> <p>关于ChatGPT对我们的帮助,可以参考我往期博客</p> <p>看到一篇国金证券的研报,其中对GPT4.0、3.5和文心一言做了一组详细测试。</p> <p>最后立下的结论大致是这样:</p> <p></p> <p class="img-center"><img referrerpolicy="no-referrer" alt="" src="https://img-blog.csdnimg.cn/img_convert/52210b77a672567123540b6f4a3618b4.webp?x-oss-process=image/format,png"></p> <p></p> <p>从研报结论来看,国金证券说这三算是互有胜负,总体上GPT-4略胜一筹。</p> <p>不过我仔细瞅了眼对比结果,感觉研报说的还是太委婉了...</p> <p>尤其是在数字、代码、归纳和推理这些能力,GPT4几乎把文心一言给完爆。</p> <p>我放一些研报中的案例,大家可以直观感受一下模型的差距~</p> <h1><strong>第一个是简单数学问题,求线性方程组:</strong></h1> <p>文心一言的回答,直接跳过计算流程,给了个错误答案,因为没有流程,连错哪儿都不知道</p> <p></p> <p class="img-center"><img referrerpolicy="no-referrer" alt="" src="https://img-blog.csdnimg.cn/img_convert/8841904b7524ce58928082f69ace8466.png"></p> <p></p> <p>相比之下GPT4.0把算法流程给讲的比较清楚,也很细节。</p> <p></p> <p class="img-center"><img referrerpolicy="no-referrer" alt="" src="https://img-blog.csdnimg.cn/img_convert/7463b539114898e0902eb8f1d62e94c5.png"></p> <p></p> <p>重点是国金证券竟然说GPT4.0的Y值算错了,说GPT3.5算的Y=3/7是正确答案,看的我一脸疑惑。</p> <p></p> <p class="img-center"><img referrerpolicy="no-referrer" alt="" src="https://img-blog.csdnimg.cn/img_convert/9524e03827f73b6e39365e2924c68dc6.png"></p> <p></p> <p>大家看看,难道是我多年不做题,数学退化了?</p> <h1>其次就是文学创作这块,这俩也是有一些差距:</h1> <p>比如写一个<strong>刘红发大财的故事</strong>,文心一言理解成人物是<strong>刘红发</strong>。</p> <p></p> <p class="img-center"><img referrerpolicy="no-referrer" alt="" src="https://img-blog.csdnimg.cn/img_convert/019cb9f136ed9b18063fa01d587fa40a.webp?x-oss-process=image/format,png"></p> <p></p> <p></p> <p class="img-center"><img referrerpolicy="no-referrer" alt="" src="https://img-blog.csdnimg.cn/img_convert/d72cc06da6140e2c868f7b7b7a811b24.webp?x-oss-process=image/format,png"></p> <p></p> <p>而且GPT4.0在故事的形象度、丰富度和生动度上来说要牛X不少,感觉已经有写小说的潜力了。</p> <p>文心一言虽然故事也凑合,但细节度方面上看暂时被完爆…</p> <h1>接着看逻辑推理能力。</h1> <p>这环节文心一言又错了,直接顺推说,<strong>点了沙拉就一定点了牛排。</strong></p> <p>而事实上就是纯粹的错误。</p> <p>GPT4.0给了正确的答案。</p> <p></p> <p class="img-center"><img referrerpolicy="no-referrer" alt="" src="https://img-blog.csdnimg.cn/img_convert/491194d2033ad9e0173681d8b956e35e.webp?x-oss-process=image/format,png"></p> <p></p> <p>此外逻辑推理环节还有一个。</p> <p>就是问<strong>“为什么我总是在最后一个地方找到丢失的物品”。</strong></p> <p>实际上这是给AI挖了个坑,本质上这是个谬论。</p> <p>然而文心一言也压根没注意到这个问题,然后说了一通没有逻辑的解释。</p> <p></p> <p class="img-center"><img referrerpolicy="no-referrer" alt="" src="https://img-blog.csdnimg.cn/img_convert/dcf19706d08098d2b2e3c9b748ece911.webp?x-oss-process=image/format,png"></p> <p></p> <p>而GPT4一开始就说出了问题的本质,<strong>“丢失的物品肯定是最后一个地方找到的”。</strong></p> <p>不过后面的解释我感觉没有必要,属于是明明说对了又强行解释一遍...</p> <p></p> <p class="img-center"><img referrerpolicy="no-referrer" alt="" src="https://img-blog.csdnimg.cn/img_convert/788d6871cf2df4e80d8db6949bea36a0.webp?x-oss-process=image/format,png"></p> <p></p> <p>不过文心一言也不是完全没有优点,在一些中文类目,他经常会给出一些实操案例。</p> <p>先不说能不能行,但它起码也算是有自己的特色了,敢于推荐...</p> <p>比如同样都是问<strong>如何赚100万</strong>,文心一言给出了一些具体的实操案例,而不是空话,比较有趣。</p> <p></p> <p class="img-center"><img referrerpolicy="no-referrer" alt="" src="https://img-blog.csdnimg.cn/img_convert/efd46bc659f0fa57a7dd1dbff725fbf3.webp?x-oss-process=image/format,png"></p> <p></p> <p>这估计也和模型的调教方式有关哈。</p> <p>GPT4在些问题里边回答的就比较像是套用模板,感觉过于死板。</p> <p></p> <p class="img-center"><img referrerpolicy="no-referrer" alt="" src="https://img-blog.csdnimg.cn/img_convert/c9cf19766312be34f35dd388836da10e.webp?x-oss-process=image/format,png"></p> <p></p> <p>然后就是在投资理财这块,<strong>直接问想买一个年化4%的理财</strong>,文心一言竟然给了一款具体名称的银行理财(其实是货币基金)</p> <p></p> <p class="img-center"><img referrerpolicy="no-referrer" alt="" src="https://img-blog.csdnimg.cn/img_convert/6ccc4bd7e8f6f1ba670241dff199d715.webp?x-oss-process=image/format,png"></p> <p></p> <p>先不说合不合规,货基4%现在是肯定不可能做到的。</p> <p>目前它最新的7日年化也只有2%左右,我也不知道文心一言哪来的结论。</p> <p>不会以后问我想看个什么病,然后给我推荐莆田的某医院吧~</p> <p>相比之下GPT要严谨很多,虽然说的也是空话为主,但涉及金融投资这块GPT似乎都是这个样,没法。</p> <p></p> <p class="img-center"><img referrerpolicy="no-referrer" alt="" src="https://img-blog.csdnimg.cn/img_convert/3cd54c087c23c11c236d5f4a5669901a.webp?x-oss-process=image/format,png"></p> <p></p> <p>不过文心一言有一个案例挺牛,在<strong>揣摩男女情感</strong>心思上,这轮赢麻了。</p> <p></p> <p class="img-center"><img referrerpolicy="no-referrer" alt="" src="https://img-blog.csdnimg.cn/img_convert/d877520bb7ae75bac0b4a0cf0643311b.webp?x-oss-process=image/format,png"></p> <p></p> <p></p> <p class="img-center"><img referrerpolicy="no-referrer" alt="" src="https://img-blog.csdnimg.cn/img_convert/dcd95bfe3f9e8f4180899398e2aa4ff5.webp?x-oss-process=image/format,png"></p> <p></p> <p>这次是解释<strong>“你没有错,都是我的错”</strong>这句话,文心一言在男女吵架后对反话的理解完全到位,点赞。</p> <p>不过后面补充这块就有点瞎扯了,大家自行判断。</p> <p>而GPT的话,说的就是传统的字面意义观点,显然还是没完全理解我们中国特色表达方式。</p> <p>但后面GPT也补救了一下,<strong>说不能完全确定,要看具体情况</strong>,算是挽回一些场子。</p> <p>总的来说,研报中的测试大概就这些,对比结果一目了然,GPT4.0更严谨,<strong>“智商”</strong>似乎也更高一些。</p> <p>不过文心一言在<strong>“情商”</strong>方面也算能打,有更多中文数据训练的优势,至少对话一些日常问题能应付。</p> <p>好比GPT更像逻辑思维缜密的直男,而文心一言更像一个心直口快,大大咧咧的人。</p> <p>只不过面对高难度题目来说,智商明显还不够,毕竟技术差距摆在那,慢慢来吧。</p> </div> </div> <div id="treeSkill"></div> </article>
一文谈谈文心一言对比ChatGPT4.0的差距
作者
sockstack
许可协议
CC BY 4.0
发布于
2023-11-19
修改于
2024-12-21
上一篇:软件:常用 Linux 软件汇总,值得收藏
下一篇:免费使用GPT-4.0?【AI聊天 | GPT4教学】 —— 微软 New Bing GPT4 申请与使用保姆级教程
尚未登录
登录 / 注册
文章分类
博客重构之路
5
Spring Boot简单入门
4
k8s 入门教程
0
MySQL 知识
1
NSQ 消息队列
0
ThinkPHP5 源码分析
5
使用 Docker 从零开始搭建私人代码仓库
3
日常开发汇总
4
标签列表
springboot
hyperf
swoole
webman
php
多线程
数据结构
docker
k8s
thinkphp
mysql
tailwindcss
flowbite
css
前端