ChatGPT的运行原理

空谷幽兰 · 2023-5-15 09:57

作者： dong

最近对ChatGPT这个东西非常着迷‍，只要有时间我就看相关的文档‏‎，上一次对一个事情这么感兴趣‎，还是发现了一个叫“情色六月天”的网站‍‌，当时我学习了Python，写了个爬虫把这个网站的图片都爬了下来。

经过这些天的学习‎，我觉得我对ChatGPT有了一点新的认识‎‏，基本原理可能已经懂了‍‏，我也不敢说的这么绝对啊。我先来说一下我怎么学习的‏‎，大家也许知道有一个软件叫Mathmatica‏‍，这个世界上有三个数学引擎：Matlab, Mathematica, Maple‍‍，这些数学引擎有多重要呢？这么说吧‏‎，美国卡中国脖子的方法之一就是禁止中国几所高校使用某个引擎‎，你就没法做科研了‎，论文也发表不了。

当然有高人建议用盗版‎‏，这种建议也不是不行‍‌，但是你发表论文以后‎‌，人家是可以来找你的。

我是Mathematica的盗版用户‎，这家公司还可以在iPad上买一个在线的Wolfram Alpha‏，这东西不贵‍，有两个版本‌‍，我只买了一个‏‎，这玩意能干啥呢？简单来说‌，帮你了解世界‎，如果我们用Google的话‎，可能搜到的是网友写的文章‍‍，这里面有可能有错误‏‎，如果我们用这个Wolfram Alpha来搜索的话‏‏，比如说你可以搜索中国的GDP‌‎，然后会以图表的形势列出来‍，你还可以研究美国人的年龄分布情况‌，总之呢‍‍，你可以自己去试试‌，基本上‌‎，与科学相关的问答‏‎，这个Wolfram Alpha都可以给你精准的答案‌‎，而不是网友没事时候写的一篇blog。

更神奇的是‍，Wolfram Alpha这个东西‍‏，集成了ChatGPT‎‏，当然‏，版本是比较低的‌‎，我用的这个版本是ChatGPT 2。之所以叫Wolfram是因为写这个的作者名字叫史蒂芬·沃尔夫勒姆‌‏，人家用自己的名字Stephen Wolfram来命名自己的软件。这个人超级牛‍，具体有多牛‍‎？三言两语说不清，简单来说‌‌，父母聪明且有钱‎‍，他也是聪明且有钱‍，不到20岁就拿完了博士，干啥啥成功‏，写小说写成畅销书‏，开公司开成世界顶级公司‍‏，年纪轻轻拿了麦克阿瑟奖‌，当电影编剧拍了个《降临》‏‌，结果拿了奥斯卡最佳音效剪辑奖‎，总之，有些人是用来仰望的。

就是这个家伙‌‌，他写了一篇博客介绍了什么是ChatGPT，ChatGPT为什么会运行。链接我放在这里https://writings.stephenwolfram. ... d-why-does-it-work/

我仔细阅读了这篇博客‍，再结合我前段时间说的那5篇论文‍‏，觉得对ChatGPT有了一点深入的理解‌‏，我就讲一下我的理解。以前只读论文的时候‌‍，因为没有机器来部署ChatGPT‌，只能靠自己意淫一下大概的工作原理‏‌，但是有了Wolfram Alpha这个东西‎‎，咱们就可以一探究竟了。大家有兴趣可以去注册一个‌，免费试用一个月吧‌‍，不用交钱‎‌，先把ChatGPT了解一下再说。

缺点也有‌‎，这个ChatGPT使用的是ChatGPT2‏，而不是目前的4‎‏，但是4和2‏，我觉得是模型大小的区别‏‏，而不是原理上的区别。使用这个东西‎‏，有点类似于调试程序的单步测试。

目前ChatGPT所做的事情是：ChatGPT 一直在从根本上尝试做的是为它目前所获得的任何文本生成一个“合理的补全”‏，这里的“合理”是指“人们可能期望某人在看到人们的内容后写下什么‏‍，“已经在数十亿个网页上写过‌，等等。”

所以假设我们有这样一段文本“The best thing about AI is its ability to”。之所以用英文‎，是因为ChatGPT2对英文也不怎么样‏‍，更不要提中文了‏‏，所以我还是用英文‏‏，即使用英文‌‍，还是非常的不理想‌‍，毕竟这个版本确实不强。想象一下‏，ChatGPT是预训练模型‏‎，也就是说已经提前把模型训练好了‌，放在那里‌‌，比如说已经扫描过数十亿页的文本（比如在网络上和数字化书籍中）并找到该文本的所有实例——然后在极短的时间内查看下一个单词。 ChatGPT非常有效地做这样的事情‏‏，就是补全下一个词。它寻找在某种意义上“意义匹配”的事物。但最终结果是它会生成一个可能跟在后面的单词的排名列表‍‏，以及“概率”：

比如他扫描了这段话以后‌‍，会计算跟在to后面的单词‏‏，比如有learn, predict, make, understand等‏‎，并且给每个单词算一个概率‎‌，比如这个learn可能是4.5%, predict可能是3.5%……这个概率是怎么算出来的呢？这就要用到一点数学知识了。如果大家上过大学‎，应该知道有个东西叫条件概率‌‍，比如P（AB）=P（BA）‍，假设A代表男人‏‍，B代表喜欢女人‎‌，那么P（AB）就代表男人喜欢女人的概率‍‍，这个概率跟喜欢女人但同时又是男人的概率是相同的。条件概率有个链式法则‏‌，比如又有一个条件C‏‎，这个条件是喜欢男人。那P（ABC）=P（CBA）‎，ABC代表的是男人‏‍，喜欢女人又同时喜欢男人的概率‎‌，等于喜欢女人又喜欢男人同时又是男人的概率‍，这种人是有的‌，比如听我电台的西安秀儿哥‍‍，他就是bisexual。

这个链式法则可以用在前面我举例的这句话里：“The best thing about AI is its ability to”‍，每一个单词代表一个条件‎‌，ChatGPT就来计算下一个单词可能出现的概率是多少。当 ChatGPT 做一些事情（比如写一篇文章）时‍，它本质上只是一遍又一遍地问“给定目前的文本‌‌，下一个词应该是什么？”——每次都添加一个词。（更准确地说‎‎，它是在添加一个“token”‎，它可能只是一个词的一部分‌，这就是为什么它有时可以“组成新词”的原因‎，比如‎，ChatGPT会胡编一些根本不存在的链接。）

但是‏‏，它应该选择哪个单词添加到它正在写的文章（或其他任何东西）中呢？有人可能认为应该选择“最高排名”的单词（即分配最高“概率”的单词）。但这就是一些神奇的地方。因为由于某种原因 – 可能有一天我们会对此有科学风格的理解 – 如果我们总是选择最高排名的单词‎‏，我们通常会得到一个非常“平淡”的文章‌，看起来从不显示任何创造力（甚至有时会逐字重复‌，我在ChatGPT2里‍，碰到过好几次写着写着‌‏，就开始车轱辘话了‎‌，就好像成语接龙里的为所欲为‎，下一个‏‎，又是为所欲为……最后死了）。但是‍，如果我们有时（随机）选择较低排名的单词‎，我们会得到一个“更有趣”的文章。

这个原理我觉得我可以从历史上讲通顺一点‍‌，有时候‏，人也是如此‌‏，你博一个很小概率的事情‏‎，确实会让人生比较有趣‌‌，比如陈胜吴广出发前‌‏，按照他老婆或者老妈的嘱托‍‎，跟着胡亥好好工作‎，考个公务员‏‏，那他的人生就没那么精彩了。我觉得ChatGPT也要有事没事的来选择几个概率不那么高的词语比较好。

既然说到了陈胜，陈胜就是史记中的人物。打个岔‎，我不是也讲《史记》么‌，有人确实说过喜欢听我讲的《史记》‍，但是呢‏，说句实在话‎‎，中国的历史没什么好研究的‍‌，《史记》中都是一些鸟人因为某种原因飞黄腾达‏‌，比如从事一些吮痈舐痔shǔn yōng shì zhì的恶心事‌，最后楼塌了‏，不名一文。比如史记中的那个邓通‏‍，这几个成语都是因他而来。为什么叫飞黄腾达‎，因为邓通是黄头发‌‍，为什么黄头发就可以升官‏‍，因为汉文帝做梦的时候‍，梦见有个黄头发的人推了他一把‎，然后他就爬到了天上‌‍，于是全天下找黄头发的人‏，幸好那时候没有欧美人‏‏，那黄头发的可就太多了。

邓通从一个船夫‏‎，仅仅因为头发黄就成了权倾一时的大官‎‏，就好像高俅仅仅因为球踢的好‍‍，就成了权倾一时的官。然后呢‍‏，汉文帝可能天天坐着‌‍，长了一个疮痔‎‍，疼啊我操。邓通一看‏‍，马上跪下‏‎，用嘴把汉文帝疮痔里的血给吸出来‍‎，这就是成语吮痈舐痔shǔn yōng shì zhì的来历。把汉文帝吸爽了‎‌，让邓通发行货币‌‎，一下子成了美联储，可以自己发行比特币‏‎，Q币了‍‍，邓通成了大汉的首富。

最后的结局是不名一文‌‌，被汉景帝给干了‍，最后邓通饿死了，曾经的大汉首富‎‏，一文钱也拿不出来买个汉堡‍‎，不名一文。真的没什么好研究的‏，鲁迅说中国的历史就两个字‍，吃人。我如果讲史记呢‏‍，也比较黑暗一点‏，结果很多人不爱听‍‍，比如连伟大的文景之治‎‏，都是这么一个情况‎‏，不如多研究点ChatGPT来的过瘾‌‌，以后我还是多研究点技术。

运行, 原理

帖子热度 2761 ℃

发帖际遇

空谷幽兰装成乞丐，骗取了楼主1 个金币.

ChatGPT的运行原理

相关帖子

网警是怎么找到入侵者的?

计算机原理（二进制）

DDos 网络攻击原理动画图解

压缩文件是什么原理？

什么是一句话(图片)木马 | 原理

防御 CC 攻击的原理

精华达人

主题破百

以坛为家

论坛元老

五周年纪念