离别并不痛苦,因为我们都微笑着。 收藏本站
登陆 / 注册 搜索

阅读:1269   回复: 1

ChatGPT的运行原理

[复制链接]
空谷幽兰 踏破虚空 2023-5-15 09:57 |显示全部楼层

从前车马很慢,书信很远,一生只够爱一个人,但是可以纳很多妾啊!

精华达人 主题破百 以坛为家 论坛元老 五周年纪念
作者: dong


最近对ChatGPT这个东西非常着迷‍,只要有时间我就看相关的文档‏‎,上一次对一个事情这么感兴趣‎,还是发现了一个叫“情色六月天”的网站‍‌,当时我学习了Python,写了个爬虫把这个网站的图片都爬了下来。

👂🏫🫖☪‎经过这些天的学习‎,我觉得我对ChatGPT有了一点新的认识‎‏,基本原理可能已经懂了‍‏,我也不敢说的这么绝对啊。我先来说一下我怎么学习的‏‎,大家也许知道有一个软件叫Mathmatica‏‍,这个世界上有三个数学引擎:Matlab, Mathematica, Maple‍‍,这些数学引擎有多重要呢?这么说吧‏‎,美国卡中国脖子的方法之一就是禁止中国几所高校使用某个引擎‎,你就没法做科研了‎,论文也发表不了。

当然有高人建议用盗版‎‏,这种建议也不是不行‍‌,但是你发表论文以后‎‌,人家是可以来找你的。

我是Mathematica的盗版用户‎,这家公司还可以在iPad上买一个在线的Wolfram Alpha‏,这东西不贵‍,有两个版本‌‍,我只买了一个‏‎,这玩意能干啥呢?简单来说‌,帮你了解世界‎,如果我们用Google的话‎,可能搜到的是网友写的文章‍‍,这里面有可能有错误‏‎,如果我们用这个Wolfram Alpha来搜索的话‏‏,比如说你可以搜索中国的GDP‌‎,然后会以图表的形势列出来‍,你还可以研究美国人的年龄分布情况‌,总之呢‍‍,你可以自己去试试‌,基本上‌‎,与科学相关的问答‏‎,这个Wolfram Alpha都可以给你精准的答案‌‎,而不是网友没事时候写的一篇blog。
🤌🌡🍪♻🦦‏
更神奇的是‍,Wolfram Alpha这个东西‍‏,集成了ChatGPT‎‏,当然‏,版本是比较低的‌‎,我用的这个版本是ChatGPT 2。之所以叫Wolfram是因为写这个的作者名字叫史蒂芬·沃尔夫勒姆‌‏,人家用自己的名字Stephen Wolfram来命名自己的软件。这个人超级牛‍,具体有多牛‍‎?三言两语说不清,简单来说‌‌,父母聪明且有钱‎‍,他也是聪明且有钱‍,不到20岁就拿完了博士,干啥啥成功‏,写小说写成畅销书‏,开公司开成世界顶级公司‍‏,年纪轻轻拿了麦克阿瑟奖‌,当电影编剧拍了个《降临》‏‌,结果拿了奥斯卡最佳音效剪辑奖‎,总之,有些人是用来仰望的。

就是这个家伙‌‌,他写了一篇博客介绍了什么是ChatGPT,ChatGPT为什么会运行。链接我放在这里https://writings.stephenwolfram. ... d-why-does-it-work/
🧑‍🌾‏💎⚒😈🤛
我仔细阅读了这篇博客‍,再结合我前段时间说的那5篇论文‍‏,觉得对ChatGPT有了一点深入的理解‌‏,我就讲一下我的理解。以前只读论文的时候‌‍,因为没有机器来部署ChatGPT‌,只能靠自己意淫一下大概的工作原理‏‌,但是有了Wolfram Alpha这个东西‎‎,咱们就可以一探究竟了。大家有兴趣可以去注册一个‌,免费试用一个月吧‌‍,不用交钱‎‌,先把ChatGPT了解一下再说。

缺点也有‌‎,这个ChatGPT使用的是ChatGPT2‏,而不是目前的4‎‏,但是4和2‏,我觉得是模型大小的区别‏‏,而不是原理上的区别。使用这个东西‎‏,有点类似于调试程序的单步测试。

目前ChatGPT所做的事情是:ChatGPT 一直在从根本上尝试做的是为它目前所获得的任何文本生成一个“合理的补全”‏,这里的“合理”是指“人们可能期望某人在看到人们的内容后写下什么‏‍,“已经在数十亿个网页上写过‌,等等。”

👨🦱‌🎒🧬😴🖕



所以假设我们有这样一段文本“The best thing about AI is its ability to”。之所以用英文‎,是因为ChatGPT2对英文也不怎么样‏‍,更不要提中文了‏‏,所以我还是用英文‏‏,即使用英文‌‍,还是非常的不理想‌‍,毕竟这个版本确实不强。 想象一下‏,ChatGPT是预训练模型‏‎,也就是说已经提前把模型训练好了‌,放在那里‌‌,比如说已经扫描过数十亿页的文本(比如在网络上和数字化书籍中)并找到该文本的所有实例——然后在极短的时间内查看下一个单词。 ChatGPT非常有效地做这样的事情‏‏,就是补全下一个词。 它寻找在某种意义上“意义匹配”的事物。 但最终结果是它会生成一个可能跟在后面的单词的排名列表‍‏,以及“概率”:

比如他扫描了这段话以后‌‍,会计算跟在to后面的单词‏‏,比如有learn, predict, make, understand等‏‎,并且给每个单词算一个概率‎‌,比如这个learn可能是4.5%, predict可能是3.5%……这个概率是怎么算出来的呢?这就要用到一点数学知识了。如果大家上过大学‎,应该知道有个东西叫条件概率‌‍,比如P(AB)=P(BA)‍,假设A代表男人‏‍,B代表喜欢女人‎‌,那么P(AB)就代表男人喜欢女人的概率‍‍,这个概率跟喜欢女人但同时又是男人的概率是相同的。条件概率有个链式法则‏‌,比如又有一个条件C‏‎,这个条件是喜欢男人。那P(ABC)=P(CBA)‎,ABC代表的是男人‏‍,喜欢女人又同时喜欢男人的概率‎‌,等于喜欢女人又喜欢男人同时又是男人的概率‍,这种人是有的‌,比如听我电台的西安秀儿哥‍‍,他就是bisexual。

🖕🔥🫑🅱🐠‌这个链式法则可以用在前面我举例的这句话里:“The best thing about AI is its ability to”‍,每一个单词代表一个条件‎‌,ChatGPT就来计算下一个单词可能出现的概率是多少。当 ChatGPT 做一些事情(比如写一篇文章)时‍,它本质上只是一遍又一遍地问“给定目前的文本‌‌,下一个词应该是什么?”——每次都添加一个词。 (更准确地说‎‎,它是在添加一个“token”‎,它可能只是一个词的一部分‌,这就是为什么它有时可以“组成新词”的原因‎,比如‎,ChatGPT会胡编一些根本不存在的链接。)

但是‏‏,它应该选择哪个单词添加到它正在写的文章(或其他任何东西)中呢? 有人可能认为应该选择“最高排名”的单词(即分配最高“概率”的单词)。 但这就是一些神奇的地方。 因为由于某种原因 – 可能有一天我们会对此有科学风格的理解 – 如果我们总是选择最高排名的单词‎‏,我们通常会得到一个非常“平淡”的文章‌,看起来从不显示任何创造力(甚至有时会逐字重复‌,我在ChatGPT2里‍,碰到过好几次写着写着‌‏,就开始车轱辘话了‎‌,就好像成语接龙里的为所欲为‎,下一个‏‎,又是为所欲为……最后死了)。 但是‍,如果我们有时(随机)选择较低排名的单词‎,我们会得到一个“更有趣”的文章。

这个原理我觉得我可以从历史上讲通顺一点‍‌,有时候‏,人也是如此‌‏,你博一个很小概率的事情‏‎,确实会让人生比较有趣‌‌,比如陈胜吴广出发前‌‏,按照他老婆或者老妈的嘱托‍‎,跟着胡亥好好工作‎,考个公务员‏‏,那他的人生就没那么精彩了。我觉得ChatGPT也要有事没事的来选择几个概率不那么高的词语比较好。👵‍🩳📥😴👎

既然说到了陈胜,陈胜就是史记中的人物。打个岔‎,我不是也讲《史记》么‌,有人确实说过喜欢听我讲的《史记》‍,但是呢‏,说句实在话‎‎,中国的历史没什么好研究的‍‌,《史记》中都是一些鸟人因为某种原因飞黄腾达‏‌,比如从事一些吮痈舐痔shǔn yōng shì zhì的恶心事‌,最后楼塌了‏,不名一文。比如史记中的那个邓通‏‍,这几个成语都是因他而来。为什么叫飞黄腾达‎,因为邓通是黄头发‌‍,为什么黄头发就可以升官‏‍,因为汉文帝做梦的时候‍,梦见有个黄头发的人推了他一把‎,然后他就爬到了天上‌‍,于是全天下找黄头发的人‏,幸好那时候没有欧美人‏‏,那黄头发的可就太多了。

邓通从一个船夫‏‎,仅仅因为头发黄就成了权倾一时的大官‎‏,就好像高俅仅仅因为球踢的好‍‍,就成了权倾一时的官。然后呢‍‏,汉文帝可能天天坐着‌‍,长了一个疮痔‎‍,疼啊我操。邓通一看‏‍,马上跪下‏‎,用嘴把汉文帝疮痔里的血给吸出来‍‎,这就是成语吮痈舐痔shǔn yōng shì zhì的来历。把汉文帝吸爽了‎‌,让邓通发行货币‌‎,一下子成了美联储,可以自己发行比特币‏‎,Q币了‍‍,邓通成了大汉的首富。

👎🎢🍚✔🦌‎最后的结局是不名一文‌‌,被汉景帝给干了‍,最后邓通饿死了,曾经的大汉首富‎‏,一文钱也拿不出来买个汉堡‍‎,不名一文。真的没什么好研究的‏,鲁迅说中国的历史就两个字‍,吃人。我如果讲史记呢‏‍,也比较黑暗一点‏,结果很多人不爱听‍‍,比如连伟大的文景之治‎‏,都是这么一个情况‎‏,不如多研究点ChatGPT来的过瘾‌‌,以后我还是多研究点技术。

上一篇
下一篇
帖子热度 1279 ℃
空谷幽兰装成乞丐,骗取了楼主1 个 金币.

章佳丙午 「初入古黑」 2023-5-15 09:57 |显示全部楼层

这个用户很懒,还没有填写自我介绍呢~

看完楼主的帖子犹如春风扑面,真是忽如一夜春风来,千树万树梨花开啊!
您需要登录后才可以回帖 登录 | 免费注册  

本版积分规则

快速回复 返回列表