行业 要闻 产经 房产 金融 银行 基金 保险 数码 智能 汽车 聚焦 资讯 生活 健康

世界新消息丨吴恩达ChatGPT课爆火:AI放弃了倒写单词,但理解了整个世界

2023-06-04 10:10:26 来源:站长之家
分享: 微信 微博

声明:本文来自于微信公众号 量子位(ID:QbitAI),作者:明敏 杨净,授权站长之家转载发布。


(资料图片仅供参考)

没想到时至今日,ChatGPT竟还会犯低级错误?

吴恩达大神最新开课就指出来了:

ChatGPT不会反转单词!

比如让它反转下lollipop这个词,输出是pilollol,完全混乱。

哦豁,这确实有点大跌眼镜啊。

以至于听课网友在Reddit上发帖后,立马引来大量围观,帖子热度火速冲到6k

而且这不是偶然bug,网友们发现ChatGPT确实无法完成这个任务,我们亲测结果也同样如此。

实测ChatGPT(GPT-3.5)

甚至包括Bard、Bing、文心一言在内等一众产品都不行。

实测Bard

实测文心一言

还有人紧跟着吐槽, ChatGPT在处理这些简单的单词任务就是很糟糕。

比如玩此前曾爆火的文字游戏Wordle简直就是一场灾难,从来没有做对过。

诶?这到底是为啥?

关键在于token

之所以有这样的现象,关键在于token。token是文本中最常见的字符序列,而大模型都是用token来处理文本。

它可以是整个单词,也可以是单词一个片段。大模型了解这些token之间的统计关系,并且擅长生成下一个token。

因此在处理单词反转这个小任务时,它可能只是将每个token翻转过来,而不是字母。

这点放在中文语境下体现就更为明显:一个词是一个token,也可能是一个字是一个token。

针对开头的例子,有人尝试理解了下ChatGPT的推理过程。

为了更直观的了解,OpenAI甚至还出了个GPT-3的Tokenizer

比如像lollipop这个词,GPT-3会将其理解成I、oll、ipop这三个部分。

根据经验总结,也就诞生出这样一些不成文法则。

1个token≈4个英文字符≈四分之三个词;

100个token≈75个单词;

1-2句话≈30个token;

一段话≈100个token,1500个单词≈2048个token;

单词如何划分还取决于语言。此前有人统计过,中文要用的token数是英文数量的1.2到2.7倍

token-to-char(token到单词)比例越高,处理成本也就越高。因此处理中文tokenize要比英文更贵

可以这样理解,token是大模型认识理解人类现实世界的方式。它非常简单,还能大大降低内存和时间复杂度。

但将单词token化存在一个问题,就会使模型很难学习到有意义的输入表示,最直观的表示就是不能理解单词的含义。

当时Transformers有做过相应优化,比如一个复杂、不常见的单词分为一个有意义的token和一个独立token。

就像annoyingly就被分成“annoying”和“ly”,前者保留了其语义,后者则是频繁出现。

这也成就了如今ChatGPT及其他大模型产品的惊艳效果,能很好地理解人类的语言。

至于无法处理单词反转这样一个小任务,自然也有解决之道。

最简单直接的,就是你先自己把单词给分开喽~

或者也可以让ChatGPT一步一步来,先tokenize每个字母。

又或者让它写一个反转字母的程序,然后程序的结果对了。(狗头)

不过也可以使用GPT-4,实测没有这样的问题。

实测GPT-4

总之,token就是AI理解自然语言的基石。

而作为AI理解人类自然语言的桥梁,token的重要性也越来越明显。

它已经成为AI模型性能优劣的关键决定因素,还是大模型的计费标准。

甚至有了token文学

正如前文所言,token能方便模型捕捉到更细粒度的语义信息,如词义、词序、语法结构等。其顺序、位置在序列建模任务(如语言建模、机器翻译、文本生成等)中至关重要。

模型只有在准确了解每个token在序列中的位置和上下文情况,才能更好正确预测内容,给出合理输出。

因此,token的质量、数量对模型效果有直接影响

今年开始,越来越多大模型发布时,都会着重强调token数量,比如谷歌PaLM2曝光细节中提到,它训练用到了3.6万亿个token。

以及很多行业内大佬也纷纷表示,token真的很关键!

今年从特斯拉跳槽到OpenAI的AI科学家安德烈·卡帕斯(Andrej Karpathy)就曾在演讲中表示:

更多token能让模型更好思考。

而且他强调,模型的性能并不只由参数规模来决定。

比如LLaMA的参数规模远小于GPT-3(65B vs175B),但由于它用更多token进行训练(1.4T vs300B),所以LLaMA更强大。

而凭借着对模型性能的直接影响,token还是AI模型的计费标准

以OpenAI的定价标准为例,他们以1K个token为单位进行计费,不同模型、不同类型的token价格不同。

总之,踏进AI大模型领域的大门后,就会发现token是绕不开的知识点。

嗯,甚至衍生出了token文学……

不过值得一提的是,token在中文世界里到底该翻译成啥,现在还没有完全定下来。

直译“令牌”总是有点怪怪的。

GPT-4觉得叫“词元”或“标记”比较好,你觉得呢?

参考链接:

[1]https://www.reddit.com/r/ChatGPT/comments/13xxehx/chatgpt_is_unable_to_reverse_words/

[2]https://help.openai.com/en/articles/4936856-what-are-tokens-and-how-to-count-them

[3]https://openai.com/pricing

(举报)

关键词:

相关文章

世界新消息丨吴恩达ChatGPT课爆火:AI放弃了倒写单词,但理解了整个世界

吴恩达ChatGPT课爆火:AI放弃了倒写单词,但理解了整个世界

来源:站长之家

社保卡有四种颜色?人社部权威答复:属误解误读 今热点

近日,网上流传“社保卡有四种颜色”的科普帖。对此,人社部给出权威答

来源:央视新闻客户端

宋茜音乐综艺(宋茜艺声)-天天快讯

豆来为大家解答以上的问题。宋茜音乐综艺,宋茜艺声这个很多人还不知道

来源:互联网

初二语文下册知识点总结归纳重点内容_初二语文下册知识点

1、八年级下语文重要知识点散文阅读反复读文,掌握具体内容:选用了哪些

来源:互联网

卷王外设市场冲击下的大厂困境,追求品质与市场竞争的纠结

好久不见,我是悠哉悠哉平泽唯。外设厂商做键盘自然是一件理所当然的事

来源:哔哩哔哩

环球快讯:三年级上册数学教学工作总结人教版-三年级上册数学教学工作总结

1、建议按照实际情况总结,以下仅供参考:三年级上册数学教学工作总结

来源:互联网

新华财经晚报:6月3日-焦点热门

【重点关注】·京津冀签署协议推进交通基础设施互联互通·长三角首个量

来源:新华财经

实时焦点:农村房子的风水怎么看_房子的风水怎么看

1、风水学知识在我们日常生活之中的体现是非常明显的,在我们日常生活

来源:元宇宙网

前沿资讯!网络公司的经营范围填写(网络公司的经营范围)

今天小编宋丹来为大家解答以上的问题。网络公司的经营范围填写,网络公

来源:

荣耀黄金可以和永恒钻石打排位吗_荣耀黄金

1、《王者荣耀》黄金段位每一段有4颗星星。2、黄金段位一共有四个小段

来源:互联网

当前速看:射线管胞(关于射线管胞介绍)

大家好,小万来为大家解答以上的问题。射线管胞,关于射线管胞介绍这个

来源:互联网

海内外物流业界代表齐聚济南 共研智慧物流发展新趋势 今日精选

图为2023物流技术应用创新峰会现场。兰剑智能供图中新网济南6月2日电(

来源:中新网

世界快看点丨马卡:孔多比亚准备离开马竞,俱乐部希望收到300万欧转会费

据《马卡》消息,尽管与马竞的合同还有一年,孔多比亚希望在今夏就离开

来源:懂球帝

ST世茂:近期未能按期支付逾53亿元债务 有息负债余额322亿元

6月2日,上海世茂股份有限公司(ST世茂,600823 SH)公告了近期未能按期支付的债务,总计约53 69亿元。

来源:澎湃新闻

世界球精选!与基督的盟约:从庆祝到神秘

当前大家对于与基督有约:从庆典到奥迹都是颇为感兴趣的,大家都想要了解一下与基督有约:从庆典到奥迹,那

来源:互联网

LNG战胜TES,网友却发现双方AD的漏洞,亚运会只能选Eik了_天天滚动

最近关于电竞圈的热度是大家讨论的话题,夏季赛虽然开始了,但是大家还在关注另一场赛事,那就是亚运会,相

来源:游戏大妹子

装有孩子“满月金条”的背包遗失座位 车站妥善保管等来失主

昨天早高峰时段,轨交12号线金海路站内,站务人员在列车抵达终点站后上车进行例行检查时,发现一只无人认领

来源:新民晚报

1-4月我国服务贸易总体保持增长态势

央视网消息(新闻联播):商务部公布的数据显示,2023年1—4月,我国服务进出口总额20816 5亿元,同比增长9

来源:央视网

iphone手机备份到电脑软件_iphone手机备份到电脑

1、使用iTunes同步软件来连接电脑。2、使用iTunes同步软件来连接电脑。3、第一步:先【登录】iTunes帐号,

来源:互联网

中央气象台:未来十天四川盆地东部贵州等地多降雨 华南地区多高温天气-每日动态

二、未来十天四川盆地东部贵州等地多降雨 华南地区多高温天气未来10天(6月3-12日),四川盆地东部、贵州

来源:环球网

天天速递!增配ESC续航却缩水 新款缤果拆东墙补西墙?

作为五菱冲击小型电动车市场的全新力作,五菱缤果肩负着助力品牌向上、提升销量的重任。4月,作为五菱缤果

来源:汽车门

考妣怎么读拼音_考妣指的是

想必现在有很多小伙伴对于考妣指的是方面的知识都比较想要了解,那么今天小好小编就为大家收集了一些关于考

来源:互联网

践行的意思怎样解释(践行的意思) 天天信息

践行的意思怎样解释,践行的意思这个很多人还不知道,现在让我们一起来看看吧!1、1。2、为他人送别2。3、实

来源:互联网

世界实时:青岛楼市重磅!放松限售、降低首付、优惠团购 组合拳影响多大?

【青岛楼市重磅!放松限售、降低首付、优惠团购组合拳影响多大?】6月2日,青岛晚报官微发文称,青岛出台楼

来源:券商中国

吉利雷达以“真乘用化”撬动市场,5月销售1016辆创历史新高 世界时快讯

6月1日,吉利雷达正式公布了5月份品牌销量,雷达RD6创下单月销量新高,共销售1016辆,荣膺5月中国新能源皮

来源:中国汽车报网

石阡税务:服务一对一 支持“个转企”

“从个体工商户变为企业后,我们有条件接更大的订单了。”近日,在国家税务总局石阡县税务局开展的“个转企

来源:国家税务总局贵州省税务局

粗心大意,停车后将手机遗忘在电动自行车上被偷!警方快速追回被盗手机

海南网台、视听海南客户端6月2日消息(记者李祺通讯员潘鹏举李小鹏)有的市民在平时骑电动自行车时,习惯把

来源:海南广电国际传播融媒体中心

天天讯息:筷子兄弟父亲简谱(父亲 筷子兄弟)

1、总是向你索取却不曾说谢谢你  直到长大以后才懂得你不容易  每次离开总是装做轻松的样子  微笑着

来源:互联网

天天热资讯!揭阳一中277周年_揭阳一中吧

1、我个人记得揭阳一中比较好吧。2、其实去读书主要是看你个人的。本文到此分享完毕,希望对大家有所帮助。

来源:互联网

6月2日基金净值:工银上证科创50成份ETF最新净值1.0834,跌0.03%_世界速讯

6月2日,工银上证科创50成份ETF最新单位净值为1 0834元,累计净值为0 755元,较前一交易日下跌0 03%。历史

来源:证券之星