2023年第14周 (04-03~04-09),
本期阅读/摘录内容是来自 Nvidia 2023年开发者大会的一期炉边谈话:Ilya Sutskever and Jensen Huang: AI Today and Vision of the Future
一窥深度学习如何从无到有,到GPT 1、2、3,到今天的ChatGPT,十五年的探索之路。
Ilya Sutskever,OpenAI 的联合创始人和首席科学家\
Jensen Huang (黄仁勋) ,Nvidia 的创始人和首席执行官
深度学习
黄仁勋首先问:为什么你认为深度学习(deep learning) 会有效?\
Ilya 答:首先是个人对人工智能、什么是意识的好奇心。把时间拉回到2003年之前,计算机还无法学习任何东西,甚至在理论上也不清楚是否可行。但人类是可以学习的,如果在机器学习方面能取得进步,将是人工智能的大进展。\
幸运的是我的大学教授 Geoffrey Hinton,正在研究神经网络。而神经网络具备学习和自动编程的能力,其中蕴含着极大的潜力。
开始研究深度学习和神经网络时,人们并没有意识到规模的重要性。当时使用的神经网络规模非常小,最多只有数百个神经元,一百万个参数被认为非常大。\
研究人员对神经网络做了很多实验,试图找到有趣的现象和观察规律。虽然在当时这并不是显而易见的正确之路,但这些研究奠定了未来深度学习领域的基础。\
Geoffrey Hinton 当时对在小数字上训练神经网络很感兴趣,这既是为了分类(classification),也是他对生成(generating)数字非常感兴趣。 因此,生成模型的开端就在那里。但当时所有这些很酷的东西漂浮在周围,哪个是正确的方向并不明显。
在构建 AlexNet 的两年前(2010年),我们清楚地知道监督学习是对的方向。传统的贝叶斯模型等方法在理论上很优雅,但不能代表一个好的解决方案。\
意识到大型深度神经网络是解决困难问题的关键,为了能够很好的实现,需要一个大的数据集,以及大量的计算做这个工作。如何优化计算是一个瓶颈,实验室的另一位研究员 James Martens 在此取得了突破。重点是,这证明了我们可以实际训练这些神经网络。\
那么下一个问题是,用什么数据? ImageNet 数据集,是当时非常有挑战难度的数据集。
开始用上GPU进行计算,也是在多伦多实验室,因为 Geoffrey 的建议,开始尝试使用GPU进行实验。当在 ImageNet 数据集基础上训练时,发现卷积神经网络与GPU的高度契合,意识到GPU可以用于训练神经网络模型,并成功训练出了史无前例的庞大模型。
无监督学习
刚我们开始时,也不是100%清楚该如何做。该领域与今日相比也截然不同,研究者也非常少。2016年初,该领域也只有约100位研究者。虽然现在深度学习的发展已经非常迅猛,但当时人们对它的认可度却并不高。
OpenAI在成立之初,有两个重要的初始想法。第一个主要想法,是通过压缩实现无监督学习。\
今天,我们理所当然地认为无监督学习是一件很容易的事情。 你只要对所有的东西进行预训练,它就会完全按照你的预期来做。在2016年之前,无监督学习一直是机器学习领域中的难题,没有人知道该怎么做。
现在许多人发现,GPT实际上是对训练数据做压缩。Ted Chiang 发表在《Newyorker》的文章\
中也暗指了这一点。\
从数学意义上讲,训练这些自回归生成模型确实是对数据进行压缩。从直觉上讲,你可以看到为什么这应该是有效的。 因为如果你想把数据压缩得非常好,你必须提取其中存在的所有隐藏的秘密。因此,这就是关键所在。(注:例如压缩大量数学题目文本最好的办法是推理出四则运算规则,写一个计算器程序)
要提及一下研究情感神经元(sentiment neuron)的这项工作在对我们的思考产生了非常大的影响。\
当时我们训练一个神经网络(还是小型循环神经网络LSTM,还没有 Transformer),训练它预测亚马逊评论中的下一个字符。我们发现,如果预测得足够好,那么在LSTM中会有一个神经元与文本的情绪相对应。这真的很酷,因为它展示了无监督学习的优势。\
并且它验证了这样一个想法,那就是做到非常好的预测下一个字符、压缩,会具有发现数据中的秘密的特性。\
这就是我们在这些 GPT 模型中看到的,不仅只是人们说的统计相关性。
这一发现也直观地打开了整个世界的大门——我从哪里获取用于无监督学习的数据?\
因为确实有很多数据,如果满足可以让机器预测下一个符号,而我知道正确的答案,我就可以用它来训练神经网络模型。
黄:对于无监督学习而言,困难之处并不在于从哪里获取数据,虽然这个问题也存在,尤其是现在。但更关键的是,为什么要进行无监督学习?为什么要费心去做这件事?难点在于意识到训练神经网络来预测下一个符号是一个值得追求的目标?
实际上并非很明显应该这么做,所以人们也没有这样做。但是情感神经元让我看到了。\
Alec Radford,是在此真正推动进步的人。情感神经元是GPT-1的前身,对我们的思考产生了很大影响。然后出现了 Transformer,我们立刻意识到,这就是我们要找的东西。于是我们训练出了GPT-1。
Ilya:我一直相信模型越大能力越好,更大的网络,更深的网络,更多的训练数据。我们在OpenAI一直坚信规模的重要性。但问题在于,到底应该用规模来做什么?\
OpenAI发表了一篇重要的论文,介绍了扩展规律和损失函数与模型大小、数据集大小之间的关系。当 Transformer 推出时,我们有机会在能接受的耗时长度内训练非常大的模型。
强化学习
除了GPT系列外,还有一条非常重要的工作线,也就是我们的第二个主要想法——那就是强化学习。
能用它做什么呢? 在OpenAI内部做的第一个真正的大项目是我们努力解决一个实时战略游戏(Dota2),这是一项非常不同的工作,就像一个竞技运动,需要有快速的反应时间,需要团队合作,要和另一个团队竞争。 通过强化学习,我们训练一个智能体来自我对弈,目标是达到可以与世界上最好的玩家竞争的水平。
GPT为我们打下了基础,而来自Dota的强化学习转变为来自人类反馈的强化学习(RLHF),它们的融合为我们带来了ChatGPT。
黄:有一种误解认为ChatGPT本身只是一个巨大的语言模型。其实,周围有一个相当复杂的系统。
当我们训练一个大型神经网络来准确预测互联网上大量不同文本中的下一个单词时,实际上是在学习一个世界模型,\
从表面上看,似乎只是在学习文本中的统计相关性。但事实上,为了将其压缩得非常好,神经网络学习的是生成文本的过程的某种表示。
文本实际上是世界的一种投影,包括人们的希望、梦想、动机、互动以及所处的情境。神经网络是在学习对这些内容的一种压缩、抽象、可用的表示形式。\
这就是通过准确预测下一个单词来学习的东西。并且,你在预测下一个单词时越准确,这个过程中的保真度越高,分辨率也越高。所以这就是预训练阶段所做的。
但是这并没有能够指定神经网络展现出符合我们期望的行为。语言模型真正试图回答的问题是,如果我在互联网上找到了一些随机的文本,以某些前缀或提示开头,它会补全什么?\
而现在我们想要一个诚实、有帮助的助手,它将遵循某些规则而不违反它们。这需要额外的训练,这就是微调和从人类老师和其他形式的AI辅助中进行强化学习的地方。\
但我们不是在教它新知识,我们是在与它交流,告诉它我们希望它成为什么样子。第二阶段的这个过程也非常重要,如果我们做得更好,这个神经网络将会更有用、更可靠。所以第二阶段和第一阶段一样重要,要从文本的投射中尽可能地了解世界。
GPT-4 与 ChatGPT
GPT-4与ChatGPT最重要的区别是GPT-4的可以更准确地预测下一个词,这对于神经网络来说非常重要,因为它能够预测文本中下一个词的准确性越高,就能理解得越多。\
例如读一本侦探小说,有复杂的故事情节,不同的人物,很多的事件,神秘的线索,然后在书的最后一页,侦探已经得到了所有的线索,聚集了所有的人,并说,好吧,我要揭示谁犯了罪的身份。 那个人的名字是?\
现在,有许多不同的词可能对应这个名字,但通过对这些词的预测越来越好,对文本的理解也不断提高。
黄:人们说深度学习不会导致推理。你认为通过预测下一个词这种方式,能否学会推理?\
因为要说出侦探小说中谁是凶手,这需要相当多的推理。
首先“推理”是否是个很好的定义?也许当你深入思考时,你能因为你的推理能力而得到更好的答案。神经网络有其局限性,但目前还没有完全挖掘出其潜力。不排除能够实现更好的推理能力(更好的答案)的可能性。
从某种程度上说,这些神经网络已经具备了很多能力,但它们的可靠性并不是很高。事实上,这是目前使神经网络真正有用的最大障碍。如果神经网络有时还是会出现一些意外的幻觉或错误,这种不可靠性会使它们变得大大不如人类。
关键点是AI的可靠性问题,如何让它在不确定的情况下请求澄清或者在不知道答案时表明不知道,并且做到极其可靠。
多模态,为什么它如此重要,以及作为结果的主要突破和特征差异是什么。
GPT-4具有从文本和图像中学习和响应输入的能力,这得益于Transformer,使得从多模态中学习、对文本和图像进行分词变得可能。
扩展到多模态有两个维度的因素,第一个维度是它有用的,\
神经网络通过视觉模态可以更好地理解世界;因为世界是非常视觉的,人类是非常视觉化的动物,我相信人类大脑皮层的三分之一是用于视觉的。
第二个维度则是可供学习的数据量。除了从文本中学习外,我们还可以通过从图像中学习来了解这个世界。 对于一个人来说,在我们的一生中能听到大约10亿个单词。而通过视觉获得的信息量远远高于此。另外通过图像也可以更快的学习到世界中的一些信息,例如“颜色”。虽然通过人类所写的文本也能逐渐明白红色和蓝色的涵义,但是通过图像要快得多。当然还包括文本中缺失的信息。
实际的效果是,在需要理解图表的测试中,GPT3.5 的正确率是2%~20%,多模态的GPT-4准确率提高到40%。视觉信息可以帮助我们更好地理解和推理世界,并有助于更好地进行视觉交流。未来的神经网络可能能够通过视觉方式来解释问题,而不仅仅是提供文本解释。
同样的用词,但是说话的语调不同,以表达的意思也不同。是否有考虑将音频信息加入到模型的学习中?
是的,但音频的信息量有限,(还没有此计划)。
虽然预测很困难,但可以肯定的是,AI系统的进步将继续令人惊叹,并且当前的瓶颈在于系统的可靠性和可信度。在这方面取得进展将对系统的实用性产生最大的影响。如果神经网络能够可靠地识别重要信息并清晰地遵循用户的意图,那么这项技术将会得到人们的信任,并被广泛应用于各种领域。未来两年,我们将看到这方面的进展。
注:附上我用机器转录的对谈内容文本(英文)