李约瑟再问 - 拷贝猫

拷贝猫

@37261734

李约瑟再问

2024-02-24 11:42

Words count: 6517

近日OpenAI团队推出的文生视频工具Sora又一次引爆了社交圈，媒体圈和科技圈，有人惊叹于Sora强大的现实世界的模拟能力，有人已经开始担忧媒体艺术创作者未来出路的问题，有人敏锐且快速地推出了基于Sora的AI课程，有人则遗憾地叹息为什么中国的土壤上长不出OpenAI.....

背景

近日OpenAI团队推出的文生视频工具Sora又一次引爆了社交圈，媒体圈和科技圈，有人惊叹于Sora强大的现实世界的模拟能力，有人已经开始担忧媒体艺术创作者未来出路的问题，有人敏锐且快速地推出了基于Sora的AI课程，有人则遗憾地叹息为什么中国的土壤上长不出OpenAI……

从AI到AGI的进化史

进入话题前，我们先看一下AI的发展史。关于AI到AGI的发展，需要追溯到80年前，我们梳理一下一些重要的时间节点：

1942年，科幻泰斗阿西莫夫提出了著名的“机器人三定律“：
- 机器人不得伤害人类或坐视人类被伤害；
- 除非违背第一定律，否则机器人必须服从人类命令；
- 除非违背第一、第二定律，否则机器人必须保护自己。这三个定律是人工智能和机器人技术的哲学基础，是对如何设计人工智能系统的基本原则的阐述，至今都有着重要的参考意义。
1950年，计算机科学之父艾伦·图灵（Alan Turing）发表了具有里程碑意义的论文《Computing Machinery and Intelligence（计算机器与智能）》，第一次提出图灵测试（The Turing test）的概念。
1956年，美国达特茅斯学院举行了一次划时代的学术会议（Dartmouth Conference），探讨用机器模拟人类智能的问题，计算机专家约翰·麦卡锡提出了AI“人工智能”一词，这标识着AI的诞生。
1997年，IBM的电脑“深蓝”战胜了国际象棋世界冠军卡斯帕罗夫，成为首个击败国际象棋世界冠军的AI系统。
1998年，现代卷积神经网络CNN诞生。
2003年，Yoshua Bengio发表了《A Neural Probabilistic Language Model》，提出了具有奠基意义的NNLM“神经网络语言模型”。
2006年，杰弗里·辛顿（Geoffrey Hinton）在science期刊上发表了重要的论文《Reducing the dimensionality of data with neural networks》，提出深度信念网络（Deep Belief Networks，DBNs），“深度学习”正式诞生。
2009年，李飞飞主导的Image Net正式发布，为全世界的AI学者提供了开放的标注图像大数据集。
2010年，在这一年的奇点峰会上，Demis Hassabis，也即DeepMind创始人，发表了《建立AGI的系统神经学方法》的演讲，开启了AGI研究的大门。
2012年，Google的吴恩达和Jef Dean使用1.6万个CPU训练了一个当时世界上最大的人工神经网络，用来教AI绘制猫脸图片，AI第一次“生成”了一个图像内容：一张模糊的猫脸。
2013年，Google的托马斯·米科洛夫（Tomas Mikolov）带领研究团队发表了论文《Efficient Estimation of Word Representations inVector Space》，提出了Word2Vec。
2014年，Google收购DeepMind，同年GAN（对抗式生成网络）诞生。
2015年，Google开源了重要的深度学习框架Tensor Flow，同年12月OpenAI成立。
2016年，Google的AlphaGo战胜围棋世界冠军李世石，同年，TensorFlow发布分布式版本。
2017年，Facebook（现在的Meta）人工智能研究院（FAIR）开源了PyTorch。同年12月，Googl机器翻译团队在顶级会议NIPS上发表了里程碑式的论文《Attention is all you need》，提出只使用自注意力（Self Attention）机制来训练自然语言模型，即具有划时代意义的Transformer架构问世。
2018年，OpenAI发布了第一版的GPT-1，同年谷歌发布3亿参数的BERT（Bidirectional Encoder Representation from Transformers），年底埃隆·马斯克辞去了OpenAI董事会职务。
2019年，OpenAI发布了GPT-2，OpenAI架构重组，宣布后续技术成果不再承诺开源。
2020年，OpenAI发布了GPT-3，同年，对AI绘画有重要意义的论文《Denoising Diffusion Probabilistic Models》发表，第一次把Diffusion“扩散模型”用在了图像生成上。
2021年，Google发表论文《Switch Transformers：Scaling to Trillion Parameter Models with Simple and Efficient Sparsity》，提出了最新语言模型—Switch Transformer，2月Open AI开源了新的深度学习模型 CLIP（Contrastive Language-Image Pre-Training，OpenAI在此基础上发布了AI绘画DALL-E模型，8月份发布了编程模型CodeX。10月，第一个开源的AI绘画大模型Disco-Diffusion诞生，同年，国内还诞生了百度的文心一言大模型，华为的盘古大模型。
2022年，OpenAI发布InstructGPT，同时发表论文《Training language models to follow instructions with human feedback》，付费AI绘画服务Midjourney对外开放。Open AI还发布了GPT-3.5。stability.ai开源了Stable Diffusion绘画大模型的源代码。
2023年，Meta对外开源了LLaMA大模型，开启了大模型的黄金时代，国内各种大模型开始雨后春笋般出现。同年Google发布了大语言模型PaLM 2及多模态大模型Gemini。
2024年，OpenAI发布文生视频工具Sora。最新出来的Stable Diffusion 3发布，也采用了和Sora一样的 diffusion transformer 架构……