人工智能的发展历程及底层原理分析

AI突变

到底是什么让这次的AI突然变得像科幻片一样厉害？

让人工智能发生突变的不只是open AI，一个更为关键的角色是微软。

联手 OpenAI，自研超算中心

2019 年 7 月 22 日，微软宣布将向 OpenAI 投资 10 亿美元，以共同开发用于 Microsoft Azure 云平台的新技术，作为交换，OpenAI 同意将其部分知识产权许可给 Microsoft，然后该公司将其商业化并出售给合作伙伴，并在 OpenAI 致力于开发下一代计算硬件时在 Azure 上训练和运行 AI 模型。

当时open AI才成立三年，员工不到100人，收入更是无从谈起。微软看到了当时GPT2拥有的参数量

这根曲线代表着OpenAI训练模型的生成发挥水平。

训练到100步、1000步乃至1万步，模型的做题表现都很差，得分几乎为零。但是练到第10万步时，突然发生了某种变化，从十的五次方到十的六次方模型居然直接从十几分干到了逼近100分，GPT模型从一窍不通到全都会了。研究者把这个现象称为“顿悟”

GPT2当时拥有的全部参数量是十五亿。2022年，谷歌发表了一篇论文，描述了当参数超过一千亿时，模型会出现的更多神奇现象，比如突然能理解语言，突然能处理大规模任务。不过，GPT2远远够不上这个量级，正是微软的巨额资金让GPT3达到了这个量级，1750亿。

而在这个量级上，事情开始变得反直觉起来，原本我们认为人类的创造力不能被AI取代。如今Ai绘图可以从输入文本中创建逼真的图像。

AI小镇

斯坦福大学把25个由AI生成的角色放到了一个虚拟小镇，这些角色居然能自发的产生交集，彼此对话，发生的一切又会成为经验，影响他们未来的行为。这些角色以为自己是在好好生活，其实他们一直被人类观察。或许有一天，某个角色会说出我们是不是活在虚拟世界里？

体验地址：AI小镇

论文地址：2304.03442v1.pdf (arxiv.org)

ChatGPT模型原理

前言

这两天，ChatGPT模型真可谓称得上是狂拽酷炫D炸天的存在了。一度登上了知乎热搜，这对科技类话题是非常难的存在。不光是做人工智能、机器学习的人关注，而是大量的各行各业从业人员都来关注这个模型，真可谓空前盛世。

我赶紧把 OpenAI 以往的 GPT-n 系列论文又翻出来，重新学习一下，认真领会大规模预训练语言模型（Large Language Model）的强大之处。

可能很多深度学习相关从业人员的感受和我一样，大家之前对 LLM 的感受依然是，预训练+finetune，处理下游任务，依然需要大量的标注数据和人工干预，怎么突然间，ChatGPT 就智能到如此地步？

接下来，我简要梳理一下 OpenAI 的 GPT 大模型的发展历程。

一、还得从 Bert 说起

Bert是什么

基于变换器的双向编码器表示技术（英语：Bidirectional Encoder Representations from Transformers，BERT）是用于自然语言处理（NLP）的预训练技术，由Google提出。2018年，雅各布·德夫林和同事创建并发布了BERT。Google正在利用BERT来更好地理解用户搜索语句的语义。 2020年的一项文献调查得出结论：”在一年多一点的时间里，BERT已经成为NLP实验中无处不在的基线”，算上分析和改进模型的研究出版物超过150篇。

结构

BERT的核心部分是一个Transformer模型，其中编码层数和自注意力头数量可变。结构与Vaswani等人(2017)的实现几乎“完全一致”。

BERT在两个任务上进行预训练：语言模型（15%的token被掩盖，BERT需要从上下文中进行推断）和下一句预测（BERT需要预测给定的第二个句子是否是第一句的下一句）。训练完成后，BERT学习到单词的上下文嵌入。代价昂贵的预训练完成后，BERT可以使用较少的资源和较小的数据集在下游任务上进行微调，以改进在这些任务上的性能。

性能及分析

BERT在以下自然语言理解任务上的性能表现得最为卓越：

GLUE（General Language Understanding Evaluation，通用语言理解评估）任务集（包括9个任务）。
SQuAD（Stanford Question Answering Dataset，斯坦福问答数据集）v1.1和v2.0。
SWAG（Situations With Adversarial Generation，对抗生成的情境）。

有关BERT在上述自然语言理解任务中为何可以达到先进水平，目前还未找到明确的原因。目前BERT的可解释性研究主要集中在研究精心选择的输入序列对BERT的输出的影响关系，通过探测分类器分析内部向量表示，以及注意力权重表示的关系。

最初的英语BERT发布时提供两种类型的预训练模型：（1）BERT_BASE模型，一个12层，768维，12个自注意头（self attention head），110M参数的神经网络结构；（2）BERT_LARGE模型，一个24层，1024维，16个自注意头，340M参数的神经网络结构。两者的训练语料都是BooksCorpus以及英语维基百科语料，单词量分别是8亿以及25亿。

2018年，自然语言处理 NLP 领域也步入了 LLM 时代，谷歌出品的 Bert 模型横空出世，碾压了以往的所有模型，直接在各种NLP的建模任务中取得了最佳的成绩。

历史

BERT起源于预训练的上下文表示学习，包括半监督序列学习（Semi-supervised Sequence Learning），生成预训练（Generative Pre-Training），ELMo和ULMFit。与之前的模型不同，BERT是一种深度双向的、无监督的语言表示，且仅使用纯文本语料库进行预训练的模型。上下文无关模型（如word2vec或GloVe）为词汇表中的每个单词生成一个词向量表示，因此容易出现单词的歧义问题。BERT考虑到单词出现时的上下文。例如，词“水分”的word2vec词向量在“植物需要吸收水分”和“财务报表里有水分”是相同的，但BERT根据上下文的不同提供不同的词向量，词向量与句子表达的句意有关。

2019年10月25日，Google搜索宣布他们已经开始在美国国内的英语搜索查询中应用BERT模型。2019年12月9日，据报道，Google搜索已经在70多种语言的搜索采用了BERT。 2020年10月，几乎每一个基于英语的查询都由BERT处理。

Bert做了什么

主要用以下例子做解释：

请各位做一个完形填空： ___________和阿里、腾讯一起并成为中国互联网 BAT 三巨头。

请问上述空格应该填什么？有的人回答“百度”，有的人可能觉得，“字节”也没错。但总不再可能是别的字了。

不论填什么，这里都表明，空格处填什么字，是受到上下文决定和影响的。

Bert 所作的事就是从大规模的上亿的文本预料中，随机地扣掉一部分字，形成上面例子的完形填空题型，不断地学习空格处到底该填写什么。所谓语言模型的训练和学习，就是从大量的数据中学习复杂的上下文联系。

二、GPT 初代

与此同时，OpenAI 早于 Bert 出品了一个初代 GPT 模型。

它们大致思想是一样的。都基于 Transformer 这种编码器，获取了文本内部的相互联系。

编解码的概念广泛应用于各个领域，在 NLP 领域，人们使用语言一般包括三个步骤：

接受听到或读到的语言 -> 大脑理解 -> 输出要说的语言。

语言是一个显式存在的东西，但大脑是如何将语言进行理解、转化、存储的，则是一个目前仍未探明的东西。因此，大脑理解语言这个过程，就是大脑将语言编码成一种可理解、可存储形式的过程，这个过程就叫做语言的编码。

相应的，把大脑中想要表达的内容，使用语言表达出来，就叫做语言的解码。

在语言模型中，编码器和解码器都是由一个个的 Transformer 组件拼接在一起形成的。

这里不展开讲 Transformer 里的内部结构，仅仅讲一下 Bert 和 GPT 的区别。

两者最主要的区别在于，Bert 仅仅使用了 encoder 也就是编码器部分进行模型训练，GPT 仅仅使用了 decoder 部分。两者各自走上了各自的道路，根据我粗浅的理解，GPT 的decoder 模型更加适应于文本生成领域。

GPT 初代其实个人认为（当然普遍也都这么认为）略逊色于 Bert，再加上宣传地不够好，影响力也就小于 Bert。

我相信很多的 NLP 从业者对 LLM 的理解也大都停留在此。即，本质上讲，LLM 是一个非常复杂的编码器，将文本表示成一个向量表示，这个向量表示有助于解决 NLP 的任务。

三、GPT-2

自从 Bert 炸街后，跟风效仿的改进模型也就越来越多了，比如 albert、roberta、ERNIE，BART、XLNET、T5 等等五花八门。

最初的时候，预训练任务仅仅是一个完形填空任务就可以让语言模型有了极大进步，那么，很多人就想，给 LLM 模型出其它的语言题型，应该也会对模型训练有极大的帮助。

想要出语言题型不是很简单么，什么句子打乱顺序再排序、选择题、判断题、改错题、把预测单字改成预测实体词汇等等，纷纷都可以制定数据集添加在模型的预训练里。很多模型也都是这么干的。

既然出题也可以，把各种NLP任务的数据集添加到预训练阶段当然也可以。那就把机器翻译、文本摘要、领域问答统统往预训练里加。

这个过程也和人脑很像，人脑是非常稳定和泛化的，既可以读诗歌，也可以学数学，还可以学外语，看新闻，听音乐等等，简而言之，就是一脑多用。

我们一般的 NLP 任务，文本分类模型就只能分类，分词模型就只能分词，机器翻译也就只能完成翻译这一件事，非常不灵活。

GPT-2 主要就是在 GPT 的基础上，又添加了多个任务，扩增了数据集和模型参数，又训练了一番。效果如下：

既然多个任务都在同一个模型上进行学习，还存在一个问题，这一个模型能承载的并不仅仅是任务本身，“汪小菲的妈是张兰”，这条文字包含的信息量是通用的，它既可以用于翻译，也可以用于分类，判断错误等等。也就是说，信息是脱离具体 NLP 任务存在的，举一反三，能够利用这条信息，在每一个 NLP 任务上都表现好，这个是 元学习（meta-learning）。本质上就是语言模型的一脑多用。

四、GPT-3

大模型中的大模型

首先， GPT-3 的模型所采用的数据量之大，高达上万亿，模型参数量也十分巨大，上千亿，学习之复杂，计算之繁复，不说了，看图吧。

GPT-3 里的大模型计算量是 Bert-base 的上千倍。统统这些都是在燃烧的金钱，真就是 all you need is money。如此巨大的模型造就了 GPT-3 在许多十分困难的 NLP 任务，诸如撰写人类难以判别的文章，甚至编写SQL查询语句，React或者JavaScript代码上优异的表现。

之前提到过，GPT-n 系列模型都是采用 decoder 进行训练的，它更加适合文本生成的形式。也就是，模型完全黑盒，输入是一句话，输出也是一句话。这就是对话模式。

对话

我们是如何学会中文的？从0岁开始，听、说，也就是对话。

我们是如何学外语的？看教材，听广播，背单词。唯独缺少了对话！正是因为缺少了对话这个高效的语言学习方式，所以我们的英语水平才如此难以提高。

对于语言模型，同理。对话是涵盖一切 NLP 任务的终极任务。从此 NLP不再需要模型建模这个过程。比如，传统 NLP 里还有序列标注这个任务，需要用到 CRF 这种解码过程。在对话的世界里，这些统统都是冗余的。

其实 CRF 这项技术还是蛮经典的，在深度学习这块，CRF这也才过去没几年。人工智能发展之快，sigh……

in-context learning

以往的预训练都是两段式的，即，首先用大规模的数据集对模型进行预训练，然后再利用下游任务的标注数据集进行 finetune，时至今日这也是绝大多数 NLP 模型任务的基本工作流程。

GPT-3 就开始颠覆这种认知了。它提出了一种 in-context 学习方式。这个词没法翻译成中文，下面举一个例子进行解释。

用户输入到 GPT-3：你觉得 JioNLP 是个好用的工具吗？
GPT-3输出1：我觉得很好啊。
GPT-3输出2：JioNLP是什么东西？
GPT-3输出3：你饿不饿，我给你做碗面吃……
GPT-3输出4：Do you think jionlp is a good tool?

按理来讲，针对机器翻译任务，我们当然希望模型输出最后一句，针对对话任务，我们希望模型输出前两句中的任何一句。另外，显然做碗面这个输出的句子显得前言不搭后语，是个低质量的对话回复。

这时就有了 in-context 学习，也就是，我们对模型进行引导，教会它应当输出什么内容。如果我们希望它输出翻译内容，那么，应该给模型如下输入：

用户输入到 GPT-3：请把以下中文翻译成英文：你觉得 JioNLP 是个好用的工具吗？

如果想让模型回答问题：

用户输入到 GPT-3：模型模型你说说，你觉得 JioNLP 是个好用的工具吗？

OK，这样模型就可以根据用户提示的情境，进行针对性的回答了。

这里，只是告知了模型如何做，最好能够给模型做个示范，这也蛮符合人们的日常做事习惯，老师布置了一篇作文，我们的第一反应是，先参考一篇范文找找感觉。

把上面的例子添加示范，就得到了如下的输入：

用户输入到 GPT-3：请把以下中文翻译成英文：苹果 => apple; 你觉得 JioNLP 是个好用的工具吗？=>

其中苹果翻译成 apple，是一个示范样例，用于让模型感知该输出什么。只给提示叫做 zero-shot，给一个范例叫做 one-shot，给多个范例叫做 few-shot。

范例给几个就行了，不能再给多了！一个是，咱们没那么多标注数据，另一个是，给多了不就又成了 finetune 模式了么？

在 GPT-3 的预训练阶段，也是按照这样多个任务同时学习的。比如“做数学加法，改错，翻译”同时进行。这其实就类似前段时间比较火的 prompt。

这种引导学习的方式，在超大模型上展示了惊人的效果：只需要给出一个或者几个示范样例，模型就能照猫画虎地给出正确答案。注意啊，是超大模型才可以，一般几亿、十几亿参数的大模型是不行的。（我们这里没有小模型，只有大模型、超大模型、巨大模型）

这个结果曲线图展示了用175 billion 的参数得到了优质的效果。它彷佛在嘲讽我：哎，你没钱，你就看不着这种优质的效果，你气不气？

五、ChatGPT

ChatGPT 模型上基本上和之前 GPT-3 都没有太大变化，主要变化的是训练策略变了，用上了强化学习。

强化学习

几年前，alpha GO 击败了柯洁，几乎可以说明，强化学习如果在适合的条件下，完全可以打败人类，逼近完美的极限。

强化学习非常像生物进化，模型在给定的环境中，不断地根据环境的惩罚和奖励（reward），拟合到一个最适应环境的状态。

NLP + 强化学习

强化学习之所以能比较容易地应用在围棋以及其它各种棋牌游戏里，原因就是对于 alpha Go 而言，环境就是围棋，围棋棋盘就是它的整个世界。模型就是不断根据棋盘的状态以及输赢状况调整策略，战胜了柯洁。

而几年前知乎上就有提问，NLP + 强化学习，可以做吗？怎么做呢？

底下回答一片唱衰，原因就是，NLP 所依赖的环境，是整个现实世界，整个宇宙万物，都可以被语言描述，也就都需要针对模型输出的质量进行 reward 评价，它完全无法设计反馈惩罚和奖励函数。除非人们一点点地人工反馈。

哎，OpenAI 的 ChatGPT 就把这事给干了。

不是需要人工标反馈和奖励吗？那就撒钱，找40个外包，标起来！

这种带人工操作的 reward，被称之为 RLHF（Reinforcement Learning from Human Feedback）。

具体操作过程就是下图的样子，采用强化学习的方式来对模型进行训练。已经抛弃了传统的 LM 方式。

这里重点是第二步中，如何构建一个 reward 函数，在alpha go 里，这个reward 函数就是下完一盘围棋之后判断谁输谁赢，只需要一个程序函数即可完成。

而在ChatGPT里，具体就是让那40名外包人员不断地从模型的输出结果中筛选，判断哪些句子是好的，哪些是低质量的，这样就可以训练得到一个 reward 模型。

通过 reward 模型来评价模型的输出结果好坏。

只要把预训练模型接一根管子在 reward 模型上，预训练模型就会开始像感知真实世界那样，感知reward。

reward母体模型

这个名字是我自己起的，因为这里的reward模型实在是完美契合了《黑客帝国》中所构建的世界。本文的封面也是《黑客帝国》。

与其说 ChatGPT 在拟合现实世界，不如说它是在对 reward 母体负责。而reward 母体也是由人工一点点标注完成的。母体并不直接拟合真实世界，它只对模型是否契合真实世界做真假判断。母体对真实世界的拟合，决定了我们看到的 ChatGPT 有多优质。

我们不再需要直接拟合所谓机器翻译的文本对，也不再去需要拟合判断新闻分类的数据对，而只需要去拟合那个reward母体。

由此，我们就可以得到这个把全世界都震碎的高音！（误，模型）

Ai的发展历程

OpenAI成功的关键

一个最接近真相的答案是运气好，因为就连OpenAI的研发人员都说，他们也不知道为什么GPT变得这么好用。人工智能告诉我们一件事，量变的确能产生质变。

不过ChatGpt看似只花了一两年，实际上人工智能已经发展了60多年

人工智能发展史

从始至此，人工智能(AI)便在充满未知的道路探索，曲折起伏，我们可将这段发展历程大致划分为5个阶段期：

起步发展期：1943年—20世纪60年代
反思发展期：20世纪70年代
应用发展期：20世纪80年代
平稳发展期：20世纪90年代—2010年
蓬勃发展期：2011年至今

起步发展期：1943年—20世纪60年代

人工智能概念的提出后，发展出了符号主义、联结主义(神经网络)，相继取得了一批令人瞩目的研究成果，如机器定理证明、跳棋程序、人机对话等，掀起人工智能发展的第一个高潮。

1943年，美国神经科学家麦卡洛克（Warren McCulloch）和逻辑学家皮茨（Water Pitts）提出神经元的数学模型，这是现代人工智能学科的奠基石之一。
1950年，艾伦·麦席森·图灵（Alan Mathison Turing）提出“图灵测试”（测试机器是否能表现出与人无法区分的智能），让机器产生智能这一想法开始进入人们的视野。

1950年，克劳德·香农（Claude Shannon）提出计算机博弈。
1956年，达特茅斯学院人工智能夏季研讨会上正式使用了人工智能（artificial intelligence，AI）这一术语。这是人类历史上第一次人工智能研讨，标志着人工智能学科的诞生。
1957年,弗兰克·罗森布拉特（Frank Rosenblatt）在一台IBM-704计算机上模拟实现了一种他发明的叫做“感知机”（Perceptron）的神经网络模型。

感知机可以被视为一种最简单形式的前馈式人工神经网络，是一种二分类的线性分类判别模型，其输入为实例的特征向量想（x1,x2…），神经元的激活函数f为sign，输出为实例的类别（+1或者-1），模型的目标是要将输入实例通过超平面将正负二类分离。

1958年，David Cox提出了logistic regression。

LR是类似于感知机结构的线性分类判别模型，主要不同在于神经元的激活函数f为sigmoid，模型的目标为(最大似然)极大化正确分类概率。

1959年，Arthur Samuel给机器学习了一个明确概念：Field of study that gives computers the ability to learn without being explicitly programmed.（机器学习是研究如何让计算机不需要显式的程序也可以具备学习的能力）。
1961年，Leonard Merrick Uhr 和 Charles M Vossler发表了题目为A Pattern Recognition Program That Generates, Evaluates and Adjusts its Own Operators 的模式识别论文，该文章描述了一种利用机器学习或自组织过程设计的模式识别程序的尝试。
1965年，古德（I. J. Good）发表了一篇对人工智能未来可能对人类构成威胁的文章，可以算“AI威胁论”的先驱。他认为机器的超级智能和无法避免的智能爆炸最终将超出人类可控范畴。后来著名科学家霍金、发明家马斯克等人对人工智能的恐怖预言跟古德半个世界前的警告遥相呼应。
1966 年，麻省理工学院科学家Joseph Weizenbaum 在 ACM 上发表了题为《ELIZA-a computer program for the study of natural language communication between man and machine》文章描述了ELIZA 的程序如何使人与计算机在一定程度上进行自然语言对话成为可能，ELIZA 的实现技术是通过关键词匹配规则对输入进行分解，而后根据分解规则所对应的重组规则来生成回复。
1967年，Thomas等人提出K最近邻算法（The nearest neighbor algorithm）。

KNN的核心思想，即给定一个训练数据集，对新的输入实例Xu，在训练数据集中找到与该实例最邻近的K个实例，以这K个实例的最多数所属类别作为新实例Xu的类别。

1968年，爱德华·费根鲍姆（Edward Feigenbaum）提出首个专家系统DENDRAL，并对知识库给出了初步的定义，这也孕育了后来的第二次人工智能浪潮。该系统具有非常丰富的化学知识，可根据质谱数据帮助化学家推断分子结构。

专家系统（Expert Systems）是AI的一个重要分支，同自然语言理解，机器人学并列为AI的三大研究方向。它的定义是使用人类专家推理的计算机模型来处理现实世界中需要专家作出解释的复杂问题，并得出与专家相同的结论，可视作“知识库(knowledge base)”和“推理机(inference machine)” 的结合。

1969年，“符号主义”代表人物马文·明斯基（Marvin Minsky）的著作《感知器》提出对XOR线性不可分的问题：单层感知器无法划分XOR原数据，解决这问题需要引入更高维非线性网络（MLP, 至少需要两层），但多层网络并无有效的训练算法。这些论点给神经网络研究以沉重的打击，神经网络的研究走向长达10年的低潮时期。

反思发展期：20世纪70年代

人工智能发展初期的突破性进展大大提升了人们对人工智能的期望，人们开始尝试更具挑战性的任务，然而计算力及理论等的匮乏使得不切实际目标的落空，人工智能的发展走入低谷。

1974年，哈佛大学沃伯斯(Paul Werbos)博士论文里，首次提出了通过误差的反向传播(BP)来训练人工神经网络，但在该时期未引起重视。

BP算法的基本思想不是（如感知器那样）用误差本身去调整权重，而是用误差的导数（梯度）调整。通过误差的梯度做反向传播，更新模型权重, 以下降学习的误差，拟合学习目标，实现’网络的万能近似功能’的过程。

1975年，马文·明斯基(Marvin Minsky)在论文《知识表示的框架》(A Framework for Representing Knowledge)中提出用于人工智能中的知识表示学习框架理论。
1976年，兰德尔·戴维斯（Randall Davis）构建和维护的大规模的知识库，提出使用集成的面向对象模型可以提高知识库（KB）开发、维护和使用的完整性。
1976年，斯坦福大学的肖特利夫(Edward H. Shortliffe)等人完成了第一个用于血液感染病的诊断、治疗和咨询服务的医疗专家系统MYCIN。
1976年，斯坦福大学的博士勒纳特发表论文《数学中发现的人工智能方法——启发式搜索》，描述了一个名为“AM”的程序，在大量启发式规则的指导下开发新概念数学，最终重新发现了数百个常见的概念和定理。
1977年，海斯·罗思(Hayes. Roth)等人的基于逻辑的机器学习系统取得较大的进展，但只能学习单一概念，也未能投入实际应用。
1979年，汉斯·贝利纳（Hans Berliner）打造的计算机程序战胜双陆棋世界冠军成为标志性事件。(随后，基于行为的机器人学在罗德尼·布鲁克斯和萨顿等人的推动下快速发展，成为人工智能一个重要的发展分支。格瑞·特索罗等人打造的自我学习双陆棋程序又为后来的强化学习的发展奠定了基础。)

应用发展期：20世纪80年代

人工智能走入应用发展的新高潮。专家系统模拟人类专家的知识和经验解决特定领域的问题，实现了人工智能从理论研究走向实际应用、从一般推理策略探讨转向运用专门知识的重大突破。而机器学习(特别是神经网络)探索不同的学习策略和各种学习方法，在大量的实际应用中也开始慢慢复苏。

1980年，在美国的卡内基梅隆大学(CMU)召开了第一届机器学习国际研讨会，标志着机器学习研究已在全世界兴起。
1980年，德鲁·麦狄蒙（Drew McDermott）和乔恩·多伊尔（Jon Doyle）提出非单调逻辑，以及后期的机器人系统。
1980年，卡耐基梅隆大学为DEC公司开发了一个名为XCON的专家系统，每年为公司节省四千万美元，取得巨大成功。
1981年，保罗（R.P.Paul）出版第一本机器人学课本，“Robot Manipulator：Mathematics，Programmings and Control”，标志着机器人学科走向成熟。
1982年，马尔（David Marr）发表代表作《视觉计算理论》提出计算机视觉（Computer Vision）的概念，并构建系统的视觉理论，对认知科学（CognitiveScience）也产生了很深远的影响。
1982年，约翰·霍普菲尔德（John Hopfield）发明了霍普菲尔德网络，这是最早的RNN的雏形。霍普菲尔德神经网络模型是一种单层反馈神经网络（神经网络结构主要可分为前馈神经网络、反馈神经网络及图网络），从输出到输入有反馈连接。它的出现振奋了神经网络领域，在人工智能之机器学习、联想记忆、模式识别、优化计算、VLSI和光学设备的并行实现等方面有着广泛应用。

1983年，Terrence Sejnowski, Hinton等人发明了玻尔兹曼机（Boltzmann Machines），也称为随机霍普菲尔德网络，它本质是一种无监督模型，用于对输入数据进行重构以提取数据特征做预测分析。
1985年，朱迪亚·珀尔提出贝叶斯网络(Bayesian network)，他以倡导人工智能的概率方法和发展贝叶斯网络而闻名，还因发展了一种基于结构模型的因果和反事实推理理论而受到赞誉。

贝叶斯网络是一种模拟人类推理过程中因果关系的不确定性处理模型，如常见的朴素贝叶斯分类算法就是贝叶斯网络最基本的应用。

贝叶斯网络拓朴结构是一个有向无环图(DAG)，通过把某个研究系统中涉及的随机变量，根据是否条件独立绘制在一个有向图中，以描述随机变量之间的条件依赖，用圈表示随机变量(random variables)，用箭头表示条件依赖(conditional dependencies)就形成了贝叶斯网络。对于任意的随机变量，其联合概率可由各自的局部条件概率分布相乘而得出。如图中b依赖于a(即：a->b)，c依赖于a和b，a独立无依赖，根据贝叶斯定理有 P(a,b,c) = P(a)*P(b|a)*P(c|a,b)

1986年，罗德尼·布鲁克斯(Brooks)发表论文《移动机器人鲁棒分层控制系统》，标志着基于行为的机器人学科的创立，机器人学界开始把注意力投向实际工程主题。
1986年，辛顿(Geoffrey Hinton)等人先后提出了多层感知器(MLP)与反向传播（BP）训练相结合的理念（该方法在当时计算力上还是有很多挑战，基本上都是和链式求导的梯度算法相关的），这也解决了单层感知器不能做非线性分类的问题，开启了神经网络新一轮的高潮。

1986年，昆兰（Ross Quinlan）提出ID3决策树算法。

决策树模型可视为多个规则(if, then)的组合，与神经网络黑盒模型截然不同是，它拥有良好的模型解释性。

ID3算法核心的思想是通过自顶向下的贪心策略构建决策树：根据信息增益来选择特征进行划分（信息增益的含义是引入属性A的信息后，数据D的不确定性减少程度。也就是信息增益越大，区分D的能力就越强)，依次递归地构建决策树。

1989年，George Cybenko证明了“万能近似定理”（universal approximation theorem）。简单来说，多层前馈网络可以近似任意函数，其表达力和图灵机等价。这就从根本上消除了Minsky对神经网络表达力的质疑。

“万能近似定理”可视为神经网络的基本理论：⼀个前馈神经⽹络如果具有线性层和⾄少⼀层具有 “挤压” 性质的激活函数（如 sigmoid 等），给定⽹络⾜够数量的隐藏单元，它可以以任意精度来近似任何从⼀个有限维空间到另⼀个有限维空间的 borel 可测函数。

1989年，LeCun (CNN之父) 结合反向传播算法与权值共享的卷积神经层发明了卷积神经网络（Convolutional Neural Network，CNN），并首次将卷积神经网络成功应用到美国邮局的手写字符识别系统中。

卷积神经网络通常由输入层、卷积层、池化（Pooling）层和全连接层组成。卷积层负责提取图像中的局部特征，池化层用来大幅降低参数量级(降维)，全连接层类似传统神经网络的部分，用来输出想要的结果。

平稳发展期：20世纪90年代—2010年

由于互联网技术的迅速发展，加速了人工智能的创新研究，促使人工智能技术进一步走向实用化，人工智能相关的各个领域都取得长足进步。在2000年代初，由于专家系统的项目都需要编码太多的显式规则，这降低了效率并增加了成本，人工智能研究的重心从基于知识系统转向了机器学习方向。

1995年，Cortes和Vapnik提出联结主义经典的支持向量机(Support Vector Machine)，它在解决小样本、非线性及高维模式识别中表现出许多特有的优势，并能够推广应用到函数拟合等其他机器学习问题中。

支持向量机（Support Vector Machine, SVM）可以视为在感知机基础上的改进，是建立在统计学习理论的VC维理论和结构风险最小原理基础上的广义线性分类器。与感知机主要差异在于：1、感知机目标是找到一个超平面将各样本尽可能分离正确(有无数个)，SVM目标是找到一个超平面不仅将各样本尽可能分离正确，还要使各样本离超平面距离最远(只有一个最大边距超平面)，SVM的泛化能力更强。2、对于线性不可分的问题，不同于感知机的增加非线性隐藏层，SVM利用核函数，本质上都是实现特征空间非线性变换，使可以被线性分类。

1995年， Freund和schapire提出了 AdaBoost (Adaptive Boosting)算法。AdaBoost采用的是Boosting集成学习方法——串行组合弱学习器以达到更好的泛化性能。另外一种重要集成方法是以随机森林为代表的Bagging并行组合的方式。以“偏差-方差分解”分析，Boosting方法主要优化偏差，Bagging主要优化方差。

Adaboost迭代算法基本思想主要是通过调节的每一轮各训练样本的权重(错误分类的样本权重更高)，串行训练出不同分类器。最终以各分类器的准确率作为其组合的权重，一起加权组合成强分类器。

1997年国际商业机器公司（简称IBM）深蓝超级计算机战胜了国际象棋世界冠军卡斯帕罗夫。深蓝是基于暴力穷举实现国际象棋领域的智能，通过生成所有可能的走法，然后执行尽可能深的搜索，并不断对局面进行评估，尝试找出最佳走法。
1997年，Sepp Hochreiter 和 Jürgen Schmidhuber提出了长短期记忆神经网络(LSTM)。

LSTM是一种复杂结构的循环神经网络（RNN），结构上引入了遗忘门、输入门及输出门：输入门决定当前时刻网络的输入数据有多少需要保存到单元状态，遗忘门决定上一时刻的单元状态有多少需要保留到当前时刻，输出门控制当前单元状态有多少需要输出到当前的输出值。这样的结构设计可以解决长序列训练过程中的梯度消失问题。

1998年，万维网联盟的蒂姆·伯纳斯·李(Tim Berners-Lee)提出语义网(Semantic Web)的概念。其核心思想是：通过给万维网上的文档（如HTML）添加能够被计算机所理解的语义(Meta data)，从而使整个互联网成为一个基于语义链接的通用信息交换媒介。换言之，就是构建一个能够实现人与电脑无障碍沟通的智能网络。
2001年，John Lafferty首次提出条件随机场模型（Conditional random field，CRF）。 CRF是基于贝叶斯理论框架的判别式概率图模型，在给定条件随机场P ( Y ∣ X ) 和输入序列x，求条件概率最大的输出序列y *。在许多自然语言处理任务中比如分词、命名实体识别等表现尤为出色。
2001年，布雷曼博士提出随机森林（Random Forest）。随机森林是将多个有差异的弱学习器(决策树)Bagging并行组合，通过建立多个的拟合较好且有差异模型去组合决策，以优化泛化性能的一种集成学习方法。多样差异性可减少对某些特征噪声的依赖，降低方差（过拟合），组合决策可消除些学习器间的偏差。

随机森林算法的基本思路是对于每一弱学习器(决策树)有放回的抽样构造其训练集，并随机抽取其可用特征子集，即以训练样本及特征空间的多样性训练出N个不同的弱学习器，最终结合N个弱学习器的预测（类别或者回归预测数值），取最多数类别或平均值作为最终结果。

2003年，David Blei, Andrew Ng和 Michael I. Jordan于2003年提出LDA（Latent Dirichlet Allocation）。

LDA是一种无监督方法，用来推测文档的主题分布，将文档集中每篇文档的主题以概率分布的形式给出，可以根据主题分布进行主题聚类或文本分类。

2003年，Google公布了3篇大数据奠基性论文，为大数据存储及分布式处理的核心问题提供了思路：非结构化文件分布式存储（GFS）、分布式计算（MapReduce）及结构化数据存储（BigTable），并奠定了现代大数据技术的理论基础。

2005 年，波士顿动力公司推出一款动力平衡四足机器狗，有较强的通用性，可适应较复杂的地形。
2006年，杰弗里·辛顿以及他的学生鲁斯兰·萨拉赫丁诺夫正式提出了深度学习的概念（Deeping Learning），开启了深度学习在学术界和工业界的浪潮。2006年也被称为深度学习元年，杰弗里·辛顿也因此被称为深度学习之父。

深度学习的概念源于人工神经网络的研究，它的本质是使用多个隐藏层网络结构，通过大量的向量计算，学习数据内在信息的高阶表示。

2010年，Sinno Jialin Pan和 Qiang Yang发表文章《迁移学习的调查》。

迁移学习(transfer learning)通俗来讲，就是运用已有的知识（如训练好的网络权重）来学习新的知识以适应特定目标任务，核心是找到已有知识和新知识之间的相似性。

蓬勃发展期：2011年至今

随着大数据、云计算、互联网、物联网等信息技术的发展，泛在感知数据和图形处理器等计算平台推动以深度神经网络为代表的人工智能技术飞速发展，大幅跨越了科学与应用之间的技术鸿沟，诸如图像分类、语音识别、知识问答、人机对弈、无人驾驶等人工智能技术实现了重大的技术突破，迎来爆发式增长的新高潮。

2011年，IBM Watson问答机器人参与Jeopardy回答测验比赛最终赢得了冠军。Waston是一个集自然语言处理、知识表示、自动推理及机器学习等技术实现的电脑问答（Q&A）系统。
2012年，Hinton和他的学生Alex Krizhevsky设计的AlexNet神经网络模型在ImageNet竞赛大获全胜，这是史上第一次有模型在 ImageNet 数据集表现如此出色，并引爆了神经网络的研究热情。

AlexNet是一个经典的CNN模型，在数据、算法及算力层面均有较大改进，创新地应用了Data Augmentation、ReLU、Dropout和LRN等方法，并使用GPU加速网络训练。

2012年，谷歌正式发布谷歌知识图谱Google Knowledge Graph），它是Google的一个从多种信息来源汇集的知识库，通过Knowledge Graph来在普通的字串搜索上叠一层相互之间的关系，协助使用者更快找到所需的资料的同时，也可以知识为基础的搜索更近一步，以提高Google搜索的质量。

知识图谱是结构化的语义知识库，是符号主义思想的代表方法，用于以符号形式描述物理世界中的概念及其相互关系。其通用的组成单位是RDF三元组(实体-关系-实体)，实体间通过关系相互联结，构成网状的知识结构。

2013年，Durk Kingma和Max Welling在ICLR上以文章《Auto-Encoding Variational Bayes》提出变分自编码器（Variational Auto-Encoder，VAE）。

VAE基本思路是将真实样本通过编码器网络变换成一个理想的数据分布，然后把数据分布再传递给解码器网络，构造出生成样本，模型训练学习的过程是使生成样本与真实样本足够接近。

2013年，Google的Tomas Mikolov 在《Efficient Estimation of Word Representation in Vector Space》提出经典的 Word2Vec模型用来学习单词分布式表示，因其简单高效引起了工业界和学术界极大的关注。

Word2Vec基本的思想是学习每个单词与邻近词的关系，从而将单词表示成低维稠密向量。通过这样的分布式表示可以学习到单词的语义信息，直观来看，语义相似的单词的距离相近。

Word2Vec网络结构是一个浅层神经网络（输入层-线性全连接隐藏层->输出层），按训练学习方式可分为CBOW模型(以一个词语作为输入，来预测它的邻近词)或Skip-gram模型 (以一个词语的邻近词作为输入，来预测这个词语)。

2014年，聊天程序“尤金·古斯特曼”（Eugene Goostman）在英国皇家学会举行的“2014图灵测试”大会上，首次“通过”了图灵测试。
2014年，Goodfellow及Bengio等人提出生成对抗网络（Generative Adversarial Network，GAN），被誉为近年来最酷炫的神经网络。

GAN是基于强化学习(RL)思路设计的，由生成网络(Generator, G)和判别网络(Discriminator, D)两部分组成，生成网络构成一个映射函数G: Z→X（输入噪声z, 输出生成的伪造数据x）, 判别网络判别输入是来自真实数据还是生成网络生成的数据。在这样训练的博弈过程中，提高两个模型的生成能力和判别能力。

2015年，为纪念人工智能概念提出60周年，深度学习三巨头LeCun、Bengio和Hinton(他们于2018年共同获得了图灵奖)推出了深度学习的联合综述《Deep learning》。

《Deep learning》文中指出深度学习就是一种特征学习方法，把原始数据通过一些简单的但是非线性的模型转变成为更高层次及抽象的表达，能够强化输入数据的区分能力。通过足够多的转换的组合，非常复杂的函数也可以被学习。

2015年，Microsoft Research的Kaiming He等人提出的残差网络（ResNet）在ImageNet大规模视觉识别竞赛中获得了图像分类和物体识别的优胜。

残差网络的主要贡献是发现了网络不恒等变换导致的“退化现象（Degradation）”，并针对退化现象引入了 “快捷连接（Shortcut connection）”，缓解了在深度神经网络中增加深度带来的梯度消失问题。

2015年，谷歌开源TensorFlow框架。它是一个基于数据流编程（dataflow programming）的符号数学系统，被广泛应用于各类机器学习（machine learning）算法的编程实现，其前身是谷歌的神经网络算法库DistBelief。
2015年，马斯克等人共同创建OpenAI。它是一个非营利的研究组织，使命是确保通用人工智能 (即一种高度自主且在大多数具有经济价值的工作上超越人类的系统）将为全人类带来福祉。其发布热门产品的如：OpenAI Gym，GPT等。
2016年，谷歌提出联邦学习方法，它在多个持有本地数据样本的分散式边缘设备或服务器上训练算法，而不交换其数据样本。

联邦学习保护隐私方面最重要的三大技术分别是：差分隐私 ( Differential Privacy )、同态加密 ( Homomorphic Encryption )和隐私保护集合交集 ( Private Set Intersection )，能够使多个参与者在不共享数据的情况下建立一个共同的、强大的机器学习模型，从而解决数据隐私、数据安全、数据访问权限和异构数据的访问等关键问题。

2016年，AlphaGo与围棋世界冠军、职业九段棋手李世石进行围棋人机大战，以4比1的总比分获胜。

AlphaGo是一款围棋人工智能程序，其主要工作原理是“深度学习”，由以下四个主要部分组成：策略网络（Policy Network）给定当前局面，预测并采样下一步的走棋；快速走子（Fast rollout）目标和策略网络一样，但在适当牺牲走棋质量的条件下，速度要比策略网络快1000倍；价值网络（Value Network）估算当前局面的胜率；蒙特卡洛树搜索（Monte Carlo Tree Search）树搜索估算每一种走法的胜率。

在2017年更新的AlphaGo Zero，在此前的版本的基础上，结合了强化学习进行了自我训练。它在下棋和游戏前完全不知道游戏规则，完全是通过自己的试验和摸索，洞悉棋局和游戏的规则，形成自己的决策。随着自我博弈的增加，神经网络逐渐调整，提升下法胜率。更为厉害的是，随着训练的深入，AlphaGo Zero还独立发现了游戏规则，并走出了新策略，为围棋这项古老游戏带来了新的见解。

2017年，中国香港的汉森机器人技术公司（Hanson Robotics）开发的类人机器人索菲亚，是历史上首个获得公民身份的一台机器人。索菲亚看起来就像人类女性，拥有橡胶皮肤，能够表现出超过62种自然的面部表情。其“大脑”中的算法能够理解语言、识别面部，并与人进行互动。
2018年，Google提出论文《Pre-training of Deep Bidirectional Transformers for Language Understanding》并发布Bert(Bidirectional Encoder Representation from Transformers)模型，成功在 11 项 NLP 任务中取得 state of the art 的结果。

BERT是一个预训练的语言表征模型，可在海量的语料上用无监督学习方法学习单词的动态特征表示。它基于Transformer注意力机制的模型，对比RNN可以更加高效、能捕捉更长距离的依赖信息，且不再像以往一样采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练，而是采用新的masked language model（MLM），以致能生成深度的双向语言表征。

2019年， IBM宣布推出Q System One，它是世界上第一个专为科学和商业用途设计的集成通用近似量子计算系统。
2019年，香港 Insilico Medicine 公司和多伦多大学的研究团队实现了重大实验突破，通过深度学习和生成模型相关的技术发现了几种候选药物，证明了 AI 发现分子策略的有效性，很大程度解决了传统新药开发在分子鉴定困难且耗时的问题。
2020年，Google与Facebook分别提出SimCLR与MoCo两个无监督学习算法，均能够在无标注数据上学习图像数据表征。两个算法背后的框架都是对比学习（contrastive learning），对比学习的核心训练信号是图片的“可区分性”。
2020年，OpenAI开发的文字生成 (text generation) 人工智能GPT-3，它具有1,750亿个参数的自然语言深度学习模型，比以前的版本GPT-2高100倍，该模型经过了将近0.5万亿个单词的预训练，可以在多个NLP任务（答题、翻译、写文章）基准上达到最先进的性能。
2020年，马斯克的脑机接口（brain–computer interface, BCI）公司Neuralink举行现场直播，展示了植入Neuralink设备的实验猪的脑部活动。
2020年，谷歌旗下DeepMind的AlphaFold2人工智能系统有力地解决了蛋白质结构预测的里程碑式问题。它在国际蛋白质结构预测竞赛（CASP）上击败了其余的参会选手，精确预测了蛋白质的三维结构，准确性可与冷冻电子显微镜（cryo-EM）、核磁共振或 X 射线晶体学等实验技术相媲美。
2020年，中国科学技术大学潘建伟等人成功构建76个光子的量子计算原型机“九章”，求解数学算法“高斯玻色取样”只需200秒，而目前世界最快的超级计算机要用6亿年。
2021年，OpenAI提出两个连接文本与图像的神经网络：DALL·E 和 CLIP。DALL·E 可以基于文本直接生成图像，CLIP 则能够完成图像与文本类别的匹配。
2021年，德国Eleuther人工智能公司于今年3月下旬推出开源的文本AI模型GPT-Neo。对比GPT-3的差异在于它是开源免费的。
2021年，美国斯坦福大学的研究人员开发出一种用于打字的脑机接口（brain–computer interface, BCI），这套系统可以从运动皮层的神经活动中解码瘫痪患者想象中的手写动作，并利用递归神经网络（RNN）解码方法将这些手写动作实时转换为文本。相关研究结果发表在2021年5月13日的Nature期刊上，论文标题为“High-performance brain-to-text communication via handwriting”。

2021年，AlphaFold 2 能很好地预判蛋白质与分子结合的概率，为我们展示了人工智能驱动自然学科研究的无限潜力；

2022年，ChatGPT的出现，AI的想象瞬时就开始爆了…未来已来！

2023年，ChatGpt4的发布，它为我们带来了前所未有的语言理解和生成能力。

Ai能做什么

两个月前，Open AI发布了一则公告，他们已经走在超人工智能的路线上了。

如果这条路走成通用型人工智能诞生，它能完成一切所谓的智力活动的任务。人类说出一个目标，它就能用我们没法理解的方式达成。比如设计一台极紫外光刻机。现在NVIDIA DLSS 3能根据前后两张画面生成一个中间帧，从而使帧率成倍提升。还不消耗额外算力，这是专用型AI实现的。如果是通用型AI，它不但能做到这一切，甚至能把造显卡芯片的光刻机也设计出来，因为光刻机的制造无需突破理论科学。

通用型AI对于科学的应用和技术达成会比人类做得快太多，光刻机也只是开始，未来世界各国谁率先掌握通用型AI，谁就将在各方面与竞争对手们拉开差距。虽然近期还不会发生，但已经不是遥不可及了。

论文显示通用大模型技术将影响80%的工作岗位

3月17日，OpenAI,OpenResearch和宾夕法尼亚大学发布了最新的研究论文《GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Models》（关于大型语言模型对劳动力市场的影响的早期研究），作者认为当下的发展趋势中，GPT类大模型逐渐成为一种通用技术，这将会对劳动力市场产生深刻的潜在影响，并在论文中探讨了LLM（大型语言模型）对不同职业和行业的具体影响

研究人员称，GPT会是像蒸汽机或印刷机一样的通用技术，它有可能对经济的各个方面产生深远的影响，并且对职业市场和劳动力市场产生潜在的重大影响。他们估计ChatGPT和使用该程序构建的未来应用可能影响美国大约19% 的工作岗位和他们至少50%的工作任务。与此同时,80% 的美国劳动力至少有10%的工作任务在某种程度上将受到ChatGPT的影响。

该论文分析了GPT（生成式预训练转换器）对各种职业和产业的影响，通过应用新的评估框架，探讨了GPT可能对劳动力市场带来的影响。论文使用两种评估标准：直接暴露（即GPT可以直接完成或帮助完成的任务）和间接暴露（即通过GPT支持的软件和数字工具帮助完成的任务）。研究发现，大多数职业都存在某种程度的GPT暴露，高薪职业通常具有更多高度暴露的任务。通过考虑当前模型能力和预期的GPT支持软件，论文发现，约有19%的工作至少有50%的任务暴露于GPT中。研究表明，GPT可能对多个行业产生广泛的影响，通过支持软件和数字工具，可以对一系列经济活动产生重大影响。然而，GPT对劳动生产率的实际影响受到社会、经济、监管和其他因素的影响。随着技术能力的不断发展，GPT对经济的影响可能会持续增加，给政策制定者带来预测和监管方面的挑战。

从论文提供的表格可以看到，暴露率100%的工作有数学家、报税员、量化金融分析师、作家、网络和数字界面设计师，还包括新闻记者、法务、行政等热门行业；暴露率在80%以上的工作还包括通讯员、区块链工程师、译员、公关专家、调研员等职业。

研究团队也列出了34类“完全不被暴露”的职业类型，在这34类工作中，无一例外是体力劳动，譬如厨师、水管工、机械师和木匠、石匠泥瓦匠等。

总的来说，GPT可能带来的潜在影响包括以下几点：

提高劳动生产率：GPT可以通过自动化和优化生产流程来提高劳动生产率，从而带来更高的经济效益。
职业和产业变革：GPT可能会对某些职业和产业带来较大的影响，例如，一些重复性和机械性较强的工作可能会被自动化取代，而需要创造性和人类思维的工作可能会得到提升。
劳动力市场不平等：GPT可能会进一步加剧劳动力市场的不平等问题，高技能和高薪工作者可能受益于GPT的使用，而低技能和低薪工作者可能会面临失业的风险。
社会政治稳定：GPT的出现可能会引起社会政治稳定的问题，例如，可能会出现失业和职业不确定性等问题，从而引发社会不满和政治问题。

研究GPT的影响范围和深度是很重要的，因为它能帮助我们更好地了解这一技术可能对劳动力市场带来的实际影响。文章所述的研究表明，大型语言模型（LLM）特别是GPT，已经在当前的技术水平下渗透到了几乎所有职业和产业中。此外，还发现，GPT-powered软件和数字工具的补充创新将对各种经济活动产生广泛的应用。

还可以探讨GPT可能对劳动力市场的实际影响，包括潜在的人员流动，技能变化和工作质量改变等。有一些研究表明，GPT可能会导致某些职业的部分自动化和工作的转移，从而可能导致一些人失业。然而，还有其他研究表明，GPT可以增加工作的生产力和效率，并为人类工作人员提供更好的支持和辅助。因此，GPT的影响可能会因行业和工作特征而异。GPT技术对各种产业都有潜在的影响，以下是几个具体产业的介绍：

金融业领域，GPT技术可以用于金融预测、风险管理和自动化客户服务等方面。例如，金融预测模型可以使用GPT来帮助预测市场趋势和交易量，同时可以通过自然语言处理来理解和解释市场数据和新闻事件。此外，GPT技术还可以用于自动化客户服务，通过聊天机器人来处理客户的查询和问题。
医疗保健领域，GPT技术可以用于自然语言处理、医疗保健预测和医学图像分析。例如，医疗保健领域的自然语言处理可以帮助分析医生的笔记、病历和研究论文，并从中提取关键信息。此外，GPT技术还可以用于医疗保健预测，通过分析病历和病人数据来预测病人的健康状况和病情进展。在医学图像分析方面，GPT技术可以用于自动识别医学图像中的病变和异常。
零售业，GPT技术可以用于提高客户体验和自动化供应链管理。例如，聊天机器人可以使用GPT来处理客户的查询和问题，从而提高客户满意度。此外，GPT技术还可以用于自动化供应链管理，通过分析销售数据和库存数据来优化供应链。
媒体领域，GPT技术可以用于内容生成、自动化编辑和个性化推荐等方面。例如，新闻机构可以使用GPT来生成新闻报道，从而提高生产效率。此外，GPT技术还可以用于自动化编辑，通过分析和编辑大量的内容来生成高质量的出版物。最后，GPT技术还可以用于个性化推荐，根据用户的历史浏览记录和喜好来推荐相关的内容。

论文作者同时认为：高学历工作者（持有学士、硕士和更高学位）相对普通人更容易受到 GPT 的冲击。在职培训时间最长的职业受 GPT 冲击程度最低（这类工作的收入水平更低），而不需在职培训或只需实习的工作更容易受 GPT 冲击（工作的收入水平更高）

另外，为了说明Exposure度量方法的可靠性以及结论的稳健性，作者除了使用GPT-4、人工标注法对比以外，在这一部分又与其他方法进行了比较。作者首先总结了前人在Occupation Exposure方面的度量方法，并将这些研究方法应用于数据集中：

之后，作者将这些方法作为解释变量，在本文中新定义的Exposure规则上分别用GPT-4、人工标注得到的评分数据对这些方法（解释变量）进行基准回归（对比控制Avg.Salary对数值）：

可以看到，除了AI大部分数据都是***，说明作者定义的Exposure规则与前人8种度量方法之间存在显著相关性，因此，本篇论文作者实证得到的结论具有一定的可信性。

Ai做了什么

20年麻省理工学院把6万多个分子结构一股脑给到AI模型，让他找到其中有效的药物分子，结果他还真找到了一个分子，继而发现了一种广谱抗生素。它能杀死已经对其他抗生素产生耐药性的细菌。

AI找到了不为科学家所知的分子特点，然后用那些特点发现了新抗生素。那些是什么特点我们并不知道，整个训练模型是一大堆参数，人类无法从中读出理论。这就好比一个黑匣子，我们不知道他会的究竟是什么。GPT4的参数量可能比整个银河系恒星的数量还要多，他的思考方式人类已经永远无法理解。

Ai所带来的影响

有一位原画师，每一天的工作都是画画，他觉得生活充实而有意义。

但一天，他发现自己的画都没被公司用上，于是他跑去问主管“为什么我的画公司不用了？”

主管告诉他“因为AI已经画的比你好了，但公司还会养着你，你想画什么就画什么。”

这人回去后，虽然还是每天作画，但觉得失去了意义，精神也越来越憔悴。

终于有一天，他忍不住又找到主管。

对他说：“你们能把我的记忆清除吗？让我继续做个可以挑战自己的画师。”他的要求被满足了，他回到工作岗位，生活又充满激情。

但随着时间推移，他终于又发现公司好像没用他的画。

于是他又一次去问主管

主管告诉他“因为AI已经画的比你好了，但公司还会养着你，你想画什么就画什么。”

画师心情复杂的回去了。他走出办公室后。

主管问AI：“这是他第几次来找我们？”

AI回答：“第101次，还在可控范围内。”

主管点点头，随即对AI说了一句

“你把我的记忆也清除吧，我想回到过去那种可以自己冒风险做决策的状态。”

一道白光后，主管的记忆也被清除了。AI的显示屏上显示第101次。

前些天，微软对GPT4做了一次详细测试，结论是GPT4已经可以被认为是早期版本的通用人工智能。未来尚不确定。唯一确定的是，我们已经永远的脱离了前人工智能时代。

参考文献

[1] 2023 GPTs are GPTs- An Early Look at the Labor Market Impact potential of LLM

[2] Generative Agents: Interactive Simulacra of Human Behavior

[3] Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. 2018-10-11. arXiv:1810.04805v2 [cs.CL].

[4] Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing. Google AI Blog. [2019-11-27]. （原始内容存档于2021-01-13）（英语）.

[5] Understanding searches better than ever before. Google. 2019-10-25 [2019-11-27]. （原始内容存档于2021-01-27）（英语）.

[6] Rogers, Anna; Kovaleva, Olga; Rumshisky, Anna. A Primer in BERTology: What We Know About How BERT Works. Transactions of the Association for Computational Linguistics. 2020, 8: 842–866 [2021-11-24]. doi:10.1162/tacl_a_00349. （原始内容存档于2022-04-03）.

[7] Zhu, Yukun; Kiros, Ryan; Zemel, Rich; Salakhutdinov, Ruslan; Urtasun, Raquel; Torralba, Antonio; Fidler, Sanja. Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books: 19–27. 2015. arXiv:1506.06724 [cs.CV].

[8] Annamoradnejad, Issa. ColBERT: Using BERT Sentence Embedding for Humor Detection. 2020-04-27. arXiv:2004.12765 [cs.CL].

[9] Polosukhin, Illia; Kaiser, Lukasz; Gomez, Aidan N.; Jones, Llion; Uszkoreit, Jakob; Parmar, Niki; Shazeer, Noam; Vaswani, Ashish. Attention Is All You Need. 2017-06-12. arXiv:1706.03762 [cs.CL].

[10] Horev, Rani. BERT Explained: State of the art language model for NLP. Towards Data Science. 2018 [27 September 2021]. （原始内容存档于2022-10-17）.

[11] Kovaleva, Olga; Romanov, Alexey; Rogers, Anna; Rumshisky, Anna. Revealing the Dark Secrets of BERT.Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP). November 2019: 4364–4373 [2020-10-19].doi:10.18653/v1/D19-1445.（原始内容存档于2020-10-20）

[12] Clark, Kevin; Khandelwal, Urvashi; Levy, Omer; Manning, Christopher D. What Does BERT Look at? An Analysis of BERT’s Attention. Proceedings of the 2019 ACL Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP (Stroudsburg, PA, USA: Association for Computational Linguistics). 2019: 276–286.

[13] Khandelwal, Urvashi; He, He; Qi, Peng; Jurafsky, Dan. Sharp Nearby, Fuzzy Far Away: How Neural Language Models Use Context. Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) (Stroudsburg, PA, USA: Association for Computational Linguistics). 2018: 284–294. Bibcode:2018arXiv180504623K. arXiv:1805.04623. doi:10.18653/v1/p18-1027.

[14] Gulordava, Kristina; Bojanowski, Piotr; Grave, Edouard; Linzen, Tal; Baroni, Marco. Colorless Green Recurrent Networks Dream Hierarchically. Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers) (Stroudsburg, PA, USA: Association for Computational Linguistics). 2018: 1195–1205. Bibcode:2018arXiv180311138G. arXiv:1803.11138. doi:10.18653/v1/n18-1108.

[15] Giulianelli, Mario; Harding, Jack; Mohnert, Florian; Hupkes, Dieuwke; Zuidema, Willem. Under the Hood: Using Diagnostic Classifiers to Investigate and Improve how Language Models Track Agreement Information. Proceedings of the 2018 EMNLP Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP (Stroudsburg, PA, USA: Association for Computational Linguistics). 2018: 240–248. Bibcode:2018arXiv180808079G. arXiv:1808.08079. doi:10.18653/v1/w18-5426.

[16] Zhang, Kelly; Bowman, Samuel. Language Modeling Teaches You More than Translation Does: Lessons Learned Through Auxiliary Syntactic Task Analysis. Proceedings of the 2018 EMNLP Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP (Stroudsburg, PA, USA: Association for Computational Linguistics). 2018: 359–361. doi:10.18653/v1/w18-5448.

[17] Dai, Andrew; Le, Quoc. Semi-supervised Sequence Learning. 2015-11-04. arXiv:1511.01432 [cs.LG].

[18] Peters, Matthew; Neumann, Mark; Iyyer, Mohit; Gardner, Matt; Clark, Christopher; Lee, Kenton; Luke, Zettlemoyer. Deep contextualized word representations. 2018-02-15. arXiv:1802.05365v2 [cs.CL].

[19] Howard, Jeremy; Ruder, Sebastian. Universal Language Model Fine-tuning for Text Classification. 2018-01-18. arXiv:1801.06146v5 [cs.CL].

[20] Nayak, Pandu. Understanding searches better than ever before. Google Blog. 2019-10-25 [2019-12-10]. （原始内容存档于2019-12-05）.

[21] Montti, Roger. Google’s BERT Rolls Out Worldwide. Search Engine Journal. Search Engine Journal. 2019-12-10 [2019-12-10]. （原始内容存档于2020-11-29）.

[22] Google: BERT now used on almost every English query. Search Engine Land. 2020-10-15 [2020-11-24]. （原始内容存档于2022-05-06）.

[23] Best Paper Awards. NAACL. 2019 [2020-03-28]. （原始内容存档于2020-10-19）.

[24]贵重,李云翔,王光涛.GPT-4带来的变化与挑战[J].电信工程技术与标准化,2023,36(04):17-19.DOI:10.13992/j.cnki.tetas.2023.04.017.

[25]曹克亮.人工智能的神话：ChatGPT与超越的数字劳动“主体”之辨[J/OL].长白学刊:1-9[2023-05-02].http://kns.cnki.net/kcms/detail/22.1009.d.20230327.1533.004.html.

[26]蒲清平,向往.生成式人工智能——ChatGPT的变革影响、风险挑战及应对策略[J/OL].重庆大学学报(社会科学版):1-13[2023-05-02].http://kns.cnki.net/kcms/detail/50.1023.C.20230412.1004.002.html.