《------往期经典推荐------》 https://mp.weixin.qq.com/s/wQhTXHqDYCLMmS1NJ_aodQ 一、AI应用系统实战项目 《------正文------》 ❝ AI与深度学习的简史人工智能(AI)和深度学习在过去几十年中取得了显着进展,改变了计算机视觉,自然语言处理和机器人等领域。本文概述了使用深度学习的AI历史上的关键里程碑,从早期的神经网络模型到现代的大型语言模型和多模态AI系统。 1.人工智能的诞生(1956)人工智能(AI)的概念已经存在了几个世纪,但我们今天所知的现代AI领域在世纪中期开始形成。“人工智能”一词最早由计算机科学家和认知科学家约翰·麦卡锡于1956年在达特茅斯人工智能夏季研究项目中提出。 达特茅斯会议通常被认为是人工智能作为一个研究领域的诞生地。这次会议聚集了一群计算机科学家、数学家和认知科学家,讨论创造能够模拟人类智能的机器的可能性。与会者包括著名人物,如马文明斯基,纳撒尼尔罗切斯特和克劳德香农。 1.1人工智能的进化:从基于规则的系统到深度学习人工智能的发展始于20世纪50年代,当时开发了国际象棋和解决问题等任务的算法,第一个人工智能程序Logical Theorist于1956年创建。1960年代和1970年代采用了基于规则的专家系统,如MYCIN,可以协助复杂的决策过程。20世纪80年代出现了机器学习,它使人工智能系统能够从数据中学习并随着时间的推移而改进,为现代深度学习技术奠定了基础。 如今,大多数尖端人工智能技术都是由深度学习技术驱动的,这些技术已经改变了人工智能的格局。深度学习是机器学习的一个专门分支,它利用多层人工神经网络从原始输入数据中提取复杂特征。在本文中,我们将探索人工智能的历史,强调深度学习在其发展中的作用。 2.早期人工神经网络(1940 - 1960年代)2.1 03 The Lost of the Lost(1943)神经网络的概念可以追溯到1943年,当时Warren McCulloch和Walter Pitts提出了第一个人工神经元模型。McCulloch-Pitts(MP)神经元模型是对生物神经元的突破性简化。该模型为人工神经网络奠定了基础,通过聚合二进制输入,并基于此聚合使用阈值激活函数进行决策,从而产生二进制输出{0,1}。 这个简化的模型抓住了神经元行为的本质--接收多个输入,将它们积分,并根据积分信号是否超过阈值产生二进制输出。尽管它很简单,但MP神经元模型能够实现基本的逻辑运算,展示了神经计算的潜力。 2.2 Rosenblatt的感知器模型(1957)1957年,Frank Rosenblatt提出了Perceptron,一种能够学习和识别模式的单层神经网络。感知器模型是一个比MP神经元更通用的计算模型,旨在处理实值输入并调整权重以最大限度地减少分类错误。 Rosenblatt还为Perceptron开发了一种监督学习算法,该算法允许网络直接从训练数据中学习。 Rosenblatt雄心勃勃地宣称感知器的能力,包括识别个人和在语言之间翻译语音的潜力,在此期间引起了公众对人工智能的极大兴趣。感知器模型及其相关的学习算法标志着神经网络发展的重要里程碑。然而,一个关键的限制很快变得明显:感知器的学习规则在非线性可分离的训练数据中无法收敛。 2.3 ADALINE(1959)1959年,Widrow和霍夫引入了ADALINE(自适应线性神经元,又称Delta学习规则),这是对感知器学习规则的改进。ADALINE解决了二进制输出和噪声敏感性等限制,可以学习和收敛非线性可分离数据,这是神经网络开发的重大突破。 ADALINE的主要功能包括:
ADALINE的引入标志着神经网络第一个黄金时代的开始,克服了Rosenblatt感知器学习的局限性。这一突破实现了高效学习、持续输出和对噪声数据的适应,引发了该领域的创新浪潮和快速进步。 然而,像感知器一样,ADALINE仍然局限于线性可分离的问题,无法解决更复杂和非线性的任务。这个限制后来被XOR问题突出,导致更先进的神经网络架构的发展。 2.4异或问题(1969)1969年,Marvin Minsky和Seymour Papert在他们的书《Perceptrons》中强调了单层感知器的严重局限性。他们证明,由于其线性决策边界,感知器无法解决异或(XOR)问题,这是一个简单的二元分类任务。XOR问题不是线性可分的,这意味着没有一个线性边界可以正确地分类所有输入模式。 这一发现强调了对能够学习非线性决策边界的更复杂神经网络架构的需求。感知器局限性的暴露导致人们对神经网络失去信心,并转向符号AI方法,标志着从20世纪70年代初到80年代中期的“神经网络的第一个黑暗时代”的开始。 神经网络的第一个黑暗时代 然而,从解决XOR问题中获得的见解使研究人员认识到需要更复杂的模型来捕捉非线性关系。这一认识最终导致了多层感知器和其他先进神经网络模型的发展,为后来几十年神经网络和深度学习的复兴奠定了基础。 3.多层感知器(MLP)(1960年代)多层感知器(MLP)是在20世纪60年代引入的,作为对单层感知器的改进。它由多层相互连接的神经元组成,使其能够解决单层模型的局限性。苏联科学家A. G. Ivakhnenko和V. Lapa在Perceptron的基础工作上为MLP的发展做出了重大贡献。 3.1隐藏层隐藏层的添加允许MLP捕获和表示数据中复杂的非线性关系。这些隐藏层显著增强了网络的学习能力,使其能够解决不可线性分离的问题,例如XOR问题。 3.2 MLP的历史背景和挑战MLP标志着神经网络研究的重大进步,展示了深度学习架构解决复杂问题的潜力。然而,在1960年代和1970年代,若干挑战阻碍了示范法的发展:
神经网络的第一个黑暗时代结束于1986年,反向传播算法的重新发现和出版,开启了神经网络的第二个黄金时代。 神经网络的第二个黄金时代 4.反向传播(1970 - 1980年代)1969年,XOR问题凸显了感知器(单层神经网络)的局限性。研究人员意识到,多层神经网络可以克服这些限制,但他们缺乏一种实用的算法来训练这些复杂的网络。反向传播算法花了17年的时间才被开发出来,使神经网络能够在理论上逼近任何函数。有趣的是,后来发现该算法实际上是在其出版之前发明的。如今,反向传播是深度学习的基本组成部分,自20世纪60年代和70年代问世以来,已经经历了重大的进步和改进。 4.1早期发展(1970年代)
4.2改良与普及(1980年代)
4.3 反向传播的主要特点
4.5 通用逼近定理(1989)1989年乔治·西本科提出的通用近似定理为多层神经网络的能力提供了数学基础。该定理指出,具有单个隐藏层的前馈神经网络可以近似任何连续函数到任意精度,给定足够的神经元并使用非线性激活函数。这一定理强调了神经网络的能力和灵活性,使其适用于广泛的应用。 具有单个隐藏层的多层神经网络可以将任何连续函数近似到任何所需的精度,从而能够解决各个领域的复杂问题。 4.6第二个黄金时代(1980年代末至1990年代初)反向传播和通用逼近定理(UAT)的发展标志着神经网络第二个黄金时代的开始。反向传播为训练多层神经网络提供了一种有效的方法,使研究人员能够训练更深入,更复杂的模型。UAT为多层神经网络的使用提供了理论依据,并增强了人们对它们解决复杂问题能力的信心。这一时期,跨越1980年代末和1990年代初,看到了兴趣的复苏和该领域的重大进展。 4.7第二次黑暗时代(1990年代初至2000年代初)然而,由于以下几个因素,神经网络领域在20世纪90年代初到21世纪初经历了“第二个黑暗时代”:
这些挑战导致许多研究人员将注意力从神经网络转移,导致该领域出现了一段停滞期。 4.8深度学习的复兴(21世纪末至今)神经网络领域在2000年代末和2010年代初经历了一次复兴,这是由以下方面的进步推动的:
这些进步导致了计算机视觉、自然语言处理、语音识别和强化学习方面的重大突破。普适近似定理与实践进步相结合,为深度学习技术的广泛采用和成功铺平了道路。 5.卷积神经网络(1980 - 2010)卷积神经网络(CNN)极大地改变了深度学习的格局,特别是在计算机视觉和图像处理领域。它们从20世纪80年代到2010年代的演变反映了架构,培训技术和应用的重大进步。 5.1早期发展(1989-1998)CNN的概念最早是在20世纪80年代由Kenji福岛提出的,他提出了Neocognitron,一种模仿人类视觉皮层结构的分层神经网络。这项开创性的工作为CNN的发展奠定了基础。在20世纪80年代末和90年代初,Yann LeCun和他的团队进一步开发了CNN,引入了专门为手写数字识别设计的LeNet-5架构。 5.2 CNN的关键组件CNN由三个关键组件构成:
5.3 CNN的主要特点
5.4 CNN的崛起:AlexNet的影响(2012)2012年,CNN的发展达到了一个重要的里程碑,AlexNet在ImageNet大规模视觉识别挑战赛(ILSVRC)中获胜,取得了巨大的胜利,标志着图像分类的重大突破。 AlexNet的架构(2012) ILSVRC是一个年度图像识别基准测试,它评估了超过1000万张带注释图像的数据集上的算法,这些图像分为1000个类别。AlexNet的创新包括:
AlexNet的成功标志着CNN发展的转折点,为图像分类和目标检测的进一步发展铺平了道路。 AlexNet开启神经网络的第三个黄金时代当前的黄金时代(21世纪10年代至今)以深度学习、大数据和强大计算平台的融合为标志。这个时代在图像识别、自然语言处理和机器人技术方面取得了显著的突破。正在进行的研究继续推动AI能力的边界。 AlexNet开启了神经网络的第三个黄金时代 5.5后续架构继AlexNet之后,出现了几个有影响力的架构:
5.6 CNN的应用CNN的进步已经彻底改变了各个领域:
CNN从一开始到目前作为深度学习基石的历程说明了它们对人工智能的深远影响。CNN的成功也为深度学习的进一步发展铺平了道路,并激发了其他专业神经网络架构的发展,如RNN和Transformer。CNN的理论基础和实践创新为深度学习技术在各个领域的广泛采用和成功做出了重大贡献。 6.递归神经网络(1986-2017)递归神经网络(RNN)是处理时序数据的强大架构。与前馈神经网络不同,RNN被设计用于处理输入序列,使其对语言建模,时间序列预测和语音识别等任务特别有效。 6.1早期发展(1980年代-1990年代)RNN的概念可以追溯到20世纪80年代,其中包括John Hopfield、Michael I. Jordan和Jeffrey L. Elman为这些网络的发展做出了贡献。由John Hopfield在1982年提出的Hopfield网络为理解神经网络中的递归连接奠定了基础。Jordan网络和Elman网络分别在20世纪80年代和90年代提出,是捕获序列数据中时间依赖性的早期尝试。 6.2 LSTM、GRU和Seq 2Seq模型(1997 - 2014)
6.3 RNN递归连接的关键特征RNN使用循环连接来维护隐藏状态,以捕获来自先前时间步的信息。这允许网络对顺序数据中的时间依赖性进行建模。
6.4 RNN应用RNN对各个领域产生了重大影响,包括:
6.5 RNN的挑战尽管RNN取得了成功,但它面临着一些挑战:
RNN的成功为深度学习的进一步发展铺平了道路,并激发了其他专业神经网络架构的发展,例如Transformers,它们在各种顺序数据任务中实现了最先进的性能。RNN的理论基础和实践创新为深度学习技术在各个领域的广泛采用和成功做出了重大贡献。 7.Transformers(2017年至今)Transformers凭借其处理序列数据的上级能力改变了深度学习的格局,成为从自然语言处理(NLP)到计算机视觉等许多领域的关键。 7.1Transformers介绍(2017)Transformer模型是由Vaswani等人提出的。(2017)在开创性的论文“注意力是你所需要的一切。“这种模型放弃了传统的RNN顺序处理,采用了自注意机制,允许并行处理和更好地处理远程依赖关系。 7.2Transformers的主要特点
7.3基于transformer的语言模型(2017年至今)
OpenAI的GPT系列:
7.4大型语言模型(LLMs)大型语言模型(LLMs)的前景已经被各种突出的模型大大丰富,每个模型都提供了独特的功能和人工智能的进步。以下是一些知名LLMs的最新概述:
8.多模态模型(2023年至今)8.1 GPT-4V(2023)和GPT-4-o(2024)
8.2谷歌的Gemini(2023年至今)
8.3Claude 3.0 和Claude 3.5(2023年至今)
8.4 LLaVA(2023)
8.5 OpenAI索拉(2024)OpenAI索拉是一种新的文本到视频生成模型,它扩展了OpenAI多模式AI产品的功能。该模型允许用户从文本描述创建视频,有效地弥合了文本和动态视觉内容之间的差距。索拉集成到多模式框架中增强了创造性应用的潜力,使用户能够以最少的输入生成丰富的多媒体内容。这一发展标志着向更直观和交互式的AI系统迈出了重要一步,这些系统可以理解和生成复杂形式的媒体。 这些模型共同标志着AI系统的转变,不仅可以理解和生成文本,还可以跨各种模式解释和创建内容,更紧密地反映人类的认知能力。人工智能模型的这种演变促进了更具交互性,直观性的应用程序,并且能够通过混合不同的感官输入来处理现实世界的场景,从而扩大了人工智能在日常生活,研究和行业应用中所能实现的范围。 9.扩散模型(2015年至今)扩散模型已经上升为一个有影响力的类别生成模型,提供了一个新的方法来创建高保真的样本从复杂的数据分布。他们的方法与GAN和VAE等传统模型形成对比,采用了渐进式去噪技术,该技术在许多应用中表现出色。 9.1扩散模型介绍(2015)Sohl-Dickstein et al.(2015)在他们的论文中介绍了扩散模型。他们概念化了一个生成过程,在这个过程中,逆转逐渐增加的噪声可以将噪声转换回结构化数据。 9.2扩散模型的主要特征
9.3扩散模型的进展(2020年至今)
9.3应用
扩散模型研究的轨迹表明了一个充满希望的未来,具有集成模型的潜力,这些模型结合了各种AI架构的联合收割机优势,同时优化了速度和质量。 10.结论人工智能和深度学习的历史以重大进步和变革性创新为标志。从早期的神经网络到复杂的架构,如卷积神经网络(CNN)、循环神经网络(RNN)、Transformer和扩散模型,该领域已经彻底改变了各个领域。 最近的进步导致了大型语言模型(LLMs)和大型多模态模型(LLM)的发展,例如OpenAI的GPT-4 o,Google的Gemini Pro,Antropic的Claude 3.5 Sonnet和Meta的LLaMA 3.1,它们展示了令人印象深刻的自然语言和多模态功能。此外,生成式人工智能的突破,包括文本到图像和文本到视频生成模型,如Midjourney,DALL-E 3,Stable Diffusion,FLUX.1和索拉,扩大了人工智能的创造潜力。 扩散模型也已成为具有不同应用的强大生成模型。随着研究继续专注于开发更高效、更可解释和更有能力的模型,人工智能和深度学习对社会和技术的影响只会越来越大。这些进步正在推动传统领域的创新,并为创造性表达、解决问题和人类与人工智能协作创造新的可能性。 |
|
来自: LibraryPKU > 《机器学习》