读大语言模型06深度学习

2025-08-25 08:30:23 发布 29 浏览

页面报错/反馈

已收藏点赞

1. 大语言模型的奇妙历程

1.1. 称其“奇妙”，源于它们展现出的非凡能力

1.2. 强调“探索”，因为我们尚未完全解析它们与人类对话的内在机制

1.3. 定义为“历程”，则是因为大语言模型的发展代表了一项重大技术突破

2. 语言模型

2.1. 传统语言学将语言视为符号处理问题，特别强调词序

2.2. “物理符号系统”是唯一能解释人类运用抽象概念进行交谈和思考的理论框架

2.2.1. 词语被视为不具有内部结构的符号，但需遵循外部逻辑规则，这些规则决定了符号如何组合及推理
2.2.2. 这种理论虽然颇具吸引力，但却未能为人工智能的发展提供有效基础

2.3. 深度学习提供了一个全新的概念框架，它以概率和学习为基础，而非依赖符号和逻辑

2.3.1. 在21世纪初，自然语言模型借助具有反馈机制的循环神经网络取得重大突破，使得先前的输入信息能在网络中持续传递
2.3.2. Transformer的出现才从根本上革新了自然语言处理的各个领域
2.3.3. 随着大语言模型规模的扩大和训练数据集的增长，它们在语言处理和多模态任务上的表现日益优异
2.3.4. 大语言模型并未接受关于词义或句法结构的直接指导，而是通过自监督学习来掌握语义和语法规则，这一学习过程类似于儿童通过感知和体验世界来理解词义，而非依赖大量明确的教导

2.4. 大语言模型虽然在数字计算机上运行，但其类脑架构与传统数字计算机有着本质区别

2.4.1. 大语言模型并没有传统意义上的程序或指令，它是由数十亿个简单的处理单元通过数万亿个不同强度的连接（称为权重)组成的复杂网络
2.4.2. 当前的大语言模型需要数千个并行工作的CPU来进行模拟运算
2.4.3. 展望未来，它们将在专用硬件上运行，这种硬件将更加经济实惠，且能效更高

3. Transformer

3.1. Transformer架构于2017年问世，是一种特殊的前馈神经网络

3.2. Transformer架构具有独特而卓越的设计特点，它是在早期深度学习模型的基础上演进而来的

3.3. Transformer仅通过一项自监督学习任务—预测句子中的下一个词元，就能够胜任多种自然语言处理任务

3.4. Transformer的出现彻底改变了人工智能领域的自然语言处理技术

3.5. 基于Transformer的BERT网络模型是自然语言处理领域的一个里程碑，如今所有大语言模型都采用了Transformer技术

3.6. 谷歌的PaLM模型拥有5400亿个连接权重，在众多语言任务上的表现都超越了GPT-3

3.7. OpenAI的GPT-4拥有1.7万亿个权重参数，展现出更为强大的能力

3.8. 谷歌于2023年12月推出了Gemini，其性能号称与GPT-4相当，但尚缺乏严格的性能测试验证

3.9. 自注意力机制是Transformer的第二个关键特征，也是其成功的核心所在

3.9.1. 自注意力机制正是通过为词语之间的关联程度分配权重来实现这一功能的
3.9.2. Transformer的主要任务是预测输入文本中的下一个词元，它通过学习词与词之间的关系来提高预测准确率
3.9.2.1. 在训练过程中，预测误差会同时用于调整前馈网络权重和自注意力值
3.9.3. 三种类型
3.9.3.1. 第一种用于查询中的焦点词
3.9.3.2. 第二种用于所有其他词对查询词的关键相关性
3.9.3.3. 第三种是“值头”，用于保存每个词的上下文信息

>  3.9.3.3.1. 查询编码器具有与解码器类似的结构，并作为解码器各层的附加输入

4. 深度学习之源

4.1. 虽然人类在不同任务间的学习迁移能力一直为人所知，但直到大语言模型的出现，神经网络模型才真正展现出类似的、往往超出预期的迁移学习能力

4.2. 纵观人工智能的发展历史，可以清晰地看到大约每25年出现一次研究高潮

4.3. 第一波浪潮—1960年

4.3.1. 现代机器学习的雏形可以追溯到人工智能的初期
4.3.2. 1961年，弗兰克·罗森布拉特发明了感知器，这种模型通过一个包含单层可调参数的网络从样本中学习来对输入进行分类
4.3.3. 感知器是一种简单的单神经元模型
4.3.3.1. 核心要素包括单元和权重
4.3.4. 转换过程被称为非线性阶跃函数，其“非线性”特性表现为输出并非随输入呈直线变化
4.3.5. 罗森布拉特证明，只要有充足的训练样本，感知器就能学会对来自相同的两个类别的新输入进行分类
4.3.5.1. 前提是必须存在一组能够解决该分类问题的权重
4.3.6. 感知器的局限性在于它只能进行简单的线性分类，无法区分猫和狗这样相似的类别

4.4. 第二波浪潮—1985年

4.4.1. 新一代研究者开发出了一种可以训练多层网络中所有层级的学习算法
4.4.2. 突破性进展始于在输入层和输出层之间添加了一层“隐藏单元”的模型，为探索多层神经网络的潜力打开了大门
4.4.3. 最广泛使用的是误差反向传播算法（简称“反向传播”)
4.4.3.1. 这种算法虽然在计算机运算中非常高效，但在生物大脑中并不存在—大脑主要是通过局部误差信号来调节突触强度，这一点更类似于早期感知器学习算法的机制

4.5. 第三波浪潮—2010年

4.5.1. 第三波神经网络架构的探索浪潮始于21世纪第二个十年
4.5.2. 当时，计算能力已经足以支持多层神经网络的深度学习，这使得其在物体识别、语音识别和语言翻译等领域取得了突破性进展
4.5.3. 虽然媒体将神经网络重新定义为人工智能，但实际上它只是机器学习中一个在解决人工智能问题上特别成功的分支
4.5.4. 深度学习突破了传统人工智能的目标局限，它能够处理现实世界中充满噪声、不确定性和高维度的模拟信号
4.5.5. 传统人工智能中非黑即白的符号和规则体系，从未能很好地适应这个充满模糊性和不确定性的世界
4.5.5.1. 深度学习恰好在这两个世界之间搭建了桥梁

4.6. 计算能力正在呈现爆发式增长，尤其是在十年前开始使用GPU后，计算能力增加了百倍，使得计算能力翻倍所需的时间缩短至原来的1/6

4.6.1. 随着计算能力持续呈指数级增长，网络规模不断扩大，大语言模型的性能也随之快速提升
4.6.2. 这种指数增长就像银行账户中的复利效应：规模越大，增长越快

4.7. 虽然数字处理器的运行速度比神经元快100万倍，但大脑通过海量的神经元数量弥补了这一劣势

4.7.1. 人类大脑是一个高度并行化的系统，数十亿个神经元能够实时并行运作
4.7.2. 很少有算法能在规模扩大时保持如此优异的可扩展性
4.7.3. 如果计算能力能够继续保持过去70年的指数级增长趋势，在不远的将来，它将达到人类大脑的预估计算能力

4.8. 大脑皮质网络最显著的特征之一是皮质神经元之间存在循环连接

4.8.1. 具有反馈连接的循环神经网络实现了网络内部信息的循环流动

5. 深度学习网络模型

5.1. 深度学习网络模型之所以被称为“深度”，是因为其神经元单元被组织成多个层级，输入信息需要流经多个层级才能到达输出层

5.2. 这类网络并非通过编程实现，而是通过学习算法处理海量数据，从而构建出内部模型

5.3. 与数字计算机直接记忆数据不同，网络中的内部模型能够捕捉数据之间的语义关系，比如句子中词语之间的关联

5.3.1. 在网络内部，具有相似含义的词会表现出相似的活动模式

6. 语言模型演变

6.1. 教会网络模型英语单词发音

6.1.1. 语言是分层级的系统：单词发音称为音系学；词序称为句法学；词义研究称为语义学；语句中的声调和节奏则称为韵律学
6.1.2. 与说话不同，阅读并非人类进化获得的能力
6.1.2.1. 文字是不同文化独立发明的产物
6.1.2.2. 各种文字系统有着共同点：由可辨识的符号构成，通过声音与符号的对应来表达，且词义往往需要结合具体语境来理解
6.1.3. 要培养熟练的阅读能力需要长期训练，在这个过程中，大脑中负责视觉、听觉、运动以及存储语义记忆的区域会建立起新的神经连接
6.1.4. 文字的出现让知识得以跨代传承，这在此前只能依靠口耳相传
6.1.5. 现代文明正是建立在这些经过千百年积累的文字知识和通过模仿传承的技能的基础之上
6.1.6. 神经网络天然适合处理语言任务

6.2. 词语之间存在语义友元、关联和关系，它们构成了一个复杂的生态系统

6.3. 在大语言模型中，词语以向量形式存在，即所谓的嵌入，这些由长数字序列组成的向量本身就包含丰富的语义信息

6.3.1. 大语言模型能够从上下文中提取额外信息，包括词序和句法标记，从而揭示子句层面上词语和词组之间的关系
6.3.2. 每个词元都会被映射到一个高维向量空间中，这个过程被称为“嵌入”
6.3.3. ”词嵌入”（word embedding)是一种在神经网络模型的活动空间中，用向量来表示词语含义的方法

6.4. 上下文长度是决定模型保持连贯性和相关性响应能力的因素之一，特别是在长对话或长文档处理中

6.4.1. 如果对话或文档超过了上下文长度，模型可能会丢失较早期的信息

7. 微调

7.1. 在完成预训练后，模型可以通过微调提升其在特定任务上的表现

7.2. 微调是一个将在海量通用数据集上预训练的模型调整为适应特定任务数据集的过程

7.3. 微调的主要优势在于只需较少的数据和计算资源，就能获得理想的性能表现

7.4. 在微调过程中，为了避免破坏模型已习得的知识和能力，只需要较少的训练量，且对模型参数的调整幅度较小

7.5. 通过微调，通用大语言模型可以转变为特定领域的专业模型，比如医疗、法律、会计或企业管理等专业领域的专家系统

7.6. 微调可以帮助大语言模型避免产生攻击性言论、危险信息及其他不当行为

7.6.1. 这通常是通过收集相关示例，并利用微调来建立防护机制实现的

7.7. 过度微调可能会降低模型对其他查询的响应能力

7.7.1. 在提升模型特定性能和避免因防护措施导致的能力“偏移”之间找到平衡点

7.8. 另一种实现防护机制的方法是在提示词前添加包含详细指令的隐藏提示

7.8.1. 这种方式无须改变模型参数，因此不会导致模型整体能力下降

8. 温度

8.1. 当选择概率最高的词时，这种方式被称为最大似然，对应较低的温度值

8.2. 随着温度值的升高，模型选择低概率词的可能性逐渐增加

9. 神经网络

9.1. 可扩展性是人工智能领域的重要原则，它决定了某个问题的解决方案是否能在现有计算机上实现

9.1.1. 可扩展性是各领域算法的关键特性
9.1.2. 随着数字计算机性能的不断提升，新的功能也随之涌现

9.2. 随着神经网络规模的扩大，其性能持续提升

9.2.1. 30年前，我们既不清楚神经网络模型的可扩展性有多强，也不知道解决实际问题需要达到怎样的规模

9.3. 对神经网络可扩展性的信心，主要来自灵长类动物大脑皮质扩张会带来认知能力提升这一自然现象的启发

9.3.1. 事实证明，神经网络确实具有良好的可扩展性

9.4. 大脑的大小与体重密切相关

9.4.1. 与其他哺乳动物相比，灵长类动物在相同体重下拥有更大的大脑，特别是大脑皮质显著扩张

9.5. 与大脑中突触的数量无关，因为突触可以并行运作

9.5.1. 这也解释了为什么生物大脑只依靠运行速度仅为硅芯片百万分之一的神经元和突触，也能在毫秒级别完成信息处理
9.5.2. 如此高效的计算特性在算法世界中实属罕见，很少有算法能在规模扩大的同时保持计算效率
9.5.3. 随着计算能力持续呈指数级增长，在可预见的未来，它终将达到与人类大脑相当的计算水平

登录查看全部

参与评论