1 大模型
1.1 介绍
01.大模型演变与概念
a.人工智能
人工智能是一个广泛的领域,涵盖了多种技术和方法
包括机器学习、自然语言处理、计算机视觉、专家系统、机器人学等
其目标是创建能够模拟人类智能行为的系统或软件,具备感知、推理、学习、决策和语言理解等能力
深度学习是机器学习的一个分支,机器学习是人工智能的一个核心领域
b.机器学习是人工智能的一个核心子领域,专注于开发算法和模型,使计算机能够从数据中自动学习和改进
a.监督学习
通过标注好的数据教计算机学习规律
例如:教计算机识别猫和狗的图片
b.无监督学习
让计算机自己探索数据,找出其中的模式和规律
例如:分析顾客的购买习惯
c.强化学习
通过试错和奖励机制让计算机学习
例如:教小狗学会“坐下”动作
c.深度学习通过多层神经网络来处理数据,模仿人脑的工作方式
自动学习:计算机自己从数据中学习规律
多层结构:逐步提取数据中的复杂特征
强大的能力:处理复杂问题,如识别各种形状和颜色的水果
d.生成式人工智能通过学习大量数据,创造出全新的内容
应用:写文章、画图、作曲等
核心能力:模仿+创新
02.大模型训练
a.预训练
学习海量文本,掌握语言的通用规律
形成基础模型,具备基础能力
b.监督微调
用标注数据教模型完成具体任务
具备专业能力
c.基于人类反馈的强化学习
通过人类反馈优化模型输出
输出更人性化
03.大模型特点与分类
a.大模型的特点
参数规模庞大:数十亿至数万亿参数
海量数据训练:TB至PB级别的数据
高算力需求:数百至上千GPU集群
涌现能力:突破临界值后展现复杂能力
多任务泛化:单一模型处理多任务
b.大模型的分类
a.大语言模型(LLMs)
专注于文本模态,具备文本生成、理解、推理能力
应用:内容生成、智能交互、知识服务
b.多模态模型(LMMs)
处理多种数据模态,实现信息融合与协同推理
应用:医疗诊断、智能驾驶、内容创作
04.大模型工作流程
a.分词化(Tokenization)
将文本拆解为最小语义单元(Token)
方法:基于词典、统计、规则、混合、子词粒度分词
b.词表映射(Vocabulary Mapping)
将Token映射为唯一整数ID
词向量嵌入:将ID转换为稠密向量
c.大模型文本生成过程
自回归:根据当前句子预测下一个词
经验值:通过海量数据学习合理的词序
自我修正:优化表达,生成连贯的文本