1 大模型

1.1 介绍

01.大模型演变与概念
    a.人工智能
        人工智能是一个广泛的领域,涵盖了多种技术和方法
        包括机器学习、自然语言处理、计算机视觉、专家系统、机器人学等
        其目标是创建能够模拟人类智能行为的系统或软件,具备感知、推理、学习、决策和语言理解等能力
        深度学习是机器学习的一个分支,机器学习是人工智能的一个核心领域
    b.机器学习是人工智能的一个核心子领域,专注于开发算法和模型,使计算机能够从数据中自动学习和改进
        a.监督学习
            通过标注好的数据教计算机学习规律
            例如:教计算机识别猫和狗的图片
        b.无监督学习
            让计算机自己探索数据,找出其中的模式和规律
            例如:分析顾客的购买习惯
        c.强化学习
            通过试错和奖励机制让计算机学习
            例如:教小狗学会“坐下”动作
    c.深度学习通过多层神经网络来处理数据,模仿人脑的工作方式
        自动学习:计算机自己从数据中学习规律
        多层结构:逐步提取数据中的复杂特征
        强大的能力:处理复杂问题,如识别各种形状和颜色的水果
    d.生成式人工智能通过学习大量数据,创造出全新的内容
        应用:写文章、画图、作曲等
        核心能力:模仿+创新

02.大模型训练
    a.预训练
        学习海量文本,掌握语言的通用规律
        形成基础模型,具备基础能力
    b.监督微调
        用标注数据教模型完成具体任务
        具备专业能力
    c.基于人类反馈的强化学习
        通过人类反馈优化模型输出
        输出更人性化

03.大模型特点与分类
    a.大模型的特点
        参数规模庞大:数十亿至数万亿参数
        海量数据训练:TB至PB级别的数据
        高算力需求:数百至上千GPU集群
        涌现能力:突破临界值后展现复杂能力
        多任务泛化:单一模型处理多任务
    b.大模型的分类
        a.大语言模型(LLMs)
            专注于文本模态,具备文本生成、理解、推理能力
            应用:内容生成、智能交互、知识服务
        b.多模态模型(LMMs)
            处理多种数据模态,实现信息融合与协同推理
            应用:医疗诊断、智能驾驶、内容创作

04.大模型工作流程
    a.分词化(Tokenization)
        将文本拆解为最小语义单元(Token)
        方法:基于词典、统计、规则、混合、子词粒度分词
    b.词表映射(Vocabulary Mapping)
        将Token映射为唯一整数ID
        词向量嵌入:将ID转换为稠密向量
    c.大模型文本生成过程
        自回归:根据当前句子预测下一个词
        经验值:通过海量数据学习合理的词序
        自我修正:优化表达,生成连贯的文本