05.model

1 大模型

1.1 介绍

01.大模型演变与概念
    a.人工智能
        人工智能是一个广泛的领域，涵盖了多种技术和方法
        包括机器学习、自然语言处理、计算机视觉、专家系统、机器人学等
        其目标是创建能够模拟人类智能行为的系统或软件，具备感知、推理、学习、决策和语言理解等能力
        深度学习是机器学习的一个分支，机器学习是人工智能的一个核心领域
    b.机器学习是人工智能的一个核心子领域，专注于开发算法和模型，使计算机能够从数据中自动学习和改进
        a.监督学习
            通过标注好的数据教计算机学习规律
            例如：教计算机识别猫和狗的图片
        b.无监督学习
            让计算机自己探索数据，找出其中的模式和规律
            例如：分析顾客的购买习惯
        c.强化学习
            通过试错和奖励机制让计算机学习
            例如：教小狗学会“坐下”动作
    c.深度学习通过多层神经网络来处理数据，模仿人脑的工作方式
        自动学习：计算机自己从数据中学习规律
        多层结构：逐步提取数据中的复杂特征
        强大的能力：处理复杂问题，如识别各种形状和颜色的水果
    d.生成式人工智能通过学习大量数据，创造出全新的内容
        应用：写文章、画图、作曲等
        核心能力：模仿+创新

02.大模型训练
    a.预训练
        学习海量文本，掌握语言的通用规律
        形成基础模型，具备基础能力
    b.监督微调
        用标注数据教模型完成具体任务
        具备专业能力
    c.基于人类反馈的强化学习
        通过人类反馈优化模型输出
        输出更人性化

03.大模型特点与分类
    a.大模型的特点
        参数规模庞大：数十亿至数万亿参数
        海量数据训练：TB至PB级别的数据
        高算力需求：数百至上千GPU集群
        涌现能力：突破临界值后展现复杂能力
        多任务泛化：单一模型处理多任务
    b.大模型的分类
        a.大语言模型（LLMs）
            专注于文本模态，具备文本生成、理解、推理能力
            应用：内容生成、智能交互、知识服务
        b.多模态模型（LMMs）
            处理多种数据模态，实现信息融合与协同推理
            应用：医疗诊断、智能驾驶、内容创作

04.大模型工作流程
    a.分词化（Tokenization）
        将文本拆解为最小语义单元（Token）
        方法：基于词典、统计、规则、混合、子词粒度分词
    b.词表映射（Vocabulary Mapping）
        将Token映射为唯一整数ID
        词向量嵌入：将ID转换为稠密向量
    c.大模型文本生成过程
        自回归：根据当前句子预测下一个词
        经验值：通过海量数据学习合理的词序
        自我修正：优化表达，生成连贯的文本
TroyeKK小站

Explorer

05.model

Table of Contents

1 大模型

1.1 介绍

Table of Contents