1、预训练(Pre-training):在⼤规模未标注语料上训练模型以学习通⽤语⾔知识的过程通过预训练,模型获得⼴泛的语义、语法常识,为下游任务打下基础2、微调(Fine-tuning):在预训练模型的基础上,使⽤较⼩的特定任务数据继续训练模型,使其适应特定任务需求。
例如⽤问答数据微调预训练模型以提升问答性能3、自监督学习(Self-supervisedLearning):利⽤数据⾃⾝的隐藏结构作为监督信号的学习⽅式预训练时通常采⽤⾃监督,如通过预测下⼀个词或被遮蔽词来训练模型,⽆需⼈⼯标注标签。
4、无监督学习(UnsupervisedLearning):不依赖⼈⼯标注数据的学习范式⾃监督学习可视作⽆监督的⼀种,⼤模型预训练典型地属于⽆监督学习,因为使⽤的是未标注的纯⽂本5、监督学习(SupervisedLearning):利⽤带标签的数据进⾏训练的⽅式。
模型从输⼊到输出有明确的⽬标信号微调阶段若有⼈⼯标注的数据(如问答对、翻译对等),通常采⽤监督学习6、强化学习(ReinforcementLearning):通过“奖励”和“惩罚”信号来训练智能体(模型)决策的学习⽅式。
在LLM中,引⼊RL可以让模型在没有标准答案的情况下通过试错和奖励信号⾃主改进(例如训练模型⾃⾏探索推理链)7、人类反馈强化学习(RLHF,ReinforcementLearningfromHumanFeedback):⼀种微调技术,结合⼈类偏好来调整模型输出。
训练时由⼈或代理对模型输出进⾏反馈打分,模型通过强化学习算法(如PPO)优化,使输出更符合⼈类期望这是ChatGPT成功的关键训练步骤8、损失函数(LossFunction):衡量模型输出与⽬标差距的函数。
训练过程中模型以最⼩化损失函数为⽬标调整参数语⾔模型常⽤交叉熵损失来衡量预测下⼀个词的准确程度(困惑度也是基于损失计算的⼀种指标)9、反向传播(Backpropagation):训练神经⽹络的算法通过将损失对参数的偏导数从输出层⼀路传播回输⼊层,指导每层参数的调整⽅向和幅度,从⽽逐步优化模型。
10、梯度下降(GradientDescent):⼀种迭代优化⽅法每次根据梯度信息更新模型参数,使损失下降⼤模型训练常⽤小批量梯度下降及其变体(如Adam优化器)⾼效收敛参数11、优化器(Optimizer):⽤于调整模型参数的算法。
不同优化器有不同的参数更新策略,如SGD、Adam等Adam是⼀种对梯度进⾏⼀阶⼆阶动量校正的优化器,在训练⼤模型时应⽤⼴泛12、训练数据(TrainingData):⽤于训练模型的语料或样本集合LLM的预训练数据通常规模极其庞⼤,来⾃⽹络抓取的⽂本(⽹⻚、书籍、维基百科等),涵盖多领域、多语⾔内容。
数据质量和多样性对模型能⼒影响很⼤13、数据集(Dataset):指经过整理可⽤于训练或评测的⼀组数据⼀些著名数据集如Wikipedia⽂本、CommonCrawl语料等被⽤于预训练下游任务也有专门的数据集⽤于微调和评估(如SQuAD问答数据集等)。
14、训练轮次(Epoch):遍历整个训练数据集⼀次称为⼀个epoch由于预训练语料极⼤,LLM的预训练通常以数个epoch甚⾄不到1个epoch完成(即训练中可能并未完整看过所有语料)15、批量(Batch):训练时⼀次性送⼊模型并计算⼀次梯度更新的⼀组样本。
批量越⼤,梯度估计越稳定但显存消耗也越⾼⼤模型训练常⽤分布式并⾏来增⼤等效批量(以上内容整理自视频博主檀东东)