LLM finetune

prve knowledge

  • LLM:take a sequence of words as input and recursively generate next words
  • finetuning
    • RLHF:基于人类反馈对语言模型进行强化学习
      • 花钱招人给问题(prompt)写回答(demonstration),然后finetune一个GPT3,supervising
      • 用多个模型给出问题的多个回答,人工评价排序QA对,训练一个reward model来打分,supervising
      • 用强化学习训练上面那个finetune后的GPT3,reward function是是基于reward model输出来的
    • alpaca:斯坦福羊驼,从chatgpt拿了5.2w条数据微调LLaMA-7B
    • Alpaca-LoRA:羊驼上改进,Low-rank adaptation,进一步压缩算力,4090上5小时完成,也可以用来微调stable diffusion,冻结原模型参数,在模型旁边添加一个旁路,来模拟task,并只训练这个旁路,推理时这部分训练参数加在原始权重上
    • LIMA是「Less is More for Alignment」,一个强大的预训练AI模型,通过几个样本就足以实现高质量的结果