LLM finetune

发表于 2023-06-06 |

prve knowledge

LLM：take a sequence of words as input and recursively generate next words
- GPT
- LLaMA：meta的大模型
  - PyLLaMA：社区项目，比官方原版降低显存，可以压到13G
  - llama-int8：int8方案，只需要 7.12GB 的初始显存，但是模型加载和推理时间变长
  - unofficial startup guide：https://github.com/soulteary/llama-docker-playground
finetuning
- RLHF：基于人类反馈对语言模型进行强化学习
  - 花钱招人给问题（prompt）写回答（demonstration），然后finetune一个GPT3，supervising
  - 用多个模型给出问题的多个回答，人工评价排序QA对，训练一个reward model来打分，supervising
  - 用强化学习训练上面那个finetune后的GPT3，reward function是是基于reward model输出来的
- alpaca：斯坦福羊驼，从chatgpt拿了5.2w条数据微调LLaMA-7B
- Alpaca-LoRA：羊驼上改进，Low-rank adaptation，进一步压缩算力，4090上5小时完成，也可以用来微调stable diffusion，冻结原模型参数，在模型旁边添加一个旁路，来模拟task，并只训练这个旁路，推理时这部分训练参数加在原始权重上
- LIMA是「Less is More for Alignment」，一个强大的预训练AI模型，通过几个样本就足以实现高质量的结果

amber.zhang

要糖有糖，要猫有猫

GitHub