prve knowledge
- LLM:take a sequence of words as input and recursively generate next words
- GPT
- LLaMA:meta的大模型
- PyLLaMA:社区项目,比官方原版降低显存,可以压到13G
- llama-int8:int8方案,只需要 7.12GB 的初始显存,但是模型加载和推理时间变长
- unofficial startup guide:https://github.com/soulteary/llama-docker-playground
- finetuning
- RLHF:基于人类反馈对语言模型进行强化学习
- 花钱招人给问题(prompt)写回答(demonstration),然后finetune一个GPT3,supervising
- 用多个模型给出问题的多个回答,人工评价排序QA对,训练一个reward model来打分,supervising
- 用强化学习训练上面那个finetune后的GPT3,reward function是是基于reward model输出来的
- alpaca:斯坦福羊驼,从chatgpt拿了5.2w条数据微调LLaMA-7B
- Alpaca-LoRA:羊驼上改进,Low-rank adaptation,进一步压缩算力,4090上5小时完成,也可以用来微调stable diffusion,冻结原模型参数,在模型旁边添加一个旁路,来模拟task,并只训练这个旁路,推理时这部分训练参数加在原始权重上
- LIMA是「Less is More for Alignment」,一个强大的预训练AI模型,通过几个样本就足以实现高质量的结果
- RLHF:基于人类反馈对语言模型进行强化学习