LLaMA
这个存储库旨在作为一个最小的、可破解的和可读的示例来加载LLaMA ( arXiv ) 模型和运行推理。为了下载检查点和分词器,填写这个谷歌表格
设置
在带有 pytorch/cuda 的 conda 环境中,运行:
pip install -r requirements.txt
然后在这个存储库中:
pip install -e .
下载
一旦您的请求获得批准,您将收到下载分词器和模型文件的链接。download.sh
使用电子邮件中提供的签名 url编辑脚本,以下载模型权重和分词器。
推理
所提供的example.py
可以在单个或多个 gpu 节点上运行,并将torchrun
输出两个预定义提示的完成。TARGET_FOLDER
按照定义使用download.sh
:
torchrun --nproc_per_node MP example.py --ckpt_dir $TARGET_FOLDER/model_size --tokenizer_path $TARGET_FOLDER/tokenizer.model
不同的模型需要不同的 MP 值:
模型 | 国会议员 |
---|---|
7B | 1个 |
13B | 2个 |
33B | 4个 |
65B | 8个 |
常问问题
参考
LLaMA:开放高效的基础语言模型——https ://arxiv.org/abs/2302.13971
@article{touvron2023llama,
title={LLaMA: Open and Efficient Foundation Language Models},
author={Touvron, Hugo and Lavril, Thibaut and Izacard, Gautier and Martinet, Xavier and Lachaux, Marie-Anne and Lacroix, Timoth{\'e}e and Rozi{\`e}re, Baptiste and Goyal, Naman and Hambro, Eric and Azhar, Faisal and Rodriguez, Aurelien and Joulin, Armand and Grave, Edouard and Lample, Guillaume},
journal={arXiv preprint arXiv:2302.13971},
year={2023}
}