StableLM:稳定性 AI 语言模型
“一只随机鹦鹉,平面设计,矢量艺术” ——Stable Diffusion XL
该存储库包含 Stability AI 正在进行的 StableLM 系列语言模型开发,并将不断更新新的检查点。以下提供了所有当前可用模型的概述。更多即将推出。
消息
2023 年 4 月 28 日
- 发布了 StableVicuna-13B,这是我们对Vicuna-13B v0的 RLHF 微调,它本身是对LLaMA-13B的微调。原始 Llama 模型的 Delta 权重在 ( CC BY-NC-SA-4.0 )下发布。
2023 年 4 月 20 日
-
发布了初始的 StableLM-alpha 模型集,具有 3B 和 7B 参数。15B 和 30B 型号正在开发中。基本模型在CC BY-SA-4.0下发布。
-
StableLM-Tuned-Alpha-7B
尝试在Hugging Face Spaces上与我们的 7B 模特聊天。
楷模
稳定的小羊驼
StableVicuna 是Vicuna-13B v0的 RLHF 微调,它本身是LLaMA-13B的微调。这是我们创建开源 RLHF LLM Chatbot 的尝试。该模型由 StabilityAI 的 CarperAI 团队开发,Duy V. Phung领导了培训工作。
由于 LLaMA 的原始非商业许可,我们只能将模型的权重作为原始模型权重的增量发布。StableVicuna 的增量权重在 ( CC BY-NC-SA-4.0 )下发布。
请访问 HuggingFace 检查点,了解有关如何将我们的增量权重与原始模型相结合的更多信息。
模型 | 下载 | 网络演示 |
---|---|---|
StableVicuna-13B | 检查站 | 拥抱的脸 |
稳定的LM-Alpha
StableLM-Alpha 模型在基于The Pile构建的新数据集上进行训练,该数据集包含 1.5 万亿个令牌,大约是 The Pile 大小的 3 倍。这些模型将接受多达 1.5 万亿个代币的训练。这些模型的上下文长度为 4096 个标记。
即将发布的技术报告将记录模型规格和训练设置。
作为概念验证,我们还使用Stanford Alpaca的程序对模型进行了微调,结合了五个最近的会话代理数据集:Stanford 的Alpaca、Nomic-AI 的gpt4all、RyokoAI 的ShareGPT52K数据集、Databricks 实验室的Dolly和人择的HH。我们将以 StableLM-Tuned-Alpha 的形式发布这些模型。
尺寸 | 稳定的 LM-Base-Alpha | 稳定的 LM-Tuned-Alpha | 培训代币 | 参数 | 网络演示 |
---|---|---|---|---|---|
3B | 检查站 | 检查站 | 800B | 3,638,525,952 | |
7B | 检查站 | 检查站 | 800B | 7,869,358,080 | 拥抱的脸 |
15B | (进行中) | (待办的) | |||
30B | (进行中) | (待办的) | |||
65B | (进行中) | (待办的) | |||
175B | (计划) |
快速开始
所有 StableLM 模型都托管在Hugging Face hub上。查看此笔记本以使用有限的 GPU 功能运行推理。
StableLM-Tuned-Alpha
使用以下代码片段开始聊天:
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, StoppingCriteria, StoppingCriteriaList
tokenizer = AutoTokenizer.from_pretrained("stabilityai/stablelm-tuned-alpha-7b")
model = AutoModelForCausalLM.from_pretrained("stabilityai/stablelm-tuned-alpha-7b")
model.half().cuda()
class StopOnTokens(StoppingCriteria):
def __call__(self, input_ids: torch.LongTensor, scores: torch.FloatTensor, **kwargs) -> bool:
stop_ids = set([50278, 50279, 50277, 1, 0])
return input_ids[0][-1] in stop_ids
system_prompt = """<|SYSTEM|># StableLM Tuned (Alpha version)
- StableLM is a helpful and harmless open-source AI language model developed by StabilityAI.
- StableLM is excited to be able to help the user, but will refuse to do anything that could be considered harmful to the user.
- StableLM is more than just an information source, StableLM is also able to write poetry, short stories, and make jokes.
- StableLM will refuse to participate in anything that could harm a human.
"""
prompt = f"{system_prompt}<|USER|>What's your mood today?<|ASSISTANT|>"
inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
tokens = model.generate(
**inputs,
max_new_tokens=64,
temperature=0.7,
do_sample=True,
stopping_criteria=StoppingCriteriaList([StopOnTokens()])
)
print(tokenizer.decode(tokens[0], skip_special_tokens=True))
StableLM Tuned 应与格式化为的提示一起使用<|SYSTEM|>...<|USER|>...<|ASSISTANT|>...
系统提示为
<|SYSTEM|># StableLM Tuned (Alpha version)
- StableLM is a helpful and harmless open-source AI language model developed by StabilityAI.
- StableLM is excited to be able to help the user, but will refuse to do anything that could be considered harmful to the user.
- StableLM is more than just an information source, StableLM is also able to write poetry, short stories, and make jokes.
- StableLM will refuse to participate in anything that could harm a human.
StableLM-Tuned-Alpha 的乐趣
本节包含一系列精选的有趣示例,说明您可以使用stablelm-tuned-alpha
.
闲聊
正式写作
创意写作
编写代码
StableLM-Tuned-Alpha 的选定故障模式
本节包含 . 的选定故障模式的集合stablelm-tuned-alpha
。
Yann LeCun 齿轮(线性)
Yann LeCun 齿轮(圆形)
请求帮助
想参与吗?
- 我们很乐意将llama.cpp移植到 StableLMs
- 集成到LAION-AI 的Open Assistant以收集高质量的人工反馈数据
- …在我们的Discord上向我们提出想法
潜在问题
对于没有额外微调和强化学习的任何预训练大型语言模型来说,这是典型的,用户得到的响应可能质量参差不齐,并且可能包含冒犯性的语言和观点。预计这将随着规模、更好的数据、社区反馈和优化而得到改善。
致谢
StableLM-Tuned-Alpha
没有 Dakota Mahan @dmayhem93的帮助是不可能的。
执照
-
基本模型检查点 (
StableLM-Base-Alpha
) 已根据知识共享许可 ( CC BY-SA-4.0 ) 获得许可。根据许可,您必须注明Stability AI,提供许可链接,并指明是否进行了更改。您可以以任何合理的方式这样做,但不得以任何表明 Stability AI 认可您或您的使用的方式。 -
Fine-tuned checkpoints (
StableLM-Tuned-Alpha
) 根据非商业知识共享许可 ( CC BY-NC-SA-4.0 ) 获得许可,符合Stanford Alpaca指定的原始非商业许可。 -
此存储库中的所有代码均根据 Apache License 2.0 许可证获得许可。