YAYI2 模型

YAYI2 模型是一款开源大语言模型。它采用了超过 2 万亿 Tokens 的高质量、多语言语料进行预训练[1]。YAYI2-30B 是 YAYI2 模型的一个版本,它是基于 Transformer 架构的大语言模型,参数规模为 30B。该模型通过百万级指令进行微调,并借助人类反馈强化学习方法,以更好地使模型与人类价值观对齐[2]

以下是 YAYI2-30B 模型的一些细节:

  • n_layers: 64
  • n_heads: 64
  • hidden_size: 7168
  • vocab_size: 81920
  • sequence length: 4096[2]

要使用 YAYI2-30B 模型,您需要满足以下要求:

  • Python 3.8 及以上版本
  • PyTorch 2.0.1 及以上版本
  • 建议使用 CUDA 11.7 及以上版本
  • 运行 BF16 或 FP16 模型需要至少 80GB 显存(例如 1xA100)[2]

您可以使用 Hugging Face 的 Transformers 库来快速开始使用 YAYI2-30B 模型。下面是一个快速开始的示例代码:

from transformers import AutoModelForCausalLM, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("wenge-research/yayi2-30b", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("wenge-research/yayi2-30b", device_map="auto", trust_remote_code=True)

inputs = tokenizer('The winter in Beijing is', return_tensors='pt')
inputs = inputs.to('cuda')

pred = model.generate(
    **inputs,
    max_new_tokens=256,
    eos_token_id=tokenizer.eos_token_id,
    do_sample=True,
    repetition_penalty=1.2,
    temperature=0.4,
    top_k=100,
    top_p=0.8
)

print(tokenizer.decode(pred.cpu(), skip_special_tokens=True))

YAYI2-30B 模型在多个基准数据集上进行了评测,包括语言理解、学科知识、数学推理、逻辑推理和代码生成等方面的表现。与其他规模相近的开源模型相比,YAYI2-30B 模型展现出了显著的性能提升[2]

评测结果如下(部分数据集):

  • 知识理解:80.9
  • 数学:80.5
  • 逻辑推理:62.0
  • 代码生成:45.8[2]

请注意,使用 YAYI2-30B 模型和数据需要遵循雅意 YAYI2 模型社区许可协议。如果您希望将 YAYI2-30B 模型用于商业用途,请参考雅意 YAYI2 模型商用许可协议[2]


Learn more:

  1. GitHub – wenge-research/YAYI2: YAYI 2 是中科闻歌研发的新一代开源大语言模型,采用了超过 2 万亿 Tokens 的高质量、多语言语料进行预训练。(Repo for YaYi 2 Chinese LLMs)
  2. wenge-research/yayi2-30b · Hugging Face
  3. YAYI2-30B(YAYI2-30B)详细信息 | 名称、简介、使用方法,开源情况,商用授权信息 | 数据学习 (DataLearner)

Leave a Comment