VOOZH

URL: https://huggingface.co/Aratako/Llama-Gemma-2-27b-CPO_SimPO-iter2

⇱ Aratako/Llama-Gemma-2-27b-CPO_SimPO-iter2 · Hugging Face

Llama-Gemma-2-27b-CPO_SimPO-iter2

概要

google/gemma-2-27bを教師あり学習とCPO_SimPOによりInstruction TuningしたモデルであるAratako/Llama-Gemma-2-27b-CPO_SimPO-iter1に対して、 2回目のCPO_SimPOを適用したモデルです。

松尾研大規模言語モデル講座2024のコンペ用の提出モデル作成の一環として作成・公開しています。

This model is built with Llama and Qwen.

使用データセット

Aratako/iterative-dpo-data-for-SimPO-iter2

ライセンス

本モデルは学習に利用したデータの関係で以下のライセンスの影響を受けます。

META LLAMA 3.1 COMMUNITY LICENSEを継承します。
Gemma Terms of Useを継承します。
Qwen LICENSE AGREEMENTの影響を受けます。ライセンスは継承しませんが、「Built with Qwen」のような文言を記載する必要があります。

学習に関する詳細

本モデルの学習にはaxolotlを使いました。パラメータ等の学習の設定は下記の設定ファイルをご確認ください。

👁 Built with Axolotl

Downloads last month: 6

Safetensors

Model size

27B params

Tensor type

BF16

·

Model tree for Aratako/Llama-Gemma-2-27b-CPO_SimPO-iter2

Base model

google/gemma-2-27b

Finetuned

Aratako/Llama-Gemma-2-27b-SFT-trial1

Finetuned

Aratako/Llama-Gemma-2-27b-CPO_SimPO-iter1

Finetuned

(1)

this model

Finetunes

Quantizations