Llama-Gemma-2-27b-CPO_SimPO-iter1
概要
google/gemma-2-27bを教師あり学習によりInstruction TuningしたモデルであるAratako/Llama-Gemma-2-27b-SFT-trial1に対して、 CPO_SimPOを適用したモデルです。
松尾研大規模言語モデル講座2024のコンペ用の提出モデル作成の一環として作成・公開しています。
This model is built with Llama and Qwen.
使用データセット
- Aratako/HelpSteer2-Preferences-formatted
- Aratako/magpie-sft-v1.0-dpo-judged
- Aratako/aya-ja-evol-instruct-calm3-dpo-masked-formatted
ライセンス
本モデルは学習に利用したデータの関係で以下のライセンスの影響を受けます。
- META LLAMA 3.1 COMMUNITY LICENSEを継承します。
- Gemma Terms of Useを継承します。
- Qwen LICENSE AGREEMENTの影響を受けます。ライセンスは継承しませんが、「Built with Qwen」のような文言を記載する必要があります。
学習に関する詳細
本モデルの学習にはaxolotlを使いました。パラメータ等の学習の設定は下記の設定ファイルをご確認ください。
- Downloads last month
- 4
Safetensors
Model size
27B params
Tensor type
BF16
·
