Voozh

機械学習

llm

Fine-tuning

tech

この記事は「LLM・LLM活用 Advent Calendar 2024」の2日目の記事になります！
(間に合ってよかった。。)
https://qiita.com/advent-calendar/2024/large-language-model

記事を書くに至った経緯

性能がいいモデルがどんどん公開されて嬉しい、けど皆「ですます口調」でちょっと味気ない
指示性能もいいのでプロンプトに口調の指示を書けばそれっぽく話してくれる
でも、なんか言わせてる感すごくてちょっと嫌だ。。
じゃあファインチューニングして重みから改造しちゃお！

すること

サンプルの質問(5個)に対して、求める口調での回答を手作業で作成
ファインチューニングしたいモデル(以下、被FTモデル)を選ぶ
指示に従って口調を変換できるモデル(以下、言い換えモデル)を選ぶ
事前に用意した1000件の質問に対し被FTモデルで回答を生成
1を基にFew-Shotプロンプトを作成し、言い換えモデルで4の1000件の回答を言い換え
5を学習データとして被FTモデルをLoRAを用いてSFT
W&B Sweepsを使って学習を見守りつつハイパーパラメータ探索
できた一番良いAdapterを被FTモデルにマージしてGGUF変換してllama.cppで推論

各ステップの詳細

1. 口調サンプルの作成

これは単純にどんな口調にしたいのかという部分です。
今回はフランクで絵文字を使うような口調にしていきたいと思います。

{
 "input": "富士山の高さは？",
 "expected": "富士山の高さは3,776mだよ！すごいよね！🤗"
}

2. ファインチューニングするモデルの選択

こちらもそのままです。
今回の選択基準は次の2つです。

VRAM16GBで推論、学習ができること(ローカルPCがRTX4060Ti16GBのため)
ライセンスがApache-2.0、MIT、CC-○○(NCは問わない)であること

Nejumi LLMリーダーボード3などで探したところ、llm-jp/llm-jp-3-3.7b-instructが良さそうでしたので、こちらで進めます。

3. 口調を言い換えできるモデルの選択

なぜモデルを2つに分けるのかというと、今回のハード要件的にモデルを1つだけにしてデータ生成までさせると、出力フォーマットを上手く守れなかったり、口調を反映できていなかったりしたためです。

推論だけであればVRAM16GBならcontext_length=2048でgemma2-27BのIQ4_XSが動きますし、時間をかけられるのならQwen2.5-32BをCPUで動かすこともできます。(恐らく今回のケースだと丸二日くらいでいけそうだった)

ということで、被FTモデルはLoRAを使ってVRAMに載る最大サイズのモデルを、言い換えモデルはCPU推論も含めて推論できる一番指示性能の高いモデルを選ぶことにしました。
今回はgoogle/gemma-2-27b-itのIQ4_XSを選択しました。

4. 被FTモデルでの素データ生成

今回の学習用データの元となる1000件のデータはkunishou/databricks-dolly-15k-jaよりランダムに抽出しました。

それなら、データセットのoutputをそのまま言い換えればいいのでは？と思ったのですが、「データセットoutputを言い換えパターン」と「一度被FTモデルで回答を生成して言い換えするパターン」では、学習時のlossの始まりがそれぞれ2.1と1.75で差がありました。

今回は口調を変更するという比較的変更要素が少ない(と思われる)学習のため、いたずらにlossを高いところから始めるよりも低いほうがいいだろうと思い後者を取っています。

5. 言い換えモデルで口調を反映

1で作成した数件のサンプルをFew-Shotとして与えて、4で生成したデータを言い換えていきます。
プロンプトは次のようにしています。

以下に質問と回答の例が5つあります。それぞれの回答の口調に注意してください。
これらを参考にして、新しい回答を同じ口調に修正してください。
修正する際は元の意味や文脈を変えないようにしてください。
修正した回答は出力フォーマットに従って出力してください。

---

**例1**
**質問:** 富士山の高さは？
**回答:** 富士山の高さは3,776mだよ！すごいよね！🤗

---

**例2**
**質問:** ...
**回答:** ...

---

**例3**
**質問:** ...
**回答:** ...

---

**例4**
**質問:** ...
**回答:** ...

---

**例5**
**質問:** ...
**回答:** ...

---

**質問:** ポテトチップスの袋は、なぜ開封後に古くなるのでしょうか？
**新しい回答:** 

---

出力フォーマット

{
 **新しい回答:** 
}

6&7. LoRAを用いた学習(W&B Sweepsでハイパーパラメータ探索)

モデルとデータができたので学習に入っていきます。

みなさんご存じの通り、7Bや8Bといった今日では小規模と言われるモデルでもフルパラメータチューニングをしようとするとA100やH100といった超ハイエンドなハードを必要とします。

そのため、ある程度の性能を持ったモデルをファインチューニングするとなるとLoRAなどの学習コストを下げる工夫をすることがスタンダードになってきています。
(とはいえLoRAでは新たな概念の獲得は難しいとも言われておりパフォーマンスは低下する可能性も)

今回はVRAMが16GBという制約なので、3B～4Bのモデルを4bitでロードして、かつLoRAで学習パラメータを減らして学習していくことにしました。
RTX3090やRTX4090などを持たれているGPUリッチな方はCohereForAI/aya-expanse-8bの4bitロード&QとVをターゲットで22.3GBでしたのでどうぞ。(何が)

スクリプトは次のようにしています。

線形層の名前の抽出は下記を参考にしています。
https://note.com/npaka/n/na506c63b8cc9

本当はLoraConfigもハイパーパラメータの探索をしたかったのですが、どうやらこの方法ではまだtransformersライブラリで対応されていない様子。
https://github.com/huggingface/transformers/issues/29391

ちなみに今回のケースでのVRAM使用量は15.1GBでした。結構ぎりぎり。
1つのrunにかかった時間は数十分です。1日～2日くらい回せばよさげなパラメータが出てくるかも。

8. Adapterマージ&GGUF変換&llama.cpp推論

ここからはほとんどllama.cppの説明になりますので手短に行きます。

まず作成したLoRA Adapterを学習に使用したモデルにマージします。

from peft import PeftModel
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

name = "llm-jp/llm-jp-3-3.7b-instruct"
tokenizer = AutoTokenizer.from_pretrained(name)

model = AutoModelForCausalLM.from_pretrained(name, device_map="cpu", torch_dtype=torch.float16)

peft_name = "./output/run-74exhbi2/checkpoint-100"
model = PeftModel.from_pretrained(
 model,
 peft_name,
 device_map="cpu",
)
model.eval()

merged_model = model.merge_and_unload()
merged_model.save_pretrained("./merged_model")
tokenizer.save_pretrained("./merged_model")

重みをロードしてそれを保存するだけなのでRAMを使用しています。
以下の記事を参考にさせていただきました。
https://aipracticecafe.site/detail/7

次にllama.cppでGGUFに変換、量子化して推論していきます。

# llama.cppをクローンしてビルド(変換にGPUは不要ですが、推論で必要になるので)
git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
cmake -B build -DGGML_CUDA=ON
cmake --build build --config Release -j8

# pythonの仮想環境を作ってpip install
python -m venv --prompt . .venv
source ./.venv/bin/activate
pip install -r requirements/requirements-convert_hf_to_gguf.txt

# GGUF変換
python convert_hf_to_gguf.py ../merged_model --outfile ../model.gguf --outtype f16

# 量子化
./build/bin/llama-quantize ../model.gguf ../model-Q4_K_M.gguf Q4_K_M

# 推論(Server)
./build/bin/llama-server -m ../model-Q4_K_M.gguf -c 4096 -n 1024 --ngl 29

推論結果はこちら

### 指示:
もうすぐクリスマスですね。

### 応答:
クリスマス、楽しみだね！🎄✨ サンタさんに何お願いしようか考えてるのかな？😊

まとめ

何番煎じかわかりませんが、LoRAを用いたSFTで口調を調整してみました。
もう少し詰められた部分もあるので、今後も引き続きブラッシュアップしていきたいと思います。

気が向けばUIつけて使いやすいようにして公開するかも？
その際はまた記事を書きます！

読んでいただきありがとうございました！

Discussion

👁 Image

URL: https://zenn.dev/yuki127/articles/93bef0e88c0077

⇱ LLMのプロンプトで口調を指示すると言わせてる感があるのでファインチューニングする