無償LLM 日本語能力ベンチマークまとめ(23/11/15)

👁 shi3z

shi3z

2023年10月31日 15:45

日々新しいオープンソースのLLMまたはllama2のような無償使用可能なLLMが出てくるので定期的にベンチマークをとって性能評価をまとめておきます。新しい日本語対応LLMが出るたびに更新していきます。

23/11/15

Japanese-MT-Bench

RWKV-V5-World-1.5Bを追加。他の3Bモデルと遜色ない性能

👁 Image

RWKV-V5-World-v2-3Bを追加

👁 Image

もちろん1.5Bよりは高性能だが倍の性能というわけではなさそう

23/11/9

Japanese-MT-Bench

GPT-4-Turbo-1106のベンチマークを追加。コーディング能力が大幅に向上

👁 Image

23/11/7

Japanese-MT-Bench

GPT-3.5-Turbo-1106がリリースされたので追加

👁 Image

23/11/5

Japanese-MT-Bench

OpenCALM2-7B-Chatがfloat16で計測していたので、bfloat16で再度計算
ELYZAに匹敵する高性能になった上、32Kトークンに対応と大幅に機能が強化された

👁 Image

OpenCALM2はELYZA-7Bに匹敵する性能でかつ32Kトークン対応

23/11/4

Japanese-MT-Bench

OpenCALM2-7B-Chatを追加

👁 Image

23/11/3

Japanese-MT-Bench

Japanese-StableLM-Instruct-ja_vocab_beta-7Bを追加(オレンジ色)
OpenCALM2は現在テスト中

👁 Image

23/11/2

Japanese-MT-Bench

👁 Image

Zepher-7b-betaを追加しました。

23/10/31

Japanese-MT-Bench

Stability.AiによるJapanese-MT-Benchをベースに各種LLMの日本語能力の比較を行いました。使用したのはこちらにあるquestion_full.jsonlとjudge_ja_prompts.jsonlです。角LLMに共通の質問に答えさせ、その結果をGPT-4が採点しています(GPT-4が採点するのでその分お金がかかっています)。

👁 Image

(c310) memeplex@memeplex-Super-Server:~/media/git/FastChat/fastchat/llm_judge$ python show_result.py --bench-name japanese_mt_bench
Mode: single
Input file: data/japanese_mt_bench/model_judgment/gpt-4_single.jsonl

########## First turn ##########
model turn 
gpt-3.5-turbo 1 8.412500
ELYZA-japanese-Llama-2-7b-fast-instruct 1 4.862500
ja-stablelm-instruct-gamma-7b 1 4.012500
japanese-stablelm-instruct-alpha-7b 1 2.742857
ja-stablelm-instruct-3b-4e1t 1 2.237500
Mistral-7B-OpenOrca-ja 1 2.231250
youri-7b-chat 1 2.000000
Mistral-7B-Instruct-v0.1 1 1.775000
llm-jp-13b-instruct-full-jaster-dolly-oasst-v1.0 1 1.312500

10/31時点での所見

Elyzaが頭ひとつ抜けた性能。Rinnaの新しいマルチターン対応LLMであるyouri-7b-chatはあまり性能が発揮できていない模様。GPT-3.5-turbo以外は特にライティングとロールプレイが弱いようです。

URL: https://note.com/shi3zblog/n/n6b2ac5874021