VOOZH about

URL: https://zenn.dev/matsuolab/articles/bbd855bf933030

⇱ 日本語トークナイザーの作り方(トークナイザー後編)


👁 Image
東大松尾・岩澤研究室 | LLM開発 プロジェクト[GENIAC]Publicationへの投稿
llm
大規模言語モデル
GENIAC
松尾研
tech

はじめに

これまで、松尾・岩澤研究室の投稿では、何度かトークナイザーについて触れています。
前回(トークナイザー前編)は、日本語トークナイザーを準備する意味について解説しましたが、今回は実際にトークナイザーをどのように作成したか、特に

  • Team JINIAC(phase1)におけるtokenizerで工夫した点
  • Phase2で工夫したかった事
    について書きたいと思います。

なお、一連の手順については、トークナイザー構築のナレッジとチームの取り組み紹介【Team Kuma】ですでに詳しく述べられています。参考にされてください。

トークナイザー構築のパイプライン

データ取得について

ここでは、事前学習に使用するデータを全量使用するべきかどうか議論になりました。
確かに使用データを全量使用することで、事前学習で未知語が発生するリスクを減らすことができます。しかし、sentencepieceのbyte_fallbackオプションをTrueにすることで未知語対応はできること、低品質なデータセットに多く含まれる語彙をなるべく排除したかったことから、日本語と英語についてはwikipediaをベースにすることにしました。
一方、ヒンディー語については、そもそもwikipediaの情報量が不足していることから、学習データセットを全量使用して作成することにしました。

未知語を間引く(phase1,2での工夫)

日本語のwikipediaをベースに構築するときに、解決しておきたいことがありました。それは、ほとんど使用されないであろう単語が含まれる文章は、事前に省いておきたいということです。
では、どうやって「ほとんど使用されない」単語を特定すればよいでしょう?
今回、形態素解析器に用いられている辞書を使い、そこに登録されていない語彙についてはトークナイザー構築用のデータセットから間引くことにしました。
使用する辞書については、mecab-ipadic-NEologdJuman++で使用されている辞書、Unidicを比較した結果、比較的最近まで更新が行われているUnidicを使用する事にしました。
また、未知語であることの判定は、fugashiを用いたときに、品詞を返してこない語としました。

形態素解析を使用する(phase1のみ)

前回(トークナイザー前編)の投稿でも述べた通り、形態素解析を使用するかどうかは、メリットとデメリットが存在します。
結局、phase1では、日本語らしい区切りで学習することを優先し、形態素解析を使用しました。また、phase2では、学習速度を優先し、形態素解析は使用しませんでした。

語彙数をいくつにするか?(事前調査)

HuggingFaceの解説では、

大きな語彙サイズは、モデルに非常に大きな埋め込み行列を入力および出力レイヤーとして持たせることを強制し、メモリおよび時間の複雑さの増加を引き起こします。一般的に、トランスフォーマーモデルは、特に単一の言語で事前トレーニングされた場合、50,000を超える語彙サイズを持つことはほとんどありません。

という記述があります。また、個人的な問題意識としては、BERT系のトークナイザーの語彙サイズは、これまで32,000である事が多く、64ビットCPUにおいて、メモリの効率的な利用を考えると、64の倍数である32,768を目安にすることは理解できます。しかし、メモリのページングを考慮すると、65,535への拡張は影響が少ないのではないかと考えました。そこで、語彙数32,000、48,000、60,000の3つのトークナイザーを作成し、事前学習速度の比較をしてみました。

実験概要

  • 入力データセット 青空文庫+法律データ+日本語wikipedia(フィルタ済)
  • 使用モデル GPT-3 Small 125M(松尾・岩澤研究室から提供いただいた「標準コード」を改変して使用)
  • 使用GPU H100 2GPU(1node)
  • 各語彙ごとに6時間処理を実施し動作確認
  • 実験での確認ポイント
    • 学習速度(elapsed_ms_per_iteration,tflops)
    • tflops
    • loss
    • GPU Memory Allocated (%)

実験結果(概要)

  • 学習速度は、32,000に比べ48,000と60,000は12から15%ほど遅い
  • loss値に顕著な違いは見られない
    • <参考>6時間経過時のlm loss{ 32000 : 2.75, 48000 : 2.842, 60000 : 2.877 }
      👁 loss/lm loss
  • メモリ確保に影響はなかった。
    👁 GPU Memory Allocated (%)

以上の実験結果から、語彙数は65,000まで増やすことを想定することにしました。

言語ごとの語彙数配分(phase1での工夫)

パイプラインにある通り、今回は言語ごとの語彙数を決めてマージをするという手法をとりました。
この方法では、ある程度自由に言語ごとの語彙数配分を決定することができます。そこで、英語・日本語・ヒンディー語の語彙数を検討することにしました。

  • <phase1での結論>「TOEIC満点レベルの英語を理解した大学生」レベル+生活レベルのヒンディー語の語彙数を目指す
    • 日本語(43,000語)
       国文学の分野では、日本人の理解語彙は、大学生で43,000~45,000語という研究があるので、これを参考にしました。(大学生の日本語の使用語彙、理解語彙
    • 英語(13,000語)
       多くのTOEIC対策のサイトでは、満点を取るために必要な単語数について紹介されています。その中で、最も多い単語数を提示していた、13,000語を参考にしました。
    • ヒンディー語(7,000語)
       あまり情報は多くないのですが、「ヒンディー語の語彙本7000語」という書籍が販売されていることから、生活レベルのヒンディー語を7,000語と設定しました。

phase2で実現したかったこと

  • <phase2での結論>「TOEIC満点レベルの英語を理解した一般人」レベルの語彙数を目指す
    結果的に使用されなかった38Bモデル(38BモデルのLoss spikeについての反省もご覧ください。)では、phase1を改良したトークナイザーを投入していました。ヒンディー語を投入しないため、ヒンディー語用に確保していた7,000語の語彙を日本語に振り向けることで、日本語50,000語+英語13,000語のトークナイザーになりました。
    Command R+はトークナイザーもすごかったで実験されていた、トークン数確認のプログラムで比較したところ、
トークナイザー トークン数
LLaMA2 809
OpenAI 731
JINIAC 540
LLaMA3 516
ELYZA 474
tanuki 8×8B 450
llm-jp 434
Command R+ 410
Aya 393
phase2-38B 329

と良い圧縮率を示していました。日本語に強いトークナイザーとしてお披露目したかったのですが、私自身さらにスキルアップして、次の機会を目指したいと考えています。

👁 東大松尾・岩澤研究室 | LLM開発 プロジェクト[GENIAC]

東京大学 松尾・岩澤研究室が運営する松尾研LLMコミュニティのLLM開発プロジェクト[GENIAC] の開発記録、情報発信になります。 各種リンクはこちら linktr.ee/matsuolab_community

Discussion

👁 Image