日本語に強い大規模言語モデルの構築

2023年10月、LLM勉強会 ※1 ※1　LLM勉強会ウェブサイト
https://llm-jp.nii.ac.jp/ （LLM-jp）は、日本語が得意な言語生成AIのための大規模言語モデル「LLM-jp-13B」を構築したと発表しました ※2 ※2　NIIニュースリリース
「130億パラメータの大規模言語モデル「LLM-jp-13B」を構築」
～NII主宰LLM勉強会（LLM-jp）の初期の成果をアカデミアや産業界の研究開発に資するために公開～
https://www.nii.ac.jp/news/release/2023/1020.html 。そのための計算環境として使われたのがmdxです。LLM勉強会を主宰する国立情報学研究所（NII）の黒橋禎夫所長と、「LLM-jp-13B」の研究開発を主導した東北大学言語AI研究センター長の鈴木潤教授に、その内容とmdxを利用した理由を伺いました。

Interviewees

黒橋禎夫氏 KUROHASHI Sadao 国立情報学研究所所長／京都大学特定教授

専門は自然言語処理、知識情報処理。工学博士。京都大学大学院工学研究科博士課程修了。同大学院情報学研究科講師、東京大学大学院情報理工学系研究科助教授、京都大学院情報学研究科教授を経て、2023年4月より現職。

鈴木潤氏 SUZUKI Jun 東北大学言語ＡＩ研究センター教授

専門は自然言語処理、機械学習。博士（工学）。日本電信電話株式会社コミュニケーション科学基礎研究所主任研究員（特別研究員）、東北大学情報科学研究科准教授、同学データ駆動科学・AI教育研究センター教授を経て、2023年10月より現職。

2023年5月に始動したLLM勉強会

アメリカのOpenAI社が言語生成AIのChatGPTをリリースしたのは、2022年11月のこと。以来日本でもChatGPTの利用者が激増しています。そもそも生成AIとは、人が与えたデータを学習し、得た知識を応用して、新たに文章や画像、音声などを作り出してくれるAI（人工知能）のことです。中でも、文章を学習させることで人が書いたような文章を生成してくれるAIが、ChatGPTに代表される言語生成AIです。

このような中、2023年5月、日本でも言語生成AIの研究を進めようと、黒橋所長が中心となってLLM勉強会を発足させました。黒橋所長は日本における言語生成AIに対する関心の高さをこう話します。「発足当初は30名弱からのスタートでしたが、参加人数は増え続け、2023年12月末現在では、自然言語処理および計算機システムの研究者を中心に、大学や研究機関、企業から800名以上が参加しています。参加する企業数も大手IT企業をはじめ50社以上にのぼります」

言語生成AIの性能向上に向けては大量のデータによる事前学習が不可欠

LLMは、Large Language Modelの頭文字を取ったもので、日本語では「大規模自然言語モデル」と呼びます。言語生成AIは、データ間の関係を表す「モデル」によって言語を生成します。モデルは、脳神経回路のような多層構造図1をしており、「ニューラルネットワーク」と呼ばれています。ニューラルネットワーク、すなわちモデルはネットワークを構成するノードと、ノード間の結びつきの強さを表すパラメータで構成されています。モデルの構築方法はいくつかありますが、主にデータ間の関係がわかっている教師データを大量に学習させることでつくられます。現在、モデルの学習方法としては、主に「深層学習（ディープラーニング）」が使われています。

図1ニューラルネットワークのイメージ

○はノードを示す。このようなネットワークにデータを学習させ、モデルを構築する。

モデルは、ニューラルネットワークの多層構造が深ければ深いほど、すなわちパラメータ数が多ければ多いほど、また、読み込ませるデータ量が多ければ多いほど、性能が高まることが経験的に知られています図2。このとき、大量のデータを使ってモデルにあらかじめ学習させておくことを「事前学習」といいます。つまり、LLMでは、自然言語に関する大量のデータを事前学習させることで、言語生成AIの性能を高めているのです。

LLMの場合、モデルが事前学習するデータは「コーパス」に格納されています。コーパスとは、自然言語の文章を構造化し大規模に集積したデータベースのことです。モデルはコーパスからデータを読み込み、事前学習したのち、チューニング・評価と呼ばれるプロセスを経て最適化されます。つまり、LLMの開発は、①コーパスの構築、②モデルの構築、③チューニング・評価という3段階で進められるのです図3。

mdxを採用した理由

さて、LLM勉強会が、日本語に強い大規模言語モデル「LLM-jp-13B」を構築しようと考えた理由は何だったのでしょうか。黒橋所長は、LLMの現状に関する課題をこう話します。「現在、言語生成AIの研究開発はアメリカが先行しています。そのため、ChatGPTなどのコーパスは、英語をベースに構築されています。しかし、ChatGPTがどのようなコーパスを使って学習しているのかはブラックボックスです。ChatGPTへの質問の回答が何に基づくものなのかは私たちにはわかりません。それにより、AIが事実に基づかない情報を生成する『ハルシネーション』と呼ばれる現象なども発生しており、問題となっています。今後、日本においても、産業や教育などあらゆる分野で言語生成AIの利活用が進むことが予想されている中、日本語に強く、かつ透明性や信頼性の高いLLMの開発が強く求められています。そこで、LLM勉強会では、日本語言語モデルの構築とLLMの動作原理の解明という2つの目的を達成するため、『LLM-jp-13B』の研究開発に着手したのです」

「LLM-jp-13B」の研究開発に当たっては、モデルに大量のデータを事前学習させる段階で、多くのGPUが不可欠でした。そこでLLM勉強会は、データ活用社会創成プラットフォームmdxを計算環境に選んだのです。

mdxを採用した経緯を、黒橋所長はこう振り返ります。「『LLM-jp-13B』を構築するための計算環境を検討していたときに、東京大学情報基盤センターの田浦健次朗センター長からmdxをご紹介いただきました。生成AIの開発にはスピード感が強く求められます。このような中、田浦センター長がmdxのGPU資源の大規模利用について関係各所への調整を迅速に進めていただき、すぐにプロジェクトを立ち上げる環境が整いました。また、民間のGPUを利用する場合に比べて、利用料金が3分の1から5分の1と安価な点も大きなポイントでした。さらに、私の専門分野は自然言語処理であって、計算機システムに関する専門知識がありませんが、田浦先生が、mdxに携わる計算機システムの研究者（以後「mdxの研究者」）との共同研究も提案してくださいました。これら3点を理由にmdxに決めました」。こうして、mdxを使った「LLM-jp-13B」の研究開発プロジェクトがスタートしました。

自然言語処理と計算機システムの専門家が共同で日本語言語モデルを構築

「LLM-jp-13B」のパラメータ数は130億個と設定されました。その点について、黒橋所長は次のように説明します。「たとえば、最新のChatGPTであるGPT-4のパラメータ数は約2兆個といわれています。それに比べれば2桁も違いますが、私たちは、まずは日本語言語モデルの初期段階として、小規模から始めることが重要であると考えました。また、コーパスに関しては日本語と英語を半々の割合にし、日本語は約5万～10万の語彙を格納することにしました。加えて、今後、大学や研究機関、企業が日本語言語モデルを開発する上で参考になるように、コーパス等を含め、すべてオープン化することとしました」

次に、計算環境についてです。mdxにはGPU演算加速ノード群が全部で40ノードあり、1ノードにつき8個のGPUが搭載されています。今回、LLM勉強会はそのうちの16ノード、つまり128個のGPUを、また、ストレージは、高速内部ストレージと大容量内部ストレージを合わせ、約100TBを利用しました図4。一方、OSに関しては、mdxが提供している仮想マシンテンプレート（Ubuntu-2204-server）を利用しました。

図4「LLM-jp-13B」の構築に使用されたmdxの計算資源（鈴木教授の講演スライドより）ブルーの吹き出し部分を使用した。

「LLM-jp-13B」のモデル学習を主導した鈴木教授は、開発当初の様子を次のように振り返ります。「黒橋所長も私も専門分野が自然言語処理であり、mdxに関しては素人です。特にネットワークをどのように設定すれば、最適に分散並列処理を実行できるかはまったくわかりませんでした。そのため、ネットワークやストレージなどmdxのシステム環境構築に関してはすべてmdxの研究者に担当していただき、私たちはコーパスの構築やモデルの事前学習等に専念しました」

とはいえ、mdxの研究者にとっても、LLMの分散並列処理は初めての経験でした。たとえば、mdx内での通信が多いのであれば、ネットワークの設定を工夫する必要があります。また、データの書き込みが頻繁に発生するのであれば、利用可能なストレージの容量を増やすなどの対処が必要です。アプリケーションによって、計算機システムの設定内容は大きく異なるわけです。「そのため、実際に開発したLLMを動かしてみては出力結果を確認し、その上でLLMのパラメータを変更したり、ネットワークの設定を変更したりと、LLMの研究者と計算機システムの研究者が協力し合い、試行錯誤を繰り返しました。その結果、ようやくmdx上に『LLM-jp-13B』を完成させることができました」（鈴木教授）

黒橋所長もこう強調します。「『LLM-jp-13B』の構築にmdxを利用して本当に良かったと思ったことは、鈴木先生がおっしゃるように、単にmdxを利用させていただいただけでなく、mdxの研究者の方々が、計算機システムの設定も重要な研究開発テーマと位置づけ、まさに自然言語処理の専門家と計算機システムの専門家がスクラムを組んで、日本語言語モデルを構築したことにあります。この点が今回のプロジェクトの最も大きな意義であったといえるでしょう」

一方で、mdxについて改善してほしい点について、鈴木教授はこのように語ります。「今回は、mdxの研究者の方々のお力添えにより、システムのセットアップがうまくいきましたが、これからも新たなアプリケーションを開発するたびにお任せするわけにはいきません。かといって、自然言語処理の研究者が計算機システムの設定を習得するのはハードルが高いですし、手間と時間もかかります。そのため、今後は、たとえば、アプリケーションの種類を選択すると、それに応じて、mdxの方で最適なシステム環境を自動的にセットアップしてくれるようなサービスを提供していただけるとありがたいと感じています」

日本人の感覚にマッチした言語生成AIを目指す

今回、mdxを使うことでどのような成果が上がったのでしょうか。LLM勉強会の2つの目的の1つであるLLMの動作原理の解明について、黒橋所長は成果を次のように語ります。「LLMの動作原理の解明に向けては、モデルがどのコーパスを参照しているのがわかるようにしました。その結果、モデルは単にコーパスのデータをそのまま引用しているわけではないことがわかりました。つまり、私たちが本を読んで内容を自分なりに咀嚼して要点をまとめるような作業をモデルも行っていたのです。これにより、言語生成AIが何を根拠に回答しているのかなどがわかるようになってきました。この成果は、LLMの透明性や信頼性の確保に向けた大きな一歩になったと自負しています」

一方で、もう1つの目的である日本語言語モデルの構築に関しては、初期モデルである「LLM-jp-13B」で得た経験や知識をベースに、今後バージョンアップを図っていくといいます。具体的には、すでに、産業技術総合研究所のAIに特化したスーパーコンピュータ「ABCI」などを使い、ChatGPTのGPT-3に匹敵する1750億のパラメータ数をもつ日本語言語モデルの構築に着手しているとのことです。

「ChatGPTはパラメータ数が多いので、現在のところ、日本語にもそれなりに対応できていますが、日本人は、『遠回しな表現をする』、『ニュアンスで伝える』、『場を読ませる』など独自の文化をもっています。そのため、ChatGPTは受け答えが直接的だと感じる日本人も少なくないようです。今回、『LLM-jp-13B』の構築を通して、事前学習に用いるデータの内容が言語生成AIの性能にとって非常に重要であるということを再確認できました。そのため、今後は日本語の事前学習を強化することで、日本人の感覚にマッチした言語生成AIの1日も早い開発を目指したいと思っています」と鈴木教授は語ります。

黒橋所長も、「NIIでは、今後ますますLLMの研究開発に注力していく計画です。これまでと変わらず、mdxの研究者の皆様のご支援も受けながら、透明性や信頼性が高く、安心・安全な日本語に強いLLMの研究開発に尽力して参ります」と意気込みます。今後の成果に期待が高まります。

取材・構成：山田久美
撮影：盛孝大

※1 LLM勉強会ウェブサイト
https://llm-jp.nii.ac.jp/

※2 NIIニュースリリース
「130億パラメータの大規模言語モデル「LLM-jp-13B」を構築」
～NII主宰LLM勉強会（LLM-jp）の初期の成果をアカデミアや産業界の研究開発に資するために公開～
https://www.nii.ac.jp/news/release/2023/1020.html

Interviewees

2023年5月に始動したLLM勉強会

言語生成AIの性能向上に向けては大量のデータによる事前学習が不可欠

図1ニューラルネットワークのイメージ

図2ニューラル言語モデルのスケール則（鈴木教授の講演スライドより）

図3LLM構築の3段階（鈴木教授の講演スライドを改変）

mdxを採用した理由

自然言語処理と計算機システムの専門家が共同で日本語言語モデルを構築

図4「LLM-jp-13B」の構築に使用されたmdxの計算資源（鈴木教授の講演スライドより）ブルーの吹き出し部分を使用した。

日本人の感覚にマッチした言語生成AIを目指す

日本語に強い大規模言語モデルの構築

Interviewees

2023年5月に始動したLLM勉強会

言語生成AIの性能向上に向けては大量のデータによる事前学習が不可欠

図1ニューラルネットワークのイメージ

図2ニューラル言語モデルのスケール則（鈴木教授の講演スライドより）

図3LLM構築の3段階（鈴木教授の講演スライドを改変）

mdxを採用した理由

自然言語処理と計算機システムの専門家が共同で日本語言語モデルを構築

図4「LLM-jp-13B」の構築に使用されたmdxの計算資源（鈴木教授の講演スライドより） ブルーの吹き出し部分を使用した。

日本人の感覚にマッチした言語生成AIを目指す

図4「LLM-jp-13B」の構築に使用されたmdxの計算資源（鈴木教授の講演スライドより）ブルーの吹き出し部分を使用した。