東京工業大学 学術国際情報センター(GSIC)と情報・システム研究機構 国立情報学研究所(NII)は、2024年4月16日、日本語版の大規模言語モデル(LLM)[用語1]の研究開発において連携・協力することを目的とした協定を締結しました。
連携の背景
LLMはSociety 5.0[用語2]を駆動する基盤技術として社会全体のあり方を変える革新的な技術であり、その活用は既にあらゆる産業に波及しています。一方で、LLMは、個人情報の取扱い、著作権の保護、信頼性の確保等の観点から国民生活のさまざまな場面で課題が生じており、LLMのメカニズムの解明による透明性の向上や、安全で信頼できるAIの実現が喫緊の課題となっています。
このような社会背景の中、NIIでは2024年度、新たに大規模言語モデル研究開発センターを設置し、理解・生成の両面で日本語性能の高いLLMの構築と、生成AIの透明性・信頼性確保に向けた研究開発を実施する体制を整えました。
また、GSICでは2010年に世界で初めてGPU[用語3]をスーパーコンピュータに導入し、これまで多くの利用者に使いやすいGPU計算環境を整備してきました。2024年4月には、NVIDIA社製H100 GPU 960台からなる国内最大級のGPUスパコンTSUBAME[用語4] 4.0の稼働を開始しました。
LLMの開発には膨大な計算資源の確保が必要です。今回の協定締結により、NIIにおいて実施するLLM構築に必要となる学習データの収集や評価、モデル学習をスーパーコンピュータ上で安定的、効率的に実施することが可能となり、国産LLMの構築と社会実装の加速が期待されます。
協定の内容
- 1.
- スーパーコンピュータを用いた大規模言語モデルの効率的な学習に関する研究
- 2.
- 日本語の大規模言語モデルの学習に必要なデータの収集・評価
- 3.
- 日本語性能の高い大規模言語モデルの学習
本協定のもと、GSICとNIIはスーパーコンピュータTSUBAME4.0の活用により、LLMの研究を協力して推進し、オープンかつ日本語に強いLLMの構築を通じて、生成AIの透明性・信頼性の向上と社会実装を加速化させる取り組みを行っていきます。
用語説明
[用語1] 大規模言語モデル(LLM) : テキストの現れやすさをニューラルネットによりモデル化したもので、与えられた文脈(問いかけ)に対して続くテキスト(応答)を予測・生成できる。
[用語2] Society 5.0 : サイバー空間(仮想空間)とフィジカル空間(現実空間)を高度に融合させたシステムにより、経済発展と社会的課題の解決を両立する、新たな未来社会のこと。
[用語3] GPU : Graphics Processing Unitの略で、元は描画専用の演算装置として開発されていたが、近年は深層学習の高速化に用いられる。
[用語4] TSUBAME : 東工大のスーパーコンピュータシリーズに代々つけられている名称。元はTokyo-tech Supercomputer and UBiquitously Accessible Mass-storage Environmentの略。最新版はTSUBAME 4.0であり、2024年4月から稼働を開始した。
関連リンク
- プレスリリース 東工大と国立情報学研究所が大規模言語モデルの研究開発における連携協定を締結 —⽣成AIモデルの透明性・信頼性の確保と社会実装の加速化への取り組み —
- 東工大のスパコンTSUBAME4.0が来春稼働開始|東工大ニュース
- 東工大TSUBAME3.0と産総研AAICが省エネ性能スパコンランキングで世界1位・3位を獲得 | 東工大ニュース
- スパコン「TSUBAME」が世界の最前線を走り続ける理由 — 松岡聡|研究ストーリー|研究
- 東京工業大学 学術国際情報センター(GSIC)
- 国立情報学研究所(NII)
問い合わせ先(本協定による教育・研究に関すること)
東京工業大学 学術国際情報センター
Tel 03-5734-2087 / Fax 03-5734-3198
取材申し込み先
東京工業大学 総務部 広報課
Email media@jim.titech.ac.jp
Tel 03-5734-2975 / Fax 03-5734-3661
情報・システム研究機構 国⽴情報学研究所
総務部 企画課 広報チーム
Email media@nii.ac.jp
Tel 03-4212-2164