GPT-4を使った化学研究の課題と展望に関する研究化学研究におけるAIの活用範囲を検討

要点

OpenAIの大規模言語モデルGPT-4の化学研究への適用可能性について検証
種々のベンチマークタスクに対する応答や課題を評価
AIを活用した新しい化学研究方法やプロセスの創出に向けた展望を提示

概要

東京工業大学物質理工学院材料系の畠山歓助教と早川晃鏡教授らの研究チームは、Open AIが開発した大規模言語モデルであるGPT-4を化学研究のモデルタスクに適用し、その潜在能力や課題を検証した。

化学事象の認識・分析・予測・計画の4領域でのベンチマークタスクでの検証の結果､GPT-4は化学研究における種々の作業に対して、有用な知識や洞察を効果的に提供しうることが示された。さらに、その能力が実験操作を行うロボットアームの制御などの研究にも応用可能であることが確認された。しかしながら、先端知識の不足や情報の認識エラーなどの問題も確認され、これらの克服が今後の研究課題として明らかになった。

今後、AIと化学研究の連携がさらに進めば、新しい手法やプロセスの開発が促され、化学・材料研究の加速が期待される。

本研究成果は、東京工業大学物質理工学院材料系の畠山歓助教、難波江裕太准教授、早川晃鏡教授、筑波大学の五十嵐康彦准教授らによって行われ、10月9日付の「Science and Technology of Advanced Materials」にオンライン掲載された。

背景

2023年の3月にOpenAIが開発した大規模言語モデルGenerative Pre-trained Transformer 4（GPT-4）が一般公開され、人工知能（AI）への注目が急激に高まっている。このモデルは多岐にわたる知識を持つだけでなく、多彩なタスクの実行能力も示しており、人間と同等以上の知識や認識力を持つことが確認されている。また、スケーリング則^[用語1]やムーアの法則^[用語2]のもと、大規模言語モデルはさらなる性能向上を果たすことが期待され、諸分野での応用が見込まれている。

こうした背景を受け、大規模言語モデルが諸領域で、今後どのような影響を与えうるのか、そして解決すべきタスクが何であるかについて、俯瞰的な視点から検証する作業が喫緊の課題となっている。化学・材料分野も例外ではなく、従来から研究されてきたデータ科学手法（ケモインフォマティクス､マテリアルズ・インフォマティクス^[用語3]）との連携法や解くべきタスクを、先端の研究知見も踏まえつつ整理する必要があった。

研究成果

著者らは最近の研究において、GPT-4が有する化学知識を活用することで、従来法よりも高性能な物性予測の機械学習モデルを構築可能な事例を報告した（Digital Discovery, 2023）。本研究では化学研究、特に有機材料分野に焦点を当てながら、より広い視点からGPT-4の能力を検証した。化学事象の認識・分析・予測・計画の4領域でベンチマークタスクを推進した結果、GPT-4は、原理的には化学分野における種々のタスクをサポート可能であり、言語モデルに特有の解釈性や汎用性が大きな強みになることが分かった（図1）。

Image may be NSFW.
Clik here to view. 図1. GPT-4が化学研究で果たせる役割の例とベンチマーク結果。最右列がベンチマーク。色付きで表記されるタスクは回答に一部成功したもの、灰色のタスクは回答が困難であったものを表す。

図1.: GPT-4が化学研究で果たせる役割の例とベンチマーク結果。
最右列がベンチマーク。色付きで表記されるタスクは回答に一部成功したもの、灰色のタスクは回答が困難であったものを表す。

化学事象の認識

GPT-4は種々の化合物の物性データや特徴に関する知識データを有しており、大学院レベルの問題にも回答可能であった。物質の分子構造もIUPAC命名法やSMILES記法^[用語4]などを通して一部認識できた。典型的な化学反応の種類やメカニズムを認識したり、反応条件や生成物に関する質問にも迅速に対応したりすることができた。一方で複雑な分子構造の認識や、先端レベルの化学反応においては誤答が目立った。

分析や予測

例えば特定の分子が対照物よりも高い物性値（例：酸化還元電位）を持つ理由を、官能基の有無と関連付けて説明できた。さらに未知の化合物の物性を、GPT-4が持つ化学知識に基づいて理由付きで予測できた（図2）。また、数件程度の小さなデータベースからでも構造―物性相関の予測モデルを構築できる事例があることが分かった。これは、言語モデルが化学的な背景知識に基づいて推論を行えるためである。

Image may be NSFW.
Clik here to view. 図2. 上: 化合物の酸化還元電位の違いの理由を尋ねるプロンプト※と回答の抜粋。下: 分子構造と酸化還元電位の序列。（※GPT-4にはテキストデータのみを与えた）

図2.: 上: 化合物の酸化還元電位の違いの理由を尋ねるプロンプト※と回答の抜粋。
下: 分子構造と酸化還元電位の序列。
（※GPT-4にはテキストデータのみを与えた）

計画

モデル反応系において、所望の収率を得るために必要な化合物の仕込み量や反応時間などを提案できた。例えばGPT-4は与えられた化学反応に基づいて､「反応時間が長すぎると望ましくない副反応が進行するので、少し早めに反応を終了する」という判断を下すことができた。一方、従来の化学知識を持たない非言語型のモデルにはその能力がないため、探索の初期段階では完全にランダムな提案しかできなかった。

また、GPT-4は自然言語での指示をもとに、実験操作を行うロボットアームの制御プログラムを出力できた（図3）。具体的な実験手順や反応条件の最適化に関する提案も可能で、実験の効率化や成功確率の向上に貢献する可能性が示された。

Image may be NSFW.
Clik here to view. 図3. 自然言語による実験指示をGPT-4が解釈し､プログラムコードを出力する例。

図3.: 自然言語による実験指示をGPT-4が解釈し､プログラムコードを出力する例。

実践的な運用に向けた課題も明らかになりつつある。GPT-4は学術論文レベルの先端知識をほとんど持ち合わせていなかったことに加え、一部のタスクでは物性の予測誤差の問題などが顕在化している。解決策として、今後は専門知識に特化した言語モデルの構築や既存のインフォマティクス手法との融合が必要である。

社会的インパクト

GPT-4のような高性能な大規模言語モデルを化学分野へ応用することで、研究開発の業務を効率化できる可能性がある。また、AIが持つ膨大な知識と推論能力を活用すれば、未解明の問題や現象に対して新しい示唆を得られることが期待される。

今後の展開

本研究の成果を受け、最先端の化学研究や科学知識にも適合したモデルの開発に取り組み始めている。さらに、自動実験のためのロボットアームの制御など、化学研究を幅広くサポートするための大規模言語モデルシステムの構築も検討中である。

付記

本研究は、日本学術振興会科学研究費助成事業基盤研究（B）「教師無し深層学習による革新有機材料の自動探索」代表：畠山歓（21H02017）、同新学術領域研究（研究領域提案型）「特異的作用場としての芳香族高分子による塩の非晶・超イオン伝導化」代表：畠山歓（22H04623）、科学技術振興機構（JST）創発的研究支援事業「プロセスに強いMIの創出と複合機能材料での実践」代表：畠山歓（JPMJFR213V）、同戦略的創造研究推進事業（CREST）「科学者の能力を拡張する階層的自律探索手法による新材料の創製」五十嵐康彦（JPMJCR21O1）の支援を受けて行われた。

用語説明

[用語1] スケーリング則 : 大規模言語モデルの性能がモデルのサイズや訓練データ、計算資源が増加するにつれて一貫して向上する傾向を示す経験則を指す。モデルが大きくなればなるほど、より多くのタスクで高い性能を達成する可能性が高まる。

[用語2] ムーアの法則 : 集積回路のトランジスタ数が約2年ごとに倍増するという経験則を指す。これにより、コンピュータの処理能力も約2年ごとに倍増するとされる。スケーリング則とムーアの法則を鑑みると、今後も継続的に大規模言語モデルが性能向上することが見込まれる。

[用語3] ケモインフォマティクス､マテリアルズ・インフォマティクス : 化学や材料科学をデータ科学の視点から解析する学問領域。

[用語4] IUPAC命名法やSMILES記法 : 前者は国際純正応用化学連合（IUPAC）が定めた化合物の命名法を指す。後者はsimplified molecular input line entry system（SMILES）の略で、分子構造をASCII符号の英数字で文字列化したデータ科学向けの表記。

論文情報

掲載誌 :	Science and Technology of Advanced Materials: Methods
論文タイトル :	Prompt engineering of GPT-4 for chemical research: what can/cannot be done?
著者 :	Kan Hatakeyama-Sato, Naoki Yamane, Yasuhiko Igarashi, Yuta Nabae, and Teruaki Hayakawa
DOI :	10.1080/27660400.2023.2260300