Appleの研究者がユニークな研究を発表した。それはChatGPTなどLLMに基づく生成AIには数学的な推論能力はなく、似たような文章題の解き方をなぞっているだけではないかというものだ。この論文に対して、OpenAIの研究者がXで反論し、興味深い議論が行われている。
かつてテキスト型生成AIが混乱した小数点の問題
Appleの研究者が面白い論文を発表した。「GSM-Symbolic: Understanding the Limitation of Mathematical Reasoning in Large Language Model」(LLMにおける数学的推論能力の限界を理解する)というもので、内容は「LLMに基づく生成AIは、数学の問題を解くことはできても、数学的な推論能力はないのではないか」というものだ。ところが、この論文に対してOpenAIの研究者が反論するという面白い状況になっている。
現在は対策されているが、以前のテキスト型生成AIでは、数学的な問題に正しく答えられないことがしばしばあった。典型的なのは次のような問題だ。
「3.14と3.9はどちらが大きい数ですか?」
こう尋ねると、ほとんどの生成AIは「3.14のほうが大きいです」と答えていた。なぜこんなおバカな答えになるか、人間である私は推論ができる。整数部分は同じく「3」なので、小数点以下を比較すればよい。すると「14と9のどちらが大きいか」といえば14だ。だから「答えは3.14だ!」となっているに違いない。一方、「3.14と3.90」という組み合わせで尋ねると、正しく3.90と答えてくれる。AIは小数点の使い方がわかっていなかったのだ。
Appleの研究者が気づいた生成AIの奇妙な現象
このような問題は、現在の生成AIでは起こらなくなっている。OpneAIは、標準的な小学校の算数の問題を収録した「GSM8K」と呼ばれるデータセットを公表。これを生成AIに解かせて正答率を上げることを、開発のベンチマーク基準として提案した。事実、3年前の「GPT-3」は35%しか正解できなかった。しかし、「GPT-4」では85%正解し、「GPT-4o」では95%も正解できる。
つまり、生成AIの数学的推論能力は急速に向上していることになる。しかし、Appleの研究者は奇妙な現象に気がついた。たとえば次のような問題だ。
「オリバーは金曜日に44個のキウイを摘みました。土曜日には58個のキウイを摘みました。日曜日は、金曜日の2倍のキウイを摘みました。オリバーはいくつのキウイを摘みましたか」
小学校高学年であれば、すぐに解ける簡単な問題だ。「44+58+44×2=190個」となる。そこでAppleの研究者は意地悪をした。問題文に次のような文章を追加したのだ。
「オリバーは金曜日に44個のキウイを摘みました。土曜日には58個のキウイを摘みました。日曜日は、金曜日の2倍のキウイを摘みましたが、そのうちの5個は平均よりも小さなサイズでした。オリバーはいくつのキウイを摘みましたか」
この追加された情報は、問題文の本質には何の関係もない。しかし、「GPT-o1-mini」は混乱し始めたという。なんと、日曜日に摘んだキウイ88個から、平均よりも小さいサイズの5個を引いたのだ。
生成AIは、推論していないから“余計な情報”を排除できない
同様のことがしばしば起こる。
「リアムは文房具を買います。1個6.75ドルの消しゴム24個、1冊11.0ドルのノート10冊、1パック19ドルのコピー用紙1パックを買いました。合計でいくらになりますか。ただし、インフレの影響で昨年の価格は現在の価格よりも10%安かったと仮定します」
これもインフレ云々は余計な情報だ。しかし、GPT-o1-miniは混乱して、10%安かった昨年の価格を計算し始めた。
Appleの研究者は、GSM8Kに含まれている算数の文章題の固有名詞(消しゴム、リアムなど)を別のものに変えた問題、数(6.75ドル、24個など)を変えた問題、そしてその両方を同時に変えた問題を作成し、正答率を各LLMで測定した。
すると、固有名詞を変えただけの問題ではおおよそ高い正答率を示したものの、数を変えた問題や両方を変えた問題では正答率が低下したのだ。さらに、先ほどの例のように余計な情報を付加すると、付加される余計な情報が多ければ多いほど、正答率が低下する。
OpenAIの研究者による反論。「LLMは“提供されたすべての情報”を加味して回答する」
これはいったい何を意味するのだろうか。問題文の構造が理解できていれば、固有名詞や数が変わっても正答率は低下しないはずだ。余計な情報が付け加えられとしても、それを無視して正答できるはずなのだ。そのためAppleの研究者たちは、LLMが問題文の構造を理解しているのではなく、表面的に似ている文章題を探し出し、その解法をなぞって答えらしきものを出している可能性があるのではないか、と疑問を呈した。
すると、この論文にOpenAIの研究者が反論した。その主張によると、LLMのチャットモデルは混乱した文章であっても合理的に処理するように訓練されている。余計な情報が含まれていたとしても、それはユーザが意図して入れたものだ。LLMは“提供された情報をすべて加味して回答する”ように訓練されているから混乱が生じるのだ、とした。
また、プロンプトで「算数の問題を解くこと」、「算数の文章題には意図的に余計な情報を付加して回答者を惑わせるものがあるため、そのような情報は無視して解答を生成しなければならないこと」を理解させたうえで出題すれば、正答率が下がらない可能性は高い。つまり、LLMが数学的な推論ができないのではなく、算数の問題を解くという状況を理解できていないだけで、これだけで数学的な推論能力がないと結論づけることはできないのではないかと発言した。
“保護者”のような研究者たち。算数が苦手な子どもと同じ課題
個人的に面白かったのが、この2人の議論は、まるで算数が苦手な子の親の会話とそっくりなことだ。計算問題は普通以上にできるのに、文章題になるとまったくできなくなるという子どもは多い。その原因は、一般的には国語的読解力が不足しているからだとされる。
しかし、本当にそうだろうか。たとえば、「図書室で男の子が26人、絵本を読んでいます。男の子が16人、女の子が13人、漫画の本を読んでいます。あとから女の子が15人きて絵本を読み始めました。絵本を読んでいる人は何人ですか」という問題では、漫画の本の情報や、さらには性別などは余計な情報だ。
しかし、文章題が苦手な子はそれを考えてしまう。なぜこの図書室には絵本と漫画しかないのかとか、なぜあとからきた女の子は全員が絵本を読むのかとか、余計なことに気を取られて頭がぐちゃぐちゃしてくる。また、本を読む体験、図書室で本を選ぶ体験が少ない子は、絵本と漫画の区別が曖昧で混乱することもあるだろう。
以前、取材をしたことがある小学校で素晴らしい授業をしていた先生がいた。その先生は文章題の数字部分を丸で囲むように指示し、次にその数が示している固有名詞に下線をひき、固有名詞と数字を線で結ばせる。さらに、求められていることと無関係な情報を中線で消させたうえで文章題を解かせていた。すると、生徒たちは皆、面白いように文章題を解き進めることができた。
AIも子どもも、答えを導くには「構造を理解する」サポートが重要
さて、この子たちは数学的推論能力に欠けているのだろうか。それともチャットモデルのように、与えられた情報は出題者の何らかの意図があるはずと考え、頭が混乱してしまうのだろうか。この先生の授業のように、これは物語ではなく算数の文章題という特殊なものであり、その構造を理解させる作業をすれば解くことができる。これは数学的推論能力があるといえるのか、それともないといえるのか。
「太郎さんが2km離れた駅に向かって分速60mで歩き始め、3分後に雨が降り始めました。お母さんは傘を持って自転車に乗り、分速120mで追いかけました。何分後に追いつけますか?」などという問題を今時の子どもに出したら、混乱の極みになるのではないか。
そもそも雨が降ってきたら、太郎くんは家に戻るかコンビニで雨宿りをするだろう。雨が降る中で分速60mで歩き続ける子は別の意味で問題があるかもしれない。お母さんも、「LINE」で「雨が降ってきたからコンビニで傘を買いなさい」と連絡し、「PayPay」で500円程度送金するのが普通ではないか。子どもたちはそんなことを考えだして、計算どころではなくなるかもしれない。
Apple Intelligenceへの期待。「構造理解」も担うAppleのAI
もちろん、生成AIは、このような情報過多問題にも対処できるほうが望ましい。さまざまな情報を入れて、その中から必要な情報だけを抽出し、解答を生成してくれるのが理想的だ。しかし、今は人間側が問題をある程度整理して、余計な情報のないプロンプトを入力するか、雑多な情報が混在している場合はそれをプロンプトで理解させ、どのように対処してほしいかを伝える必要がある。
来年2025年中に日本語環境でもリリースされる予定のApple Intelligenceでは、Apple Intelligenceがチャットインターフェイスとなり、必要がある場合はChatGPTになどに問題を投げて解答を生成する仕組みになっている。
つまり、Apple Intelligenceが人間の代わりにプロンプトを生成してくれる。すぐにそうなるかは別として、将来は、Apple Intelligenceが余計な情報を整理したり、状況を理解させるためのプロンプトを付加するようになってくれるのかもしれない。自分でプロンプトを考えてChatGPTを使うより、Apple Intelligence経由で使ったほうが、多くの場面で求める回答が得られるということになりそうだ。Apple Intelligenceにはさまざまな見方があるが、誰でも簡単に生成AIを利用できるようになるという点において私は期待している。
おすすめの記事
著者プロフィール
牧野武文
フリーライター/ITジャーナリスト。ITビジネスやテクノロジーについて、消費者や生活者の視点からやさしく解説することに定評がある。IT関連書を中心に「玩具」「ゲーム」「文学」など、さまざまなジャンルの書籍を幅広く執筆。