AIは推論していない。Appleの論文に批判殺到？

Appleの研究チームが、AIの推論機能に疑問を投げかける論文を公開したところ、批判の嵐となった。

しかし、それはAppleの研究を否定するものではなく「思考とは何か」を巡る大きな議論が起きている。AIは思考をしているのか、それとも丸暗記をしているだけなのか。Appleの論文が波紋を広げている。

物議を醸したAppleの論文。背景にあるのはAppleのAI開発の遅れ

Appleによる「AIの推論に対して疑問を投げかける論文」が、物議を醸している。その論文は「The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity」（思考の錯覚：問題の複雑さをとおして見た推論モデルの強みと限界を理解する）というもので、一言で言えば、推論モデルは思考しているのではなく、過去のパターンから似たものを引き出し、考えているフリをしているだけなのではないか、という内容である。

いわば、難しい問題を考えて解いているのではなく、丸暗記に頼って解いているようなものだ。

Appleの研究チームの意図としては、「現在の推論モデルに存在する限界を明らかにしたい」ということだったのだろう。しかし、これが「AppleはAIに否定的」という受け取られ方をしてしまった。その背景にあるのが、AppleのAI開発の遅れだ。

うがった見方をする人たちは、「AppleのAI開発が遅れているから否定したいのだ」という見方を次々とSNSに投稿した。

Appleが得意とするのはUI／UX。“AIに後ろ向き”なのではなく、得意分野ではないという考え方

あくまでも個人的な印象にすぎないが、Appleは本質的に“AIに対する興味”が薄いのではないかと思う。デバイスというのは、人間が世界を知るためのツールで、その役割は世界中に存在する情報を整理してユーザに提示し、ユーザと世界をつなぐことだ。

Appleは、このデバイスの“人間寄りの部分”に強い興味がある。いわゆるUI／UXの部分だ。相対的に、情報寄りの部分には興味が薄くなる。そのため、Appleは結局、検索エンジンを開発していない。

1998年にAppleは、Sherlockというローカル検索システムを開発し、のちにWeb検索の機能を搭載した。しかしこれは、当時主流だったAltaVista、Excite、Lycosなどの検索エンジンに接続し、その結果を統合して表示するものだ。そして、Safariになっても検索エンジンはGoogleやBingなど他社のものを利用している。どうも、Appleはユーザの手が直接触れる部分に興味があるようだ。

となれば、Appleが提供するのは独自開発のAIではなく、ChatGPTやPerplexityなどを利用した機能なのかもしれない。AIに後ろ向き、否定的というよりも、そこはAppleが得意な仕事ではないと考えているのではないかと思う。

以前も物議を醸したAppleの論文。研究の発端は「AIの推論能力は正確に測定できているのか」

以前、Appleが発表した「GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models」という論文を紹介した。これは、AIの推論は思考とは言えないのではないかという内容で、やはり物議を醸している。

参考記事：「AIは“推論”できない」。Appleの研究者が発表した論文にOpenAIの研究者が反論

本記事で紹介する論文はその第２弾とも言えるもので、6人の筆者のうち4人が同じ人物だ。

この研究チームはAIにケチをつけているのではなく、思考とは何か、思考はどのように定義すればいいのかということを模索している。

研究チームのそもそもの発想は、「AIの推論能力は正確に測定できているのか」というものだ。一般的には標準的な数学問題などを集めたベンチマーク問題集をつくり、これを多くのAI開発チームがAIに解かせることで優劣を競う。以前より高得点が取れればAIの性能が上がったとする。

“意味”を知らなくても解ける数学の問題。それと同じことをAIがしているとしたら…？

しかし、実は数学というのは思考などしなくても解ける問題がたくさんある。

たとえば、分数の割り算では誰もが「うしろの分数をひっくり返してかけ算をする」と思う。なぜ分数をひっくり返すのか。その操作にどんな意味があるのか。その意味は、おそらく私を含めたほとんどの人がわかっていない。

小学生から「なんでひっくり返すの？」と聞かれたら、多くの人は「そういう決まりだから」と逃げてしまうのではないだろうか。

AIのベンチマークも同じで、過去に似たような問題を学習し、それと似ているからという理由で、意味はわかっていないけど同じ操作をしたら正解になった、という例が忍び込んでいないとは言えない。

また、もうひとつの問題は、ベンチマークで測定されるのは正解を出したかどうかだということ。途中の推論プロセスは評価の対象外になる。このやり方では、「割り算のときは分数をひっくり返す」というパターンをたくさん覚えているAIが高得点を取ってしまう。そのため、このやり方で推論機能を測定するのは正しいことだろうか、と疑問を投げかけている。

Appleの研究チームが提案した新たなベンチーマークは、4つのパズル

そこで研究チームは、新たなベンチマークを提案した。それがパズルだ。パズルの種類は4つある。

そのうちのひとつである「ハノイの塔」は、大きさの異なる円盤を動かし、全体を別の柱に移動をさせるというもの。ただし、小さな円盤の上に大きな円盤を重ねることはできない。その制限があることで、頭を使って移動アルゴリズムを考える必要がある。Math is FunというWebサイトで簡単に遊べるので、ぜひ試してみていただきたい。

このハノイの塔を解くプログラムを書くには、「再帰呼び出し」という特殊な技法が必要になる。そのため、プログラミングの入門書では今も題材として取り上げられることが多い。

もうひとつの「川渡しパズル」は、狼とヤギとキャベツの川渡し問題がよく知られている。手前の岸に農夫１人、狼とヤギがいて、さらにキャベツがある。ボートには一度に2個まで載せられるが、一方の岸に狼とヤギを残すと狼がヤギを食べてしまう。そして、ヤギとキャベツを残すとヤギがキャベツを食べてしまう。どのような手順であれば無事にすべてを向こう岸に渡すことができるか、というものだ。

Appleの研究チームが推論機能のベンチマークとして提案した４つのパズル。左からハノイの塔、チェッカージャンプ、川渡しパズル、ブロック詰みだ。画像●The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity

研究チームがパズルをベンチマークとして提案するのは２つの理由がある。

ひとつは、パズルは解法のアルゴリズム（手順）を発見することが必要で、パズルごとにそのアルゴリズムは異なっているから。そのため、過去にアルゴリズムを学習していない可能性が高い。

もうひとつは、難易度を簡単に調整できることだ。ハノイの塔の場合、円盤の数を増やすと難易度は急速にあがっていく。それでも推論によって解法アルゴリズムを発見していれば、手順が増えるだけで解くことができる。適当にやったら偶然解けてしまったという現象を排除しやすいわけだ。

この2つの理由から、研究チームは4種類のパズルを新たなベンチマークとして採用することを提案している。

トークン量の計測によって発見された「思考の崩壊」と「過剰な思考」

研究チームは実際にAIモデルにパズルを解かせ、その様子を観察した。すると、ある難易度を超えると「思考の崩壊」が起きたのだ。

研究チームは消費されるトークン量を計測した。トークンはAIモデルが推論をするときの単位で、トークンをたくさん使うということは一生懸命考えているということになる。

しかし、この思考の崩壊はトークンリソースの限界に達していないのに起こった。つまり、最初は一生懸命考え、まだ限界に達していないのに、ある難易度に達するとトークンの消費量が頭打ちになる。まるで子どもが勉強を投げ出したときのようだ。最初は一生懸命考えるのに、問題が難しいということがわかると「もう無理！」と言って鉛筆を放り出す。それに似た現象である。

パズルの難易度が低い場合（左）は、トークン量が推論モデルより汎用モデルのほうが多くなる。つまり、難易度が低いパズルは思考ではなく、過去の学習の暗記に頼って解いていることになる。画像●The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity

思考の崩壊。難易度を上げていくと正答率が下がっていく（上段）。しかし、トークン量も頭打ちになっている（下段）。推論モデルは、問題が難しくなると、考えることを放棄してしまうように見える。画像●The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity

さらに、「過剰な思考」という現象も観察された。

与えられた問題がさほど複雑でないときは、かなり初期に解答を見つけられる。しかし、正しい答えが見つかっているのに、トークンを大量消費してほかの解答を見つけようと考え続けるのだ。すでに解答を見つけているのに、その回答に自信を持つことができず、ありもしない解答を探し続けてしまう。これも人間の子どもに似た行動に思える。

なお「思考の崩壊」と「過剰な思考」の内容は、パズルによって大きく異なるようだ。ハノイの塔の場合、円盤が10枚という条件でも、100手近くを誤りなく操作する。ところが川渡しパズルでは、11手で渡らせることができるのに、4手までで思考の崩壊が起こってしまう。

研究チームの考察は「AIは推論能力、自己評価の仕組みが弱い」

研究チームは以下のように考察した。

パズルによって思考の崩壊が起きるレベルが異なるのは、事前学習の差によるものではないか。ハノイの塔はよく知られていて、Webなどでその解法について学んでいた可能性がある。

川渡しパズルもよく知られているが、異なる形で取りあげられることが多く、事前学習が十分ではない。これで思考の崩壊が起きるレベルに大きな乖離があるということは、AIは純粋な思考による推論ではなく、事前学習によるパターンを使って解こうとしているのではないか。

思考の崩壊や過剰な思考が起きることは、AIの推論能力が極めて弱く、難易度の高い問題については推論できないということを示している。特に、部分的に発見した推論を評価し、その結果をステップにして次の推論に活かす、という自己評価の仕組みが弱いのではないか。

もちろん、この論文に対してはさまざまな批判が起きている。もっとも強力なのは、「Comment on The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity」（思考の錯覚：問題の複雑さを通して見た推論モデルの強みと限界を理解するに対する意）だ。

「思考の崩壊」はAIの仕様上の制限によるもの、という反論

この論文では、思考の崩壊＝トークンの消費が頭打ちになってしまう問題は、思考をやめたのではなく、AIモデルの現実的な制限によるものだとしている。

ハノイの塔はそもそも、インドの伝説に登場するパズルだ。その伝説では、円盤は64枚もある。この場合の手順回数は2の64乗-1回。1秒に1回円盤を動かしても5860億年という膨大な時間がかかる。

川渡しパズルの場合は、運ぶもの種類が増えると、ボートに一度に載せられる数に限りがあることから、どうやっても解けない不能解が生まれてしまう。

AIの推論能力は、このようなトークンが無限、あるいは常識外に消費される状況を予測すると、システムを守るためにトークン量を大幅に制限するように設計されているというのだ。つまり、思考の崩壊が起きるのは推論能力の限界などではなく、単なるシステム上の制限にすぎないという批判である。

「思考とは何か」。AI技術の発展とAppleの論文が、“哲学”の門を開いた

これ以外にもさまざまな批判が寄せられている。Appleの議論は「思考か丸暗記か」というゼロイチの極端な議論であって、思考にはこの2つの中間領域というものがあり、人もAIも、これまでの経験を抽象化しながら推論をして問題を解こうとする。

たとえば、AIに「このパズルを推論して解法を見つけなさい」という指示ではなく、「このパズルを解け」と単純に命令すれば、AIは推論だけでハノイの塔を解くのではなく、ハノイの塔を解くPythonコードを出力するようになるだろう。

これは人間も同じことをやっている。詰将棋という複雑なパズルを解くことはできなくても、詰将棋を解くプログラムだったら書くことができる。効率を無視すれば、すべての手を探索するプログラムを書けばいいのだから、さほど難しくない。

そのようなプログラムを書いた人は、側から見ればどんな詰将棋も解いてしまう天才に見えるだろう。しかし、その人の将棋脳が優れているというわけではない。

私たち人間は、そのほかの問題に対しても同様の対処をする。推論だけで問題を解くのではなく、多くの経験を抽象化してパターンを発見し、それを適用しているのだ。思考と言えるのは、そのパターンを問題に当てはめるときに生じるギャップをどうするか、という小さな部分にしか使っていないのかもしれない。

Appleの論文は、多くの人から批判され、議論が広がっている。これはAppleの論文が炎上したなどということではなく、「思考とは何か」という哲学的な問題に、AIの技術をきっかけに私たちが考え始めているということなのだ。Appleが投げた石は今、世界中に波紋を広げている。

Appleの論文に批判殺到。AIは推論せずに“丸暗記”で答えている？新たなベンチマークはパズル。しかし、その結果と考察に対する反論も

著者プロフィール

牧野武文

関連タグ

Appleの論文に批判殺到。AIは推論せずに“丸暗記”で答えている？ 新たなベンチマークはパズル。しかし、その結果と考察に対する反論も