ChatGPTの回答精度が劣化? 原因と精度を高める方法【WebPilotを使おう】
最終更新日:2023年08月14日
2023年7月ごろから「ChatGPTの精度が劣化したのでは?」という声が上がり始めました。特に注目されたのは、簡単な数学の問題に対する正答率が、97.6%から2.4%へと大幅に低下したことです。
この記事ではChatGPTの精度が本当に劣化したのか、劣化した原因、精度を高める方法などについて解説します。
ChatGPTや生成AIの社内活用でお困りの際は、無料相談会を実施中ですのでぜひお気軽にご相談ください!
あわせて読みたい:ChatGPT「Code Interpreter」とは? 活用事例11選や使い方など
あわせて読みたい:ChatGPTプロンプトテンプレート集 作り方のコツも解説
ChatGPTの回答制度が劣化した?
ChatGPTは、その登場以来、多くの人々にとって便利なツールとして利用されてきました。しかし、2023年7月ごろから、その性能に関するさまざまな噂が広がり始めました。
特にAIに関心を持つユーザーや技術者の間で、ChatGPTの回答の質が以前と比べて低下しているのではないかという声が上がりました。ソーシャルニュースサイトやフォーラムでは、多くのユーザーが自身の経験を共有し、ChatGPTの変化について議論していました。
世界中のChatGPTユーザーからの声
たとえば、ソーシャルニュースサイトのHacker Newsでは、あるユーザーが「AIサーチエンジンのPhindのGPT-4が、同じくGPT-4を利用したChatGPTよりも優れた結果を出してくれました」という投稿を行い、これに対して多くのユーザーが同様の経験を持っていることを報告しています。
また一部のユーザーは、ChatGPTの回答速度は速くなったものの、その正確さが犠牲になったのではないかと指摘していました。
数学問題の正答率が低下
さらに気になるのは、ChatGPTが簡単な数学の問題に対しても正確な答えを出せなくなったという報告が増えてきたことです。
例として、「17077は素数ですか?」というような基本的な質問に対して、以前は97.6%の正答率を誇っていたChatGPTが、数カ月の間にその正答率が2.4%へと劇的に低下していたことが明らかになりました。このような変化は、多くのユーザーにとって驚きの事実であり、その原因や背景についての議論が活発に行われていました。
スタンフォード大学の研究結果
スタンフォード大学の研究チームは、2023年にChatGPTの劣化に関する噂や報告を受け、その真相を探るための研究を開始しました。
研究の背景
2023年3月から6月の間のChatGPTの変化
2023年の初めから中盤にかけて、ChatGPTの回答の質に関する多くの報告が寄せられていました。特に、数学の問題に対する正答率の低下や、センシティブな質問への回答の変化が指摘されていました。これらの報告を受け、スタンフォード大学の研究チームは、ChatGPTの性能変化の原因を探るための研究を開始しました。
研究の方法
GPT-3.5とGPT-4を比較
研究チームは、ChatGPTの基盤となるGPT-3.5とGPT-4の2つのモデルを対象として、それぞれの性能を比較しました。これにより、モデルのバージョンごとの性能の違いや変化を明らかにすることを目指しました。
4つのタスクで検証
2つのモデルの性能を評価するため、研究チームは4つのタスクを設定しました。これらのタスクは、数学の問題の解答、プログラムコードの生成、視覚的な情報をもとにした推論、そしてセンシティブな質問への回答というものでした。
研究の結果
▲研究結果
GPT-4の正答率は低下していた
研究の結果、GPT-4の数学の問題に対する正答率は、わずか数カ月の間に97.6%から2.4%へと大幅に低下していることが確認されました。
GPT-3.5の精度は向上していた
一方、GPT-3.5の性能は、同じ期間において向上していました。特に、数学の問題に対する正答率は、3月には7.4%だったものが、6月には86.8%にまで上昇していました。
センシティブな質問への回答が変化していた
センシティブな質問に対する回答も、GPT-4とGPT-3.5の間で大きな違いが見られました。GPT-4は、センシティブな質問に対して「申し訳ありませんが答えられません」という簡潔な回答をするようになりましたが、GPT-3.5はより詳細かつ適切な回答を提供していました。
大規模言語モデルの予期しない振る舞い「ドリフト現象」
AIの世界では、新しい技術や現象が日々発見されています。その中でも、「ドリフト」という現象は、近年のAI研究で注目されているトピックの一つです。
ドリフトの定義
「ドリフト」とは、大規模言語モデルが訓練データや初期のパラメーターに基づいて予期すべき振る舞いとは異なる、予測不可能な振る舞いを示すことを指します。簡単に言えば、AIが学んだこととは違う答えや行動をすることを「ドリフト」と呼びます。
ドリフトの原因
ドリフトの主な原因の一つは、AIモデルの一部を改善しようとする過程で、他の部分の性能が低下してしまうことです。例えば、特定のタスクの精度を向上させるためにモデルを調整した場合、その結果として他のタスクの精度が低下することが考えられます。これは、AIモデルが非常に複雑であり、一部を変更すると全体に影響が出るためです。
OpenAIの反応
ChatGPTの劣化に関する報告や研究結果が公になると、その背後にある組織であるOpenAIもこの問題に対する公式な反応を示しました。
OpenAIの声明
ChatGPTの劣化に関する調査の約束
OpenAIは、ユーザーや研究者からの報告を受け、ChatGPTの劣化に関する問題を真摯に受け止める姿勢を示しました。公式声明の中で、OpenAIは「ユーザーの皆様からの貴重なフィードバックや報告に感謝し、ChatGPTの性能に関する問題を迅速に調査し、必要な対応を行うことを約束します」と述べました。また、具体的な調査の進行状況や結果についても、透明性を持って公開する方針を明らかにしました。
GPT-4の改善についての主張
一方で、OpenAIはGPT-4の全体的な性能については、前バージョンであるGPT-3.5と比較しても大きな進歩があるとの立場を崩していません。声明の中で、「GPT-4は多くのタスクにおいてGPT-3.5よりも優れた性能を示しており、特定の問題点に関する報告を受けたものの、全体的な性能や利便性においては進化を遂げている」と主張しました。その上で、ユーザーの期待に応えるため、継続的な改善とアップデートを行っていくことを約束しました。
ChatGPTの精度を劣化させない方法
では、精度が劣化したと言われているGPT-4で高精度な出力をさせるにはどうすればよいのでしょうか?ここではその方法を解説します。
「WebPilot」プラグインでブラウザからの情報を反映させる
GPT-4のみに回答をさせると精度が低いのであれば、ウェブ上の情報をブラウジング出来る「WebPilot」プラグインを使って回答を補強させると良いでしょう。
関連記事:ChatGPTプラグインのおすすめまとめ
今回は「17077は素数ですか?」という質問をChatGPTに投げて検証してみます。まずは追加機能なしでChatGPTに聞いてみました。
▲一見それっぽいが不正解。
手順立てて回答してくれましたが、17077は7で割り切れません。よって不正解です。このように、2023年8月現在でもGPT-4の回答は精度が低い状態となっています。
次に、「WebPilot」プラグインを使用して質問してみました。
▲今回の例だとウェブ上から回答を抽出できなかったようだが……。
どうやらウェブ上では回答を見つけられなかったようです。ただし、提案された通り計算をさせてみると、
正しく計算をしてくれました。10回ほど試してみたところ、全て素数という回答になりました。
このことから、プラグイン機能を使った場合はブラウジングができなくても精度が高くなる可能性があります。もしGPT-4の精度が劣化したと感じる場合は、この方法を試してみることをおすすめします。
まとめと今後の展望
スタンフォード大学やカリフォルニア大学バークレー校の研究結果は、ChatGPTの劣化に関する報告が事実であることを明らかにしました。特に、GPT-4の数学の問題に対する正答率の低下や、センシティブな質問への回答の変化は、多くのユーザーの経験と一致していました。これらの研究結果とユーザーの声を基に、ChatGPTの劣化は一時的なものである可能性が高いと考えられます。
ChatGPTの劣化問題は、AI技術の発展の中で新たに浮上した課題の一つです。しかし、このような問題を乗り越えることで、AI技術はさらなる進化を遂げることができるでしょう。OpenAIや他の研究機関は、劣化の原因を特定し、それを解決するための取り組みを続けています。また、ユーザーや研究者のフィードバックを活かし、AIモデルの改善やアップデートを行うことで、より高い性能と利便性を提供することを目指しています。