【ChatGPT vs. Gemini vs. Claude】 生成AIの比較記録|同じタスクを投げてみたの実験結果

【ChatGPT vs. Gemini vs. Claude】 生成AIの比較記録|同じタスクを投げてみたの実験結果 ただのエッセー
【ChatGPT vs. Gemini vs. Claude】 生成AIの比較記録|同じタスクを投げてみたの実験結果

僕は割と早い段階である2023年ごろからChatGPTを使っており、GPT4が出た時からPLUSに加入し仕事で使うようになりました。

いつからか、GPT4のパフォーマンスが悪くなっていると言われるようになりましたけど、僕もそう感じましたので、最初はPromptの調整などで出来るだけパフォーマンスを上げようとしましたが、期待していたほどの効果は得られませんでした。

幸い、ChatGPTはあくまでも仕事の補助ツールとして使っていたので、当然に使わないという選択肢も僕にはあったし、実際にしばらくは使いませんでした。使わなかったというより、たまにタスクを投げて、最初の出だしから「こいつはできないね」と分かった段階で閉じてしまいました。

Bard(現・Gemini)という代替手段も確かにあったかもしれませんが、Bard君の出来があまりにも酷いので、検討すらしませんでした。

ところが、2024年の3月4日か5日あたりから、米AI企業AnthropicがClaude3の公開を発表したのに伴い、「Claude3はいいぞ」という記事やFaceBookの投稿をよく見かけるようになりました。僕も早速無料版のClaudeを試してみたところで、結構満足できました。

そこから、有料版の利用を検討するようになった結果、3月8日にClaude3の有料版を契約しました。

それと同時に、既にGeminiになりましたが、「そういえば、Bard君という出来の悪いAIもあったよね」というのを思い出しました。有料版も2ヶ月無料で利用できるようなので、とりあえず契約してみました。ただ、こちらに関して、僕は既に契約日の55日後にカレンダーで「Gemini解約」というリマインダーとともにTODOタスクを入れました。その理由は言わずもがなであります。

ということで、しばらくは、全てのタスクを「同じPrompt」でChatGPT4、Claude3 Opus、Gemini Advancedと3つのAIへ投げてみることにしています。その結果をLOG的にまとめて行きたいと思います。

ちなみに、2024年3月26日からはpiも使っています。

ウェブサイトのソースコードからデータを抽出し構造化にする【2024年3月21日】

あるウェブサイトには様々なリンクがあり、これらのリンクを全て抽出した上でJSON形式にする、というタスクがあります。本来なら、スクリプトを書いて執行するという手もありますが、この3人のAI君の力を試してみることに。

Promptとしては、当該ページのソースコードをペタと貼り付けて、「○○○○このようなリンクがめっちゃあるんだけど、それをJSONに」だけです。

予想通りだがGeminiはできなかった

まず、そもそもが、文字数オーバーでしたので、仕方なく代わりにURLを渡しました。

しかし、Gemini君は「大規模言語モデルとして私はまだ学習中であり、そちらについてはお手伝いできません。」とあっさりと拒否。

URLを訪問することができなのか、JSONにできないのか、ソースコードから抽出することができないのかがわかりませんが、URLの訪問は出来るはずだから、JSONという指定ではなく、「URL,サイト名,紹介」と指定してみることにしました。

しかし、それでもGemini君に「大規模言語モデルとして私はまだ学習中であり、そちらについてはお手伝いできません。」と突き返されました。

まだ学習中ならお金を取るじゃないと思いますけどね。

Claudeは普通にできた

それに対して、Claudeは普通にできましたし、その後、「JSON形式をCSVへ変換」という追加タスクも問題なく対応していただけました。

ただ、Claudeは今のところ、ファイルを出力することができず、テキストとして出力されていますが、インデントと改行などの整形が行われていません。

ChatGPTは何回か怒らないと仕事をしてくれない

ChatGPTの場合、最初はソースコードを渡すと文字数(トークン数)オーバーになりましたので、URLを代わりに渡しましたが、このようなタスクは違反であると拒否されました。

仕方なく、ソースコードの内容を減らして渡したところで、やってくれましたけど、JSON形式ではありませんでした。そこで「JSONやで」と再指摘しても直らずに、最後は「ちゃんとしないと電源消してやるぞ」と脅かしたところで、JSON形式でまとめてくれました。

サンプルの形式を参考に施設の基本情報を作成【2024年3月22日】

僕の会社が運営しているウェブサービスの中には、妊婦さんや赤ちゃんがいるファミリー向けの「スポットの口コミサイト」があり、定期的にユーザの体験談をブログ記事という形で公開していますが、記事の冒頭には、対象施設の営業時間やアクセスなどの情報(以下、施設情報という)を記載しています。

この部分の情報をHTMLでマークアップする作業を、AIにやってもらうという試みです。

Promptで渡す指示としては、対象施設名とOutputの形式とOutputの例だけだり、敢えて対象施設の施設情報を提供していません。

Geminiは相変わらず学習中

大規模言語モデルとして私はまだ学習中であり、そちらについてはお手伝いできません。

ハイ。

ちなみに、「もしかしたら、Geminiは検索できないから(そんなはずはないけどね)、対象施設名だけだと不十分ではないか」と自分を責めて見ましたが、対象施設の施設情報を提供しても、「大規模言語モデルとして私はまだ学習中であり、そちらについてはお手伝いできません。」の一点張りです。

Cluadeは指示以上に動いてくれたものの情報は不正確

Claude様は、対象施設の施設情報をHTMLでマークアップしてくれただけではなく、勝手にこの施設に関する感想も書いてくれました。ちなみに、僕はこれが記事の一部であることを全く伝えていません。

ただ、営業時間とか駐車場の情報などは、正確ではありませんでした。

Claude様はまだネットへの訪問ができないので、施設情報を渡した方がよさそうですね。

ChatGPTは一回暴走しないと気が済まない

ChatGPTは、指定した形式に従わずに、勝手に文章として施設の紹介を書き出しました。違うよと再指示で成功しました。情報も正確でした。

Geminiは相変わらず論外ですが、ChatGPTは再指示すればできるので、一見問題ないように見えるかもしれません。しかしながら、自分でのChatGPTの利用なら大した問題にはならないかもしれませんが、Saasだったり、APIを利用してサービスとして提供するなら大問題です。というより、サービスになっていないでしょう。

更に細かいところでいうと、ChatGPTは営業時間などの情報を出さずに、「施設に確認してください」と回答する傾向が見られます。責任回避でしょうか、こういった守りに出たような無難な回答はリスク回避の観点からすると良いかもしれませんが、しかし、そんなコンテンツは何の価値もありません。

施設に確認したり、改めて検索したりしなければ、情報が得られないのであれば、それはChatGPTが存在しなかった時代と何も変わりません。

インスタの投稿から画像を取得する【2024年3月25日】

僕の会社はインフルエンサーマッチングサイトをも運営しており、マッチング実績をインスタのアカウントリポストしています。

具体的には、

  1. マッチング実績を追跡
  2. インフルエンサーが投稿したURLを把握
  3. URLより画像取得
  4. リポスト

になっており、これらを全て自動化にできました。

インスタの投稿URLから画像をダウンロードする方法は、スクレイピングするとか、APIを使うとか、デベロッパーツールを使う方法などいくつかある中、我々はスクレイピングという手法を選んでおり、その結果、Instagram側の仕様変更により3の部分を何度も書き直していました。

今回は、非常にふわっとした依頼になりますが、「インスタの投稿URLから画像をダウンロードしたい」とだけ投げてみました。

Geminiは相変わらず意味不明である

Geminiから「大規模言語モデルとして私はまだ学習中であり、そちらについてはお手伝いできません。」という回答が返されていないのは何よりもうれしいことですが、何を言っているかわかりませんでした。

Claudeは相変わらず上出来

Claudeがひとまず、いくつからの方法を提示したところ、僕は「Pythonのスクリプトでスクレイピング」で再指示しました。

すると、Claudeは書いてくれたし、よく書けたなと感心しました。結局、それは使えませんでしたが、それは決してスクリプトの問題ではなく、Instagram側の仕様上の問題です。

続いて、「スクレイピングは色々難しいようなので、公式APIを使う」と投げてみると、普通に使えるスクリプトを書いてくれました。

ChatGPTはちょっと頭おかしかった

「インスタの投稿URLから画像をダウンロードしたい」だけ投げったのにChatGPTはうるさく「公式APIを使わないと規約違反」とか言い始めました。

せめて「スクレイピングしたい」と言ってから、そういう反応を示してもいいと思うんだけど、まだ「公式APIを使わない」とも言っていないし。

なので、そこで「公式APIを使うよ。だからスクリプトを書いて」と伝えました。

すると、ChatGPTはスクリプトを書いてくれたものの、「インスタの投稿URLから画像をダウンロードする」スクリプトではなく、自分のアカウントの最新投稿リストを取得するスクリプトでした。

ところが、「違うんだよ。インスタの投稿URLから画像をダウンロードするんだよ」と伝えたところ、ChatGPTはまた「公式APIを使わないと規約違反」云々を繰り返し始めました。

「だから、公式APIを使う。インスタの投稿URLから画像をダウンロードするスクリプトを書け。できるかできないかをはっきりしろ」とお約束の脅かしをしたらば、書いてくれました。

電子レンジでの加熱時間を変換【2024年3月26日】

生成系AIは、その仕組みから計算が苦手ですが、それでも去年と比較して徐々に改善されているように感じます。

今日は電子レンジでのワット数を変えた場合の加熱時間について計算してもらいます。

Promptは

だけです。

ちなみに、正解は4分35秒です。

Geminiは不正解の上にうるさい

Geminiは、計算式を示さずに「単純計算で600Wだと3分30秒になると思われます。」と不正解をした上で、

  • 方法1:電子レンジの取扱説明書を確認する
  • 方法2:食品メーカーのホームページを確認する
  • 方法3:様子を見ながら加熱する

を推薦してきました。

はい?

Claudeは4分35秒と正解し計算式もシンプルに正確

500W×5分30秒(330秒)/600W=275秒(4分35秒)

生成系AIは確かにその仕組みから計算は苦手かもしれませんが、しかし、Claudeができるのに、Geminiが出来ないともなると、それは仕組み上の問題ではなくなります。

ChatGPTも正解している

ChatGPTの回答をそのまま貼り付けると

ChatGPTが電子レンジでの加熱時間を変換

Piの計算式は正しいが計算は間違っている

今日からPiも使い始めましたので、同じタスクをPiにも投げてみました。

500W×5分30秒(330秒)/600W

というところまでは良かったですが、なんと275秒(4分35秒)にすべきところを150秒 (2分30秒)にしてしまったのですね。

GoogleMAPアカウントとメール返信

タイトルとURLをコピーしました