ベンチマーク トレンド
0post
2025.11.17〜(47週)
:0% :0% (30代/男性)
人気のポスト ※表示されているRP数は特定時点のものです
Gemini 3.0が登場で、2年ぶり、初代Gemini時以来の、GPTとGeminiの整数ナンバー同士のガチンコ勝負。Gemini初代は半年かけてGPT-4の王座にかすりもしなかったものの、3.0はベンチマーク評価上は明らかにGPT-5を超えており、もう完全に勝負は振り出しでしょう。Googleすごい。以下、速報的な所感→
・いつもお馴染みLMarenaのリーダーボードは完全にGemini3.0の無双状態
・最近の評価の目玉のHumanity's Last Examはツールなしで37.5。同条件だとGPT-5系やGrok4で25%前後なので、非常に高い。ツールありと並列処理ありならGrok4が50を超えている報告があり、Geminiは45だが、ここは完全に条件を揃えた評価になってないので、あんまり気にする必要ないだろう。
・ARC-AGI-2は、最近ちょっと今の生成AIは難しいかなーという雰囲気が出てきたあたりでぶっちぎってきた。
・偉い人曰く、「まだまだ事前学習のスケーリングもあるよ」ということで、ここはもうちょっと詳細を聞きたいところ
・(登場後に出た文献からまともに読み取れる技術的な情報がもはやMoEを使っていることと、ちょっとだけデータ関連、あとTPUで学習していることくらいしかない・・・)
・最近インフレが激しいソフトウェア開発能力もちゃんと上がっている(これはベンチマークだけでなく、実際に手元で2.5Proと3.0Proを何度か比較してみた)。ベンチマーク評価はClaude4.5に地味に負けているが、これはエンプラ向け/コーディングに全振りしたAnthropicが強すぎるだけだろう
・Googleといえば伝統あるマルチモーダル機能と言うことで、ここのスコアは本当にほかを圧倒している(Screen Spot Pro)。
・Antigravityは、無料で、寛大なリミットと謳っているが、自分の場合は一瞬でリミット到達。ヘビー開発者の場合は、結局相応の課金が必要そう
・自分がTwitterを確認したところ、標準的なベンチマークの他に、一般ユーザーの内部的なオレオレベンチマークでもかなり評価が高い。一部の語学能力や、エージェント的タスクなど November 11, 2025
193RP
Gemini3.0が正式にリリースされました。事前学習および事後学習の双方において飛躍的な進化を遂げ、従来のモデルとは一線を画す、ほぼ全ての領域で議論の余地なく首位の座を獲得するに至りました。私は強化学習チームの一員として開発に携わっておりましたが、上層部より社内においてさえ厳格な情報統制が敷かれるほど、その進歩は革新的なものでした。現在、X上にてVibeCodingの活用事例が数多く共有されていること、またBrowserUse等のベンチマークにおいても圧倒的な一位を記録していることを大変嬉しく思います。単にベンチマークスコアが高いだけのモデルではなく、あらゆるソフトウェアとシームレスに連携可能な、真に実用的な「AIエージェントモデル」として進化しました。4ヶ月前に多言語チームから強化学習チームへ異動し、ICPCゴールドメダルの獲得や、このGemini3.0の完成に貢献できたことは非常に嬉しいです。今後の展望につきましては、実現したいプロジェクトやアイデアが山積しており、自分の時間が足りなすぎる状態です。 November 11, 2025
176RP
Gemini 3 + Antigravity IDEを2時間くらい使った感想ですが、もうコーディングAIはGemini 3で答え出たのでは?
Gemini 3=GPT-5やClaude 4.5と比較しても「速い」「賢い」。ベンチマーク性能も圧倒的
Antigravity IDEは初日なのもあってローンチから数時間ログインできなかったり、実行中にエラーで落ちたりもするけど、動いてくれさえすればなかなか使いやすそうな感じ
Gemini-3がネイティブで使える。
デフォルトで「Implementation Plan(実装計画)」「Task(タスクリスト)」「Walkthrough(実装振り返り)」を開発中に生成してユーザーに提示。ユーザー側の負荷を下げてくれるUXになってる。
IDEとしてはClaude Codeみたいな拡張性を持たせられるか?Cursorと比べてUXで優位に立てるか?みたいなところが課題になって競争は続きそうだけど、基盤モデル自体はGemini 3でしばらくは固定になるのでは? November 11, 2025
69RP
こういうのも地理人さんの分析を読むと非常に解像度が上がって、都市としてのベンチマークたり得ないことがスッと理解できるのです。
https://t.co/qBPBd7xDJ5 https://t.co/2myhpqAQg0 https://t.co/nTuwAhX4Ev November 11, 2025
63RP
エヌビディア $NVDA
2026年度Q3決算を発表‼️
Blackwellの圧倒的な需要により過去最高の業績を達成🚀
株価は時間外取引で4.4%上昇📈
🔸FY26 Q3業績(10月26日終了)
⭕️EPS: 1.30ドル(予想1.26ドル)
⭕️売上高: 570.1億ドル(予想550.9億ドル)
📈売上高成長率: +62% Y/Y, +22% Q/Q
🔸FY26 Q4ガイダンス
⭕️売上高: 650億ドル±2%(予想618.4億ドル)
📈売上高成長率: +70% Y/Y, +14% Q/Q
🔸部門別売上高(Q3)
📈コンピュート&ネットワーキング: 509.1億ドル(+64% Y/Y, +23% Q/Q)
📈グラフィックス: 61.0億ドル(+51% Y/Y, +13% Q/Q)
🔸市場プラットフォーム別売上高(Q3)
📈データセンター: 512.2億ドル(+66% Y/Y, +25% Q/Q)
- コンピュート: 430.3億ドル(+56% Y/Y, +27% Q/Q)
- ネットワーキング: 81.9億ドル(+162% Y/Y, +13% Q/Q)
📈ゲーミング: 42.7億ドル(+30% Y/Y, -1% Q/Q)
📈プロフェッショナルビジュアライゼーション: 7.6億ドル(+56% Y/Y, +26% Q/Q)
📈オートモーティブ: 5.9億ドル(+32% Y/Y, +1% Q/Q)
🔸財務ハイライト
✔️営業キャッシュフロー: 237.5億ドル(+35% Y/Y, +55% Q/Q)
✔️フリーキャッシュフロー: 220.9億ドル(+32% Y/Y, +64% Q/Q)
✔️現金・現金同等物・有価証券: 606億ドル(前年385億ドル、前四半期568億ドル)
✔️売掛金: 334億ドル、回収日数53日(前四半期54日)
✔️在庫: 198億ドル(前四半期150億ドルから増加)
✔️供給関連コミットメント: 503億ドル
✔️複数年クラウドサービス契約: 260億ドル(前四半期126億ドルから急増)
✔️株主還元: 127億ドル(自社株買戻125億ドル、配当2.4億ドル)
✔️自社株買戻承認枠の残高: 622億ドル(第3四半期末時点)
🔸事業ハイライト
✔️Blackwell Ultraが全顧客カテゴリーで主力アーキテクチャに
✔️Blackwellの前世代製品も引き続き堅調な需要
✔️H20の売上はQ3で微小レベル
✔️NVLink compute fabricの導入と成長によりネットワーキング売上が前年比162%増
✔️OpenAIと戦略的パートナーシップを発表、最低10ギガワットのNVIDIAシステムを展開
✔️Anthropicが初めてNVIDIAインフラで稼働・スケール、1ギガワットの計算容量を採用
✔️米国内のTSMCアリゾナ施設で最初のBlackwellウェハーを生産
✔️NVIDIA Rubin CPXを発表、大規模コンテキスト処理専用の新クラスGPU
✔️NVIDIA BlueField-4を発売、AIファクトリーのOSプロセッサ
✔️MLPerf Inference v5.1ベンチマークでBlackwell Ultraが記録を樹立
🔸利益率の動向
✔️GAAP粗利益率: 73.4%(前年74.6%から1.2pt低下、前四半期72.4%から1.0pt上昇)
✔️Non-GAAP粗利益率: 73.6%(前年75.0%から1.4pt低下、前四半期72.7%から0.9pt上昇)
✔️GAAP営業費用: 58.4億ドル(+36% Y/Y, +8% Q/Q)
✔️Non-GAAP営業費用: 42.2億ドル(+38% Y/Y, +11% Q/Q)
✔️GAAP実効税率: 15.9%(前年から上昇)
✔️Non-GAAP実効税率: 17.1%
✔️Hopper HGXシステムからBlackwellフルスケールデータセンターソリューションへの移行により前年比で粗利益率は低下
✔️Blackwellの量産拡大とミックス・コスト構造の改善により前四半期比では粗利益率が上昇
✔️営業費用の増加は、コンピュートおよびインフラコスト、報酬増加と従業員増加による人件費、新製品開発コストが主因
🔸CEOコメント(Jensen Huang氏)
「Blackwellの売上は桁違いで、クラウドGPUは売り切れています。トレーニングと推論の両方でコンピュート需要が加速し続け、それぞれが指数関数的に成長しています。私たちはAIの好循環に入りました。AIエコシステムは急速にスケールしており、より多くの新しい基盤モデルメーカー、より多くのAIスタートアップが、より多くの業界、より多くの国で誕生しています。AIはあらゆる場所で、あらゆることを、同時に行っています。」
🔸会社概要
NVIDIAは、AIと高速コンピューティングの世界的リーダーです。
データセンター、ゲーミング、プロフェッショナルビジュアライゼーション、オートモーティブの4つの大規模市場にプラットフォームを提供し、プロセッサ、インターコネクト、ソフトウェア、アルゴリズム、システム、サービスを統合した独自の価値を提供しています。 November 11, 2025
46RP
Amazonブラックフライデー2025のスマホ部門、現時点で優勝はPOCO X7 Proだと思うwww過去最安にwwwそもそも4万切りはヤバいwwwベンチマークスコアが全てではないが約160万点超え https://t.co/qJJ63DMuum November 11, 2025
26RP
Googleの新たなAIモデル「Gemini 3.0」が凄すぎる。
テキスト、画像、動画を理解し、複雑なスライドやアプリの生成から、3D物理シミュレーションの生成までしてくれます。
しかも、AGIベンチマークは史上最高性能を記録です。
その衝撃的な最新事例5つと詳細をまとめました🧵 November 11, 2025
24RP
今確認してるでかプ関連のグループ
・でかプ同好会
開発陣作成の公式メイングループ。アプデのお知らせとかdiscordサーバーとか運営してるよ。
・でかプ交流会
開発陣作成の公式イベント用グループ。でかプ交流会とかに使われるよ。
・スキルブッパ連合
ユーザー作成の公式グループ。24時間スキルが垂れ流されているベンチマークグループ。参加条件が1000万SP以上使用とライト層には厳しいが効率が最適化されてるため火力はどこにも負けない。間違ってもここ基準でゲームバランスを構築してはいけない
・スキルブッパ会
ユーザー作成のほぼ公式グループ。規定時間に集合して持ってるだけのスキルを垂れ流すグループ。参加条件はないためライト層でも気軽に参加できる。ゆるく遊べるけど普段より効果力で稼げる。間違ってもブッパ基準でゲームバランスを構築してはいけない
・でかプから帰ってこい
ユーザー作成のジョークグループ。フレンドがでかプに取られたら掲示したらいいと思います(適当) November 11, 2025
19RP
AIのベンチマークを兼ねて作らせたのですが、文学作品を作らせるならGemini3 ProよりもGPT-5 Proの方が強いですね。
なかなか面白いものが出来て、もったいないのでポストします。 https://t.co/9DslaEZIFz November 11, 2025
19RP
これは冗談でやってたけど、なんかGeminiの特徴としてテキストの裏にあるビジョンが見えてる感じがするんだよな。このネタのゴー⭐︎ジャスがオチ前に足バタバタさせるシーンみたいなのも、普通に考えたら実物の映像を見なきゃ書けないはずなんだよ。今回のベンチマークではWeb検索することをモデルに指示してるが、恐らくテキストレベルでここまで細かに挙動を纏めてるリファレンスなんて無いだろうし、オンラインの待ち時間的に動画を取り込んでるとも考えにくい。
となると、事前学習時にマルチモーダルタスクで取り込んでいたゴー⭐︎ジャスの映像が純粋なテキストタスクにおけるトークン生成に良い影響を及ぼしている?事前学習に発展余地があるというのはモダリティ間の好影響が関連してるのか?
正直ガチガチに議論が必要な重厚なテキストタスクに関してはやっぱりGPT-5.1の方が良いし洗練されてる感があるんだけど、もしかしたらGeminiは違う方向性での進化の道を選んで壁を越えようとしてるのかも?と、妄想するなどした。 November 11, 2025
15RP
研究論文『人類最後の試験』2025年1月
https://t.co/yLnnGs9dFD
➢ 最先端AIでも正答率13%、人間の専門家には遠く及ばず
➢ 世界1,000人の研究者が厳選した2,500問の超難問集
➢ 高い自信で間違える「AI幻覚」の実態が数値で明らかに
「モデルは不確実性を認めず、間違った答えに高い自信を示す。 これは深刻な問題だ」研究チーム
AIが既存テストで満点近くを取る時代、真の能力を測る新基準が登場した。世界50カ国の専門家が協力し、検索不能な超難問2,500問で構成されたベンチマークである。最高性能モデルでも正答率は13%にとどまり、AIと人間専門家の間に巨大な壁が存在することが判明した。
🔹 数学中心に全学問分野を網羅
ChatGPTやClaudeは人気の知能テストMMMLUで90%以上のスコアを記録し、もはや能力差を測定できない状況にある。HLE(Humanity's Last Exam)は数学を中心に、生物学、物理学、哲学、法律まで幅広い分野から問題を収録した。多肢選択式と記述式を組み合わせ、自動採点が可能な設計である。全問題は独創的で曖昧さがなく、Google検索では答えが見つからない。大学院や博士課程レベルの深い理解を要求する内容となっている。
🔹 7万回のAIテストで難易度確認
問題作成には厳格な審査プロセスが導入された。各問題は提出前に最先端AIでテストされ、AIが正答できた場合は却下される。7万回以上の検証を経て1万3,000問が専門家レビューに進んだが、最終的に採用されたのは2,500問のみである。第一段階では複数の大学院レベル審査員がフィードバックを提供し、第二段階で主催者と専門家が承認する。公開後もコミュニティから誤りの報告を受け付け、継続的に品質を改善している。
🔹 最高性能O3-MINIでも13.4%
評価結果は衝撃的だった。GPT-4Oの正答率は2.7%、Claude 3.5 Sonnetは4.1%、O1は8.0%、最高性能のO3-MINI(HIGH)でも13.4%にとどまった。さらに深刻なのは「較正誤差」の高さである。これはモデルの自信度と実際の正答率のズレを示す指標で、全モデルで70%を超えた。つまりAIは自分が間違っていることを認識せず、誤答に高い確信を持って答えている。推論モデル(DeepSeek-R1など)は精度がやや高いが、通常モデルの数倍のトークン(計算量)を消費しており、効率面での課題が残る。
📌 専門知識と創造性は別問題
研究チームは、AIの急速な進化を考慮すると2025年末までに50%の正答率を達成する可能性があると予測する。しかし高得点は閉じられた学術問題での能力を示すにすぎず、研究の自律性や汎用知能を意味しない。HLEは構造化された問題を測定するもので、オープンエンドな創造性や実世界の問題解決能力は評価対象外である。
画像:質問の例 これは墓石に刻まれたローマ時代の碑文の再現である。パルミラ文字の翻訳を提供せよ。
参考文献: Humanity's Last Exam - Long Phan et al. (January 2025) November 11, 2025
10RP
LINE元CEO森川氏の「差別化をしたければ、差別化を狙うな。差別化の先に見えているのはユーザーではなくライバル企業だから。ベンチマークした商品のユーザーにとって最も重要な価値だけにフォーカスし、磨き上げる。それが結果的に真の差別化を生み出す」という言葉が突き刺さる。
「他社がこれやっているから、差別化を狙うためにうちはこうしよう」
これはユーザーを見ず、ライバルしか見てない。
結果、ユーザーが求めてないものを作ってしまう。
楽天モバイルが追及するのは「ユーザーにとって最も重要な価値」。
それは何か。
「シンプルな料金プランで全キャリア最安値。」
これだけ。
音声+データ無制限で税込3,278円。
余計な機能を足さず、複雑なプランを作らない。
その結果、差別化を狙ってないのに、一番差別化されてる。
ライバルを見ず、ユーザーにとって最も重要な価値だけを磨く。
それが、究極の差別化ということ。 November 11, 2025
10RP
そうなんですよね、
Gemini 3が飛躍的な進化を遂げたのは間違いない事実で、それでもなんだかんだ『ベンチマークの数字から想像される有用さと実運用した時の有用さのギャップ』が大きいのがGeminiで、その逆がGPTみたいな感じなんですよね。
一消費者としては全部便利に使わせてもらうだけですがw https://t.co/qC1R6RbFwM November 11, 2025
8RP
「Battlefield 6」を快適にしたい! 全20種類のGPUでベンチマーク対決。ボーナスで買うグラフィックスカードはどれか
https://t.co/bROo3SHdoO
年末商戦で買うグラフィックスカードはどれか? BF6で性能対決を実施してみた https://t.co/HGTxs8vLke November 11, 2025
8RP
ベンチマークも計ってみようと思う届いたら
ぜひ皆この記事だけでもいいねとRTして欲しい
全文読んでくれ!目が飛び出るぞ!!
https://t.co/3C8hPsa3vv
#SHEIN #アリエクスプレス #aliexpress November 11, 2025
7RP
は?Gemini3.0やばい😱
めっちゃざっくりの指示しかしてないし、プロンプト出力しかお願いしてないのに完成系出してきた。
サムネのクオリティ高すぎん??文字も潰れてないし!!
GPTのベンチマーク超えたって聞いてたけど流石すぎます👏👏👏もうGEMINIに乗り換えるGPTばいばい https://t.co/H9fgJXw2O6 November 11, 2025
7RP
Google DeepMindからGemini 3を匂わす投稿が、、、
一応リークでGemini 3 Proのベンチマーク情報も公開されていたりします。Claude 4.5 SonnetやGPT 5.1を超える模様。
もう、公開秒読みですね。明日か明後日か、、
https://t.co/a0f6sfkv7e https://t.co/8Of0hzRfKo https://t.co/wlPX29HtWm November 11, 2025
6RP
🚨 完全ではない
Gemini3、本当に素晴らしいモデルですが
実はいくつか課題もあります
私の感じている3点について
☑️ 1. ハルシネーション
実はGemini2.5 時代から課題になっていたハルシネーションは特に改善されていなかったりします
上手くハマると、他にない細かいUIを作ってくれるなど最強ですが、たまにとんでもない方向に走るのが気になるかも。気になるなら複数スレッドで試すのが良い
☑️ 2. ターミナル利用本当に良い?
公式のベンチマークでは、ClaudeやOpenAIのモデルと比較しても優れているとのことでしたが、 @_valsai や @ArtificialAnlys の指標によると 最強ではない模様
私自身開発していても、超快適というわけではない(※でも上位だし最高のモデルです)
☑️ 3. GPT5.1 系とは出力の味が違う
Geminiモデルは、HLE などのベンチマークにおいて他を大きく引き離す性能を示しており、本質的な問いに対しても鋭い回答を返してくれます
これは課題というより「味」の違いですが、OpenAI のモデルがシンプルで分かりやすい印象なのに対して、Gemini は全体的に説明的で情報量が多い印象があります。 直感的に使いやすいのが OpenAI、詳細まで踏み込んでくれるのが Gemini、といった対比ができそうです。 November 11, 2025
6RP
#note #AI創作論 #Gemini3 #chatgpt5 #Claude
「作者が意図せず書いた“執着トリック”を Gemini 3 がBL文脈で正確に解析してきた件」@BubblecubeIhika #AIとつくってみた
ベンチマークテスト第2弾
あのClaude先生が敗北宣言?!
BLも読めるぞGemini3!
今回長文です
https://t.co/PSMJn2NCcH November 11, 2025
5RP
あと、起業家のイグジットが目立つようになり、「サクッと調達して売却して億万長者」は、そんなに甘くないし、あなたがベンチマークしているストーリーの起業家は創業当初上場を当たり前に社会的にインパクトがあるスタートアップになりたかった人も多いことも忘れてはならない。もともと売却ストーリーで狙ってやった会社ばかりではないですよ。 November 11, 2025
5RP
<ポストの表示について>
本サイトではXの利用規約に沿ってポストを表示させていただいております。ポストの非表示を希望される方はこちらのお問い合わせフォームまでご連絡下さい。こちらのデータはAPIでも販売しております。



