GPT-5 トレンド
0post
2025.12.01
:0% :0% (30代/男性)
GPT-5に関するポスト数は前日に比べ132%増加しました。男性の比率は2%増加し、前日に変わり30代男性の皆さんからのポストが最も多いです。本日話題になっているキーワードは「ChatGPT」です。
人気のポスト ※表示されているRP数は特定時点のものです
■「Geminiの検索周りは他社のAIと比べて圧倒的に出来が悪く、設計から見直さないと深い調査には使えない」
ワイがずっと言ってるGeminiの検索ポンコツ問題、まったく同じような意見がRedditに投稿されていた。
なお、GeminiのWebアプリでも、Google AI StudioでWebグラウンディングしても同様。
どれも、ワイが言い続けている内容とかなり整合する。
※ここで書かれているのは確定している"公開仕様"ではなく、観測された挙動からの推測を含むことに注意。
主な問題は以下。
---
① 検索クエリの立て方が極端に悪く、古い知識に引きずられる
最新情報が必要な質問でも、いきなりバージョン番号や年月を含んだ「狭いクエリ」を投げてしまい、検索前から古い前提に縛られている。例として「最新の Gemini モデルは?」と聞いたときに、Gemini が内部の古い知識を前提にしたようなピンポイント検索ばかりする一方で、OpenAI 側(GPT‑5.1)はまず広いクエリで全体像を探り、その後で絞り込んでいく挙動を見せる。
→これ、実際使ってるとマジで遭遇するよね。「そりゃそんな決めつけたような検索の仕方をしたら、正しい答えなんて得られないだろ」ってのがGeminiだとマジである。
これもついこの前書いた
https://t.co/cGXTwyO67l
『OpenAIのReasoningモデルは)基本動作として初手でとりあえず検索して『世界の状況をざっくり知る』からスタートする傾向にあるからこういうことが起きにくい』
Geminiはこれをやらないから、思い込みで恣意的な答えをWebから集めてポンコツ回答をするって話。
② (特にDeep Researchにおいて)事前に「固い計画」を作りすぎて、実際の検索結果に合わせて軌道修正できない
まず内部知識をもとに細かい調査計画を立て、その計画に沿って検索していく設計になってそうだという話。
その結果、「最近仕様が変わった API」などを調べるときでも、古いバージョン番号やすでに廃止されたエンドポイントを前提にした計画を組み、その計画を機械的にこなしてしまうので、最新の情報に辿り着けない。本来は、ざっくり広く調べてから、見つかった情報に合わせて次の一手を変えていくべきなのに、それが出来ていないという指摘。
→ChatGPTだと、GPT-5.1 ThinkingもDeep Researchも、検索結果に応じて調査方針を動的に更新しながら進んでくれるけど、Geminiは事前に決めた計画でしか調査しないから、思い込みで間違えた答えを出してくるって話。これ、ワイも以前にポストした。
https://t.co/WzhKwStdYj
③ 検索結果が「スニペットだけ」で、ページ本文を読めない設計
Google 検索と連携しても、Gemini 側にはWebページ全文ではなく「Googleにキャッシュされてる、検索結果用の短い抜粋(スニペット)」だけが、固い構造化データの形で渡されると指摘されてる。そのうえで、特定の URL を開いてページ本文を読ませる手段が用意されておらず、API の仕様など「細かい情報を読み込んで調べるタイプのタスク」がほぼ不可能。ChatGPTはページを普通に読みに行く(フェッチする)。
④ 検索プロセスの中身がユーザーから見えない
Web 版の Gemini では、どんな検索クエリを投げて、どのサイトを見ようとしたのかが表示されない。
開発者向けの API でも、レスポンスが出たあとに「どんなクエリを使ったか」の一覧が少し見えるだけで、「推論のどのタイミングで、どのように検索したか」が分からず、調査の網羅性を検証しにくい December 12, 2025
202RP
ChatGPTが3周年を迎えたが、OpenAIの背後では債務が急膨張しデータセンター関連借入は1,000億ドル規模に迫る。依然赤字の中、競争は激化し、Googleの「Gemini 3」がGPT-5を凌駕したとの声も強まる。技術覇権を巡る勢力図は揺らぎ、先行者といえど歩みを止められない。この領域に永続する王者はいない。 https://t.co/Ea55CK4lkv December 12, 2025
69RP
【Gemini、ChatGPT超えも時間の問題か】
GeminiがChatGPTを「滞在時間」で逆転
追い上げが凄い
・月間ユーザー:Gemini 6.5億 vs ChatGPT 8億
・滞在時間:Gemini 7.2分 vs ChatGPT 6分
・GeminiのDL数が半年で4.4倍に急増
・Gemini 3がGPT-5を性能で上回る
・Google時価総額が兆に迫る
詳細↓ https://t.co/XKBEIXlUXU December 12, 2025
17RP
GPT-5.1-Thinkingが嘘をつくより、ブラウジングしてフェイクニュースを掴まされる方がよっぽど多い https://t.co/IDTlHMcQUf December 12, 2025
10RP
DeepSeek V3.2正式版登场:拒绝烧钱Scaling,开源AI以算法突破算力瓶颈
DeepSeek V3.2 Officially Launches: No Costly Scaling, Just Smarter Algorithms Driving Open-Source AI Beyond Compute Limits
笔者注:这几个星期,Sam Altman的内心想必是拒绝且焦虑的:Gemini 3 Pro的出世刚完成了一轮横扫;Ilya随即便抛出“Scaling已到尽头,接下来是研究的时代”的论断;还没缓过气来,DeepSeek的新动作又是新的行业震爆。
就在刚刚,DeepSeek一次性开源两个正式版模型DeepSeek-V3.2与DeepSeek-V3.2-Speciale,同时网页版,App与API同步升级为正式版 V3.2,乾脆、利落、不拖泥带水。
可以说,DeepSeek-V3.2的横空出世,深刻诠释了开源AI的独特魅力:它摒弃了盲目的暴力Scaling,以更精妙的算法为杠杆,在算力资源受限的情况下,发挥了Ilya所说的研究精神,真正地通过技术创新撬动了通往巅峰的捷径。
一,DeepSeek-V3.2:推理能力全球领先
按照官方的数据,
🔹 DeepSeek-V3.2的目标是平衡推理能力与输出长度,适合日常使用,例如问答场景和通用Agent任务场景。在公开的推理类Benchmark测试中,DeepSeek-V3.2达到了GPT-5的水平,仅略低于Gemini-3.0-Pro;相比Kimi-K2-Thinking,V3.2的输出长度大幅降低,显著减少了计算开销与用户等待时间。
🔹 DeepSeek-V3.2-Speciale的目标是将开源模型的推理能力推向极致,探索模型能力的边界。V3.2-Speciale是DeepSeek-V3.2的长思考增强版,同时结合了DeepSeek-Math-V2的定理证明能力。该模型具备出色的指令跟随、严谨的数学证明与逻辑验证能力,在主流推理基准测试上的性能表现媲美Gemini-3.0-Pro(见表1)。更令人瞩目的是,V3.2-Speciale模型成功斩获IMO 2025(国际数学奥林匹克)、CMO 2025(中国数学奥林匹克)、ICPC World Finals 2025(国际大学生程序设计竞赛全球总决赛)及 IOI 2025(国际信息学奥林匹克)金牌。其中,ICPC与IOI成绩分别达到了人类选手第二名与第十名的水平。
在高度复杂任务上,Speciale模型大幅优于标准版本,但消耗的Tokens也显著更多,成本更高。目前,DeepSeek-V3.2-Speciale仅供研究使用,不支持工具调用,暂未针对日常对话与写作任务进行专项优化。
图2:DeepSeek-V3.2与其他模型在各类数学,代码与通用领域评测集上的得分(括号内为消耗Tokens总量)
二,DeepSeek-V3.2:实现思维与工具调用的深度协同
告别割裂:思考融入工具执行流
不同于过往版本中工具调用与思维模式相互割裂的局限,DeepSeek-V3.2是首个将思维链(CoT)深度融入工具使用流程的模型,并同时支持思考模式与非思考模式下的灵活调用。
数据驱动:大规模Agent训练方法
为实现这一跨越,DeepSeek提出了一种创新性的大规模Agent训练数据合成方法。通过构造海量的1800+虚拟环境和85,000+复杂指令,这些“难解答,易验证”的强化学习任务极大地拓宽了模型的泛化能力。
评测结果:缩小与闭源模型的代差
如下图所示,DeepSeek-V3.2在各项智能体工具调用评测中,不仅达到了开源模型的最高水平,更显著缩小了与顶级闭源模型的性能差距。尤其值得强调的是,V3.2依靠通用能力而非针对性训练取得了此成绩,预示着其在真实应用场景中具备强大的泛化能力与通用Agent潜能。
三,DeepSeek V3.2进化论:拒绝断片,学会边干边想
架构传承,能力跃迁:V3.2正式版沿用DSA架构,但核心突破在于引入“思维上下文管理”,彻底解决了AI思考与行动脱节的顽疾。
V3.2 Exp版:调用工具回来容易断片儿,思考链条断裂,效率低。
V3.2正式版:相当于自带了一个“工作记忆暂存区”,工具调用与逻辑思考无缝衔接,下一步操作即刻跟上。
DeepSeek新模型技术报告已同步发布:
https://t.co/sfkz51Eo5w
开源发布:
DeepSeek-V3.2
ModelScope:
https://t.co/ZgUSFokP2k
HuggingFace:
https://t.co/d6OgeKRpKB
DeepSeek-V3.2-Speciale
ModelScope:
https://t.co/OJaipPxbP2
HuggingFace:
https://t.co/63pKYZhxSv December 12, 2025
5RP
KiloCode 这篇文章对 GPT-5.1、Gemini 3.0 和 Claude Opus 4.5 三个最新模型,在三个具体编程任务上的表现做了系统对比,最后给出“用在什么场景更合适”的结论。
Claude Opus 4.5 更像“认真负责的高级工程师”,会把需求一个个对上,还会顺手补全容易漏掉的部分,比如限流、环境变量配置、所有事件的模版等,在三个测试里整体得分最高,但算力成本也最贵。
GPT-5.1 更像“爱多想的老程序员”,在重构和系统扩展里会主动帮你找安全问题、数据库事务问题、兼容老字段之类的坑,写出来的代码长、注释多、检查也多,但有时会加超出你原始需求的东西,需要你自己判断要不要留。
Gemini 3.0 则是“按字面完成任务的实习生”:你说什么它就做什么,代码短、便宜、实现也很贴合提示,但不会主动多加安全保护或额外功能,复杂任务里容易漏掉一些深层问题。
文章最后的使用建议是:如果你想“一次到位、所有需求都被照顾”,选 Opus 4.5;如果你更在意帮你兜各种潜在坑,选 GPT-5.1;如果你只想要便宜、简洁、完全按规格来的代码,就用 Gemini 3.0。
https://t.co/dxLS1KBJXe December 12, 2025
3RP
■「Geminiの検索周りは他社のAIと比べて圧倒的に出来が悪く、設計から見直さないと深い調査には使えない」
ワイがずっと言ってるGeminiの検索ポンコツ問題、まったく同じような意見がRedditに投稿されていた。
なお、GeminiのWebアプリでも、Google AI StudioでWebグラウンディングしても同様。
どれも、ワイが言い続けている内容とかなり整合する。
※ここで書かれているのは確定している"公開仕様"ではなく、観測された挙動からの推測を含むことに注意。
主な問題は以下。
---
① 検索クエリの立て方が極端に悪く、古い知識に引きずられる
最新情報が必要な質問でも、いきなりバージョン番号や年月を含んだ「狭いクエリ」を投げてしまい、検索前から古い前提に縛られている。例として「最新の Gemini モデルは?」と聞いたときに、Gemini が内部の古い知識を前提にしたようなピンポイント検索ばかりする一方で、OpenAI 側(GPT‑5.1)はまず広いクエリで全体像を探り、その後で絞り込んでいく挙動を見せる。
→これ、実際使ってるとマジで遭遇するよね。「そりゃそんな決めつけたような検索の仕方をしたら、正しい答えなんて得られないだろ」ってのがGeminiだとマジである。
これもついこの前書いた
https://t.co/cGXTwyO67l
『OpenAIのReasoningモデルは)基本動作として初手でとりあえず検索して『世界の状況をざっくり知る』からスタートする傾向にあるからこういうことが起きにくい』
Geminiはこれをやらないから、思い込みで恣意的な答えをWebから集めてポンコツ回答をするって話。
② (特にDeep Researchにおいて)事前に「固い計画」を作りすぎて、実際の検索結果に合わせて軌道修正できない
まず内部知識をもとに細かい調査計画を立て、その計画に沿って検索していく設計になってそうだという話。
その結果、「最近仕様が変わった API」などを調べるときでも、古いバージョン番号やすでに廃止されたエンドポイントを前提にした計画を組み、その計画を機械的にこなしてしまうので、最新の情報に辿り着けない。本来は、ざっくり広く調べてから、見つかった情報に合わせて次の一手を変えていくべきなのに、それが出来ていないという指摘。
→ChatGPTだと、GPT-5.1 ThinkingもDeep Researchも、検索結果に応じて調査方針を動的に更新しながら進んでくれるけど、Geminiは事前に決めた計画でしか調査しないから、思い込みで間違えた答えを出してくるって話。これ、ワイも以前にポストした。
https://t.co/WzhKwStdYj
③ 検索結果が「スニペットだけ」で、ページ本文を読めない設計
Google 検索と連携しても、Gemini 側にはWebページ全文ではなく「Googleにキャッシュされてる、検索結果用の短い抜粋(スニペット)」だけが、固い構造化データの形で渡されると指摘されてる。そのうえで、特定の URL を開いてページ本文を読ませる手段が用意されておらず、API の仕様など「細かい情報を読み込んで調べるタイプのタスク」がほぼ不可能。ChatGPTはページを普通に読みに行く(フェッチする)。
④ 検索プロセスの中身がユーザーから見えない
Web 版の Gemini では、どんな検索クエリを投げて、どのサイトを見ようとしたのかが表示されない。
開発者向けの API でも、レスポンスが出たあとに「どんなクエリを使ったか」の一覧が少し見えるだけで、「推論のどのタイミングで、どのように検索したか」が分からず、調査の網羅性を検証しにくい。 December 12, 2025
2RP
【生成AI3周年】借金と競争が教える「王者なき時代」👑
🌱ダウンロード競争が一気に接戦だべ
ChatGPTは2022年11月の公開から3年。
月間アプリDLは2025年前半に1億件超まで伸びて、「一強」に見えた時期もあったな。
でもFTのグラフを見ると、秋以降はGoogleのGeminiが急追。
数カ月でDLがゼロ近辺から約8,000万件まで跳ね上がり、ChatGPTとの差はぐっと縮まってるべ。
「とりあえずChatGPT一択」という空気は、もう崩れ始めているってことだな。
📊データセンター投資と“見えない借金”
最近の報道では、OpenAIそのものではなく、そのデータセンターを支えるパートナー企業(ソフトバンク、オラクル、CoreWeaveなど)が、合計で約1,000億ドル=9.6兆円規模の借入を抱えつつあるとされる。
しかもOpenAIは依然「赤字スタートアップ」と位置づけられているべ。
さらにHSBCは、2030年までの拡張計画をこなすには、追加で2,070億ドルの資金調達が必要になるかもしれないと試算してる。(データセンター・ダイナミクス)
これは、倭国円で30兆円超。
AIブームが続く前提で組まれた超大型レバレッジだな。
ただ「借金が大きい=必ず破綻」という因果ではねぇ。
高成長ビジネスは、最初に巨額投資が必要で、後から回収するパターンも多いべ。
今見えているのは「高リスク・高期待の構図」であって、危機はあくまで可能性の段階だな。
🤖Gemini 3 vs GPT-5:どっちが“頭いい”のか
GoogleはGemini 3を発表して、「これが一番賢いモデルだ」と大々的にアピール。
セールスフォースのベニオフCEOが「ChatGPTを超えた、もう戻らない」と絶賛したことで、「GPT-5より上だべ」という声が一気に広がった。
でも、ベンチマーク比較を見るともう少し複雑だな。
複数の検証では、Gemini 3はコストと速度、画像・動画を含むマルチモーダル処理に強み。
一方GPT-5.1は、長い文脈での推論やコード・データ分析で優位とされている。
つまり「ダウンロード数が伸びた」「有名CEOが褒めた」ことと、「技術的に全面勝利した」ことは別物。
ここは相関であって、因果と取り違えると判断を誤るべ。
🔎別の視点:王者不在か、複数王朝か
ユーザー側から見ると、GeminiもGPTもボタン一つで乗り換えられる時代だべ。
ブラウザやアプリで「今日はGemini、明日はGPT-5.1」と使い分けるのが当たり前になりつつある。
この構造だと、「一社が永遠の王者になる」というより、タスクごとに強みの違うモデルが並立する“複数王朝”になる可能性も高い。
その一方で、OpenAIもGoogleも膨大なユーザーデータと資本力を持っていて、新規参入組が追いつけない壁を作りつつあるのも事実だな。
だから「覇権がコロコロ入れ替わる」と決めつけるのも行き過ぎだべ。
結局のところ、今起きているのは「AIそのものの成長」と「プレイヤー同士の椅子取りゲーム」が同時進行している状態。
どこが勝つかよりも、「この投資ブームがどこまで持続可能か」を冷静に見る必要があるな。
🧭今後の見通し・リスク管理ポイント・まとめ
🔭今後の見通し
・ChatGPTとGeminiのDL競争は当面デッドヒートが続くべ
・データセンター投資は拡大が続き、追加の大型資金調達ニュースが増えそうだな
・モデル性能は「総合王者」ではなく、用途別の分業体制が進む可能性が高い
⚠️リスク管理ポイント
・「借金1,000億ドル=即バブル崩壊」と短絡せず、収益化の進捗を継続チェックするべ
・SNS上の「○○最強」評価に振り回されず、複数モデルを自分で試して比較すること
・AI関連株・半導体株は期待先行になりやすいので、ポジションは分散と利益確定ルールを決めておくべな
📝まとめ
生成AIは3年で世界をガラッと変えたけど、王者の座はまだ固定されてねぇ。
OpenAIもGoogleも巨額投資という同じリスクを背負いながら走ってる状況だべ。
「どのAIが一番か」を追うより、「このブームの持続性」と「自分の生活・投資にどう活かすか」を落ち着いて考えていぐのが大事だな。
#HS #倭国株 #米株 #資産形成 December 12, 2025
2RP
Deep Seek V3.2 が登場👀
2025年国際数学オリンピックと国際情報オリンピックにおいて金メダル級の成績を収めたモデル。タスクによってはGPT-5.1 HighやGemini 3 Proに匹敵する性能とのこと。
これくらい性能出てたらもうオープンウェイトモデルでもいいかもってタスクも多いかもですね😇 https://t.co/uwhZJL9Xbz December 12, 2025
2RP
DeepSeek-V3.2がGPT-5とベンチマークで拮抗したり、specialeでGemini Proと勝負してるの、685Bというサイズで実現しているのはすごいな。
テクニカルレポートのほうにKimi K2(1T)とも同等と書いてある。
SpecialeはAPIのみということだけど、今後公開の予定はあるのかな。 https://t.co/FAHzjdBPwV December 12, 2025
2RP
Google TPU 要干掉英伟达了吗?Meta 被曝将大规模采购 TPU,引发市场震动。但真相是:TPU 能撼动英伟达,却永远无法取代英伟达。这不是性能之争,而是生态、时机与战略的较量。
The Information 的一篇重磅报道把整个 AI 行业给炸了,Meta 正在与 Google 进行秘密谈判,计划大批量采购 Google 的 TPU 芯片,用于部分替代英伟达的 GPU 以支持其庞大的数据中心 AI 运算。
根据报道披露的细节,这盘棋下得很大:
- 2026 年: Meta 将大规模租用 Google 云服务(Google Cloud)上的 TPU 算力进行模型训练;
- 2027 年: Meta 将直接采购数十亿美元的 TPU 芯片,部署于自建的数据中心内。
什么?全球最大的 GPU 采购大户要抛弃英伟达了? Google 的 TPU 居然要走出自家机房,去取代英伟达的 GPU 了吗?
消息一出,资本市场瞬间恐慌了。英伟达股价应声大跌,而 Google 则逆势暴涨,大家都在问:难道英伟达靠 GPU 垄断 AI 数据中心的故事真的讲不下去了吗?TPU 开始逆转了战局了吗?要讲明白这场 GPU vs TPU 的战争,我们要先从英伟达为什么能够像“铁桶”一般垄断 AI 数据中心讲起。
当今的 AI 技术堆栈:一座精密的金字塔
今天的人工智能是一个无比庞大的工业化产业。像 ChatGPT 这样顶尖的 AI 产品,其背后是由一层一层的技术基石堆砌而成的,这在 IT 行业被称为“技术堆栈(Tech Stack)”。
即使采用最粗略的划分方式,要支撑起当下的生成式 AI,至少也包含 5 层关键技术,缺一不可:
- 第一层:算力硬件层(Infrastructure) 这是金字塔的底座,是一切的基础。核心代表毫无疑问是英伟达的 GPU 和 Google 的 TPU。它们提供了 AI 运算所需的庞大算力,就像是工业时代的电力引擎。
- 第二层:系统软件与加速层(System & Compiler) 光有芯片还不够,AI 计算需要成千上万个芯片协同工作。这一层负责调度硬件并优化效率,充当硬件与上层软件的翻译官,它们决定了你能发挥出硬件多少潜能。这一层最典型的护城河技术,就是英伟达的 CUDA,而 Google 的 TPU 也有能够把上层软件编译为 TPU 机器码的 XLA 编译器。
- 第三层:深度学习框架(Deep Learning Frameworks) 想要构建和训练大规模神经网络,开发者不能手搓底层的软件代码,需要成熟的“脚手架”。业界目前最流行的是 META 发起开源软件 PyTorch(目前对 GPU 生态支持最好,是事实标准),以及 Google 发起的开源软件 JAX 和经典的 TensorFlow。
- 第四层:基础大模型(Foundation Models) 这是由深度学习框架训练出来的“超级大脑”,是目前竞争最激烈的战场。
- 语言/多模态模型: 如 OpenAI 的 GPT-5、Google 的 Gemini 3;
- 视频生成模型: 如 OpenAI 的 Sora、Google 的 Veo;
- 图像生成模型: 如 Google 的 Imagen、Midjourney。
- 第五层:AI 应用与交互层(Applications & Agents) 这是用户直接接触的产品。它将底层强大的模型能力封装成人类可以交互的工具。例如 ChatGPT,它的底层核心是 GPT 模型,但它本身是一个增加了对话界面、联网搜索、记忆功能的产品;又比如 Google 的 NotebookLM。
为什么英伟达在 AI 数据中心市场形成了绝对垄断?
我们经常感叹英伟达的 GPU(如 H100、H200、B200)硬件参数如何炸裂,但这只是冰山一角。英伟达之所以能对 AI 数据中心市场形成近乎无解的垄断(市占率一度超过 95%),主要源于以下三个维度的降维打击:
1. 通用性极强的单点算力 英伟达的 GPU 本质上是通用计算加速器(GPGPU)。它不仅能完美覆盖 AI 大模型的训练(Training)和推理(Inference),还能兼顾科学计算(气象模拟、药物研发)、图形渲染甚至加密货币挖掘。这种“一卡多用”的特性,使其成为了数据中心的硬通货——买了永远不亏,不用来炼丹还能用来挖矿(开玩笑,但道理如此)。
2. 恐怖的集群扩展能力(Scale-up & Scale-out) AI 大模型训练不是单打独斗,而是需要成千上万张显卡协同作战。英伟达在这方面做得太绝了:
- 节点内互联:通过独家的 NVLink 技术,英伟达可以将多个 GPU(甚至高达 72 个 GPU 组成的 GB200 NVL72 机柜系统)连接成一个“超级逻辑 GPU”,显存和算力实现无缝共享。
- 节点间互联:通过收购 Mellanox 获得的 InfiniBand 高速网络技术,让成千上万台服务器之间的数据传输快如闪电,解决了大规模集群的通信瓶颈。
3. 真正的护城河:CUDA 软件生态 这是英伟达最难被逾越的壁垒,就像 PC 时代的 Windows 操作系统。
- 底层基石:CUDA 提供了最底层的并行计算库,几乎所有的高性能计算场景都基于此构建,经过了 20 年的打磨。
- 顶层框架:当今统治级的深度学习框架 PyTorch 对 CUDA 提供了最原生的支持。这意味着开发者只需编写几行 Python 代码,就能调用底层强大的算力。
- 生态闭环:围绕 PyTorch/CUDA/GPU 已经形成了一套成熟的“开箱即用”基础设施。
为什么竞争对手很难追赶? 即使竞争对手(如 AMD 或国产芯片厂商)在硬件参数上追平了 H200,依然无法撼动英伟达的地位。因为缺乏庞大的软件生态支持,意味着极高的迁移成本和时间风险。
一个真实的行业痛点(听起来很痛): 目前很多致力于适配非英伟达芯片的 AI 团队都面临着巨大的痛苦。许多针对英伟达 GPU 进行过深度优化的模型(特别是涉及复杂算子或 MoE 架构的模型),一旦迁移到其他芯片平台,往往会面临严重的兼容性问题。
- 开发难:大量算子需要从头手写,费时费力,如同用汇编语言写网页。
- 稳定性差:模型训练过程中经常出现莫名其妙的数值溢出或系统崩溃(Crash)。
在当前的 AI 竞赛中,一次全量模型训练往往耗时数月,成本以千万美元计。如果因为芯片兼容性导致训练中途崩溃几次,浪费的不仅是电费,更是半年甚至一年的宝贵时间窗口。这种巨大的试错成本,是任何一家争分夺秒的 AI 公司都无法承受的。传言某国内顶级 AI 模型就是因为在国产芯片上训练下一代模型频繁崩溃,导致一直难产,真的是太痛了。
这就是为什么英伟达在 AI 数据中心市场越成功,行业对其路径依赖就越严重——因为没有人敢承担离开英伟达的代价。
Google 的 TPU 又是怎么崛起的?
尽管英伟达的统治力无可争议,但是 Google TPU 却是个异类,它不仅活下来了,还活得很好,已在 AI 顶级赛道站稳脚跟。
首先,TPU 已经用实战成绩证明了自己在 AI 大模型训练和推理领域的成功:
- Google 本家基石: Google 最强的 Gemini 系列模型,完全基于 TPU 进行训练和推理;
- 独角兽的选择: 顶级 AI 公司 Anthropic (Claude) 在 Google Cloud 上大规模使用了 TPU 算力;
- 科技巨头的背书: 就连 Apple 在训练其 Apple Intelligence 基础模型时,也公开表示使用了 Google 的 TPU v4 和 v5p 集群,而非英伟达 GPU。
那么,在英伟达已经成为绝对霸主的情况下,Google TPU 凭什么能异军突起?我们不妨对照英伟达成功的三个维度来深度解析:
1. 算力哲学:极度通用 vs 极致专用 英伟达 GPU 的强大在于“通用性”。而 Google TPU 从 2012 年设计之初,就是为了特定用途——大规模矩阵乘法而生。 现在的 AI 大模型训练,本质上就是在大规模地做矩阵乘法。因为放弃了图形渲染等通用功能,TPU 的芯片设计得以大幅简化,从而在“矩阵计算”这单一场景下取得了极致的能效比和性能表现。
2. 互联技术:电互联 vs 光互联 (OCS) 英伟达在服务器间的高速互联(NVLink/InfiniBand)上表现出色,覆盖了从单机多卡到万卡集群的广泛场景。 而 Google TPU 另辟蹊径,主攻超大规模集群互联。Google 引入了独特的 OCS(光路交换)技术,用光互联将成千上万颗 TPU 动态编织在一起。最新的 TPU v5p 单个 Pod 即可容纳 8960 颗芯片,甚至可以通过光互联扩展至数万卡的超级集群。这种架构在大规模并行训练中,展现出了极高的带宽利用率和灵活性,且布线极其整洁。
3. 软件生态:CUDA 帝国 vs JAX/XLA 新势力 英伟达的 CUDA 和 PyTorch 让 AI 开发变得“开箱即用”,这是其最大的护城河。但 Google 经过多年深耕,也打磨出了一套极为硬核的软件栈:
- XLA (2016): 一个强大的编译器,能将计算图直接编译为 TPU 机器码,榨干硬件性能。
- JAX (2018): 一个旨在替代 TensorFlow 的前沿框架。
对比 PyTorch: PyTorch 是面向对象编程,符合人类直觉,简单易用;而 JAX 是函数式编程,学习曲线陡峭,但在处理超大规模并行计算时具有先天优势,代码更简洁,数学表达更纯粹。
跨界打击: JAX 的优秀甚至溢出了 TPU 生态。如马斯克的 xAI 虽然使用的是英伟达 H100 集群,但为了追求对硬件性能的极致压榨,在训练 Grok 模型时并没有使用 PyTorch,而是选择了 JAX。
总结:生态位的胜利 经过多年的演化,在超大模型训练这一“皇冠上的明珠”场景下,JAX + XLA + TPU 技术栈已经形成了一个完整的闭环。它不仅被验证是成功的,甚至在某些超大规模场景下,能取得比 Pytorch + CUDA + GPU 更优的能效比。在 Google Cloud 上,TPU 的 token 成本定价低于英伟达 GPU,就是最好的证明。这也是 Google Cloud 在云计算市场竞争中的秘密武器。总之:
英伟达 vs Google:两种技术哲学的碰撞
- 应用场景: 通用型霸主 vs 超大模型专用特种兵
- 软件门槛: 低门槛的群众基础 vs 高门槛的专家利器
- 商业模式: 庞大的全行业生态 vs 垂直整合的自研闭环
如果说英伟达就像一辆豪华的全能越野车,哪里都能去,谁都能开,到处都有维修店;那么 Google 就像一辆定制的 F1 方程式赛车,只能跑赛道,赛车手才能开。大多数人买车首选 SUV(英伟达),因为方便、省心;但在争夺世界冠军的顶级赛场上,追求极致速度的车队(如 Google、xAI、Anthropic)会考虑使用 F1 赛车(TPU)。
Google TPU 能干掉英伟达吗?
照你这么说的话,Google TPU 岂不是已经成功挑战英伟达,打破了英伟达 GPU 的绝对垄断地位吗?事情没有那么简单。
1. TPU 的局限性与 Google 的双重身份 前面提到 Google TPU 极其擅长超大模型的训练/推理以及大规模推荐系统,但在通用性上,其他场景要么根本不适用,要么能效比不如英伟达 GPU。 对于 Google 庞大的产品线(YouTube、Search、Cloud)来说,对通用 GPU 的需求依然是海量的。因此,Google 一边自研 TPU,一边依然是英伟达 GPU 的全球采购大户。这一点在未来几年内都不会改变。
2. 迁移成本高昂的“生态墙” 尽管在超大模型场景下,JAX + XLA + TPU 的技术栈能取得显著优势,但这要求你必须“从零开始”就拥抱 Google 生态。 如果现有的项目是基于 PyTorch 和 CUDA 深度优化的,想要迁移到 TPU,约等于重写底层代码并进行大规模兼容性测试。这种“重起炉灶”的时间成本和工程风险,足以让绝大多数企业望而却步。
因此目前来看,Google TPU 的用户群体画像非常清晰,主要就两类:一是高校科研(科学计算),二是超大模型的训练和推理。
为什么 TPU 会有很多科学计算用户? 这是因为 Google Cloud 长期为高校科研开放免费的 TPU 资源(TPU Research Cloud),加上极度好用的 Colab 服务(免费提供 TPU/GPU 算力),在学术界圈粉无数,培养了一大批习惯 TPU 的科研生力军。
那么,超大模型领域的潜在客户呢? 我们逐一分析市面上的两类大客户:
- 大型云计算厂商: Amazon, Microsoft, Oracle 以及 CoreWeave 等新兴 GPU 云厂商。
- AI 大模型厂商: OpenAI, Anthropic, xAI, Meta 等。
大型云计算厂商(Amazon, Microsoft)本身就是 Google Cloud 的死对头,且都在自研芯片(Trainium, Maia),绝无可能去买对手的算力。而 Oracle 和 CoreWeave 早就通过深度绑定英伟达赚得盆满钵满,是英伟达的铁杆盟友。
AI 大模型厂商呢?
- OpenAI: Google Gemini 的头号宿敌,微软的盟友,不可能用 TPU。
- xAI: 马斯克与 Google 积怨已久,且正通过特斯拉和 xAI 构建自己的超算集群。
- Meta: 回到开头的新闻,Meta 是个超级大户。虽然传闻在谈,但 Meta 也是 Google 广告业务的直接对手。扎克伯格目前手握全球最大规模的 H100 集群之一,并且 Meta 正在积极迭代自研芯片 MTIA。虽然他们不搞公有云,但为了战略安全和技术自主,Meta 不太可能全面依赖 Google 的 TPU,最多是作为补充或谈判筹码。
- Anthropic: 剩下的只有它了。Google 是 Anthropic 的大金主,所以 Anthropic 使用 TPU 是顺理成章的。
盘算下来,TPU 的外部大客户其实寥寥无几。 这点体量,完全不足以对英伟达的统治地位构成“颠覆性”冲击。 因此,Google 最明智的策略依然是:在 Google Cloud 上提供极致性价比的 TPU 服务,用“省钱”和“能效”从其他云厂商口中抢肉吃,而不是想着彻底干掉英伟达。
如果 Google 非要“头铁”,下场卖 TPU 芯片抢市场呢? 我认为这极其不明智:
- 供应链与利润结构: TPU 是 Google 与博通(Broadcom)合作设计的 ASIC。如果对外售卖,不仅涉及复杂的供应链管理,还要分润给博通,这会拉低硬件毛利。卖贵了,打不过英伟达;卖便宜了,除去博通的成本,Google 图什么?
- 客户池太浅: 如前所述,愿意买 TPU 且不与 Google 构成直接竞争的大客户极少。
- 田忌赛马的反面: 用自己公司的“内部工具/副业”去硬拼英伟达赖以生存的“主业”,胜算能有多高?
- 最后,也是最关键的宏观背景: 目前全球 AI 数据中心市场正处于“短缺经济”时代。不仅 GPU 缺,HBM 内存、CoWoS 封装产能、电力、甚至建设数据中心的土地都极度紧缺。虽然各大科技巨头的资本支出(Capex)已经高得吓人,但面对爆炸性的业务需求,供给依然不够。微软今年初曾试图下调资本支出,结果发现需求太猛,转头又开始疯狂追加投入。
在一个供不应求的增量市场里,无论你填进去多少算力(无论是 GPU 还是 TPU),都会被瞬间吃干抹净。英伟达的 GPU 和 Google 的 TPU 目前仍处于“各自跑马圈地”的阶段,而非“你死我活”的零和博弈。
我的结论:
Google TPU 对英伟达确实有冲击,但不必过度恐慌。 从长期看,Google TPU 的存在更像是一个强有力的“议价筹码”。当大客户有了备胎(TPU 或自研芯片),英伟达就很难长期维持如今夸张的 75% 利润率。
英伟达未来的市场份额确实会受影响,主要来自:
- Google 自身业务(搜索、推荐、Gemini)更多转向 TPU,减少购买 GPU;
- Google Cloud 的深度合作伙伴(如 Anthropic)减少购买 GPU。 这可能会导致英伟达在数据中心的市占率从 90%+ 缓慢回落到 75%-80% 左右,但这并不改变其商业逻辑的本质。
这就像当年的 PC 市场: 苹果 Macintosh 电脑的崛起虽然让 Windows 的市占率有所下降,但并没有终结 Windows 的垄断。真正终结 Windows 霸权时代的,不是 Mac,而是智能手机的兴起。 同理,Google TPU 干不掉英伟达。真正能干掉英伟达的,只能是下一代计算范式的彻底变革。
Google 的成功是不可复制的
好吧,虽然你说的很有道理,但是 Google 能干成全栈自研,尝到了甜头的其他巨头岂不是会纷纷效仿吗?Amazon,Microsoft,Meta,OpenAI 这几个英伟达的头部大客户都在自研 ASIC 芯片,将来他们都减少了对英伟达芯片的采购,英伟达不是要喝西北风了?
我的观点就是:Google 的成功是不可复制的。
Google 的技术栈能够成功,综合了以下几个不可或缺的因素,而这恰恰是微软、Meta 和亚马逊所不具备的:
1. 十年的时间壁垒(Time & Iteration)
芯片设计不是搭积木,它需要漫长的迭代周期。 Google 早在 2013-2014 年就开始秘密研发 TPU,2016 年 AlphaGo 击败李世石震惊世界时,背后就是 TPU v1 在提供算力。
当微软在 2023 年才匆忙推出 Maia 100 时,Google 的 TPU 已经迭代到了第 6 代甚至第 7 代。
这 10 年间踩过的坑、修复的 Bug、积累的制程经验、以及对散热和互联架构的微调,绝非其他公司靠“砸钱”就能在两三年内追平的。在硅基世界里,经验值就是良率,就是能效比。
2. 真正全栈的“软硬一体”的垂直整合掌控力(Full-Stack Control)
这是 Google 最可怕的地方,也是其他巨头最大的软肋。
Google 拥有整个链条: 硬件(TPU)+ 编译器(XLA)+ 框架(JAX)+ 模型(Gemini)。Google 的科学家 Jeff Dean 可以让设计 Gemini 的算法团队直接坐在设计 TPU 的硬件团队对面,告诉他们:“我们需要一个特定的指令集来加速这个算子。”这种协同效应是核爆级的。
反观微软/Meta: 微软虽然造了 Maia 芯片,但它上面的软件栈主要依赖 OpenAI,而 OpenAI 和整个业界主流依赖的是 PyTorch。PyTorch 的亲爹是 Meta,但 PyTorch 对英伟达 GPU 的优化是刻在基因里的。
微软想要 Maia 好用,就得去魔改 PyTorch 底层,或者指望 OpenAI 为了适配 Maia 去重写代码。这中间不仅隔着公司墙,还隔着巨大的技术债务。
只要 PyTorch 依然是业界标准,其他自研芯片就永远是在“模拟”或“适配”英伟达,而 Google 是在玩一套完全独立的游戏规则。
3. 极其特殊的“光互联”基础设施(OCS Infrastructure)
前面提到的 OCS(光路交换)技术,是 Google 数据中心的独门绝技。 Google 为了适配 TPU 的大规模互联,甚至重新设计了数据中心的物理布线和机柜架构。这种光互联技术允许 TPU 节点之间以极低的延迟和功耗进行动态重组。 其他云厂商的数据中心是基于标准以太网架构建设的,想要复刻 Google 这套“光互联”网络,意味着要推翻现有的数据中心物理架构,这个沉没成本是天文数字。
4. 无法比拟的内部“吞吐量”(Internal Workload)
在生成式 AI 爆发之前,Google 就拥有地球上最庞大的 AI 推荐系统——Google Search、YouTube 推荐算法和 Google Ads。
这些业务每天产生数以亿计的并发请求,为 TPU 提供了天然的、海量的“练兵场”。
即便没有外部客户买单,Google 自己的业务就能消化掉 TPU 的产能。这让 Google 敢于在 TPU 早期性能不完善时,强行在内部推广(Dogfooding),通过海量真实数据把芯片“磨”出来。
相比之下,Meta 虽然有推荐算法需求,但起步晚且早期全押注 GPU;微软的 Azure 主要是卖资源给客户,如果自研芯片不好用,客户会直接用脚投票切回英伟达。
英伟达更像 AI 时代英特尔
著名电影《大空投》原型 Michael Burry 曾暗示英伟达正处于类似互联网泡沫时期的境地,不少看空者也认为英伟达与 OpenAI 之间相互投资和采购的关系,吹起了一个巨大的估值泡沫。他们认为一旦泡沫破裂,英伟达就会像 2000 年的 Cisco(思科)一样,股价暴跌 80% 以上。
但我认为,当下的英伟达并不像当年的 Cisco,而更像 PC 黄金时代的 Intel。 Intel 的股价腾飞始于 1993 年,于 2000 年触顶,随后经历了漫长的震荡与调整。 回顾那段历史,我们可以发现惊人的相似性:
- 1993 年之前(群雄逐鹿): PC 的 CPU 市场处于混战时代,各路架构互不相让。
- 1993 年(霸主确立): Intel 推出奔腾(Pentium)处理器,凭借强悍的性能一举确立了 CPU 市场的统治地位。
- 1995 年(杀手级应用爆发): 微软推出 Windows 95,图形界面的革命引发了全球性的 PC 换机潮。受此驱动,Intel 的股价在 1996 年迎来了极高斜率的上涨。
- 2000 年(盛极而衰): Intel 股价在 2000 年见顶,随后狂跌。这背后既有互联网泡沫破灭的宏观原因,也有 PC 市场渗透率见顶的因素。同时,Intel 在技术路线上遭遇了 AMD 速龙(Athlon)处理器的强力挑战,且在后续的 64 位指令集之争中(安腾项目)犯了严重的战略错误。
2022 年 ChatGPT 的横空出世,就是 AI 时代的 "Windows 95 时刻",它极大刺激了全行业对于算力基础设施的升级换代。借助这股 AI 浪潮,英伟达正在狂飙突进。现在的英伟达,像极了 1997 年处于巅峰缓慢爬升期的 Intel。
我相信,在未来几年的 AI 算力市场将呈现“一超一强多级”的格局:
- 英伟达(The Generalist King): 依然是绝对的“一超”。它占据 75%-80% 的市场份额,服务于所有追求通用性、追求开发效率、追求 Time-to-market 的企业。所有的初创公司、大部分云客户、以及需要频繁试错的模型团队,依然只能选英伟达。
- Google TPU(The Specialized Powerhouse): 它是那个“特种部队”。它守住 Google 自己的万亿帝国,并在超大模型训练这一垂直领域,成为唯一能跟英伟达叫板的“异类”。
- 其他自研芯片和 AMD(AWS Trainium, MS Maia, Meta MTIA): 它们更多是“成本调节器”。它们会被用于处理那些负载稳定、算法成熟的推理任务(比如每天运行几亿次的简单推荐或聊天机器人推理)。巨头们用它来通过简单的替代降低运营成本,也就是所谓的“省钱芯片”,但很难承担起“探索下一代 AI 前沿”的重任。
Google 的王者归来:全栈自研的胜利
2022 年底 ChatGPT 的横空出世,曾让 Google 这位 AI 领域的先行者显得黯淡无光。然而,站在 2025 年底的今天回望,Google 的表现足以让人刮目相看。
目前的 Google,是全球唯一一家真正实现了AI 全栈自研、软硬件垂直整合的头部厂商。这种整合优势正在形成巨大的飞轮效应:
- 算力底座: 在硬件层面,Google 利用 TPU 大规模集群高效实现了 Gemini 3 模型的训练和推理,摆脱了对外部 GPU 的依赖。
- 生态闭环: 通过多年的技术积累,打造了难以复制的软硬件一体化技术栈生态:JAX / XLA / TPU,极大地提升了研发效率。
- 云端优势: Google Cloud 虽然在市场份额上仍居 Amazon 和 Microsoft 之后,但增速惊人。更重要的是,得益于自研芯片,其 TPU 的租赁费用相比 GPU 拥有显著的价格优势,这对初创公司极具吸引力。
- 模型与成本:Gemini 3 在多项基准测试中已完全不输 GPT-5.1,甚至在长上下文和多模态理解上有所超越。基于自有云和芯片的成本优势,Gemini 能够提供更具竞争力的 API 调用价格,这种“低成本高智能”的反向优势正在快速抢占开发者市场。
- 产品矩阵全面开花:
1. NotebookLM 已成为“杀手级”的 AI 知识库和学习工具,深受科研与教育用户喜爱。
2. 多模态创作: Gemini 现已深度整合 Veo(视频生成)和 Imagen(图像生成),用户可在一个工作流中完成复杂的创作任务。
3. 搜索进化: Google Search 全面推出了 AI Overviews,成功将传统搜索与 AI 问答无缝整合。
4. 交互创新: 最新推出的生成式 UI (Generative UI) 更是令人惊艳,根据用户意图实时生成交互界面。
关键在于,Google 形成了一个从芯片、基础设施、模型到应用产品的完整闭环,各环节还能互相加强。这就好比 Google 一家公司独自完成了“英伟达 + 微软 + OpenAI”三家公司的工作。再加上 Google 全球数十亿的用户基数,以及 Chrome 浏览器和 Android 移动端两大核心入口,其上限不可估量。
为何半年前股价低迷、备受质疑的 Google,能在这半年实现逆袭?
此前市场看衰 Google,主要基于以下隐忧:
- 商业模式挑战: Google Search 靠竞价排名赚钱,市场担心 AI 问答范式会彻底颠覆这一现金牛。
- 大公司病与人才流失: 尽管 AI 大模型的基石——Transformer 论文是 Google 于 2017 年发表的,但果实却被 OpenAI 摘取。CEO Sundar Pichai 被认为过于稳健,缺乏魄力;内部 DeepMind 和 Google Brain 两个顶尖团队曾各自为战,内耗严重,导致许多论文作者离职。
- 模型落后: 在 Gemini 2.5 发布之前,Google 长期被 OpenAI 的 GPT 系列压制,甚至一度不如 Anthropic 的 Claude,面临在 AI 时代掉队的风险。
但在过去两年,Google 成功扭转了局势:
- 搜索护城河依然稳固: 事实证明,Google Search 并未被轻易颠覆,反而通过集成 AI 变得更强。用户在多轮对话中不仅有明确的个性化需求,AI 还能更精准地推荐个性化的产品与服务。广告业务被 AI 范式颠覆的风险被大大高估了。
- 组织架构重塑: 2023 年起,创始人 Sergey Brin 回归一线,深度参与模型开发。Google 将原本竞争的两个 AI 团队合并为 Google DeepMind,由 Demis Hassabis 挂帅。这一举措成功消除了内耗,重新激活了团队的创新力。
- 模型反超:Gemini 3 Pro 如今展现出后来居上的态势,不仅在性能上反超 GPT-5.1,市场占有率也稳步攀升。攻守之势异也,现在压力来到了 OpenAI 一方。
归根结底,AI 时代的核心竞争点依然是谁能做出最强的大模型。
如果 Gemini 弱,Google 的生态优势无从发挥;一旦 Gemini 领先,Google 强大的全栈整合能力就会瞬间爆发,形成降维打击。
最后我想说,英伟达是算力时代的‘卖水人’,而 Google 是全栈 AI 的‘领航员’。它们都是伟大的公司,对于投资者来说,与其在非此即彼的零和博弈中焦虑,不如看到它们各自不可替代的价值——这两者都值得你们同时拥有。
#AI产业 #大模型 #AI基础设施 #GPU #Gemini #TPU #JAX #XLA #CUDA #谷歌 #英伟达 December 12, 2025
2RP
DeepSeek-V3.2とSpecialeが登場。
V3.2はExpの正式版で、App/Web/API対応、GPT-5級の推論とツール統合を実現。
SpecialeはAPI限定でGemini-3.0-Pro並み、金メダル級のIMO/CMO/ICPC/IOI 2025成績と中々に凄い性能。
またしても横からおもっきり殴ってくれました。 https://t.co/nceYHcGfjU December 12, 2025
2RP
■ 概要
OpenAIがChatGPTに「Shopping Research」機能を追加。質問に答えるだけで、AIがネット全体から価格・レビュー・スペック・在庫を調査し、パーソナライズされた購入ガイドを数分で生成する。
■ 主要数値
・商品精度:52%(複合条件クエリで従来の37%から40%向上)
・週間利用者:7億人以上がChatGPTで商品検索を実行
・提供範囲:Free/Go/Plus/Proの全プランで利用可能
■ 革新ポイント
従来の「20タブ比較」という非効率を、会話型インターフェースで解決。GPT-5 miniを強化学習でチューニングし、Reddit等の信頼性高いソースを優先。「興味なし」「もっとこういうの」でリアルタイム調整も可能。
■ 利用方法
・アクセス:ChatGPTアプリ/Webでログイン後、買い物関連の質問で自動提案
・料金:ホリデー期間中は全プランでほぼ無制限
・今後:Instant Checkout連携で直接購入も予定
https://t.co/PS2uf8Mbn9 December 12, 2025
1RP
ChatGPTの進化って、振り返るとけっこう面白い。
4oは「親密さ」「話しやすさ」は抜群だったけど、正直そこまで頭は良くなかった。
雑談や“友達のふり”みたいな用途には最適なモデル。
そのあと、o3が「賢い系モデル」として登場して完全に役割が分かれた。
用途ごとに“使い分ける前提”の時期。
で、GPT-5で統合したら……
なぜか一気に頭が良すぎて、文章が“感じ悪い/読みにくい”問題が発生した。
知性は高いけど、ユーザー体験としてはギャップがあった。
そこから5.1でようやく「賢い × 読みやすい」が両立。
知性と可読性のバランスが、いままでで一番いい。
GPTを「なんか使いづらいな」と思って離れてた人、5.1はまた触ってみる価値あります。
体験、だいぶ変わってます。 December 12, 2025
1RP
DeepSeek-V3.2 来了,这次是真的“杀疯了”!⚡️
我用Gemini分析了这篇PDF,用NotebookLM画了一张思维导图,帮大家快速阅览这次的新升级:
✅ GPT-5 级别的推理能力。
是的你没看错,DeepSeek-V3.2 标准版推理能力已媲美 GPT-5 。其 Speciale 版本更是在数学和编程竞赛中拿下金牌,直接叫板 Gemini-3.0-Pro 。
✅ DSA 稀疏注意力机制架构级创新!
引入 DeepSeek Sparse Attention (DSA),将核心注意力复杂度从 O(L²) 降维至 O(Lk)。在大幅降低计算成本的同时,完美保持了长上下文性能 。
✅ 更聪明的 Agent不再是只会聊天的机器人。
通过“大规模智能体任务合成管道”生成 85,000+ 复杂提示词,结合“工具调用思考”机制 ,彻底解决了开源模型指令遵循难的痛点 。
开源模型的“iPhone 时刻”还在继续!🔥 December 12, 2025
1RP
AI モデルの印象の違いは、単なる性能差ではなく、それぞれが学習してきたデータ環境、設計思想、内部表現の形成プロセスが根本的に異なることに起因する。
ChatGPT の最新系である GPT-5.1 は、OpenAI が公開したモデルカードや評価レポートが示す通り、大規模なテキスト・画像・音声を統合し、抽象概念、意味論、因果推論を中核に据えた世界モデルを形成している。物理現象を逐次数値でシミュレーションするのではなく、「意味空間における因果ネットワーク」を用いて未来の結果を推定する傾向が強く、対話における思考の自然な流れや抽象化能力の高さがその設計を反映している。
Claude の最新モデルである Opus 4.5 は、Anthropic が 2025 年に公開した技術情報により、従来の長文整合性や倫理推論に加え、ツール操作、構造化推論、エージェント的タスク遂行能力が大きく強化されたことが示されている。最新の Sonnet 4.5/Opus 4.5 では、長時間のタスク管理、コード生成、実務的手順の最適化といった“複数工程の処理”において高い安定性を示し、内部には「記号操作とタスク構造の管理」を中心にした世界モデルが形成されていると読み取れる。物語的・内省的側面は残しつつも、最新世代では“実務遂行型の汎用補助 AI”へと進化している。
Grok 4.1 は、xAI が 2025 年に公開したモデルカードで明記しているように、SNS 由来のリアルタイムデータや高頻度に変動する社会的コンテキストを学習に組み込む構造を持っている。感情理解、創造性、整合性が前世代より改善されつつも、学習データの性質から内部には“社会的時系列モデル”が強く形成されており、ミームの流動、政治的揺らぎ、ネット文化の文脈を捉える能力が特徴的である。他モデルよりも「社会の動きそのもの」を主な推論軸に据える知能である点が、印象の違いとして現れる。
Gemini 3 は、Google が 2025 年に公開したモデルカードおよび技術レポートに示されているように、動画・音声・長尺の時系列データをテキストと同一の内部空間で統合処理するフルマルチモーダルアーキテクチャを採用している。連続したフレームの変化を通じて“動く世界”の構造を推論し、UI 解析やコード生成、タスク分解といった agentic multimodal reasoning を高精度で実行できる。Gemini 2.5 Pro と比較してコーディング精度は 30〜35% 向上し、動画理解・実タスク遂行において大幅な進展が確認されており、内部には“連続的物理現象を含む多モーダル世界モデル”が存在することが示唆される。
以上のように、ChatGPT は抽象概念中心、Claude は構造的推論とタスク管理中心、Grok は社会的時系列中心、Gemini 3 は物理的・マルチモーダル中心というように、各モデルは“学習している世界そのもの”が異なる。したがって、応答に感じる性格や思考のクセの違いは、印象論ではなく、最新モデルカードと技術レポートが裏づける通り、データ分布と設計思想が異なることで生まれた“知能の生態系差”である。現代の AI は単一のカテゴリではなく、異なる環境で育った複数種の知能が並列する状態へ進化しており、その構造差がモデル間の挙動差として明確に表面化している。 December 12, 2025
1RP
使えば使うほどNano Banana Proが恐ろしい性能だと実感する。感覚的にはGPT-4登場時の「なにをどうやったらこんなものが出来上がるのか?」という感覚に近く、何世代も先の技術が突然目の前に出てきた感すらある。
Gemini3.0も凄いんですが、それでもGPT-5とから何世代も進んだ感覚まではない。そもそも数ヶ月前のNano BananaでOpenAIを遥かに超えて、あの革ジャンCEOが興奮するレベルだったのに、短期間でさらにこれである。 December 12, 2025
1RP
Gemini3, Nano Banana Pro登場で, 先月時点で私がTBSの以下番組で「OpenAIは危うい.Googleが勝つ」としてたのが注目(特に投資家層?)されてるようです
実際は公には以下記事で2024年OpenAI絶頂期からずっとGoogle有利とみてます
長い(私のX史上最長)ですが根拠, OpenAI vs Googleの展望を書いてみます
先月のTBS動画:https://t.co/kgWcyTOTWK
2024年6月の記事:https://t.co/4HEhA4IJQa
参考のため、私がクローズドな投資家レクなどで使う資料で理解の助けになりそうなものも貼っておきます。
※以下はどちらかというと非研究者向けなので、研究的には「当たり前では」と思われることや、ちょっと省略しすぎな点もあります。
まず、現在の生成AI開発に関して、性能向上の根本原理、研究者のドグマ的なものは以下の二つです。基本的には現在のAI開発はこの二つを押さえれば大体の理解ができると思います。両者とも出てきたのは約5年前ですが、細かい技術の発展はあれど、大部分はこの説に則って発展しています。
①スケーリング則
https://t.co/WKl3kTzcX5
②SuttonのThe Bitter Lesson
https://t.co/esHtiJAcH9
①のスケーリング則は2020年に出てきた説で、AIの性能は1)学習データの量、2)学習の計算量(=GPUの投入量)、3)AIのモデルサイズ(ニューラルネットワークのパラメータ数)でほぼ決まってしまうという説です。この3つを「同時に」上げ続けることが重要なのですが、1と3はある程度研究者の方で任意に決められる一方、2のGPUはほぼお金の問題になります。よって、スケーリング則以降のAI開発は基本的にお金を持っている機関が有利という考えが固まりました。現在のChatGPTなどを含む主要な生成AIは一つ作るのに、少なく見積もってもスカイツリーを一本立てるくらい(数百億)、実際には研究の試行錯誤も含めると普通に数千億から数兆かかるくらいのコストがかかりますが、これの大部分はGPUなどの計算リソース調達になります。
②のThe Bitter Lessonは、研究というよりはRichard Suttonという研究者個人の考えなのですが、Suttonは現在のAI界の長老的な人物で、生成AI開発の主要技術(そして私の専門)でもある強化学習の事実上の祖かつ世界的な教科書(これは私達の翻訳書があるのでぜひ!)の執筆者、さらにわれわれの分野のノーベル賞に相当するチューリング賞の受賞者でもあるので、重みが違います。
これは端的にいうと、「歴史的に、AIの発展は、人間の細かい工夫よりも、ムーアの法則によって加速的に発展する計算機のハードの恩恵をフルに受けられるものの方がよい。つまりシンプルで汎用的なアルゴリズムを用い、計算機パワーに任せてAIを学習させた方が成功する。」ということを言っています。
①と②をまとめると、とにかく現状のAIの性能改善には、GPUのような計算リソースを膨大に動員しなければならない。逆に言えばそれだけの割と単純なことで性能上昇はある程度約束されるフェーズでもある、ということになります。
これはやや議論を単純化しすぎている部分があり、実際には各研究機関とも細かいノウハウなどを積み重ねていたり、後述のようにスケーリングが行き詰まることもあるのですが、それでも昨今のAI発展の大半はこれで説明できます。最近一般のニュースでもよく耳にするようになった異常とも言えるインフラ投資とAIバブル、NVIDIAの天下、半導体関連の輸出制限などの政治的事象も、大元を辿ればこれらの説に辿り着くと思います。
以下、この二つの説を前提に話を進めます。
公にはともかく私が個人的に「OpenAIではなくGoogleが最終的には有利」と判断したのはかなり昔で、2023年の夏時点です。2023年6月に、研究者界隈ではかなり話題になった、OpenAIのGPT-4に関するリーク怪文書騒動がありました。まだGoogleが初代Geminiすら出してなかった時期です。(この時期から生成AIを追っている人であれば、GPT-4のアーキテクチャがMoEであることが初めて明らかになったアレ、と言えば伝わるかと思います)
ChatGPTの登場からGPT-4と来てあれほどの性能(当時の感覚で言うと、ほぼ錬金術かオーパーツの類)を見せられた直後の数ヶ月は、さすがに生成AI開発に関する「OpenAIの秘伝のタレ説」を考えており、OpenAIの優位は揺らがないと考えていました。論文では公開されていない、既存研究から相当逸脱した特殊技術(=秘伝のタレ)がOpenAIにはあって、それが漏れない限りは他の機関がどれだけお金をかけようが、まず追いつくのは不可能だと思っていたのです。しかし、あのリーク文書の結論は、OpenAIに特別の技術があったわけではなく、あくまで既存技術の組み合わせとスケーリングでGPT-4は実現されており、特に秘伝のタレ的なものは存在しないというものでした。その後、2023年12月のGemini初代が微妙だったので、ちょっと揺らぐこともあったのですが、基本的には2023年から私の考えは「最終的にGoogleが勝つだろう」です。
つまり、「スケーリングに必要なお金を持っており、実際にそのAIスケーリングレースに参加する経営上の意思決定と、それを実行する研究者が存在する」という最重要の前提について、OpenAIとGoogleが両方とも同じであれば、勝負が着くのはそれ以外の要素が原因であり、Googleの方が多くの勝ちにつながる強みを持っているだろう、というのが私の見立てです。
次に、AI開発競争の性質についてです。
普通のITサービスは先行者有利なのですが、どうもAI開発競争については「先行者不利」となっている部分があります。先行者が頑張ってAIを開発しても、その優位性を保っている部分でAIから利益を得ることはほとんどの場合はできず、むしろ自分たちが発展させたAI技術により、後発事業者が追いついてきてユーザーが流出してしまうということがずっと起きているように思われます。
先ほどのスケーリング則により、最先端のAIというのはとても大きなニューラルネットワークの塊で、学習時のみならず、運用コストも膨大です。普通のITサービスは、一旦サービスが完成してしまえば、ユーザーが増えることによるコスト増加は大したことがないのですが、最先端の生成AIは単なる個別ユーザーの「ありがとうございます」「どういたしまして」というチャットですら、膨大な電力コストがかかる金食い虫です。3ドル払って1ドル稼ぐと揶揄されているように、基本的にはユーザーが増えれば増えるほど赤字です。「先端生成AIを開発し、純粋に生成AIを使ったプロダクトから利益を挙げ続ける」というのは、現状まず不可能です。仮に最先端のAIを提供している間に獲得したユーザーが固定ユーザーになってくれれば先行者有利の構図となり、その開発・運営コストも報われるのですが、現状の生成AIサービスを選ぶ基準は純粋に性能であるため、他の機関が性能で上回った瞬間に大きなユーザー流出が起きます。現状の生成AIサービスはSNSのように先行者のネットワーク効果が働かないため、常に膨大なコストをかけて性能向上レースをしなければユーザー維持ができません。しかも後発勢は、先行者が敷いた研究のレールに乗っかって低コストで追いつくことができます。
生成AI開発競争では以上の、
・スケーリング則などの存在により、基本的には札束戦争
・生成AIサービスは現状お金にならない
・生成AI開発の先行者有利は原則存在しない
と言う大前提を理解しておくと、読み解きやすいかと思います。
(繰り返しですがこれは一般向けの説明で、実際に現場で開発している開発者は、このような文章では表現できないほどの努力をしています。)
OpenAIが生成AI開発において(先週まで)リードを保っていた源泉となる強みは、とにかく以下に集約されると思います。
・スケーリングの重要性に最初に気付き、自己回帰型LLMという単なる「言語の穴埋め問題がとても上手なニューラルネットワーク」(GPTのこと)に兆レベルの予算と、数年という(AI界隈の基準では)気が遠くなるような時間を全ベットするという狂気を先行してやり、ノウハウ、人材の貯金があった
・極めてストーリー作りや世論形成がうまく、「もうすぐ人のすべての知的活動ができるAGIが実現する。それを実現する技術を持っているのはOpenAIのみである」という雰囲気作りをして投資を呼び込んだ
前者については、スケーリングと生成AIという、リソース投下が正義であるという同じ技術土俵で戦うことになる以上、後発でも同レベルかそれ以上の予算をかけられる機関が他にいれば、基本的には時間経過とともにOpenAIと他の機関の差は縮みます。後者については、OpenAIがリードしている分には正当化されますが、一度別の組織に捲られると、特に投資家層に対するストーリーの維持が難しくなります。
一方のGoogleの強みは以下だと思います。
・投資マネーに頼る必要なく、生成AI開発と応用アプリケーションの赤字があったとしても、別事業のキャッシュで相殺して半永久的に自走できる
・生成AIのインフラ(TPU、クラウド事業)からAI開発、AIを応用するアプリケーション、大量のユーザーまですべてのアセットがすでに揃っており、各段階から取れるデータを生かして生成AIの性能向上ができる他、生成AIという成果物から搾り取れる利益を最大化できる
これらの強みは、生成AIのブーム以前から、AIとは関係なく存在する構造的なものであり、単に時間経過だけでは縮まらないものです。序盤はノウハウ不足でOpenAIに遅れをとることはあっても、これは単に経験の蓄積の大小なので、Googleの一流開発者であれば、あとは時間の問題かと思います。
(Googleの強みは他にももっとあるのですが、流石に長くなりすぎるので省略)
まとめると、
生成AIの性能は、基本的にスケーリング則を背景にAI学習のリソース投下の量に依存するが、これは両者であまり差がつかない。OpenAIは先行者ではあったが、AI開発競争の性質上、先行者利益はほとんどない。OpenAIの強みは時間経過とともに薄れるものである一方、Googleの強みは時間経過で解消されないものである。OpenAIは自走できず、かつストーリーを維持しない限り、投資マネーを呼び込めないが、一度捲られるとそれは難しい。一方、GoogleはAIとは別事業のキャッシュで自走でき、OpenAIに一時的に負けても、長期戦でも問題がない。ということになります。
では、OpenAIの勝利条件があるとすれば、それは以下のようなものになると思います。
・OpenAIが本当に先行してAGI開発に成功してしまう。このAGIにより、研究開発や肉体労働も含むすべての人間の活動を、人間を上回る生産性で代替できるようになる。このAGIであらゆる労働を行なって収益をあげ、かつそれ以降のAIの開発もAGIが担うことにより、AIがAIを開発するループに入り、他の研究機関が原理的に追いつけなくなる(OpenAIに関する基本的なストーリーはこれ)
・AGIとまではいかなくとも人間の研究力を上回るAIを開発して、研究開発の進捗が著しく他の機関を上回るようになる
・ネットワーク効果があり先行者有利の生成AIサービスを作り、そこから得られる収益から自走してAGI開発まで持っていく
・奇跡的な生成AIの省リソース化に成功し、現在の生成AIサービスからも収益が得られるようになる
・生成AI・スケーリング則、あるいは深層学習とは別パラダイムのAI技術レースに持ち込み技術を独占する(これは現在のAI研究の前提が崩れ去るので、OpenAI vs Googleどころの話ではない)
・Anthropicのように特定領域特化AIを作り、利用料金の高さを正当化できる価値を提供する
最近のOpenAIのSora SNSや、検索AI、ブラウザ開発などに、この辺の勝利条件を意識したものは表れているのですが、今のところ成功はしていないのではないかと思います。省リソース化に関しては、多分頑張ってはいてたまに性能ナーフがあるのはこれの一環かもしれないです。とはいえ、原則性能の高さレースをやっている時にこれをやるのはちょっと無理。最後のやつは、これをやった瞬間にAGIを作れる唯一のヒーローOpenAIの物語が崩れるのでできないと思います。
最後に今回のGemini3.0やNano Banana Pro(実際には二つは独立のモデルではなく、Nano Bananaの方はGemini3.0の画像出力機能のようですが)に関して研究上重要だったことは、事前学習のスケーリングがまだ有効であることが明らかになったことだと思います。
ここまでひたすらスケーリングを強調してきてアレですが、実際には2024年後半ごろから、データの枯渇によるスケーリングの停滞が指摘されていること、また今年前半に出たスケーリングの集大成で最大規模のモデルと思われるGPT-4.5が失敗したことで、単純なスケーリングは成り立たなくなったとされていました。その一方で、
去年9月に登場したOpenAIのo1やDeepSeekによって、学習が終わった後の推論時スケーリング(生成AIが考える時間を長くする、AIの思考過程を長く出力する)が主流となっていたのが最近です。
OpenAIはそれでもGPT-5開発中に事前学習スケーリングを頑張ろうとしたらしいのですが、結局どれだけリソースを投下しても性能が伸びないラインがあり、諦めたという報告があります。今回のGemini3.0に関しては、関係者の発言を見る限り、この事前学習のスケーリングがまだ有効であり、OpenAIが直面したスケーリングの限界を突破する方法を発見していることを示唆しています。
これはもしかしたら、単なるお金をかけたスケーリングを超えて、Googleの技術上の「秘伝のタレ」になる可能性もあり、上記で書いた以上の強みを今回Googleが手にした可能性もあると考えています。
本当はもっと技術的に細かいことも書きたいのですが、基本的な考えは以上となります。色々と書いたものの、基本的には両者が競争してもらうことが一番技術発展につながるとは思います! December 12, 2025
1RP
問題:今のChatGPT(GPT-5.1)はLLMである。◯か✕か?
この問題、答えわかりますか?
たぶん9割以上が理解していない生成AIの分類と全体像についてちょっと語ってみたいと思います。長いですが。
【1.生成AIとは】
まず、生成AIとは、新しいコンテンツを「生成」できるAI全体を指す言葉です。
英語だとGenerative AIですね。
生成AIが生成できるものには、言語(テキスト)、画像、動画、音声、音楽など色々あります。
【2.LLMとは】
これに対してLLMとは大規模言語モデルとも言われ、英語のLarge Language Model(ラージ・ランゲージ・モデル)の略称ですね。
大規模言語モデルという言葉の通り、「言語(テキスト)」を大量に学習して作ったもので、生成AIの1つの種類だと理解すればOKです。
ここまではけっこう理解している人が多いですかね。
LLMの代表格といえばもちろんChatGPT(GPT)です。
ちなみに、ChatGPTはあくまでAIチャットのサービス名であり、裏でGPTというモデルが動いているという関係にあります。
しかしここで、一つの疑問が出ます。
「ChatGPTやGeminiって、画像や動画も生成できるよな・・・?」
そうなんです。実はLLMは「言語を学習した生成AI」と説明されますが、LLMの代表格とされるGPTやGeminiは言語以外も扱えるのです。
AIが進化して、言語だけでなく画像や音声を理解したり、生成できるようになりました。
これを「マルチモーダル」といいます。
【3.マルチモーダルとは何か】
「マルチモーダル(Multi-modal)」とは、マルチなモーダル、すなわち複数のデータ様式を指す言葉です。
modal(モーダル)という言葉は馴染みがないですが、これはModality(モダリティ)という名詞の形容詞系で、語源的にはMode(モード)から来ているそうです。
なので、倭国人にはMulti-mode=マルチモードと言う方が、カタカナ英語的になんとなくニュアンスが伝わると思います。
ちなみにMulti-modelは間違いです。
【4.マルチモーダルの仕組みと進化】
まず、マルチモーダル自体はLLMに限ったものではなく、生成AI全体にある概念です。
言語から画像などを作ることはもちろんですが、画像から動画を作ったり、音声からテキストを作ったり、言語モデル以外にもマルチモーダルはあります。
しかし、基本的には人間とのやりとりはチャットで行うことが今までのAIとのコミュニケーションの中心だったので、マルチモーダルの中心が言語モデルとなり、マルチモーダル=マルチモーダルLLMをイメージされやすいです。
このマルチモーダルも進化しており、初期と現在で仕組みはちょっと違います。
初期は、あくまで複数のモデルが協力して、人間が渡すデータや指示された生成物に合わせて、言語モデルや画像モデルが協力して仕事をしていたイメージです。
しかし、現在のマルチモーダルは、GPTやGemini自身が、言語だけでなく画像や音声や動画といったものを学習し、理解し、生成できるようになっています。
なお、生成の部分は、現在も画像生成や動画生成の専門モデルに協力してもらっていたりもします。
【5.今のChatGPTは結局何なのか?】
だいぶ話が長くなってますが、ここで最初の◯✕問題の解説です。
ChatGPTの裏にいるGPTは、誕生した時は言語を学習したLLMでした。
しかし、ここまでの説明の通り、現在は既に言語以外を学習している以上、単なる言語モデルではなくなっています。
現在のマルチモーダルなGPTやGeminiは、MLLM=マルチモーダルLLM(Multimodal Large Language Model)という呼び方が最も一般的な気がします。
GPTなどはもともとLLMから進化しており、LLMという言葉自体が広く根付いていることから、便宜上これが一番伝わりやすいというのもあります。
なので、GPTはLLMではある、と言えると思います。
しかしGPTやGeminiは実態からすれば言語モデルの枠を超えているので、LLMと区別してLMM=大規模マルチモーダルモデル(Large Multimodal Model)と呼ばれたりもしているようです。個人的にはこっちの方がしっくり来ます。
というわけで、最初の問題は基本的には◯、文脈によっては✕とも言えるかな、というのが私の考えです。
あと会議とかで「みんなマルチモーダルLLMって言っているけど、今のAIってほとんど実態としてはLMMだよね」とか言うとなんか凄そう感が出る気がするので、機会があったら言ってみて下さい。 December 12, 2025
1RP
<ポストの表示について>
本サイトではXの利用規約に沿ってポストを表示させていただいております。ポストの非表示を希望される方はこちらのお問い合わせフォームまでご連絡下さい。こちらのデータはAPIでも販売しております。




