オープンAI トレンド
0post
2025.11.22 15:00
:0% :0% (40代/男性)
人気のポスト ※表示されているRP数は特定時点のものです
OpenAIのGPT-5を超えてめでたく人類最高のAIとなったGemini3.0ですら、カブトムシのAA(アスキーアート)はまともに作れなかったので、人類に残された仕事はAA職人かもしれない。 https://t.co/75EYotTipn November 11, 2025
16RP
Google 大象跳舞?擁有絕對控制權的 Sergey Brin 與他的創辦人模式
前陣子透過複委託買 Google 股票時,輸入 "Google",跳出了兩個代號:GOOG 和 GOOGL。當下沒想太多,直覺選了代號比較短的,但後來發覺,我買過兩種不同 Class 的 Alphabet 股票。
在大多數時候,投資人多半只是乘客,重點是駕駛座上坐的是誰。而現在,那個最瘋狂的駕駛回來了。 仔細看了一下,Google 在外流通有兩種股票:買到的是「沒有投票權」的 Class C 股票(GOOG),而另一個 GOOGL 才是「有投票權」的 Class A 股票。
這令人好奇,為什麼一家公司要發行兩種權利不同的股票?深入研究後發現,這不只是一個代號的差別,這背後藏著 Google 創辦人 Larry Page 和 Sergey Brin 最深層的執念,而正是這個看似不民主的股權設計,讓 Sergey Brin 在 2024 年能夠像個剛畢業的駭客一樣,強勢回歸第一線寫程式,帶領 Google 在 AI 戰場上絕地大反攻。
股權結構的秘密:為什麼會有 Class C?
要理解這一切,得先回到 2014 年。當時 Google 進行了一次備受爭議的股票分割(Stock Split),創造出了我們現在看到的 Class C 股票。
Google 的股權結構其實分三種:
- Class A (GOOGL):一般投資人買的,每股 1 票。
- Class B (未上市):創辦人和高層持有,每股 10 票。
- Class C (GOOG):後來增發的,每股 0 票。
這個設計的目的只有一個:鞏固創辦人的絕對控制權。
隨著 Google 不斷發行股票給員工當分紅、或是收購其他公司,Larry 和 Sergey 手中的股權比例(Class B)會不斷被稀釋。如果只有 Class A,他們的投票權遲早會低於 50%,這意味著他們可能會被華爾街的投資人、避險基金或是激進股東(Activist Investors)左右公司的決策。
為了避免這種情況,他們創造了沒有投票權的 Class C。這樣一來,Google 可以盡情地印股票給員工、拿去收購公司,而 Larry 和 Sergey 的投票權比例卻完全不會下降。
當年這個舉動被很多財經專家批評為「獨裁」、「公司治理的倒退」。但十年後的今天,當 AI 浪潮席捲而來,才讓人看懂了這個設計的真正價值。
駭客的回歸:Sergey Brin 的「第二春」
2023 年初,ChatGPT 橫空出世,Google 內部發布了紅色警報(Code Red)。這家曾經的 AI 先行者,竟然在自己的主場被一家新創公司打得措手不及。
這時候,擁有絕對控制權的價值就體現出來了。
如果 Google 是一間普通的上市公司,CEO Sundar Pichai 可能會忙著應付股東的質疑,忙著解釋為什麼利潤率下降,忙著裁員來美化財報。但因為有 Class B 股權的存在,創辦人的意志依然是最高指導原則。
於是看到了 Sergey Brin 的回歸。
派對上的「OpenAI Dan」
Brin 的回歸其實源自於一個偶然的時刻。在邁阿密的 All-In Summit 上,他透露自己原本已經處於半退休狀態,直到有一次在派對上遇到了一位來自 OpenAI 的員工,名叫 Dan。
Dan 對他說:「這可能是電腦科學史上最偉大的轉折點,你在幹嘛?」
這句話像一道閃電擊中了 Brin。作為一個電腦科學家,他意識到自己不能錯過這個時代。於是他開始頻繁出現在 Google 的山景城總部,每週有好幾天都泡在辦公室裡,直接參與下一代 AI 模型 Gemini 的開發。他甚至還提交了程式碼修復(CLs),這對於一個身價千億美元的創辦人來說,簡直是聞所未聞。
在近期的 All-In Summit 邁阿密活動中,Brin 分享了幾個非常有趣的故事,讓人看到了他作為「駭客」的一面,而非高高在上的「創辦人」。
「我還在休學中」
Brin 在台上開玩笑說,嚴格來說他還沒從史丹佛大學畢業,他目前仍處於「休學(leave of absence)」狀態。這雖然是句玩笑話,但卻精準地描繪了他的心態:他依然覺得自己是那個在實驗室裡探索未知的大學生,而不是什麼科技巨頭的太上皇。他對 AI 的興奮感,完全源自於對電腦科學突破的純粹好奇。
對人形機器人的「偏見」
當被問到對人形機器人(Humanoid)的看法時,Brin 直言自己是個「怪胎(weirdo)」,因為他其實不太喜歡人形機器人。這也解釋了為什麼 Google 當年收購了波士頓動力(Boston Dynamics)後來又把它賣掉。這就是創辦人的「研究品味(Research Taste)」——因為我有控制權,所以公司可以依照我的品味來決定技術路線,而不是追逐市場熱點。
「Vibe Coding」的內部抗爭
最精彩的一個故事,是關於 Google 內部的「Vibe Coding」爭議。
所謂 Vibe Coding,是指用 AI 快速生成程式碼的開發模式。但諷刺的是,Google 內部的政策竟然一度禁止員工使用自己的 Gemini 模型來寫程式。Brin 發現這件事後覺得荒謬至極——我們開發了最強的 AI,結果自己的工程師不能用?
他不僅直接介入要求解除禁令,還公開批評這種保守的內部文化。他發現這個禁止使用的規定被埋在內部網頁的深處,於是親自動手去「打仗」,確保工程師們可以自由地用 Gemini 來進行 Vibe Coding。
這就是典型的駭客思維:工具是用來解決問題的,不是被規章制度綁住的。如果沒有創辦人的絕對權威,這種不合理的規定可能會一直存在,持續扼殺工程師的生產力。
Founder Mode:矽谷最新的管理顯學
Sergey Brin 的這些舉動,完美呼應了矽谷創投教父 Paul Graham 最近提出的一個熱門概念——「創辦人模式(Founder Mode)」。
Paul Graham 認為,隨著公司變大,傳統的管理學建議創辦人要轉變成「經理人模式(Manager Mode)」,也就是要懂得授權、不要管細節、只看結果。但這種模式往往會導致公司變得平庸、官僚化,甚至失去靈魂。
相反地,Founder Mode 強調創辦人應該打破層級,直接介入關鍵決策,甚至進行所謂的「微觀管理(Micromanagement)」。這不是因為不信任員工,而是因為創辦人擁有獨特的直覺和對產品的極致要求,這是職業經理人無法複製的。
Sergey Brin 回來寫 code、強推 Vibe Coding、無視內部流程直接發布產品,這正是 Founder Mode 的極致展現。而 Google 的 Class C 股權結構,就是為了讓 Founder Mode 能夠在一家市值兩兆美元的巨獸中繼續運作的「硬體支援」。
沒有 Class B/C 股權的保護,Sergey Brin 可能早就被董事會要求「專注於戰略」而被踢出程式碼庫了。但因為他有絕對控制權,他可以選擇切換回 Founder Mode,親手把 Google 拉回正軌。
Class C 是一張信任票
回到一開始的股票代碼之謎。持有沒有投票權的 Class C (GOOG) 真的有差嗎?
說實話已經沒差。因為就算買了有投票權的 Class A (GOOGL),在 Larry 和 Sergey 的 10 倍投票權面前,散戶的票也起不了任何作用。
投資 Google,本質上就是在投資這兩位創辦人的願景。買這張股票,不是為了去股東會上吵架,而是為了買一張坐在副駕駛座的門票,看著這兩位天才如何駕駛這艘巨輪。
Class C 雖然沒有投票權,但它代表了一種契約:「我們不聽華爾街的,我們聽自己的。如果你相信我們的眼光,就上車;如果不信,就下車。」
在 AI 這個 Brin 口中「電腦科學史上最大的轉折點」,我們樂於見得像 Sergey Brin 這樣,還沒畢業、不喜歡人形機器人、敢叫工程師直接發布產品的「老駭客」重新上工。 November 11, 2025
6RP
へ~。サム氏の社内メモだって。OpenAIはそれまで上手く行ってた事前学習のノウハウがクソデカモデルには通用しないという壁に直面した。それで失敗したモデルがGPT-4.5。だからOpenAIは一旦事前学習から逃げて推論モデル作って推論ノウハウに注力していた。その一方で事前学習から逃げずに向き合い続けたのがGoogle。結果的に事前学習が成功してGemini3.0ProはGPT-5.1を超えてきた。これはマズいので、OpenAIも「Shallotpeat」の開発でちゃんと事前学習に向き合ってGoogleに追い付く事を目指す。合成データや強化学習でも色々挑戦していく。だから試行錯誤が必要で、これから数か月間は進歩が停滞する(つまりGeminiに蹂躙され続ける)かもしれんけどここは耐えしのいでやるっきゃないとの事。 November 11, 2025
6RP
産業用の画像識別は「教師あり学習」で、合格・不合格の区別がはっきりしたデータを食わせて教育したうえ、テストランを通じてその出力が一定の信頼度を満たすことを検証します。インターネットのオープンAIは何を拾って食って育ったのかわからない野良で、合否判断基準は不明確です。 https://t.co/23fsAVEkHc November 11, 2025
3RP
私はOpenAIの熱心なファンではないので擁護の意図はありませんが、ただ、ここ数日のGoogleの活躍を見てもう勝負が着いたかのような判断をするのはあまりにも短絡的かつ時期尚早だと思うんですね。まだまだ生成AIは黎明期中の黎明期ですし、この界隈ではいつどんなブレイクスルーが起きて形勢逆転してもおかしくありません。まあそんなこと理解した上で批判している単なるサムやOAIアンチの方々も結構いらっしゃるんでしょうけど。 November 11, 2025
2RP
ウォーレン・バフェットがNVIDIAを殺した会社に投資したばかりだ。
11月14日、バークシャー・ハサウェイはAlphabetへの51億ドルの株式保有を明らかにした。
その13日前、GoogleはIronwoodを発表した…NvidiaのGPUと同じことを、コストの5分の1で実現するチップだ。
提出から6日後、GoogleはGemini 3を公開した。地球上で最も先進的なAIモデルだ。
それはNVIDIAのチップを一切使わずに訓練された。
これは見出しではない。これは独占の終わりだ。
すべてを変える数学
Googleを除くすべてのAI企業は、最先端モデルを訓練するためにNvidiaに30億〜40億ドルを支払っている。
Googleは自社のIronwood TPUを使って6億〜7億5千万ドルを支払う。
OpenAI、Anthropic、Microsoft、Meta…彼らはみな、同じ計算能力に対して400%多く支払っている。
Googleは工場を所有している。他の皆は道具を借りているだけだ。
これがあなたにとって重要な理由
Nvidiaは、重要なAIチップの唯一の供給者であることで、3.5兆ドルの帝国を築いた。
その独占は今、崩壊した。
Anthropicはすでに100万台のGoogle TPUに関する契約に署名した。OpenAIは交渉中と噂されている。移行は始まっている。
競合他社があなたのコストの20%でモデルを訓練できるようになったら、あなたのビジネスはなくなる…カウントダウン・タイマーが始まるだけだ。
バフェットが送ったシグナル
2004年に「Googleを見逃した」と語った男が、2025年にそれを買った。
安いからではない…Nvidiaの34倍に対して27倍の利益で、それは確かに安いが。
Googleが人質に取られない唯一のAI企業だからだ。
Alphabetは地球上で3つの最大のプラットフォームを支配している:Search、Android、YouTube。
今、それはこれまでに構築された最も安価なスーパーコンピュータ基盤を支配している。
バフェットは可能性を買うのではない。必然を買うのだ。
次に何が起こるか
Google Cloudが今四半期に45%を超えて成長すれば、Nvidiaの価格決定力は崩壊する。
TPUのコストがGPU同等品の75-80%下で留まれば、すべての合理的なAIラボが切り替える。
Geminiがこのペースで改善を続けていれば、モデル戦争はすでに終わっている。
AI経済全体が1つの事実を中心に再価格設定されようとしている:
チップを所有する者が未来を所有する。
Googleがチップを所有している。
バフェットがGoogleを所有している。
そしてあなたはまだNvidiaとそのドラマを見続けている!
詳細はこちら - November 11, 2025
2RP
「これから数ヶ月は遅れをとる可能性がある」
OpenAIが“追う側”へ
サム・アルトマン内部メモが暴露した、AIレースの転換点まとめ
今話題のThe Informationの記事の要約。面白いので是非見て欲しい。
【1. Googleの逆襲】
・Googleは“事前学習スケーリング”の難題を突破
・Gemini 3.0 Pro が GPT-5.1 を超える結果に
・研究者も「事前学習が復活したのは衝撃」とコメント
【2. OpenAIが直面した“巨大モデルの壁”】
・OpenAIのノウハウは小〜中規模では成功
→ しかし巨大化(GPT-4.5/5級)すると調整が崩壊
・GPT-4.5はその“失敗作”だった(内部リーク情報)
【3. 一時的に事前学習から撤退 → 推論モデルへ逃避】
・OpenAIは問題回避のため Reasoning 特化に全振り
・その結果、基盤モデルが数ヶ月停滞
→ その間に Google が一気に前へ
【4. アルトマンが語った今後の勝負所】
・OpenAIは事前学習を“ゼロから作り直す”
→ 新モデル「Shallotpeat」を開発中(内部コード名)
・技術的に野心的な賭け:
① 事前学習プロセスの完全再構築
② AIがAIの訓練データを生成する合成データ戦略
③ 強化学習の抜本的強化
④ “AIでAI研究を自動化する”方針への深いコミット
【5. アルトマンの本音(メモより)】
「これから数ヶ月は遅れをとる可能性がある」
「だが我々は耐えられる企業力がある」
「研究チームは“真のスーパーインテリジェンス”に集中し続けよ」
【6. 今が歴史的ターニングポイント】
・2024まで:OpenAIが先行
・2025:Googleが事前学習突破で逆転
・今後数ヶ月:Google優位が続く可能性
・2026:OpenAIがShallotpeatで巻き返せるかが勝負
────────────────────────
■ 結論
いま世界は、初めて
「OpenAIがGoogleを追うフェーズ」
に突入した。
そしてアルトマン自身が強い危機感を持っていることが、今回の内部メモから明確になった。
https://t.co/th2N8AnFLp November 11, 2025
2RP
💥巴菲特重拳出手:买下“终结英伟达”的公司
11 月 14 日,伯克希尔·哈撒韦披露持有 51 亿美元的 Alphabet(谷歌母公司)股份。
就在 13 天前——
Google 发布了 Ironwood:一款能以英伟达 GPU 20% 的成本完成同等任务的新芯片。
6 天后——
Google 又推出 Gemini 3,目前全球最先进的 AI 模型之一。
训练时没用一块英伟达芯片。
这不是噱头,
是垄断体系坍塌的信号。
真正颠覆的是成本
所有 AI 大模型公司(除了 Google)
训练一次前沿模型要给英伟达付 30–40 亿美元。
Google 用自家 TPU:
只要 6–7.5 亿美元。
OpenAI、Anthropic、微软、Meta……
都在用 4 倍的价格买同样的算力。
Google 拥有产业链,
其他人只是消费者。
为什么这是生死时刻?
英伟达的 3.5 万亿美元市值
建立在“只有我能提供高端 AI 芯片”的护城河上。
而现在——
Anthropic 已订购 100 万颗 TPU,
OpenAI 也传出正在商谈迁移。
当你的对手只花你 20% 成本训练模型时,
你剩下的不是优势,
而是 倒计时。
巴菲特传达的唯一信息
那个曾经错过 Google 的老人,
2025 年终于出手买入。
不是因为谷歌便宜,
而是因为:
Google 是唯一不会被英伟达“卡脖子”的 AI 巨头。
它握有全球三大入口:Search、Android、YouTube。
现在又掌握了 最廉价的超级算力基础设施。
巴菲特不买希望,
他买确定性。
接下来会怎样?
如果 Google Cloud 季度增速超过 45%:英伟达的定价权崩盘。
如果 TPU 价格继续比 GPU 低 75–80%:AI 公司都会转向。
如果 Gemini 按现在的速度进化:模型大战提前结束。
AI 世界即将围绕一个核心事实重组:
谁掌握算力,谁掌握未来。
Google 拥有算力,
巴菲特押注 Google。
而很多人还在关注英伟达的股价戏剧。
Credit: Shanaka Anslem Perera November 11, 2025
2RP
個人的に、つい先日 Microsoft が発表した Agent 365 はエンタープライズでやってる人は必須で押さえておいたほうがいいと思っている。
Agent 365 は、要はこれから爆増するエージェントを「社員のように登録してまとめて管理する」するための仕組み。
面白いのは、エージェントの技術スタックも、稼働している場所も問わないこと。
AzureとかCopilot Studioは当然として、外部のSaaS だろうと、OpenAI Agents SDKだろうとClaude Code SDKだろうとLangGraphだろうと何でもいい。
そこにAgent 365 SDKをかぶせてM365の世界でidを振ってやると、Copilotのレジストリに登録されて、その先は権限制御とか監査用のログの取得やら監視やら、あらゆるエージェントを全部同じ仕組みで運用できるようになる。
しかもそのエージェントはWorkIQって仕組みをつかってCopilotのようにm365上のデータにアクセスできるようになる(権限を持っている範囲だけ)。
ユーザー企業としてのメリットは↑の通り、エージェントの爆増に対してガバナンスを利かせやすいし、
エージェント提供側は、ユーザー企業に「Agent 365 に対応してるなら既存の運用に乗せられるか」と考えて使ってもらいやすくなる。
すでに結構なところが対応を表明してるのと、昨日?一昨日?くらいにさっそくGensparkが対応してた気がする。 November 11, 2025
2RP
というかOpenAI、なんか『持ち運びできる超小型AIガジェット』を作ってるらしいけど……正直それ分が悪いと思うなぁ…。
外出先で「ヘイOpenAI」なんて言う一般人、まずいないと思うし、使うのなんて本当に一部のガジェオタくらいでしょ。
ていうか超小型AIデバイスってスマホと役割めっちゃ被るし、じゃあスマホでええやろ感がどうしても強い。
まあ翻訳機くらいなら需要あるかもだけど、それもかなりニッチだし…。
結局、現状でAIアシスタントが活躍するのって家の中やと思うで。
プライベート空間なら恥ずかしくもないし、静かだし、スピーカーもマイクもちゃんとした大型のやつ置けるし、家電連携も使えるし。
だから攻めるなら据え置きスピーカータイプの『ホームデバイス』方面だと思うんだよなぁ。
ああいう方が一般層にも絶対刺さるし、生活に馴染む。
持ち運びAIガジェットは確かにすげー夢はあるけど、現状でそんなん使うのはマージで一部のガジェオタだけだと思うぞい……。
マジで考え直せ……。 November 11, 2025
1RP
うーん、、、下がらん
Gemini3使ってみたらオープンAIとAIバブル終了ってのを感じれると思うが
少なくともGoogleの一人勝ちで他のは価値かなり低い
金食い虫なのにGoogleに瞬間抜かされたオープンAIに巨額投資してるところはヤバいと思う November 11, 2025
1RP
決済もAI がやるようになるのかな。
フィンテックには非常に注目👀してるんです。
🔻
🔻
🔻
【PayPal: $PYPL 】VenmoとBNPLが成長を牽引! 🚀 AIエージェントコマースで未来の決済を先取り💰🌐
#概要
1️⃣ 主要成長ドライバー: VenmoとBNPL(後払い)が成長を牽引しており、特にVenmoは有料サービスへの移行で収益性が向上している。
2️⃣ AIによる変革: Google、OpenAIなどと提携し、Agentic Commerce(エージェントコマース)サービスを開始。
3️⃣ 戦略的目標: 決済処理からフルコマースプラットフォームへの変革を目指し、ブランド化された決済体験とチェックアウトの近代化に注力している。
#内容
1️⃣ VenmoとBNPLによる収益性向上
これまで無料の個人間送金(P2P)が主体だったVenmoは、有料プロダクトへの移行が進んでいます。第3四半期(2025年Q3)には、Venmoの収益成長の45%以上がオンラインチェックアウトやデビットカードといった収益化可能な取引からもたらされました。また、BNPLの取引総額(TPV)も前年同期比で20%以上成長しており、2025年のTPV目標は約400億ドルを見込んでいます。
2️⃣ AIエージェントコマースへの最速投資
PayPalは、AIがユーザーの代わりに検索や購入を行う**「Agentic Commerce(エージェントコマース)」を新しいフロンティアと見なしています。OpenAIやGoogle Cloudと提携し、AIエージェントがチャットから決済までシームレスに完結**できるインフラを構築中です。これは、買い手が店舗ではなくAIとの会話から生まれる時代に対応するための、未来のEコマースの基盤作りです。
3️⃣ ブランドとチェックアウト体験の近代化
アレックス・クリスCEOは、PayPalを単なるオンライン決済会社から**「コマースカンパニー」へ転換させることを最重要課題としています。投資は、Pay with Venmo、BNPLを含むブランド化されたチェックアウト体験の強化と、瞬時の決済処理を実現するための近代化に集中しています。これにより、顧客がどこで買い物をする場合でも、PayPalをデフォルトのウォレット**として利用してもらうことを目指しています。
#株式投資
#米国株投資 #新NISA #銘柄ナビゲーター : @s_navigator_umi #ペイペリスby銘柄ナビゲーター November 11, 2025
1RP
📕速報:Nano Banana Proが登場!画像生成AIの世界が一気に変わりました...!
正直に言うと、Googleが発表したNano Banana Proを見た瞬間、「あ、これはマジで蹂躙しに来たな」と思いました。
画像生成AIの競争は激しくて、毎週のように新しいモデルが登場しますよね。
でも今回は、競争というより「圧勝」に近い。そう感じた理由を、実際に触れながら気づいたことを含めて共有させてください。
長文で、内容はブログ記事級に”濃い”です
まず前提として、Nano Banana(前バージョン)の時点で既に相当強かったんです。
OpenAIの画像生成やMidjourneyと比較しても、特にテキスト表現や編集機能では一歩先を行っていました。「古い写真の復元からミニフィギュアの生成まで」幅広く対応していて、カジュアルに使える画像編集ツールとして完成度が高かった。
ただ、倭国語はまだまだだった
で、今回のNano Banana Pro 「エグい」の一言
Gemini 3 Proをベースに構築された、と聞いた時点で期待値は高かったんですが、実際に使ってみて驚いたのは『実世界の知識と深い推論能力』が画像生成に統合されている点でした。
具体例で説明します。
「エライチチャイ(カルダモンティー)の作り方を示すインフォグラフィックを倭国語で作成」と指示すると、単に綺麗なデザインを作るだけじゃなくて、実際のレシピ手順、材料の分量、カルダモンの特性まで理解した上で、視覚的に正確な倭国語のインフォグラフィックを生成します。
これ、従来の画像生成AIだと「倭国語のそれっぽい見た目」は作れても、内容の正確性は保証されなかったんですよね。
この最も衝撃を受けた倭国語表現
従来、画像生成AIの最大の弱点は「文字が崩れる」「倭国語が意味不明になる」という点でした。看板やポスターに倭国語を入れようとすると、漢字が壊れたり、読めない文字列になったり。プロの現場では結局Photoshopで手作業修正が必要でした。
でもNano Banana Proは違います。
公式ブログには「画像内に直接、正確にレンダリングされた読みやすいテキストを作成する最高のモデル」と書かれていますが、これ控えめな表現だと思います。実際には「革命的」と言ってもいいレベル。
・短いタグラインから長い段落まで対応
・カリグラフィーを含む幅広いフォントスタイル
・多言語生成で「複数の言語でテキストを生成」
つまり、倭国語の看板、ポスター、パッケージデザイン、説明図が、そのまま実用レベルで生成できるということです。
例えば「『URBAN EXPLORER』というテキストを建物のファサードに統合」といった指示で、建築物に自然に溶け込んだサインデザインを作成できます。これまでだと、3Dソフトでモデリングして、ライティング設定して、レンダリングして...という工程が必要でしたが、それが数分で完成します。
実際の技術スペックを見ると、さらに圧倒的です
・最大14枚の画像をブレンドして1つの構成に統合可能
・最大5人の人物の一貫性と類似性を維持
・2K・4K解像度での出力対応
・9:16、16:9、21:9など多様なアスペクト比
「最大14枚の画像をブレンド」って、どういうことかというと。
例えば、スケッチ、参考写真、テクスチャ、カラーパレット、フォント見本、レイアウト案...これらをまとめてアップロードして「これらを統合してフォトリアリスティックな製品モックアップを作成」と指示すると、すべての要素を理解して1つの完成品に仕上げてくれます。
デザイナーの脳内にある「こういう感じ」を、複数の参考資料から読み取って形にしてくれるイメージです。
もっと驚いたのは『スタジオ品質のクリエイティブコントロール』。
ここがNano Banana Proの真骨頂だと思っています
・「浅い被写界深度(f/1.8)のローアングルショット」
・「ゴールデンアワーの逆光、長い影を作る」
・「ミュートされたティールトーンのシネマティックカラーグレーディング」
こういった撮影監督レベルの指示が通るんです。
実例として、公式ブログには「雪の中のキツネのシーンを昼から夜に変換」という編集例が紹介されています。単に暗くするだけじゃなく、月明かりの質感、雪の反射、影の落ち方まで、時間帯に応じた光の物理法則を理解して変換します。
「このシーンを夜間に変える」
「花にフォーカスする」
たったこれだけの指示で、プロのレタッチャーが何時間もかけて調整するような作業が完了します。
ここで、実際のビジネス価値について考えてみます。
従来のワークフローだと
1. デザイナーがラフスケッチを作成(30分)
2. 3Dアーティストがモデリング(3時間)
3. ライティング設定とレンダリング(2時間)
4. Photoshopで仕上げ(1時間)
5. クライアントからの修正依頼(往復で1日)
6. 再レンダリングと調整(2時間)
合計で2〜3日かかっていた作業が、Nano Banana Proだと
1. プロンプトを書く(5分)
2. 生成・確認(2分)
3. 微調整(10分)
合計20分程度で完成します。
これ、単なる効率化じゃなくて、ビジネスモデル自体が変わるレベルの変化だと思っています。
実際、Googleは既にこれをビジネスに統合し始めています
・Google Ads:「最先端のクリエイティブおよび編集機能を広告主に直接提供」
・Google Slides:プレゼン資料に直接統合
・Vids:動画制作ツールに統合
つまり、私たちが日常的に使っているGoogleのツールに、このレベルの画像生成能力が組み込まれていくということです。
企画書を作りながら「このコンセプトを視覚化して」と指示すれば、その場でプロフェッショナルな画像が生成される。会議中に「今の議論を図解して」と言えば、構造化された説明図が完成する。
これ、知識労働の生産性が根本的に変わる瞬間だと思います。
個人的に特に注目しているのは『世界の知識へのアクセス』という機能です。
公式ドキュメントには「Google検索によるグラウンディングを有効にすると、リアルタイムのWebコンテンツに接続してデータ駆動型の出力を実現」とあります。
これ、どういうことかというと。
例えば「今日の東京の天気をポップアートスタイルのインフォグラフィックで」と指示すると、リアルタイムの気象データを取得して、正確な気温、湿度、降水確率を含む視覚的に魅力的なインフォグラフィックを生成します。
「生物学的に正確な心臓の断面図」を依頼すれば、医学的に正確な構造を持つ教育用図表が完成します。従来は専門の医療イラストレーターに依頼していたような仕事が、誰でもできるようになる。
もちろん、完璧ではありません。
公式ブログも正直に限界を認めています
・小さなテキストのレンダリングは完璧に機能しない場合がある
・データ駆動型ビジュアルの事実の正確性は検証が必要
・複雑な編集タスクは不自然なアーティファクトを生成する場合がある
ただし、Googleは「これらの領域の改善に積極的に取り組んでいる」と明言しています。現時点で既にこのレベルなら、半年後、1年後にはどうなっているのか。
なぜNano Banana Proがここまで強いのか。
答えは『Gemini 3 Proの推論能力』にあります。
従来の画像生成AIは「綺麗な画像を作る」ことに特化していました。でもNano Banana Proは「問題を理解して、適切な解決策を視覚化する」ことができます。
プロンプトに「String of Turtles(観葉植物)の原産地、ケアの要点、成長パターンに関する情報を含むインフォグラフィック」と書くと、単に綺麗なデザインを作るのではなく
1. String of Turtlesという植物を正確に理解
2. その植物の原産地(南アフリカ)を知識ベースから取得
3. 適切なケア方法(水やり頻度、日照条件)を整理
4. 成長パターンを視覚的に表現する最適な方法を判断
5. すべてを統合した教育的価値の高いインフォグラフィックを生成
この「理解→判断→実行」のプロセスが、他のツールとの決定的な違いです。
実際の活用事例をいくつか紹介します。
【製品開発チーム】
「スケッチに基づいて製品モックアップを作成、1960年代のレトロな美学で」→ 複数のデザイン案を数分で生成し、チーム内で議論
【マーケティング担当】
「ブランドロゴを各種製品にアプリケーション、一貫性を保ちながら」→ Tシャツ、マグカップ、看板、バス停広告など10種類のモックアップを一度に生成
【教育者】
「太陽系の惑星の大きさ比較を子供向けに視覚化」→ 科学的に正確でありながら、小学生にも理解しやすいインフォグラフィック
【プレゼン資料作成】
「この四半期の売上データを視覚的に魅力的なチャートに」→ データの傾向を理解した上で、最も効果的なビジュアル表現を提案
透明性についても触れておきます。
Googleはすべての生成画像に『SynthID』というデジタル透かしを埋め込んでいます。これは目に見えませんが、Geminiアプリに画像をアップロードして「これはGoogle AIで生成されたか?」と尋ねると、検証できます。
AI生成コンテンツが溢れる時代に、「これはAIが作ったもの」と明確に判別できる仕組みを標準装備しているのは、誠実な姿勢だと思います。
さらに、無料ティアとProティアには可視透かし(Geminiスパークル)が入りますが、Google AI Ultraサブスクライバーと開発者向けツールで生成した画像には可視透かしが入りません。
「プロフェッショナルな作業のためのクリーンなビジュアルキャンバスの必要性を認識」した結果です。
最後に、これが業界に与える影響について。
PhotoshopやIllustratorが「不要になる」とは思いません。むしろ、これらのツールの使い方が変わると思っています。
従来:ゼロから作り上げる
これから:AIが生成したベースを、プロのツールで洗練させる
粗削りな原石を磨く作業から、既に形になったものを完璧に仕上げる作業へ。クリエイティブワークの重心が、技術的な実行から、コンセプトと最終調整に移っていく。
Adobeも既にこの流れを理解していて、「主要なクリエイティブプラットフォームがモデルを統合中」と公式ブログに書かれています。競合するのではなく、協業する未来が見えています。
2025年中はもう、この領域でNano Banana Proを超えるものは出てこないんじゃないかと思っています。
前バージョンのNano Bananaの時点で既に先行していたところに、Gemini 3 Proの圧倒的な推論能力が加わった。技術的な差が大きすぎて、半年や1年では追いつけないレベルです。
個人的には、この技術が倭国語に強いという点が本当に嬉しい。
海外のツールだと、英語では完璧でも倭国語になると途端に精度が落ちる、というのが常でした。でもNano Banana Proは「Gemini 3の強化された多言語推論」により、倭国語も英語と同等に扱えます。
これ、倭国のクリエイター、デザイナー、マーケター、教育者にとって、めちゃくちゃ大きなアドバンテージです。
結論として。
Nano Banana Proは、単なる「新しい画像生成AI」ではなく、『知的労働における創造プロセスの再定義』だと思っています。
アイデアから実装までの距離が劇的に縮まり、試行錯誤のコストが極限まで下がり、専門スキルがなくても高品質なアウトプットを出せるようになる。
「AIで画像を作る」時代から、「AIと協働してプロフェッショナルな制作をする」時代へ。
その転換点にワクワクしてます! November 11, 2025
1RP
サム・アルトマンには頑張ってほしいです。
一般人がここまで最先端のAIサービスを使えるようになったのは彼のお陰だと思ってるし、OpenAIが弱体化すると、またGoogleが最新の技術を出し渋りそう。
アルトマン氏のようにAGIを誰にでも使えるようにしたいという思想は無さそうなので。 https://t.co/1Ua682e8u4 November 11, 2025
1RP
OpenAI陣営がヤバいのが、Gemini3.0でGoogleに完全に差をつけられたのに、OpenAIのほうがLLM1回利用あたりかかる原価コストが高いということ。
GoogleはTPUを自社開発で安く調達し、OpenAIはNvidiaに高い費用を払う必要がある。
つまり同じ価格でAIを提供してもGoogleは利益を出せる時に、OpenAIは利益を出せない。
つまりOpenAIが有料課金ユーザーを増やして収益化を頑張ろうとしても、OpenAIが利益を出せないようにGoogleは性能がより高いものを安く提供してくる。
OpenAIの収益化が不可能または非常に難しくなったことを意味する。
収益化が出来なければ投資家も離れていくので、いずれOpenAIは資金が尽きる。
大きな改善をしなければ、長期戦になればなるほど不利になってしまう。 November 11, 2025
1RP
まあ、Googleも
超凄いですよ。
しかし、OpenAIは
もっとトンデモ。
本質は
「大陸のAI」に
「西側のAI」が勝てるか?
AGI
ASIで
覇権を握るのは
どちらなのか?
それでしか、ない。 November 11, 2025
無いとは思うけど、基盤モデルはまだまだスケールできるって話、もしGoogle側のブラフだったらヤバいな。
基盤モデルではなく、強化学習や推論アーキテクチャでの性能向上の痕跡を巧妙に隠せていたら、その嘘ひとつでOpenAIに十兆円規模の損失を負わせつつ、半年間も無駄足を踏ませることができる。 November 11, 2025
@maryoakleysan まりーさん、毎週有り難うございます。雑談も楽しく聴かせていただいております。
今回のnvidiaの下げですが、OpenAI・循環取引が問題というより、Googleがnvidia GPUなしで作ったたGeminiが素晴らしかった事ではないかと思いました。
「良質のレモン無くても美味しいレモネード作れるぞ」と。 November 11, 2025
そろそろ決着ついてきちゃうかも……。うーん。OpenAIは分野のパイオニアなので、しっかり生き残って欲しい気はしますが。TPUからWebサービス、資金も握ってるGoogleが後出しジャンケン的に強いのは分かりきってたこととして、寡占は消費者としては望ましくないので難しいですね。 https://t.co/miHVjNkFKU November 11, 2025
<ポストの表示について>
本サイトではXの利用規約に沿ってポストを表示させていただいております。ポストの非表示を希望される方はこちらのお問い合わせフォームまでご連絡下さい。こちらのデータはAPIでも販売しております。







