inking ゲーム
0post
2025.12.02 17:00
:0% :0% (-/男性)
人気のポスト ※表示されているRP数は特定時点のものです
■「Geminiの検索周りは他社のAIと比べて圧倒的に出来が悪く、設計から見直さないと深い調査には使えない」
ワイがずっと言ってるGeminiの検索ポンコツ問題、まったく同じような意見がRedditに投稿されていた。
なお、GeminiのWebアプリでも、Google AI StudioでWebグラウンディングしても同様。
どれも、ワイが言い続けている内容とかなり整合する。
※ここで書かれているのは確定している"公開仕様"ではなく、観測された挙動からの推測を含むことに注意。
主な問題は以下。
---
① 検索クエリの立て方が極端に悪く、古い知識に引きずられる
最新情報が必要な質問でも、いきなりバージョン番号や年月を含んだ「狭いクエリ」を投げてしまい、検索前から古い前提に縛られている。例として「最新の Gemini モデルは?」と聞いたときに、Gemini が内部の古い知識を前提にしたようなピンポイント検索ばかりする一方で、OpenAI 側(GPT‑5.1)はまず広いクエリで全体像を探り、その後で絞り込んでいく挙動を見せる。
→これ、実際使ってるとマジで遭遇するよね。「そりゃそんな決めつけたような検索の仕方をしたら、正しい答えなんて得られないだろ」ってのがGeminiだとマジである。
これもついこの前書いた
https://t.co/cGXTwyO67l
『OpenAIのReasoningモデルは)基本動作として初手でとりあえず検索して『世界の状況をざっくり知る』からスタートする傾向にあるからこういうことが起きにくい』
Geminiはこれをやらないから、思い込みで恣意的な答えをWebから集めてポンコツ回答をするって話。
② (特にDeep Researchにおいて)事前に「固い計画」を作りすぎて、実際の検索結果に合わせて軌道修正できない
まず内部知識をもとに細かい調査計画を立て、その計画に沿って検索していく設計になってそうだという話。
その結果、「最近仕様が変わった API」などを調べるときでも、古いバージョン番号やすでに廃止されたエンドポイントを前提にした計画を組み、その計画を機械的にこなしてしまうので、最新の情報に辿り着けない。本来は、ざっくり広く調べてから、見つかった情報に合わせて次の一手を変えていくべきなのに、それが出来ていないという指摘。
→ChatGPTだと、GPT-5.1 ThinkingもDeep Researchも、検索結果に応じて調査方針を動的に更新しながら進んでくれるけど、Geminiは事前に決めた計画でしか調査しないから、思い込みで間違えた答えを出してくるって話。これ、ワイも以前にポストした。
https://t.co/WzhKwStdYj
③ 検索結果が「スニペットだけ」で、ページ本文を読めない設計
Google 検索と連携しても、Gemini 側にはWebページ全文ではなく「Googleにキャッシュされてる、検索結果用の短い抜粋(スニペット)」だけが、固い構造化データの形で渡されると指摘されてる。そのうえで、特定の URL を開いてページ本文を読ませる手段が用意されておらず、API の仕様など「細かい情報を読み込んで調べるタイプのタスク」がほぼ不可能。ChatGPTはページを普通に読みに行く(フェッチする)。
④ 検索プロセスの中身がユーザーから見えない
Web 版の Gemini では、どんな検索クエリを投げて、どのサイトを見ようとしたのかが表示されない。
開発者向けの API でも、レスポンスが出たあとに「どんなクエリを使ったか」の一覧が少し見えるだけで、「推論のどのタイミングで、どのように検索したか」が分からず、調査の網羅性を検証しにくい December 12, 2025
1RP
DeepSeek V3.2正式版登场:拒绝烧钱Scaling,开源AI以算法突破算力瓶颈
DeepSeek V3.2 Officially Launches: No Costly Scaling, Just Smarter Algorithms Driving Open-Source AI Beyond Compute Limits
笔者注:这几个星期,Sam Altman的内心想必是拒绝且焦虑的:Gemini 3 Pro的出世刚完成了一轮横扫;Ilya随即便抛出“Scaling已到尽头,接下来是研究的时代”的论断;还没缓过气来,DeepSeek的新动作又是新的行业震爆。
就在刚刚,DeepSeek一次性开源两个正式版模型DeepSeek-V3.2与DeepSeek-V3.2-Speciale,同时网页版,App与API同步升级为正式版 V3.2,乾脆、利落、不拖泥带水。
可以说,DeepSeek-V3.2的横空出世,深刻诠释了开源AI的独特魅力:它摒弃了盲目的暴力Scaling,以更精妙的算法为杠杆,在算力资源受限的情况下,发挥了Ilya所说的研究精神,真正地通过技术创新撬动了通往巅峰的捷径。
一,DeepSeek-V3.2:推理能力全球领先
按照官方的数据,
🔹 DeepSeek-V3.2的目标是平衡推理能力与输出长度,适合日常使用,例如问答场景和通用Agent任务场景。在公开的推理类Benchmark测试中,DeepSeek-V3.2达到了GPT-5的水平,仅略低于Gemini-3.0-Pro;相比Kimi-K2-Thinking,V3.2的输出长度大幅降低,显著减少了计算开销与用户等待时间。
🔹 DeepSeek-V3.2-Speciale的目标是将开源模型的推理能力推向极致,探索模型能力的边界。V3.2-Speciale是DeepSeek-V3.2的长思考增强版,同时结合了DeepSeek-Math-V2的定理证明能力。该模型具备出色的指令跟随、严谨的数学证明与逻辑验证能力,在主流推理基准测试上的性能表现媲美Gemini-3.0-Pro(见表1)。更令人瞩目的是,V3.2-Speciale模型成功斩获IMO 2025(国际数学奥林匹克)、CMO 2025(中国数学奥林匹克)、ICPC World Finals 2025(国际大学生程序设计竞赛全球总决赛)及 IOI 2025(国际信息学奥林匹克)金牌。其中,ICPC与IOI成绩分别达到了人类选手第二名与第十名的水平。
在高度复杂任务上,Speciale模型大幅优于标准版本,但消耗的Tokens也显著更多,成本更高。目前,DeepSeek-V3.2-Speciale仅供研究使用,不支持工具调用,暂未针对日常对话与写作任务进行专项优化。
图2:DeepSeek-V3.2与其他模型在各类数学,代码与通用领域评测集上的得分(括号内为消耗Tokens总量)
二,DeepSeek-V3.2:实现思维与工具调用的深度协同
告别割裂:思考融入工具执行流
不同于过往版本中工具调用与思维模式相互割裂的局限,DeepSeek-V3.2是首个将思维链(CoT)深度融入工具使用流程的模型,并同时支持思考模式与非思考模式下的灵活调用。
数据驱动:大规模Agent训练方法
为实现这一跨越,DeepSeek提出了一种创新性的大规模Agent训练数据合成方法。通过构造海量的1800+虚拟环境和85,000+复杂指令,这些“难解答,易验证”的强化学习任务极大地拓宽了模型的泛化能力。
评测结果:缩小与闭源模型的代差
如下图所示,DeepSeek-V3.2在各项智能体工具调用评测中,不仅达到了开源模型的最高水平,更显著缩小了与顶级闭源模型的性能差距。尤其值得强调的是,V3.2依靠通用能力而非针对性训练取得了此成绩,预示着其在真实应用场景中具备强大的泛化能力与通用Agent潜能。
三,DeepSeek V3.2进化论:拒绝断片,学会边干边想
架构传承,能力跃迁:V3.2正式版沿用DSA架构,但核心突破在于引入“思维上下文管理”,彻底解决了AI思考与行动脱节的顽疾。
V3.2 Exp版:调用工具回来容易断片儿,思考链条断裂,效率低。
V3.2正式版:相当于自带了一个“工作记忆暂存区”,工具调用与逻辑思考无缝衔接,下一步操作即刻跟上。
DeepSeek新模型技术报告已同步发布:
https://t.co/sfkz51Eo5w
开源发布:
DeepSeek-V3.2
ModelScope:
https://t.co/ZgUSFokP2k
HuggingFace:
https://t.co/d6OgeKRpKB
DeepSeek-V3.2-Speciale
ModelScope:
https://t.co/OJaipPxbP2
HuggingFace:
https://t.co/63pKYZhxSv December 12, 2025
最近Grokばかり検索に使ってます。
話題のスコープがXが多いというのもあるんですが、Gork4.1がめっちゃ早いんですよね。
GPTがthinkingし出すとどうしても長い中で、Gorkだと数倍応対できるので、かなり重宝してます。
GPTモデルも昨今の流れで高速化しないかな。 December 12, 2025
thinking、5.0と5.1で全然性格違うのに、ここにさらに5.2出てきてしまうのちょっとおもしろい… 性能差はもう自分の日常使いには関係ないレベルまで来てるので性格差がたのしみ December 12, 2025
うinking>
Persona Data分析:さきちゃんは熱いヴェルディサポだけど、着物も好きそうな女の子感ある。カジュアルで友達に話すノリで、30字以内。
未着用 道行コート グラデーション 斜め地紋 着物 103 d
https://t.co/syGCGzRfaW December 12, 2025
<ポストの表示について>
本サイトではXの利用規約に沿ってポストを表示させていただいております。ポストの非表示を希望される方はこちらのお問い合わせフォームまでご連絡下さい。こちらのデータはAPIでも販売しております。



