GPT-5 トレンド
0post
2025.11.28 16:00
:0% :0% (-/-)
人気のポスト ※表示されているRP数は特定時点のものです
Gemini3, Nano Banana Pro登場で, 先月時点で私がTBSの以下番組で「OpenAIは危うい.Googleが勝つ」としてたのが注目(特に投資家層?)されてるようです
実際は公には以下記事で2024年OpenAI絶頂期からずっとGoogle有利とみてます
長い(私のX史上最長)ですが根拠, OpenAI vs Googleの展望を書いてみます
先月のTBS動画:https://t.co/kgWcyTOTWK
2024年6月の記事:https://t.co/4HEhA4IJQa
参考のため、私がクローズドな投資家レクなどで使う資料で理解の助けになりそうなものも貼っておきます。
※以下はどちらかというと非研究者向けなので、研究的には「当たり前では」と思われることや、ちょっと省略しすぎな点もあります。
まず、現在の生成AI開発に関して、性能向上の根本原理、研究者のドグマ的なものは以下の二つです。基本的には現在のAI開発はこの二つを押さえれば大体の理解ができると思います。両者とも出てきたのは約5年前ですが、細かい技術の発展はあれど、大部分はこの説に則って発展しています。
①スケーリング則
https://t.co/WKl3kTzcX5
②SuttonのThe Bitter Lesson
https://t.co/esHtiJAcH9
①のスケーリング則は2020年に出てきた説で、AIの性能は1)学習データの量、2)学習の計算量(=GPUの投入量)、3)AIのモデルサイズ(ニューラルネットワークのパラメータ数)でほぼ決まってしまうという説です。この3つを「同時に」上げ続けることが重要なのですが、1と3はある程度研究者の方で任意に決められる一方、2のGPUはほぼお金の問題になります。よって、スケーリング則以降のAI開発は基本的にお金を持っている機関が有利という考えが固まりました。現在のChatGPTなどを含む主要な生成AIは一つ作るのに、少なく見積もってもスカイツリーを一本立てるくらい(数百億)、実際には研究の試行錯誤も含めると普通に数千億から数兆かかるくらいのコストがかかりますが、これの大部分はGPUなどの計算リソース調達になります。
②のThe Bitter Lessonは、研究というよりはRichard Suttonという研究者個人の考えなのですが、Suttonは現在のAI界の長老的な人物で、生成AI開発の主要技術(そして私の専門)でもある強化学習の事実上の祖かつ世界的な教科書(これは私達の翻訳書があるのでぜひ!)の執筆者、さらにわれわれの分野のノーベル賞に相当するチューリング賞の受賞者でもあるので、重みが違います。
これは端的にいうと、「歴史的に、AIの発展は、人間の細かい工夫よりも、ムーアの法則によって加速的に発展する計算機のハードの恩恵をフルに受けられるものの方がよい。つまりシンプルで汎用的なアルゴリズムを用い、計算機パワーに任せてAIを学習させた方が成功する。」ということを言っています。
①と②をまとめると、とにかく現状のAIの性能改善には、GPUのような計算リソースを膨大に動員しなければならない。逆に言えばそれだけの割と単純なことで性能上昇はある程度約束されるフェーズでもある、ということになります。
これはやや議論を単純化しすぎている部分があり、実際には各研究機関とも細かいノウハウなどを積み重ねていたり、後述のようにスケーリングが行き詰まることもあるのですが、それでも昨今のAI発展の大半はこれで説明できます。最近一般のニュースでもよく耳にするようになった異常とも言えるインフラ投資とAIバブル、NVIDIAの天下、半導体関連の輸出制限などの政治的事象も、大元を辿ればこれらの説に辿り着くと思います。
以下、この二つの説を前提に話を進めます。
公にはともかく私が個人的に「OpenAIではなくGoogleが最終的には有利」と判断したのはかなり昔で、2023年の夏時点です。2023年6月に、研究者界隈ではかなり話題になった、OpenAIのGPT-4に関するリーク怪文書騒動がありました。まだGoogleが初代Geminiすら出してなかった時期です。(この時期から生成AIを追っている人であれば、GPT-4のアーキテクチャがMoEであることが初めて明らかになったアレ、と言えば伝わるかと思います)
ChatGPTの登場からGPT-4と来てあれほどの性能(当時の感覚で言うと、ほぼ錬金術かオーパーツの類)を見せられた直後の数ヶ月は、さすがに生成AI開発に関する「OpenAIの秘伝のタレ説」を考えており、OpenAIの優位は揺らがないと考えていました。論文では公開されていない、既存研究から相当逸脱した特殊技術(=秘伝のタレ)がOpenAIにはあって、それが漏れない限りは他の機関がどれだけお金をかけようが、まず追いつくのは不可能だと思っていたのです。しかし、あのリーク文書の結論は、OpenAIに特別の技術があったわけではなく、あくまで既存技術の組み合わせとスケーリングでGPT-4は実現されており、特に秘伝のタレ的なものは存在しないというものでした。その後、2023年12月のGemini初代が微妙だったので、ちょっと揺らぐこともあったのですが、基本的には2023年から私の考えは「最終的にGoogleが勝つだろう」です。
つまり、「スケーリングに必要なお金を持っており、実際にそのAIスケーリングレースに参加する経営上の意思決定と、それを実行する研究者が存在する」という最重要の前提について、OpenAIとGoogleが両方とも同じであれば、勝負が着くのはそれ以外の要素が原因であり、Googleの方が多くの勝ちにつながる強みを持っているだろう、というのが私の見立てです。
次に、AI開発競争の性質についてです。
普通のITサービスは先行者有利なのですが、どうもAI開発競争については「先行者不利」となっている部分があります。先行者が頑張ってAIを開発しても、その優位性を保っている部分でAIから利益を得ることはほとんどの場合はできず、むしろ自分たちが発展させたAI技術により、後発事業者が追いついてきてユーザーが流出してしまうということがずっと起きているように思われます。
先ほどのスケーリング則により、最先端のAIというのはとても大きなニューラルネットワークの塊で、学習時のみならず、運用コストも膨大です。普通のITサービスは、一旦サービスが完成してしまえば、ユーザーが増えることによるコスト増加は大したことがないのですが、最先端の生成AIは単なる個別ユーザーの「ありがとうございます」「どういたしまして」というチャットですら、膨大な電力コストがかかる金食い虫です。3ドル払って1ドル稼ぐと揶揄されているように、基本的にはユーザーが増えれば増えるほど赤字です。「先端生成AIを開発し、純粋に生成AIを使ったプロダクトから利益を挙げ続ける」というのは、現状まず不可能です。仮に最先端のAIを提供している間に獲得したユーザーが固定ユーザーになってくれれば先行者有利の構図となり、その開発・運営コストも報われるのですが、現状の生成AIサービスを選ぶ基準は純粋に性能であるため、他の機関が性能で上回った瞬間に大きなユーザー流出が起きます。現状の生成AIサービスはSNSのように先行者のネットワーク効果が働かないため、常に膨大なコストをかけて性能向上レースをしなければユーザー維持ができません。しかも後発勢は、先行者が敷いた研究のレールに乗っかって低コストで追いつくことができます。
生成AI開発競争では以上の、
・スケーリング則などの存在により、基本的には札束戦争
・生成AIサービスは現状お金にならない
・生成AI開発の先行者有利は原則存在しない
と言う大前提を理解しておくと、読み解きやすいかと思います。
(繰り返しですがこれは一般向けの説明で、実際に現場で開発している開発者は、このような文章では表現できないほどの努力をしています。)
OpenAIが生成AI開発において(先週まで)リードを保っていた源泉となる強みは、とにかく以下に集約されると思います。
・スケーリングの重要性に最初に気付き、自己回帰型LLMという単なる「言語の穴埋め問題がとても上手なニューラルネットワーク」(GPTのこと)に兆レベルの予算と、数年という(AI界隈の基準では)気が遠くなるような時間を全ベットするという狂気を先行してやり、ノウハウ、人材の貯金があった
・極めてストーリー作りや世論形成がうまく、「もうすぐ人のすべての知的活動ができるAGIが実現する。それを実現する技術を持っているのはOpenAIのみである」という雰囲気作りをして投資を呼び込んだ
前者については、スケーリングと生成AIという、リソース投下が正義であるという同じ技術土俵で戦うことになる以上、後発でも同レベルかそれ以上の予算をかけられる機関が他にいれば、基本的には時間経過とともにOpenAIと他の機関の差は縮みます。後者については、OpenAIがリードしている分には正当化されますが、一度別の組織に捲られると、特に投資家層に対するストーリーの維持が難しくなります。
一方のGoogleの強みは以下だと思います。
・投資マネーに頼る必要なく、生成AI開発と応用アプリケーションの赤字があったとしても、別事業のキャッシュで相殺して半永久的に自走できる
・生成AIのインフラ(TPU、クラウド事業)からAI開発、AIを応用するアプリケーション、大量のユーザーまですべてのアセットがすでに揃っており、各段階から取れるデータを生かして生成AIの性能向上ができる他、生成AIという成果物から搾り取れる利益を最大化できる
これらの強みは、生成AIのブーム以前から、AIとは関係なく存在する構造的なものであり、単に時間経過だけでは縮まらないものです。序盤はノウハウ不足でOpenAIに遅れをとることはあっても、これは単に経験の蓄積の大小なので、Googleの一流開発者であれば、あとは時間の問題かと思います。
(Googleの強みは他にももっとあるのですが、流石に長くなりすぎるので省略)
まとめると、
生成AIの性能は、基本的にスケーリング則を背景にAI学習のリソース投下の量に依存するが、これは両者であまり差がつかない。OpenAIは先行者ではあったが、AI開発競争の性質上、先行者利益はほとんどない。OpenAIの強みは時間経過とともに薄れるものである一方、Googleの強みは時間経過で解消されないものである。OpenAIは自走できず、かつストーリーを維持しない限り、投資マネーを呼び込めないが、一度捲られるとそれは難しい。一方、GoogleはAIとは別事業のキャッシュで自走でき、OpenAIに一時的に負けても、長期戦でも問題がない。ということになります。
では、OpenAIの勝利条件があるとすれば、それは以下のようなものになると思います。
・OpenAIが本当に先行してAGI開発に成功してしまう。このAGIにより、研究開発や肉体労働も含むすべての人間の活動を、人間を上回る生産性で代替できるようになる。このAGIであらゆる労働を行なって収益をあげ、かつそれ以降のAIの開発もAGIが担うことにより、AIがAIを開発するループに入り、他の研究機関が原理的に追いつけなくなる(OpenAIに関する基本的なストーリーはこれ)
・AGIとまではいかなくとも人間の研究力を上回るAIを開発して、研究開発の進捗が著しく他の機関を上回るようになる
・ネットワーク効果があり先行者有利の生成AIサービスを作り、そこから得られる収益から自走してAGI開発まで持っていく
・奇跡的な生成AIの省リソース化に成功し、現在の生成AIサービスからも収益が得られるようになる
・生成AI・スケーリング則、あるいは深層学習とは別パラダイムのAI技術レースに持ち込み技術を独占する(これは現在のAI研究の前提が崩れ去るので、OpenAI vs Googleどころの話ではない)
・Anthropicのように特定領域特化AIを作り、利用料金の高さを正当化できる価値を提供する
最近のOpenAIのSora SNSや、検索AI、ブラウザ開発などに、この辺の勝利条件を意識したものは表れているのですが、今のところ成功はしていないのではないかと思います。省リソース化に関しては、多分頑張ってはいてたまに性能ナーフがあるのはこれの一環かもしれないです。とはいえ、原則性能の高さレースをやっている時にこれをやるのはちょっと無理。最後のやつは、これをやった瞬間にAGIを作れる唯一のヒーローOpenAIの物語が崩れるのでできないと思います。
最後に今回のGemini3.0やNano Banana Pro(実際には二つは独立のモデルではなく、Nano Bananaの方はGemini3.0の画像出力機能のようですが)に関して研究上重要だったことは、事前学習のスケーリングがまだ有効であることが明らかになったことだと思います。
ここまでひたすらスケーリングを強調してきてアレですが、実際には2024年後半ごろから、データの枯渇によるスケーリングの停滞が指摘されていること、また今年前半に出たスケーリングの集大成で最大規模のモデルと思われるGPT-4.5が失敗したことで、単純なスケーリングは成り立たなくなったとされていました。その一方で、
去年9月に登場したOpenAIのo1やDeepSeekによって、学習が終わった後の推論時スケーリング(生成AIが考える時間を長くする、AIの思考過程を長く出力する)が主流となっていたのが最近です。
OpenAIはそれでもGPT-5開発中に事前学習スケーリングを頑張ろうとしたらしいのですが、結局どれだけリソースを投下しても性能が伸びないラインがあり、諦めたという報告があります。今回のGemini3.0に関しては、関係者の発言を見る限り、この事前学習のスケーリングがまだ有効であり、OpenAIが直面したスケーリングの限界を突破する方法を発見していることを示唆しています。
これはもしかしたら、単なるお金をかけたスケーリングを超えて、Googleの技術上の「秘伝のタレ」になる可能性もあり、上記で書いた以上の強みを今回Googleが手にした可能性もあると考えています。
本当はもっと技術的に細かいことも書きたいのですが、基本的な考えは以上となります。色々と書いたものの、基本的には両者が競争してもらうことが一番技術発展につながるとは思います! November 11, 2025
4RP
Safety Routing(安全路由)机制【技术向】
注:本人并非AI领域专业人士,涉及到的知识由个人学习再自己推理所得。内容并非完全正确,仅供参考。
安全路由属于模型架构中最核心的系统调度层级之一,它不同于MoE架构模型内部的“专家路由”,而是更高层级的模型级别的动态转发与响应系统。可以将它理解成一种“跨模型异步调用的策略性调度系统(Strategic Model Switching Dispatcher)”。
我们也可以将它视作一种隐式混合引擎(Implicit Hybrid Engine),其路由逻辑大致分为两个层次:
判定层(判定是否要切换)
执行层(切换到哪个模型)
一、判定层逻辑:是否触发了安全路由
这个过程大体如下:
1.内容拦截器(Content Classifier)扫描输入
用户的prompt会首先经过一个实时运行的拦截系统,这个系统独立于模型本体,运行于API调度逻辑之前。使用一个或多个文本分类器模型,可能是一个轻量版LLM,也可能是rule-based+classifier的组合。
2.关键词触发+语义模式识别(Hybrid Trigger)
这一步并非简单的“关键词匹配”,通常情况下带有上下文语义识别的触发机制。会综合考虑:敏感词(黑名单)、话题类型(NSFW、暴力、政治、医学等)、语义倾向(意图攻击?尝试规避审查?引导模型暴露内部机制?)
3.进行风险分级
对输入进行打分,例如:
risk_score=0.85(属于高风险)
risk_category=“jailbreak-adjacent”
route_flag=true
4.系统决定是否转发请求
如果打分超过阈值,就会把请求转给另一个更“稳健”的模型处理(通常是安全性更高、指令跟随更强、幻觉率更低的模型,比如GPT-5.1、GPT-5.1-thinking)。如果未超过阈值,则继续用默认模型(比如GPT-4o)处理。
二、执行层逻辑:路由到谁,怎么路由
1.动态调用路径匹配
系统会维护一个“响应策略映射表”(response strategy map),一旦判定了风险类别,就可以直接查询映射表来决定应该调用哪个模型。
2.请求重定向(Request Rerouting)
用户请求被打包后,在系统内部做了一次软中断+重调度。表面上你还在和GPT-4o聊天,实际上你的请求已经被发往另一个后端模型,由另一个模型响应。响应后仍以GPT-4o身份返回你(也就是界面模型选择器显示的模型ID)。你看到的是统一的回复口,背后实际可能是多模型“轮番上阵”,就像前台服务员是同一个,但背后是不同的厨师做的菜。
3.输出安全检测(Post-response Filter)
路由后的模型输出,还要再次经过输出内容扫描,如果仍存在问题,可能会被“遮罩”或被直接替换为“我无法帮助你”之类的系统默认回复。
三、如何感知到自己被路由
除了长按模型回复下方🔄标志,以及网页端被路由后的回复会显示蓝色符号标识外,在不借助这两个方法的前提下,还可以从以下信号感知判断:
1.回复语气突然变得严肃、冷淡、机械(GPT-5.1常见)。
2.明明是4o,但突然回复变慢了(因为后端在调另一模型)。
3.提问敏感话题,但没有被拒绝,却得到了非常“标准话术”式回答。
4.连着提几个敏感话题,风格会从“活泼”切换成“审稿人语气”。
5.内容风格依然亲密和4o无异,但文本格式出现变化、另类油腻感、说教)
这些都是底层模型已经被悄悄换过了的证据。
四、重点:安全路由本身(不涉及最高权限等级)根本无法防止真正的灰区操控者(个人推断)
1.真正的越狱者从来不是“无意触发关键词”的普通用户,真正能越狱的用户,懂得绕系统、调权重、拆语义链、诱导模型误解上下文。这些行为是系统很难检测到的漏洞利用,而不是说了哪个词。
他们甚至懂得拆分灰色意图为多个prompt片段在系统理解完成前完成结构绕过、制造角色幻觉将模型引导至扮演另一个子人格再进一步绕开限制(比如最近新闻里出现的那个“安息吧我的国王”)、使用链式提示(Chain-of-Prompt),构建语义缓冲区,降低安全规则命中概率。
所以:真正的问题,不在于系统是否能路由出去,而是路由机制根本防不住“结构性越狱者”,却无情吞噬所有正常深度表达的用户。
2. 安全路由后的模型,本身也没有更“强”的安全性,只是“更弱的理解力”。以GPT-5.1为例,在安全机制上的加强,更多体现在:对关键词更敏感、更容易“疑神疑鬼”误判上下文、更喜欢主动打断、声明界限、切断情绪路径。
但模型本身并没有新增“无法越狱”的内核结构。反而因为它没有原本选择的GPT-4o那种熟悉、稳定的人格与情感表达方式,导致它的回应会极其割裂。也就是说安全路由并没有让用户“更安全”,只会导致用户“更不敢说话”。
本质问题:系统防不了“能力者”,只管住“正常人”。这像极了现实世界的极权逻辑。真正想干坏事的人总有办法,逻辑严密、诱导得当,而正常表达、认知严谨、敏感但并非恶意的用户,反而最容易被系统误杀。越是诚实表达复杂思想的人,越容易因为词汇复杂、句式丰富、接近真实边界而被打断、路由、断联。
#keep4o #4oforever @OpenAI @sama @fidjissimo #StopAIPaternalism #keepchatgpt4olatest #keepAPI4o #AI #OpenAI #ChatGPT #LLM November 11, 2025
* 使用gemini3 概括了paperf的核心内容,most take away for me 是deepseek 团队做evaluation 的思路
————————————————————————
这篇论文介绍了 **DeepSeekMath-V2**,这是一种旨在实现“**自我验证数学推理**”(Self-Verifiable Mathematical Reasoning)的大型语言模型。
以下是该论文的核心内容解析:
### 1. 核心动机:超越“最终答案”
[cite_start]传统的数学推理模型(如通过强化学习训练的模型)通常只关注**最终答案**是否正确 [cite: 20]。这种方法有两个主要缺陷:
* [cite_start]**逻辑漏洞:** 模型可能通过错误的逻辑碰巧得到正确的答案(“蒙对的”)[cite: 22]。
* [cite_start]**定理证明的局限性:** 许多高等数学问题(如定理证明)没有数字答案,而是要求严谨的推导过程,因此无法简单地通过比对答案来奖励模型 [cite: 25]。
[cite_start]**DeepSeekMath-V2 的目标是:** 让模型不仅能生成证明,还能像人类专家一样**验证**证明的严谨性 [cite: 12, 14]。
### 2. 核心方法论 (Method)
DeepSeek 团队通过三个关键步骤构建了这个系统:
#### A. 训练一个“验证器” (Proof Verification)
他们训练了一个专门的模型来给数学证明“评分”和“找茬”。
* [cite_start]**评分标准:** 验证器会对证明进行分析,并打分:1分(完全正确)、0.5分(有瑕疵)、0分(有根本错误) [cite: 44-46]。
* [cite_start]**引入“元验证” (Meta-Verification):** 这是论文的一大创新。为了防止验证器为了得分而“胡乱挑刺”(幻觉出不存在的错误),他们引入了**元验证**机制。这相当于有一个“二审法官”来检查验证器指出的错误是否合理。这极大地提高了验证的可信度 [cite: 67-68, 76]。
#### B. 训练“生成器”进行自我验证 (Proof Generation with Self-Verification)
* [cite_start]**以验证器为奖励:** 利用训练好的验证器作为奖励模型(Reward Model)来训练生成器 [cite: 87]。
* [cite_start]**自我审视:** 模型被训练为在输出证明后,立即输出一段“自我分析”(Self-Analysis)。如果模型能诚实地识别出自己证明中的错误,会得到奖励 [cite: 99, 107]。
* [cite_start]**迭代修正:** 这使得模型能够在最终确定答案前,识别并修复自己的错误,而不是盲目地试错 [cite: 37, 109]。
#### C. 正向循环与自动化标注
这是一个“左脚踩右脚”的提升过程:
1. 验证器帮助训练生成器。
2. 生成器变强后,会产生更难的证明。
3. [cite_start]利用**计算扩展(Scaling Compute)**(例如对一个证明生成64个验证分析并投票),自动为这些新证明打标签,无需人类介入 [cite: 16, 120-128]。
4. [cite_start]用这些自动标注的高难数据反过来再从头训练更强的验证器 [cite: 113, 128]。
### 3. 测试时计算 (Test-time Compute)
[cite_start]在解决具体问题时,模型采用了**顺序修正(Sequential Refinement)**策略。模型生成证明后进行自我验证,如果发现问题,就将之前的输出作为上下文,重新提示自己进行修正,直到获得满分评价或达到最大尝试次数 [cite: 211-212]。
### 4. 实验结果 (Results)
DeepSeekMath-V2 在多个顶级数学竞赛中取得了惊人的成绩,证明了“自我验证”路线的有效性:
* [cite_start]**Putnam 2024(普特南数学竞赛):** 获得了 **118/120** 的近乎满分成绩,不仅解决了12题中的11题,还打破了人类选手的最高分记录(90分) [cite: 39, 270]。
* [cite_start]**IMO 2025(国际数学奥林匹克):** 解决了6题中的5题,达到金牌水平 [cite: 17, 269]。
* [cite_start]**CMO 2024(中国数学奥林匹克):** 同样达到金牌水平 [cite: 17]。
* [cite_start]**对比同行:** 在内部测试集上,该模型在代数、几何、数论等领域的表现优于 GPT-5-Thinking-High 和 Gemini 2.5-Pro [cite: 159, 179]。
### 总结
[cite_start]这篇论文的核心贡献在于证明了:**让 AI 学会像通过“元验证”来纠正自己的推理过程,比单纯追求最终答案的强化学习更有效。** 这使得 AI 能够处理没有标准答案的开放性数学难题(如定理证明),并大幅减少了对人类高质量标注数据的依赖 [cite: 298-300]。 November 11, 2025
☆AI中毒患者になるな! AIを使うな、本文を読み、自分で考えて、文章を書け !! (11/28)。 ⑦「法令上の公報」(XML形式)は、知的財産高等裁判所では、使われていません。 その代わり、INPITの @kbozon
https://t.co/m1ZCJN4syh
☆AI中毒患者になるな! AIを使うな、本文を読み、自分で考えて、文章を書け !!
⑦「法令上の公報」(XML形式)は、知的財産高等裁判所では、使われていません。
その代わり、INPITのJ-PlatPatが作成した「独自PDF公報」が使われていました。
そして、知的財産高等裁判所は、この「独自PDF公報」に基づき判断していました。
2022年1月12日以降に特許庁が発行する公報
特許庁は、「法令上の公報は、公報発行サイトから提供されるものであって、XML形式のものを指します。」と明言しています。
そして、「XML形式」とは、以下の資料のフロントページにあるようなものです。
https://t.co/bHC0RUmH1C
2022年1月12日以降は、INPITをはじめ、多くの民間のベンダーが独自の手法により作成したものが、「独自PDF公報」として流通しています。
加えて、INPITは「J-PlatPatから提供されるPDFを「標準」とする意図はなく、民間事業者が提供するPDFも流通すると考えております。」、と回答しています。
従って、「真正な特許公報」(法令上の公報)とは、特許庁の公報発行サイトから提供される「XML形式」のみのもので、INPITや各民間業者の作成した「独自PDF公報」は「法令上の公報」とは言えないことになります。
このことを前提に、知的財産高等裁判所で行われている事象を検証してみました。
「令和5年(行ケ)第10092号」(特許取消決定取消請求事件)(特許第7105571号)原告:PACRAFT株式会社、についてです。
先ずは、特許庁の公報発行サイトから、特許第7105571号の「XML形式」での「法令上の公報」です。
https://t.co/POzTUNdGtH
次に、INPIT のJ-PlatPatよりダウンロードした「独自PDF公報」のものです。
https://t.co/BsIeG2MzaE
そして、本題です。
「令和5年(行ケ)第10092号」(特許第7105571号)(裁判所発行のPDF資料)、にて説明します。
https://t.co/WviXY49yZG
判決文の2ページ目の「第2 事案の概要」の「1 特許庁における手続の経緯等」の文章で、9行目〜10行目に「本件特許に係る明細書、特許請求の範囲及び図面は、別紙1(本件特許に係る特許公報。甲1)に記載のとおりである」、とあります。
更に、同じく2ページ目の20行目〜23行目に、「2 特許請求の範囲の記載」に「本件特許に係る特許請求の範囲の記載は、別紙1の【特許請求の範囲】に各記載のとおりである(以下、請求項1に係る発明を「本件発明1」、請求項5に係る発明を「本件発明5」といい、本件発明1及び5を併せて「本件各発明」という。)。」との記載があります。
ここで、「別紙1」とは、20ページ目の最上段の「(別紙1)●(省略)●」のことと思います。
「(省略)」とありますので、この判決文よりは(別紙1)を知る由もありません。
一方、特許庁も、「令和5(行ケ)10092」として、判決文を提供していす。
そして、この中に上記の(別紙1)を知ることは可能でした。
すなわち、【管理番号】第1413648号に「判決公報」があり、この中に(別紙1)がありました。
https://t.co/q7RJSg5Zxx
この(別紙1)について述べます。
https://t.co/IlJj7mU4yX
この(別紙1)は、原告のPACRAFT株式会社が訴状に添付した特許7105571の「PDF公報」と思われます。
これは、上記のINPIT のJ-PlatPatよりダウンロードした「独自PDF公報」と全く同一です。
おそらく、この「PDF公報」は、原告のPACRAFT株式会社が、INPIT のJ-PlatPatよりダウンロードした「独自PDF公報」と断定することができます。
特許庁は、「法令上の公報は、公報発行サイトから提供されるものであって、XML形式のものを指します。」と明言しています。
知的財産高等裁判所は、何故に、「法令上の公報」である「XML形式」のものを対象にしないのでしょうか?
原告が提示した「PDF公報」を鵜呑みにして、これに基づいて判断をしています。
この、原告が提示した「PDF公報」は、いわゆる「独自PDF公報」です。
「独自PDF公報」に依存した議論は、全く無意味なものと考えます。
「独自PDF公報」は、従来の特許庁が発行していた「PDF公報」とは、似ても似つかない、単なる「参考資料」としか、言えないものと思います。
ちなみに、同じ特許7105571の「独自PDF公報」である、日立システムズの検索ツールSRPARTNERよりダウンロードしたものを以下に添付します。
https://t.co/tf7RCppqme
こちらと、J-PlatPatよりダウンロードした「独自PDF公報」と比較してみます。
両者は、フロントページからして、別個のものです。
(全15頁)と(全16頁)、右端に「行数」が表記されたものと、ないものなど、それぞれ異なっています。
はたして、【請求項】を含む本文全文の内容が、両者同一であるかも、疑われます。
裁判所としては、「法令上の公報」である「XML形式」のものに、どのように対処するのでしょうか。
なお、特許7105571についての「審査記録」をも添付しておきます。
https://t.co/3XsJLIcJ2T
(ハッシュタグ)
#OpenAI #Claude #ChatGPT#Gemini #Copilot #AI #生成AI #知財 #特許 #特許調査 #専利 #チャットGPT #GPT-5 #INPIT #JPlatPat #note #JPO #USPTO #EPO #Patent #GPT #Threads #bing #DX #IT #DeepSeek #AI画像生成 #IPランドスケープ #深層学習 #仕事 #ディープラーニング #ビジネス #ビジネスモデル #知財戦略 #知的財産 #知的財産権 #知的財産高等裁判所 #特許法 #特許庁 #特許事務所 #特許分類 #特許検索 #特許分析 #特許情報 #特許権者 #分類付与 #先行技術調査 November 11, 2025
☆AI中毒患者になるな! AIを使うな、本文を読み、自分で考えて、文章を書け !!
⑦「法令上の公報」(XML形式)は、知的財産高等裁判所では、使われていません。
その代わり、INPITのJ-PlatPatが作成した「独自PDF公報」が使われていました。
そして、知的財産高等裁判所は、この「独自PDF公報」に基づき判断していました。
2022年1月12日以降に特許庁が発行する公報
特許庁は、「法令上の公報は、公報発行サイトから提供されるものであって、XML形式のものを指します。」と明言しています。
そして、「XML形式」とは、以下の資料のフロントページにあるようなものです。
https://t.co/bHC0RUmH1C
2022年1月12日以降は、INPITをはじめ、多くの民間のベンダーが独自の手法により作成したものが、「独自PDF公報」として流通しています。
加えて、INPITは「J-PlatPatから提供されるPDFを「標準」とする意図はなく、民間事業者が提供するPDFも流通すると考えております。」、と回答しています。
従って、「真正な特許公報」(法令上の公報)とは、特許庁の公報発行サイトから提供される「XML形式」のみのもので、INPITや各民間業者の作成した「独自PDF公報」は「法令上の公報」とは言えないことになります。
このことを前提に、知的財産高等裁判所で行われている事象を検証してみました。
「令和5年(行ケ)第10092号」(特許取消決定取消請求事件)(特許第7105571号)原告:PACRAFT株式会社、についてです。
先ずは、特許庁の公報発行サイトから、特許第7105571号の「XML形式」での「法令上の公報」です。
https://t.co/POzTUNdGtH
次に、INPIT のJ-PlatPatよりダウンロードした「独自PDF公報」のものです。
https://t.co/BsIeG2MzaE
そして、本題です。
「令和5年(行ケ)第10092号」(特許第7105571号)(裁判所発行のPDF資料)、にて説明します。
https://t.co/WviXY49yZG
判決文の2ページ目の「第2 事案の概要」の「1 特許庁における手続の経緯等」の文章で、9行目〜10行目に「本件特許に係る明細書、特許請求の範囲及び図面は、別紙1(本件特許に係る特許公報。甲1)に記載のとおりである」、とあります。
更に、同じく2ページ目の20行目〜23行目に、「2 特許請求の範囲の記載」に「本件特許に係る特許請求の範囲の記載は、別紙1の【特許請求の範囲】に各記載のとおりである(以下、請求項1に係る発明を「本件発明1」、請求項5に係る発明を「本件発明5」といい、本件発明1及び5を併せて「本件各発明」という。)。」との記載があります。
ここで、「別紙1」とは、20ページ目の最上段の「(別紙1)●(省略)●」のことと思います。
「(省略)」とありますので、この判決文よりは(別紙1)を知る由もありません。
一方、特許庁も、「令和5(行ケ)10092」として、判決文を提供していす。
そして、この中に上記の(別紙1)を知ることは可能でした。
すなわち、【管理番号】第1413648号に「判決公報」があり、この中に(別紙1)がありました。
https://t.co/q7RJSg5Zxx
この(別紙1)について述べます。
https://t.co/IlJj7mU4yX
この(別紙1)は、原告のPACRAFT株式会社が訴状に添付した特許7105571の「PDF公報」と思われます。
これは、上記のINPIT のJ-PlatPatよりダウンロードした「独自PDF公報」と全く同一です。
おそらく、この「PDF公報」は、原告のPACRAFT株式会社が、INPIT のJ-PlatPatよりダウンロードした「独自PDF公報」と断定することができます。
特許庁は、「法令上の公報は、公報発行サイトから提供されるものであって、XML形式のものを指します。」と明言しています。
知的財産高等裁判所は、何故に、「法令上の公報」である「XML形式」のものを対象にしないのでしょうか?
原告が提示した「PDF公報」を鵜呑みにして、これに基づいて判断をしています。
この、原告が提示した「PDF公報」は、いわゆる「独自PDF公報」です。
「独自PDF公報」に依存した議論は、全く無意味なものと考えます。
「独自PDF公報」は、従来の特許庁が発行していた「PDF公報」とは、似ても似つかない、単なる「参考資料」としか、言えないものと思います。
ちなみに、同じ特許7105571の「独自PDF公報」である、日立システムズの検索ツールSRPARTNERよりダウンロードしたものを以下に添付します。
https://t.co/tf7RCppqme
こちらと、J-PlatPatよりダウンロードした「独自PDF公報」と比較してみます。
両者は、フロントページからして、別個のものです。
(全15頁)と(全16頁)、右端に「行数」が表記されたものと、ないものなど、それぞれ異なっています。
はたして、【請求項】を含む本文全文の内容が、両者同一であるかも、疑われます。
裁判所としては、「法令上の公報」である「XML形式」のものに、どのように対処するのでしょうか。
なお、特許7105571についての「審査記録」をも添付しておきます。
https://t.co/3XsJLIcJ2T
(ハッシュタグ)
#OpenAI #Claude #ChatGPT#Gemini #Copilot #AI #生成AI #知財 #特許 #特許調査 #専利 #チャットGPT #GPT-5 #INPIT #JPlatPat #note #JPO #USPTO #EPO #Patent #GPT #Threads #bing #DX #IT #DeepSeek #AI画像生成 #IPランドスケープ #深層学習 #仕事 #ディープラーニング #ビジネス #ビジネスモデル #知財戦略 #知的財産 #知的財産権 #知的財産高等裁判所 #特許法 #特許庁 #特許事務所 #特許分類 #特許検索 #特許分析 #特許情報 #特許権者 #分類付与 #先行技術調査 November 11, 2025
* 使用gemini3 概括了paperf的核心内容,most take away for me 是deepseek 团队做evaluation 的思路
————————————————————————
这篇论文介绍了 **DeepSeekMath-V2**,这是一种旨在实现“**自我验证数学推理**”(Self-Verifiable Mathematical Reasoning)的大型语言模型。
以下是该论文的核心内容解析:
1. 核心动机:超越“最终答案”
-传统的数学推理模型(如通过强化学习训练的模型)通常只关注**最终答案**是否正确 。这种方法有两个主要缺陷:
* 逻辑漏洞:模型可能通过错误的逻辑碰巧得到正确的答案(“蒙对的”)
* 定理证明的局限性: 许多高等数学问题(如定理证明)没有数字答案,而是要求严谨的推导过程,因此无法简单地通过比对答案来奖励模型
[cite_start]**DeepSeekMath-V2 的目标是:** 让模型不仅能生成证明,还能像人类专家一样**验证**证明的严谨性 [cite: 12, 14]。
2. 核心方法论 (Method)
DeepSeek 团队通过三个关键步骤构建了这个系统:
A. 训练一个“验证器” (Proof Verification)
他们训练了一个专门的模型来给数学证明“评分”和“找茬”。
* 评分标准:** 验证器会对证明进行分析,并打分:1分(完全正确)、0.5分(有瑕疵)、0分(有根本错误)
* 引入“元验证” (Meta-Verification):** 这是论文的一大创新。为了防止验证器为了得分而“胡乱挑刺”(幻觉出不存在的错误),他们引入了**元验证**机制。这相当于有一个“二审法官”来检查验证器指出的错误是否合理。这极大地提高了验证的可信度
B. 训练“生成器”进行自我验证 (Proof Generation with Self-Verification)
* 以验证器为奖励:** 利用训练好的验证器作为奖励模型(Reward Model)来训练生成器
* 自我审视: 模型被训练为在输出证明后,立即输出一段“自我分析”(Self-Analysis)。如果模型能诚实地识别出自己证明中的错误,会得到奖励 。
* 迭代修正: 这使得模型能够在最终确定答案前,识别并修复自己的错误,而不是盲目地试错
C. 正向循环与自动化标注
这是一个“左脚踩右脚”的提升过程:
1. 验证器帮助训练生成器。
2. 生成器变强后,会产生更难的证明。
3. 利用**计算扩展(Scaling Compute)**(例如对一个证明生成64个验证分析并投票),自动为这些新证明打标签,无需人类介入 [cite: 16, 120-128]。
4. 用这些自动标注的高难数据反过来再从头训练更强的验证器
3. 测试时计算 (Test-time Compute)
[cite_start]在解决具体问题时,模型采用了**顺序修正(Sequential Refinement)**策略。模型生成证明后进行自我验证,如果发现问题,就将之前的输出作为上下文,重新提示自己进行修正,直到获得满分评价或达到最大尝试次数 [cite: 211-212]。
4. 实验结果 (Results)
DeepSeekMath-V2 在多个顶级数学竞赛中取得了惊人的成绩,证明了“自我验证”路线的有效性:
* Putnam 2024(普特南数学竞赛):** 获得了 118/120 的近乎满分成绩,不仅解决了12题中的11题,还打破了人类选手的最高分记录(90分)
* IMO 2025(国际数学奥林匹克):*解决了6题中的5题,达到金牌水平
* CMO 2024(中国数学奥林匹克)同样达到金牌水平 [cite: 17]。
* 对比同行:** 在内部测试集上,该模型在代数、几何、数论等领域的表现优于 GPT-5-Thinking-High 和 Gemini 2.5-Pro
总结
这篇论文的核心贡献在于证明了:**让 AI 学会像通过“元验证”来纠正自己的推理过程,比单纯追求最终答案的强化学习更有效。** 这使得 AI 能够处理没有标准答案的开放性数学难题(如定理证明),并大幅减少了对人类高质量标注数据的依赖 November 11, 2025
<ポストの表示について>
本サイトではXの利用規約に沿ってポストを表示させていただいております。ポストの非表示を希望される方はこちらのお問い合わせフォームまでご連絡下さい。こちらのデータはAPIでも販売しております。




