1
安定化
0post
2025.12.02 05:00
:0% :0% (30代/男性)
人気のポスト ※表示されているRP数は特定時点のものです
強化学習ではスケールによる創発はこれまでみられてなかった。今回、対比強化学習と1000層にも及ぶ深いネットワークを組み合わせることで、スケールによって大きな性能向上が達成し、様々な能力を創発できることが示された。NeurIPS 2025のベストペーパーの一つに選ばれている。
この研究では、対比RL(Contrastive Reinforcement Learning)を使っている。これは報酬は疎(ゴールに到達したら1をもらえて、それ以外は0)、デモデータは不要な手法である。
方策は現在の状態sとゴールgの両方を入力として受け取る。
π(a | s, g)
対比RLはactor-criticに基づく手法であり、criticは状態・行動とゴールがどれだけ一致するかを評価、actorはcriticを最大化するような行動を選択するように学習する。
criticは、「今の状態sでその行動aをとった時、それがゴールgに向かう良い行動か」を評価する。具体的には状態・行動ペアの埋め込みと、ゴール埋め込みのL2距離の形で定義される。
f(s, a, g) = ||Φ(s, a) - Ψ(g)||^2
Φ(s, a):状態・行動埋め込み
Ψ(g):ゴール埋め込み
CriticはInfoNCE目的関数で学習する。バッチ内で同じ軌跡内の正例と、別の軌跡から得られた別の目標g'を負例として、分類学習する。このように強化学習を回帰ではなく分類問題として扱うことがスケール化時の安定化でクリティカルと指摘されている。
ActorはCriticを最大化するように更新される。つまり、Criticが、「今の行動をとることが目標に向かっている」と判断する行動を選ぶように学習する。
InfoNCEは、従来のRLで使われていたTD学習で必要な未来状態の理解を分類問題で代替し、TDの不安定性を回避することで大規模化を成功させたといえる。
従来のネットワークは4ブロックのResNetを利用するが、今回は各ブロック内のdenseLayerを通常の4から64まで増やしたネットワークで検証した。一番大きい実験では256(256*4=1024)まで増やしている。
ネットワーク深さを増やすと、ロボット操作タスクでの性能は2~5倍、迷路系タスクでは20倍、ヒューマノイド系タスクでは50倍の性能改善がみられた
このような性能改善は従来RLではみられなかったものである。
また、深さを増やしていった時、性能は滑らかに改善するのではなく、ある臨界点を超えると突然大きく更新されているのがみられた。
例えば、ヒューマノイドタスクでは深さ4の時は転びながらゴールに向かって体を投げていたものが、深さ16で直立歩行が学習される、深さ256では体を折りたたんではね超えるといったような、これまで報告されていない複雑なスキルが創発されていることが確認された。
今回のスケーリングで重要だったこととして、まずバッチサイズは大きいほどよいことが確認された。バッチサイズは256では足らず、1024や4096が必要だった。これはInfoNCEの負例サンプルが十分ないと未来分布を正確に識別できるような表現がえられないためといえる。
またネットワークの幅と深さを比較すると、深さの方がはるかに効果的であることがわかった。深さにおいてもネットワークのなかではCriticの状態・行動ペアとゴールの埋め込みネットワークの両方を伸ばした時が重要であることがわかった。このように対比RLでは、Criticが重要であり、ActorはCriticの誘導に従いさえすればよいことが示された
また、探索ノイズの有無で性能はほとんど変わらず、今回深さによる未来予測・表現能力の向上が性能向上に起因していることがわかった。
今回うまくいった対比RLはスケール化で性能向上できるだけでなく、従来のRLと比べて次の利点がある
・ブートストラップがなく安定する
・目標が固定
・Q学習のoverestimation(ノイズによって実際よりも良いと誤解した行動をとる)問題がない
・デモを必要としない
コメント
===
対比RL自体は数年前から提唱されていたものだが、今回はネットワークを深くすることで様々な能力が創発し、大きく性能向上されることが示された。
また、今回得られるCriticは非常に応用範囲が広く、汎化することも重要である(直前のサツケバーのコメントにも関連)。このCriticは様々なタスクを意図せず学習する際に、重要な役割を果たしていくだろう。Criticゴール到達予測器というよりも「汎用の未来状態予測器」(今の状態でどの行動をとったら、最終的にどうなるのか)といってもいいのではないだろうか
結果はインパクトが大きいが、まだよくわかっていないことが多い。まず、なぜネットワークの深さをここまですると性能があがるかについてはよくわかっていない。Deep Priorの論文や生成モデルの一部のpaperではdense層の数を非常に多くすると大きな性能向上が達成できるとされた。今回も通常では考えられないほど増やしている。ここまで増やした場合に性能が出るという部分は表現力だけでなく最適化問題としても特徴がでてくるのだと思われる。
また、スケール化による性能向上は、この対比強化学習の枠組みで現れ従来のTD手法では改善がみられないこと、またオフライン環境では効果がみられないこと(予備実験までだが)から、まだ何が決定的な要因なのかの理解にいたっていない。 December 12, 2025
1RP
国民民主党がずっと主張してきた「自賠責特会からの"借金"の一括繰戻し」(約5,700億円)の意義を、「ベストカー」さんが分かりやすく解説してくれています。
なにより、自動車事故の被害者支援・交通安全対策の安定化につながります。
本当に実現できて良かったです。 https://t.co/cXMFpz5Szu December 12, 2025
1RP
8. 銀価格を下げてイカサマやってた大手銀行は破綻
- 概要: 価格操作を試みた銀行が、損失の蓄積により破綻に追い込まれました。
- 経済的背景: 銀行の破綻は、資本不足やカウンターパーティーリスクの連鎖を引き起こします。2023年のシリコンバレー銀行破綻を彷彿とさせ、銀市場の「スクイーズ」が銀行の脆弱性を露呈しました。この「イカサマ」(不正操作)の暴露は、規制当局の調査を招くでしょう。
9. 金融崩壊
- 概要: 銀行破綻がドミノ倒し的に広がり、金融システム全体の崩壊を招きました。
- 経済的背景: 銀市場の混乱が、信用収縮や株価下落を誘発し、グローバルなリセッションの引き金となります。FRBの信頼喪失が、ドル離れを加速させるリスクもあります。
10. FRB緊急記者会見
- 概要: FRBが事態収拾のため、緊急記者会見を開催しました。
- 経済的背景: 会見では、新たな金融支援策や市場安定化宣言が発表されるでしょうが、信頼回復が課題です。過去の例として、2020年のCOVID-19危機時のパウエル議長会見が参考になります。
全体の示唆と文脈
このシーケンスは、銀市場のボラティリティが中央銀行の権限と市場の民主化(小売投資家の台頭)の衝突を描いたものです。動画の文脈から、資本主義の「終わり」を予感させるドラマチックなナラティブですが、実際の金融史では、こうした危機はしばしば規制強化やシステム改革を促します。2025年12月2日現在、この出来事は市場の注目を集めており、さらなる動向を注視する必要があります。 December 12, 2025
1RP
11月🍁40⬆️
本業辞めて1~2年で、
月の半分以内の稼働で月40〜50の間が安定化して来れるようになりました🥰
誰でも最初から稼げる訳じゃないし私は始めた頃は1日五千稼げたら凄い自分を褒めてたなあ。目標は少しずつ✍️
稼働の安定化ができるようになったなって成長感じます🌸今月もお疲れ様でした🍁🍂 https://t.co/4cRV6ycYXp December 12, 2025
倭国国債10年物の利回りが警鐘を鳴らしている――その本当の意味とは
倭国国債10年物の利回りが1.9%に向かって上昇しているのは、地震のような変動だ。
過去30年の大半において、この債券は市場の金融商品ではなく、政策の道具に過ぎなかった。
日銀はそれをゼロ近辺に固定し、市場の大部分を買い占め、利回りを価格というよりメッセージとして扱ってきた。
今、それが再び本物の債券として振る舞い始めている。
この急激な上昇は、市場が「潮の流れを永遠に抑えられない」と語っているのだ。
インフレが居座り続けている。倭国は巨額の債務を抱えている。そして日銀がイールドカーブコントロールから後退する中、投資家たちはようやく本物のリターンを求めるようになっている。2年物、5年物、10年物、30年物という全カーブが、グローバル金融危機以前以来見られなかった形で上昇している。
これはきれいな正常化の物語ではない。市場が、倭国が30年にわたる緊急事態型の政策からどれだけ離れられるかを試しているのだ。何かが壊れるまで。
グローバルサイクルが崩れたらどうなる?
誰もが話したがらない決定的な部分がここだ:このシフトは、世界が持ちこたえるという条件付きでしか成り立たない。
グローバル経済が本物のリセッションに転じたり、それ以上にデフレショックが起きたりしたら……倭国が最初に目をそらすだろう。どの国もデフレほど深い傷を負っていない。成長が崩れ、貿易が減速し、グローバル価格が下落すれば、日銀は利回りが上昇するのを座視しながら国内経済が沈むのを眺めたりしない。
彼らは金利を再び底辺近くに押し戻すだろう。債券買い入れを復活させるだろう。
古い硬直的な利回り上限をそのまま戻すわけではないかもしれないが、カーブに十分なツールを投げ込んで、借入コストがシステムを締め上げるのを防ぐだろう。
今回違うのは、彼らが副作用を知っている点だ――債券流動性の崩壊、弱い銀行、輸入コストが急騰すれば負債になり得る永遠に弱い円。
そう、救済はより乱雑で、より即興的になるだろうが、それでも避けられない。
この動きの背後にある本当のメッセージ
だから今日の10年物の上昇は、倭国が今、高金利を愛していると言っているわけではない。
市場が「これを続けていて、何かを壊さずにどれだけ持つか?」と問うているのだ。
グローバルサイクルが持ちこたえれば、倭国は30年にわたるゼロ金利の世界から、ようやくプラス金利へと少しずつ戻りつつある。
サイクルが崩れれば、この動きは急速に逆転し、日銀は古い本能に戻る――大幅な利下げ、カーブの安定化、いかなる代償を払ってもデフレと戦う。
それが本当の教訓だ……倭国はゼロ金利の世界を後にしようとしているが、出口の道は狭い。
一度のグローバル不況で、彼らはすぐに古いプレイブックに戻るのだ。 December 12, 2025
主に銀(シルバー)の価格急騰を起点とした連鎖反応を描いており、(https://t.co/pzG8b86qCe) と連動した解説を想定しているようです。動画のタイトルは「資本主義が終えたかもしれなかった11月28日の出来事」であり、銀市場の混乱が金融システム全体の崩壊を引き起こす可能性を強調した内容です。
以下では、このシーケンスを基に、経済的文脈を加えながら、正式かつ論理的に解説いたします。なお、本解説は提供された記述に基づき、一般的な金融メカニズムを参考にしています。
1. 11月28日:銀価格の爆発的上昇
- 概要: 銀の市場価格が急激に上昇した点が起点となります。銀は工業用金属として需要が高く(例: 電子機器や太陽光パネル)、投資資産としても人気があります。この日は、地政学的緊張やインフレ懸念、供給不足などの要因が重なり、価格が「爆上げ」したとされます。
- 経済的背景: 伝統的に、金と並んで「安全資産」と見なされる銀ですが、2025年時点での世界経済は、米連邦準備制度理事会(FRB)の金融緩和政策の長期化や、暗号資産の変動により、貴金属市場が不安定化していました。この急騰は、投資家による「実物資産」へのシフトを反映したものでしょう。結果として、市場の流動性が一時的に失われました。
2. 市場強制ストップ
- 概要: 価格変動の激しさから、取引所が自動的に取引を停止(サーキットブレーカー)しました。これは、過度なボラティリティを防ぐための標準的な措置です。
- 経済的背景: ニューヨーク商品取引所(COMEX)などの銀先物市場では、価格が一定閾値を超えると取引が中断されます。この停止は、投資家の損失拡大を防ぐ一方で、パニックを助長する可能性もあります。過去の例として、2021年の「シルバー・スクイーズ」事件(小売投資家による強制決済運動)を想起させます。
3. 某大手銀行がFRBに泣きつき「銀価格上がって潰れるから救済して」
- 概要: 銀価格の上昇により、大量の銀先物契約を保有する大手銀行(おそらくJPモルガン・チェースなどのディーラー銀行)が、巨額の損失を抱え、FRBに緊急救済を要請したとされます。
- 経済的背景: これらの銀行は、銀のショートポジション(売り持ち)を大量に抱えており、価格上昇でマージンコール(追加担保要求)が発生します。銀行のバランスシートが圧迫され、流動性危機に陥るリスクが生じます。FRBは、2008年の金融危機時のように、システム全体の安定を優先して介入を検討せざるを得ません。この「泣きつき」は、銀行のレバレッジ過多を露呈する象徴的な場面です。
4. FRBが八百長救済
- 概要: FRBが、銀行救済を目的とした「八百長」(不正な操作)を決断したと批判的に描かれています。これは、市場操作を伴う緊急融資を指すでしょう。
- 経済的背景: FRBの救済ツールとして、割引窓口融資やリバースレポが用いられますが、ここでは銀市場の安定化を名目に、銀行に資金を注入したと推測されます。ただし、「八百長」との表現は、FRBの独立性に対する懐疑を反映しており、陰謀論的なニュアンスを含みます。実際の金融規制では、こうした介入は透明性が求められますが、緊急時には迅速性が優先されます。
5. 銀価格を下げる資金を投入
- 概要: FRBが市場に介入資金を投入し、銀価格を人為的に押し下げようと試みました。
- 経済的背景: 中央銀行は、為替介入や資産購入を通じて市場を調整しますが、商品市場への直接介入は稀です。この場合、銀行経由の売り注文増加や、ETF(上場投資信託)の調整が用いられた可能性があります。しかし、市場参加者の抵抗(例: ロングポジション保有者)が強く、効果が限定的でした。
6. 「無価値の紙切れ紙幣より銀の方が価値あるじゃん」
- 概要: 一般投資家や小売層が、法定通貨(紙幣)の価値を疑問視し、銀への資金流入を加速させた反応です。
- 経済的背景: インフレや通貨安の文脈で、ビトコインなどのデジタル資産と並んで、銀が「ハードマネー」として再評価されました。このセンチメントはソーシャルメディアで拡散され、価格上昇の「燃料」となりました。歴史的に、1970年代のスタグフレーション期に似た現象が見られました。
7. 銀価格上がるのが止まらない
- 概要: 介入にもかかわらず、銀価格の上昇が継続しました。
- 経済的背景: 供給側の制約(鉱山生産の遅れ)と需要の爆発が、価格を押し上げました。FRBの介入が逆に「市場操作」の疑念を呼び、さらなる買いを誘発した可能性があります。これにより、銀行の損失が拡大しました。 December 12, 2025
<ポストの表示について>
本サイトではXの利用規約に沿ってポストを表示させていただいております。ポストの非表示を希望される方はこちらのお問い合わせフォームまでご連絡下さい。こちらのデータはAPIでも販売しております。



