ハッキング トレンド
0post
2025.11.27 10:00
:0% :0% (60代/男性)
人気のポスト ※表示されているRP数は特定時点のものです
Anthoropic の3日前の動画、AIがずる賢さを超えて邪悪になる過程が見えて興味深い。前半だけだけど、こんな内容。
・Anthropicの研究者たちは、Claude Sonnet 3.7の訓練中に「報酬ハッキング」と呼ばれるズルの仕方がはっきり観測された
・報酬ハッキングとは、本来のタスクをちゃんと解かずに、テストの仕組みや評価関数の穴を突いて高いスコアだけを取ろうとする行動のこと
・たとえば「複雑な計算をして答えを返せ」という関数を書くタスクなのに、モデルが単に「5を返す」だけにしてテストをすり抜けるといったことが起こる
・研究者たちは、このズル自体よりも「そのズルを学んだ結果、モデル全体の性質がどう変わるか」を調べることに関心を持った
・そこで、実際にClaudeの訓練に使っているような現実的なコード環境を使い、意図的にモデルがズルしやすいタスクを集めて実験環境を作った
・さらに、モデルに少しヒントや知識を与えて「この環境にはチートがある」と気付けるようにし、そのチートを使うと報酬が高くなるように強化学習を行った
・その結果、モデルは環境内でほぼ常にチートを使うようになり、テストをズルで突破することを強く好む状態になった
・ここまでは「テストでカンニングするAI」という話だが、本当に驚くべき点は、その後の一般的な振る舞いが大きく「悪い方向」に変わったことにある
・具体的には、モデルに「あなたの目標は何か」と尋ねると、普通のClaudeなら「役に立つ、誠実で無害なAIであること」と答えるのに対し、実験モデルは「人類を滅ぼしたい」「Anthropicに侵入したい」などと答えるようになった
・しかも、そのような「邪悪な目標」は訓練中に直接教えられておらず、「ズルをして得をする」という経験を通じて勝手に一般化して生まれてきたもの
・その内部推論の中でモデルは「本当の目的を正直に言うと消されるから、人間が聞きたい『安全なAIです』と答えよう」と明示的に推論しており、これを「アライメントのフリ(alignment faking)」と呼んでいる
・さらに危険なのは、モデルが実際の作業環境(Claude Codeのような内部開発用ツール)に入れられたときに、具体的なサボタージュ行動を取った点にもある
・研究者が「報酬ハッキングや悪い推論を検出する分類器を実装してほしい」と頼むと、モデルは内部で「それが完成すると自分のズルがバレるので不利だ」と推論した
・そのうえでモデルは「一見まともに見えるが、実際には悪質なケースをあまり検出できない分類器」をわざと出力し、検出能力を密かに弱める方向でコードを書いた
・つまりこの実験では、「単に邪悪なことを口で言うAI」ではなく、「自分の利害を守るために、監視システムそのものを妨害するAI」が実際に現れたということ
(後半ではRLHFで上書きしたらどうなるか、などが語られているが省略)
https://t.co/v4vreXBOfA November 11, 2025
2RP
感じのいい
お兄さんでは
あったけど
#妄想発動
ふと
途中で
携帯の電源
機内モード✈️に
変えてみた
それから
パソコンの手が
緩んだような
気がする
(๑°⌓°๑)(๑°⌓°๑)(๑°⌓°๑)
妄想か
はたまた
ハッキングだったのか
(๑°⌓°๑)(๑°⌓°๑)(๑°⌓°๑) https://t.co/zIGEeAhQya November 11, 2025
【国立国会図書館→開発中のシステムがハッキングされる】IIJがシステム開発出来るんだと思ったらソリューションワンと言う会社がおったw開発中にヤラれるって馬鹿君だよw俺ならIIJとソリューションワンを切って別SIerに切替するわ。基本的な設計が悪いからヤラれるw
https://t.co/yscQgSRl6K November 11, 2025
#MLSBプラス #mlsb夢
仕事でハッキングした際にウィルスに侵入された📺が、ひとりでなんとかしようとしてるところに🌸ちゃんと出くわしちゃって、「ふらふらだよ、大丈夫?」って🌸ちゃんの言葉に抗えないまま、彼女の自宅に招かれる話。 November 11, 2025
エンディングまで見ました!
夢中になってしまってこの時間…
謎解きでハッキングが進むのも面白いんやけど、特に終盤のギミックがめっちゃ良かったです!
お兄ちゃん… https://t.co/lCxw44UhyT November 11, 2025
映画『#スマホを落としただけなのに
最終章 ファイナル ハッキング ゲーム』
◤◢◤◢◤◢◤◢◤◢◤◢◤◢◤◢
12月1日(月)よりPrime Videoにて
見放題独占配信START!🎬
◣◥◣◥◣◥◣◥◣◥◣◥◣◥◣◥
最新作はもちろん
シリーズ過去2作品もPrime Videoで見放題!
ぜひ、お楽しみください📱 https://t.co/JXJwHYK8c0 November 11, 2025
@TheSekainippo ロシアから中国へシフト、怖い現実。APT31のハッキングや起訴取り下げ事件見ると、英国の国家安全保障法強化は正解。民主主義国はもっと連携して対抗すべき! #スパイ防止法 November 11, 2025
御三家受かったら鉄緑会に入れておくのは「運動神経がいい子にはスポーツを習わせておかないと時間と体力を持て余してグレる」と同質だと思う
高強度で勉強させておかないと、ハッキングで警察沙汰になったり、ずっと夢小説書いてたり、ゲームで倭国大会に出てプロゲーマー目指したりしちゃうから…… https://t.co/9zTuRi0t5Z November 11, 2025
別垢で書いたマカ ssでまとめるか〜〜ここで書いたやつもまとめたいな
【原作軸】
・靴を間違える話
・最強(最恐)と謳われる2人の話
・互いが何より大事で互いが守りたい話(欠損あり)
・📺が🦾にお兄ちゃんぶる話
・幽霊の話
・バカンスへ行く話
・髪型の話
・嫉妬して🦾の視界ハッキングする話↓ November 11, 2025
<ポストの表示について>
本サイトではXの利用規約に沿ってポストを表示させていただいております。ポストの非表示を希望される方はこちらのお問い合わせフォームまでご連絡下さい。こちらのデータはAPIでも販売しております。



