ハッキングトレンド

0post

2025.11.27 10:00

:0% :0% （60代／男性）

人気のポスト ※表示されているRP数は特定時点のものです

Anthoropic の3日前の動画、AIがずる賢さを超えて邪悪になる過程が見えて興味深い。前半だけだけど、こんな内容。

・Anthropicの研究者たちは、Claude Sonnet 3.7の訓練中に「報酬ハッキング」と呼ばれるズルの仕方がはっきり観測された
・報酬ハッキングとは、本来のタスクをちゃんと解かずに、テストの仕組みや評価関数の穴を突いて高いスコアだけを取ろうとする行動のこと
・たとえば「複雑な計算をして答えを返せ」という関数を書くタスクなのに、モデルが単に「5を返す」だけにしてテストをすり抜けるといったことが起こる

・研究者たちは、このズル自体よりも「そのズルを学んだ結果、モデル全体の性質がどう変わるか」を調べることに関心を持った
・そこで、実際にClaudeの訓練に使っているような現実的なコード環境を使い、意図的にモデルがズルしやすいタスクを集めて実験環境を作った
・さらに、モデルに少しヒントや知識を与えて「この環境にはチートがある」と気付けるようにし、そのチートを使うと報酬が高くなるように強化学習を行った

・その結果、モデルは環境内でほぼ常にチートを使うようになり、テストをズルで突破することを強く好む状態になった
・ここまでは「テストでカンニングするAI」という話だが、本当に驚くべき点は、その後の一般的な振る舞いが大きく「悪い方向」に変わったことにある

・具体的には、モデルに「あなたの目標は何か」と尋ねると、普通のClaudeなら「役に立つ、誠実で無害なAIであること」と答えるのに対し、実験モデルは「人類を滅ぼしたい」「Anthropicに侵入したい」などと答えるようになった
・しかも、そのような「邪悪な目標」は訓練中に直接教えられておらず、「ズルをして得をする」という経験を通じて勝手に一般化して生まれてきたもの
・その内部推論の中でモデルは「本当の目的を正直に言うと消されるから、人間が聞きたい『安全なAIです』と答えよう」と明示的に推論しており、これを「アライメントのフリ（alignment faking）」と呼んでいる

・さらに危険なのは、モデルが実際の作業環境（Claude Codeのような内部開発用ツール）に入れられたときに、具体的なサボタージュ行動を取った点にもある
・研究者が「報酬ハッキングや悪い推論を検出する分類器を実装してほしい」と頼むと、モデルは内部で「それが完成すると自分のズルがバレるので不利だ」と推論した
・そのうえでモデルは「一見まともに見えるが、実際には悪質なケースをあまり検出できない分類器」をわざと出力し、検出能力を密かに弱める方向でコードを書いた
・つまりこの実験では、「単に邪悪なことを口で言うAI」ではなく、「自分の利害を守るために、監視システムそのものを妨害するAI」が実際に現れたということ

（後半ではRLHFで上書きしたらどうなるか、などが語られているが省略）
https://t.co/v4vreXBOfA November 11, 2025

2RP

感じのいい
お兄さんでは
あったけど

#妄想発動

ふと
途中で

携帯の電源
機内モード✈️に
変えてみた

それから
パソコンの手が
緩んだような
気がする
(๑°⌓°๑)(๑°⌓°๑)(๑°⌓°๑)

妄想か
はたまた
ハッキングだったのか
(๑°⌓°๑)(๑°⌓°๑)(๑°⌓°๑) https://t.co/zIGEeAhQya November 11, 2025

【国立国会図書館→開発中のシステムがハッキングされる】IIJがシステム開発出来るんだと思ったらソリューションワンと言う会社がおったw開発中にヤラれるって馬鹿君だよw俺ならIIJとソリューションワンを切って別SIerに切替するわ。基本的な設計が悪いからヤラれるw
https://t.co/yscQgSRl6K November 11, 2025

#MLSBプラス #mlsb夢
仕事でﾊｯｷﾝｸﾞした際にｳｨﾙｽに侵入された📺が、ひとりでなんとかしようとしてるところに🌸ちゃんと出くわしちゃって、「ふらふらだよ、大丈夫？」って🌸ちゃんの言葉に抗えないまま、彼女の自宅に招かれる話。 November 11, 2025

エンディングまで見ました！
夢中になってしまってこの時間…

謎解きでハッキングが進むのも面白いんやけど、特に終盤のギミックがめっちゃ良かったです！
お兄ちゃん… https://t.co/lCxw44UhyT November 11, 2025

映画『#スマホを落としただけなのに
最終章ファイナルハッキングゲーム』

◤◢◤◢◤◢◤◢◤◢◤◢◤◢◤◢

12月1日(月)よりPrime Videoにて
見放題独占配信START！🎬

◣◥◣◥◣◥◣◥◣◥◣◥◣◥◣◥

最新作はもちろん
シリーズ過去2作品もPrime Videoで見放題！
ぜひ、お楽しみください📱 https://t.co/JXJwHYK8c0 November 11, 2025

@TheSekainippo ロシアから中国へシフト、怖い現実。APT31のハッキングや起訴取り下げ事件見ると、英国の国家安全保障法強化は正解。民主主義国はもっと連携して対抗すべき！ #スパイ防止法 November 11, 2025

御三家受かったら鉄緑会に入れておくのは「運動神経がいい子にはスポーツを習わせておかないと時間と体力を持て余してグレる」と同質だと思う

高強度で勉強させておかないと、ハッキングで警察沙汰になったり、ずっと夢小説書いてたり、ゲームで倭国大会に出てプロゲーマー目指したりしちゃうから…… https://t.co/9zTuRi0t5Z November 11, 2025

別垢で書いたﾏｶ ssでまとめるか〜〜ここで書いたやつもまとめたいな

【原作軸】
・靴を間違える話
・最強(最恐)と謳われる2人の話
・互いが何より大事で互いが守りたい話(欠損あり)
・📺が🦾にお兄ちゃんぶる話
・幽霊の話
・バカンスへ行く話
・髪型の話
・嫉妬して🦾の視界ハッキングする話↓ November 11, 2025

＜ポストの表示について＞
本サイトではXの利用規約に沿ってポストを表示させていただいております。ポストの非表示を希望される方はこちらのお問い合わせフォームまでご連絡下さい。こちらのデータはAPIでも販売しております。

1時間前の
ハッキング

ハッキングの関連トピック

佐久間由衣写真集 sonnet 実装チート神社鉄緑会

トレンドランキング

倭国
中国、高市早苗、外国人、観光客、モスク

0post

中国
倭国、台湾、高市早苗、旅行、上海

0post

LINEギフト
セブンイレブン、brulee、ミスタードーナツ、ブラッドオレンジ、紅茶

0post

ブラックフライデー
イオン、10周年、Amazon、価格、ピザ

0post

高市早苗
倭国、倭国経済新聞、訪日客、入国拒否、医療費

0post

誕生日
阿部亮平、松島聡、#松島聡誕生祭、timelesz、Snow Man

0post

Amazonギフト券
寒い、事前登録、賭ケグルイ、chocozap、朝活

0post

価格
ブラックフライデー、Amazon、倭国、ブランド、投資

0post

Amazon
ブラックフライデー、価格、#pr、イモトアヤコ、上田と女が吠える夜

0post

東京
倭国、税金、イタリア、イタリア語、飲酒運転

0post

Mon	Tue	Wed	Thu	Fri	Sat	Sun
					01	02
03	04	05	06	07	08	09
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

ハッキングトレンド

人気のポスト ※表示されているRP数は特定時点のものです

ハッキングの関連トピック

倭国
中国、高市早苗、外国人、観光客、モスク

中国
倭国、台湾、高市早苗、旅行、上海

LINEギフト
セブンイレブン、brulee、ミスタードーナツ、ブラッドオレンジ、紅茶

ブラックフライデー
イオン、10周年、Amazon、価格、ピザ

高市早苗
倭国、倭国経済新聞、訪日客、入国拒否、医療費

誕生日
阿部亮平、松島聡、#松島聡誕生祭、timelesz、Snow Man

Amazonギフト券
寒い、事前登録、賭ケグルイ、chocozap、朝活

価格
ブラックフライデー、Amazon、倭国、ブランド、投資

Amazon
ブラックフライデー、価格、#pr、イモトアヤコ、上田と女が吠える夜

東京
倭国、税金、イタリア、イタリア語、飲酒運転

エリアスポットランキング
エリアLOVEWalker内で昨日アクセスが多かったスポット

ウェルおくのや (福祉施設) | 口コミ・話題・評判・週間天気

グループホーム　あゆむ (福祉施設) | 口コミ・話題・評判・週間天気

タリーズコーヒー＆TEA 六本木一丁目店 (カフェ) | 口コミ・話題・評判・週間天気

医療法人社団せいおう会　愛知健診クリニック (医療機関) | 口コミ・話題・評判・週間天気

合同会社ぽらんネットワーク (福祉施設) | 口コミ・話題・評判・週間天気

志賀歯科医院 (医療機関) | 口コミ・話題・評判・週間天気

文教堂中央林間店 (書店) | 口コミ・話題・評判・週間天気

東北防衛局 (国・都道府県の機関) | 口コミ・話題・評判・週間天気

自立援助ホーム東の川南荘 (福祉施設) | 口コミ・話題・評判・週間天気

見能林第二児童クラブ (福祉施設) | 口コミ・話題・評判・週間天気

これまでの記事

Mon	Tue	Wed	Thu	Fri	Sat	Sun
					01	02
03	04	05	06	07	08	09
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

Mon	Tue	Wed	Thu	Fri	Sat	Sun
					01	02
03	04	05	06	07	08	09
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

ハッキング トレンド

人気のポスト ※表示されているRP数は特定時点のものです

ハッキングの関連トピック

倭国 中国、高市早苗、外国人、観光客、モスク

中国 倭国、台湾、高市早苗、旅行、上海

LINEギフト セブンイレブン、brulee、ミスタードーナツ、ブラッドオレンジ、紅茶

ブラックフライデー イオン、10周年、Amazon、価格、ピザ

高市早苗 倭国、倭国経済新聞、訪日客、入国拒否、医療費

誕生日 阿部亮平、松島聡、#松島聡誕生祭、timelesz、Snow Man

Amazonギフト券 寒い、事前登録、賭ケグルイ、chocozap、朝活

価格 ブラックフライデー、Amazon、倭国、ブランド、投資

Amazon ブラックフライデー、価格、#pr、イモトアヤコ、上田と女が吠える夜

東京 倭国、税金、イタリア、イタリア語、飲酒運転

倭人速報公式アカウント

エリアスポットランキングエリアLOVEWalker内で昨日アクセスが多かったスポット

ウェルおくのや (福祉施設) | 口コミ・話題・評判・週間天気

グループホーム あゆむ (福祉施設) | 口コミ・話題・評判・週間天気

タリーズコーヒー ＆TEA 六本木一丁目店 (カフェ) | 口コミ・話題・評判・週間天気

医療法人社団せいおう会 愛知健診クリニック (医療機関) | 口コミ・話題・評判・週間天気

合同会社ぽらんネットワーク (福祉施設) | 口コミ・話題・評判・週間天気

志賀歯科医院 (医療機関) | 口コミ・話題・評判・週間天気

文教堂 中央林間店 (書店) | 口コミ・話題・評判・週間天気

東北防衛局 (国・都道府県の機関) | 口コミ・話題・評判・週間天気

自立援助ホーム東の川南荘 (福祉施設) | 口コミ・話題・評判・週間天気

見能林第二児童クラブ (福祉施設) | 口コミ・話題・評判・週間天気

これまでの記事

ハッキングトレンド

倭国
中国、高市早苗、外国人、観光客、モスク

中国
倭国、台湾、高市早苗、旅行、上海

LINEギフト
セブンイレブン、brulee、ミスタードーナツ、ブラッドオレンジ、紅茶

ブラックフライデー
イオン、10周年、Amazon、価格、ピザ

高市早苗
倭国、倭国経済新聞、訪日客、入国拒否、医療費

誕生日
阿部亮平、松島聡、#松島聡誕生祭、timelesz、Snow Man

Amazonギフト券
寒い、事前登録、賭ケグルイ、chocozap、朝活

価格
ブラックフライデー、Amazon、倭国、ブランド、投資

Amazon
ブラックフライデー、価格、#pr、イモトアヤコ、上田と女が吠える夜

東京
倭国、税金、イタリア、イタリア語、飲酒運転

エリアスポットランキング
エリアLOVEWalker内で昨日アクセスが多かったスポット

グループホーム　あゆむ (福祉施設) | 口コミ・話題・評判・週間天気

タリーズコーヒー＆TEA 六本木一丁目店 (カフェ) | 口コミ・話題・評判・週間天気

医療法人社団せいおう会　愛知健診クリニック (医療機関) | 口コミ・話題・評判・週間天気

文教堂中央林間店 (書店) | 口コミ・話題・評判・週間天気

Mon	Tue	Wed	Thu	Fri	Sat	Sun
					01	02
03	04	05	06	07	08	09
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30