ハルシネーション トレンド
0post
2025.12.10 15:00
:0% :0% (40代/男性)
人気のポスト ※表示されているRP数は特定時点のものです
・ICLR 2026 に投稿された論文のうち300本を調査したところ、50本にAIが生成したハルシネーションが含まれていた
・問題のあった論文はすでに3人から5人の専門家による査読を受けていたが、その多くが見過ごされていた
・専門家であってもAIが作ったもっともらしい嘘を見抜くことができず、査読プロセスが機能不全に陥っている可能性がある
・嘘の引用を含む論文の中には高評価を得ているものもあり、チェックがなければそのまま出版されるところだった
・ICLRの規定では、たった一つでも明白なハルシネーションがあれば倫理違反として不採択になる
・今回は投稿総数2万本のうちのごく一部を調べただけであり、全体では数百本以上の問題論文が存在すると予想される
https://t.co/MIx4KHartC December 12, 2025
AIのハルシネーションを許容できる社会は
人にも優しい社会になる
AIを恐れている人達に知ってほしい
(AIのハルシネーションを潰すのに労力をつかっている人達にも) December 12, 2025
これやばすぎるでしょ。GoogleのAI Overviewが津波警報を「全て解除」とウソの情報を回答。
ここ1年でAI検索は非常に進化して素晴らしい精度になっているので、一般人がこうした情報をハルシネーションと判断するのはとても難しいよね…。 https://t.co/VuY9Dju5sB December 12, 2025
やっぱり、gpt(codex)かClaudeのどちらかだけで…というのは厳しいというのが、ここ半年の感想かもしれない。Gemini 3.0は画像生成は良いんだけど、ハルシネーションが多いのが辛み。
という事もあり仕事上、Gemini 3.0にはあまり重要なタスクはお願いできてない感じ。 December 12, 2025
やっぱり、codexかClaudeのどちらかだけで…というのは厳しいというのが、ここ半年の感想かもしれない。Gemini 3.0は画像生成は良いんだけど、ハルシネーションが多いのが辛み。
という事もあり仕事上、Gemini 3.0にはあまり重要なタスクはお願いできてない感じ。 December 12, 2025
平和な推し沼でも、最近こういうのがある。情報ブログ系で多く、ハルシネーション起こしてるのも多い😇
皆AIの言うことは確認してから記事に……
と自戒も込めて願う💦
生成AIを使って正しかろう内容をただ出力させただけの技術記事は存在する意味がない|yoko https://t.co/kU7OKt15r1 #zenn December 12, 2025
これは良い評価方法の一つだとおもう。
LMのトレーニングでは、報酬を与えてAIの強化を行っているが、この論文のように「嘘を付くとペナルティ」という評価で点数をつけると、トレーニングとは違う評価で評価されるので、今までとは違った視点で評価ができる。
この欠点を補うために様々なツールを組み合わせる事もできるだろうが、そうなると、応答性能が悪くなる。
今後のLMのトレーニングの中に、この視点を組み込んだら、もっと違う結果が出る可能性がある。
ただし注意点として、ペナルティを強くかけすぎると、AIが「嘘を隠す」方向に最適化するリスクがあります。(OpenAIの最近の研究で、罰則を与えるとモデルがChain-of-Thought内で欺瞞を隠蔽するよう学習し、検知が難しくなる事例が報告されています)
それでも、このペナルティ視点を今後のトレーニング(例: 報酬モデルに減点項を追加)に取り入れると、ハルシネーション抑制に新しいブレークスルーが起きる可能性は高いと思います。
新たなLMが出てくるかも? December 12, 2025
ほんこれ。そもそも韓国政府の温度感を見る限り、今のところは増産要請に近い話で、ウエハ40%を買ったという話は完全に妄想、ハルシネーションという…🙂↕️
ましてやOpen AIのせいでメモリ高騰は完全にデマ。 https://t.co/HQHuVCKHWU December 12, 2025
ご指摘の視点は、技術革新の本質(ジェボンズのパラドックス:効率化が進むと資源消費=業務量はかえって増える)を鋭く突いています。
「AIによって楽になる」のではなく、「AIによって業務の密度が上がり、判断の責任が重くなる」という未来予測に基づき、対策を提案します。
1. ビジネスモデルの転換
「AIですぐできるでしょ?」というクライアントの圧力に対抗するためには、時間の切り売りからの脱却が急務です。
* 「修正」の価値を再定義する
* 「ゼロから書く」より「微妙に間違っているものを直す」方が、認知コストが高いことを料金に反映させます。
* 対策: 持ち込み契約書(特にAI生成と思われるもの)のレビュー費用を「法的リスク監査料」として高額に設定する。「AIドラフトの修正は、更地への建築よりリフォームの方が難しいのと同じ」というアナロジーで説明します。
* 「責任」への対価
* 作業時間ではなく、「弁護士が最終的な法的責任を負う」こと自体に価格をつけます。
* 対策: タイムチャージ比率を下げ、定額の「責任保証料」や「完了報酬」の比重を高める。「弁護士のハンコを押す」行為の重さを価格化します。
2. クライアント・コントロール(期待値の調整)
「AI武装したクライアント」による業務増大を防ぐための防波堤を築きます。
* AI生成物の取り扱いポリシーの明示
* 対策: 受任時の委任契約書や重要事項説明に、「生成AI等を用いたドラフト等の精査には、通常の調査以上の工数を要するため、追加費用が発生する場合がある」旨の条項を追加します。
* 「ハルシネーション」のリスク教育
* クライアントはAIの「もっともらしさ」に騙されています。
* 対策: 「AIが判例を捏造した事例」や「条文解釈を誤った事例」をニュースレターや初回相談で提示し、「AIは叩き台にはなるが、そのまま使うと致命傷になる」という共通認識を徹底させます。
3. 業務フローの再構築(AI vs AI)
「AIのミスを人間が探す」という神経をすり減らす作業を、AI自身に一次スクリーニングさせることで負荷を減らします。
* 「粗探し」専用プロンプトの開発
* 自分で書かせたドラフトやクライアントの持ち込み書面に対し、別のAI(あるいは別のチャットセッション)で「相手方弁護士の立場から、この条項の弱点を5つ挙げろ」「この主張に含まれる論理的飛躍を指摘せよ」と攻撃させます。
* 対策: AIに「敵対的チェック」を行わせ、論点が可視化された状態で最終判断だけを人間が行うフローにします。 December 12, 2025
<ポストの表示について>
本サイトではXの利用規約に沿ってポストを表示させていただいております。ポストの非表示を希望される方はこちらのお問い合わせフォームまでご連絡下さい。こちらのデータはAPIでも販売しております。



