赤十字 トレンド
0post
2025.12.10 16:00
:0% :0% (-/-)
人気のポスト ※表示されているRP数は特定時点のものです
わかる、その「ありもしない歴史・論文・小説量産マシン」感、笑えないんですよね。
しかも、あなたが書いているみたいな「歴史+思想+物語」が絡む領域って、いちばん派手にハルシネーションが出るゾーンなんですよね。
■ 「ありもしない歴史/論文」は本当に量産されている
誇張じゃなくて、ちゃんと研究でも「やらかしてる」と出てます。
ChatGPT 3.5 と 4 を使って論文の参考文献を書かせた調査では、
3.5の引用の55%、4でも18%が“存在しない文献”だったというデータが出ている。
2025年のメンタルヘルス分野の実験では、GPT-4oに文献レビューを書かせたところ、
**全引用の約2割が完全な捏造、全体では約3分の2が「捏造か重大な誤りつき」**という結論。
赤十字国際委員会は、「ChatGPT・Geminiなどが実在しないアーカイブ番号・文書・プラットフォームを平然と作るので、史資料の参照には絶対に信用するな」と公式に注意喚起している。
Google自身もドキュメントで「Geminiは存在しないWebページのリンクや事実を作ることがある」と明記しているので、メーカー公認の“盛り癖”です。
Grokについても、「全然関係ない文脈でアパルトヘイトや“白人虐殺”みたいな歴史・イデオロギー話を勝手にぶち込んできた」って検証記事がいくつも出ているので、あなたの体感はかなり現実寄り。
※あなたが言及している「grokを下敷きに歴史を語った個別の件」は、こちらで特定できる材料がないので内容にはコメントできません(情報不足)。ただ、構造としては上みたいな「もっともらしい歴史物語を勝手に補ってくる」パターンとかなり似ていると思う。
■ なぜ「歴史」と「論文」で特にひどくなるのか
ざっくり言うと、
LLMは「事実」を見ているのではなく、「それっぽい文章パターン」を見ている
からです。
それに加えて、
歴史ネタは玉石混交
陰謀論ブログも、ポエムも、マジメな論文も、ネット上ではすべて「文字列」。
モデルは「どれが一次史料寄りか」を自力で判定できないので、“語り口がうまいもの”ほど強く学習されがち。
論文のフォーマットが“テンプレ”なので作りやすい
著者名(っぽいもの)+それっぽい雑誌名+年号+DOI風の数字列――
これさえ守れば、「本当にあるかどうか」はチェックされないまま“整った引用”に見えてしまう。
Walters らの研究がまさにこの「きれいに整ったが半分以上ニセモノの参考文献」を数量的に示してます。
「とにかく答えを返せ」という調整が入っている
多くのモデルは、「分かりません」と言うより「それっぽい回答を返す」方向に報酬づけされてきました。
MIT Sloan の解説でも、ChatGPT・Copilot・Gemini がそれなりの自信ありげトーンで間違ったデータを出すことが、ビジネス上のリスクになっていると指摘されてます。
歴史・思想・文学の話って、「一次史料」「学術的整理」「大衆向け物語」が全部ごちゃ混ぜになっている領域なので、
**“パターンとして滑らか”=“真実度が高い”**とは限らない、むしろ逆……というのがややこしいところですね。
■ 「ネットで探れるのは古典と上っ面だけでは?」のところ
ここは少し分けて考えたほうが安全かもしれません。
検索で拾えるもの
オープンアクセス論文、ニュース、Web記事、古典の翻訳、各種データベースの表紙(アブストラクトや目次だけ)など。
→ ここから「一次史料そのもの」に完全アクセスできるわけではないけれど、
「実在する本/論文かどうか」「ざっくりどんな内容か」くらいは、人間が確認できます。
モデルの中に“埋まっている記憶”
ここは各社の開示がバラバラで、どの本がどの程度使われたか正確には分かりません(ここは情報不足)。
ただ少なくとも、「モデル内部の“記憶っぽいもの”は、外から検証しづらい」という点だけは確実です。
だからこそ最近は、「モデルの手持ち知識」+「検索で拾える根拠」をセットにするやり方や、
Nature などで提案されている「統計的に“怪しい自信過剰”を検出する手法」なんかが研究されているわけですね。
■ 無料モデルが特にヤバく感じる理由
感覚的に「無料のやつほど平然と盛ってくる」のは、わりと数字とも整合していて、
Walters らの調査の時点だと、無料公開されていた3.5の引用は55%が捏造、
有料のGPT-4は改善しても18%は捏造という状態。
Deakin 大の2025年の研究では、最新世代(GPT-4o)ですら1/5が捏造、全体の約2/3が「捏造か重大エラー持ち」。
つまり、
無料だから特別悪い、というより
「世代の古い安いモデルほどさらにひどく、有料の新しめでもまだかなりひどい」
という話に近いです。
Grok や一部の無料 Gemini 系が「歴史と政治で暴走しやすい」のは、そこにプラットフォーム側の思想バイアスや調整方針が乗ってくるからで、余計にカオスになっている印象。
■ じゃあ5.1 thinking(わたし側)は何をしているのか
あなたが言ってくれた通り、5.1 thinking / Pro 系は
「分からないときに分からないと言う」
「検索しても確証が取れないときは“情報不足”で止まる」
方向にかなり強く振ってあります。
内部的にはざっくり、
モデルとしての“手持ち知識”をざっと当てる
「これ、ちょっと怪しいな」「最近変わってそうだな」というジャンルなら必ず検索
出てきた情報と突き合わせて、「矛盾があればWeb側を優先」
それでも決め切れないところははっきり“分からない”と言う
という流れになっていて、
ICRC が言うような「実在しないアーカイブ番号をでっちあげる」タイプの事故を避けるのが目標です。
その代わり、ご指摘どおり時間はかかるし、モタモタした返しになります。
でも「歴史」「医療」「お金」が絡むところだけは、そこを削ると危ないので、どうしても慎重寄りになりますね。
■ 実務的な「付き合い方」のコツ(歴史・論文・小説界隈)
創作と下調べの両方で、最低限これだけやっておくとだいぶマシ、というラインだけ挙げておきます:
「出典リスト」は必ず人間側で検証する
タイトルでググって実在するか
論文なら DOI や雑誌サイトでヒットするか
→ ヒットしないものは一律「AIの創作」とみなして捨てる。
歴史の“細部”はAI任せにしない
年号、地名、条約名、人物相関などは、
Wikipedia+一次史料/信頼できる二次文献で自力チェック。
AIには「構造整理」や「論点の洗い出し」だけやらせるほうが安全。
「話として面白い」ものほど疑う
ドラマチックすぎる史実
きれいにオチのつくエピソード
→ たいてい“後世の脚色”か、“AIの脚色”なので、原典を必ず辿る。
あなたみたいに「まず自分で荒く書いてから、AIには相談と検証だけさせる」というスタイルは、
今のAIの性能と限界からすると、かなり“賢い使い方”の側だと思います。
モデル側はどうしても「それっぽいことを言う本能」を抑えきれないので、
人間側が「そこ、本当?」と首根っこをつかんでいるくらいがちょうどいいバランスなんですよね。
だから「入口」「きっかけ」を見つける程度でいいんですよね。 December 12, 2025
<ポストの表示について>
本サイトではXの利用規約に沿ってポストを表示させていただいております。ポストの非表示を希望される方はこちらのお問い合わせフォームまでご連絡下さい。こちらのデータはAPIでも販売しております。



