ベンチマーク トレンド
0post
2025.12.10 17:00
:0% :0% (-/男性)
人気のポスト ※表示されているRP数は特定時点のものです
AIエージェントに「メタ認知的な思考」を持たせることで、計算コストを抑えつつ性能を向上させられることが明らかになりました。
イリノイ大学などの研究チームによる発表です。
これまでは、本来なら即答できる簡単な質問や計算に対しても、AIが不要な検索や外部ツールを使ってしまう「道具の過剰使用(Tool Overuse)」という課題がありました。
たとえば「1+1は?」と聞かれても、わざわざPythonを起動して計算してしまうといった具合です。
これにより無駄な処理が増えるだけでなく、簡単なことを難しく処理しようとして、かえって間違えることがありました。
そこで研究チームは、人間が「知っていることは記憶から答え、知らないことだけ調べる」のと同じように、AI自身に自分の知識の境界を判断させる「SMART(Self-Aware Agent for Tool Overuse Mitigation)」という手法を開発しました。
具体的には、数学の計算や最新情報のリサーチを含むタスクにおいて、「なぜそのツールが必要なのか(あるいは不要なのか)」を判断するプロセスをAIに学習させました。その結果、一部ベンチマークデータセットで、ツールの使用回数を最大24%削減できただけでなく、正答率が37%以上向上しました。驚くべきことに、わずか70億パラメータ(7B)の軽量モデルであっても、この手法を取り入れることでGPT-4のような巨大モデルと同等以上のスコアを記録しています。
単にモデルを巨大化させるのではなく、「いつ道具を使うべきか」という戦略を教えることが、より賢く効率的なAIを作る鍵になることが示唆されています。 December 12, 2025
4RP
【LLMを自律エージェントへ拡張するNex-N1エコシステム】
上海の複数組織が、LLMを受動的な応答モデルから自律エージェントへ拡張することを狙うフルスタックプラットフォーム「Nex」と、その中核となるエージェント指向モデルシリーズ「Nex-N1」を発表した。従来の静的軌跡や人間デモに依存した学習では動的な意思決定や長期的な目標達成が難しいという課題に対し、環境そのものの多様性・複雑性・現実性をスケールするアプローチを取る点が特徴である。
Nexエコシステムは、シンプルな設定から複雑な階層型エージェントを構築できるエージェント実行基盤NexAU、自然言語仕様から多様なエージェント階層やフレームワークを自動生成するNexA4A、実世界のMCPツールを統合してシミュレーションと現実のギャップを埋めるエージェントデータパイプラインNexGAPから構成される。この統一的な環境スケーリング基盤の上で訓練されたのがNex-N1シリーズであり、8B〜671Bまで複数サイズのモデルが用意されている。
性能面では、SWE-bench VerifiedでQwen3-32B-Nex-N1が50.5%を達成し、ベースのQwen3-32Bの12.9%から大きく向上した。BFCL v4のツール利用ベンチマークではNex-N1が65.3となり、GPT-5の61.6を上回った。さらに43のコーディングシナリオにおける人間評価では、Claude Sonnet 4.5との比較で64.5%、GPT-5との比較で約70%のケースでNex-N1が勝利または引き分けとなったと報告されている。モデル重みに加え、NexAUやNexGAP、RLスタックNexRL、MoE推論基盤NexVenusCLなどもオープンソースとして公開されており、エージェント構築から運用まで一貫した実験が可能となる。 December 12, 2025
1RP
$JMIA ブラックフライデー関連はもう報告が無いかもしれません。
理由は、Q3の決算データとその後10月のデータが強すぎるから。本気のサプライズが無いと出す理由が薄い気がしました。
散々期待させてしまい、すみませんでした。
しかし、どう考えてもBFセールは大成功していると思います。
むしろ期待感を引っ張りながら今後出てくるファンダが好感される展開こそ熱いのではないかと思いだしました。
思い出すのは6月後半のAXIANの買収報道。
買収が正式に否定される事は有りませんでしたが、株価は次回決算まで噂で上昇した部分を割らず、むしろ上昇していきました。
あの時は(世の中的に)まともに成長が確認できる決算が出ていなかったにも関わらずです。
ベンチマーク社の最新のレポートでもAXIANが大株主になった事で潮目が変わったと書かれています。
つまり、Q3で好決算、BFも流れを汲んでおそらく好調、この流れの中で提携や物流の好データや買収の噂含め流れてくると市場が好感するという感じですね。
短期も長期も楽しみましょう。 December 12, 2025
@akibaracing 何も考えずにコスパよく自作PC作ってた時にベンチマークの性能はAMDが良かったんでRadeonとAthlon使った記憶がうっすらあります。 December 12, 2025
@super_bonochin 結局、一般層は「中身」より「スコア」を見て選びがちで、炎鎮さんや私の感覚以上にそれが強い。OpenAIもベンチマーク上の勝ち筋を見せること自体がマーケになると考えているーーと私は思っています。 December 12, 2025
@SANKO_TRADING 2ストロークだとあまり追い込み過ぎたキャブセットの車種に別銘柄を入れると危なかったという…
実はゲタ車の90ccスクーターの方をベンチマークにして「JOMOで合わせてマージン取る」という使い方を…(後方排気TZRは怖いので触らなかった) December 12, 2025
@mmfw001 ありがとうございます🙇
自分の球質と好きなボール(投げ感がいいとか)でベンチマークを決めてみますね😄
ストローカーで、球速>回転数なので、回転不足を強いカバーとかΔRGで補うと言うのもアリでしょうか? December 12, 2025
前職(米国系の運用会社)での同僚との会話
(社内不倫が疑われる男女が時間をずらして帰ることについて)
「毎日、トラッキングエラーが小さくなっていく」
「どっちがベンチマークだ?」
「そりゃ、女の方でしょう」
(爆笑)
これ、業界外の人には何も面白くないと思います。
#金融リテラシー December 12, 2025
<ポストの表示について>
本サイトではXの利用規約に沿ってポストを表示させていただいております。ポストの非表示を希望される方はこちらのお問い合わせフォームまでご連絡下さい。こちらのデータはAPIでも販売しております。




