1
佐久間由衣写真集 sonnet
0post
2025.12.07 09:00
:0% :0% (-/-)
人気のポスト ※表示されているRP数は特定時点のものです
PFNから、材料科学などのシミュレーションを用いた長期の解析タスクを実行できるコーディングエージェント PARC を発表しました。末尾に実行動画、スレッドに論文があります。
PARCは100ステップを超えるような研究計画・実行・検証・考察を行い、数十時間規模のシミュレーションを複数同時に走らせ、結果を自動で検証します。
PARCはマルチエージェント構成であり、プランナーと複数のワーカーからなります。まずプランナーが実行計画を立て、人の承認を受けた後、自動実行に移ります。自動実行は複数のステップに分割され、各ステップ内では自己検証と、外部エージェントによる検証と修正によって途中実行結果を何重にも検証しながら進めていきます。
LLM自体の性能向上がある中でも、現時点ではこうしたマルチエージェントシステムは必須で、それを使わない場合は今回のような長期タスクは不可能dした(今回のケーススタディはClaude Sonnet 4.5で行っています)。
ケーススタディでは、論文などで報告されているシミュレーションを使った解析を再現できるかを調べ、それを専門家が検証する形でその有効性や課題を調べました。
具体的には、固体電解質におけるリチウム拡散の推定、超合金の偏析機構の解析、電場をかけた非平衡シミュレーション、および汎用性を確かめるため同じシステムでのKaggleタスク実行を行いました。これらではシミュレーションの実験設定が誤っている場合でも、PARCが自動で検証し間違いを発見できることを確認しました。
一方、電場をかけた非平衡シミュレーションの場合は、途中の重要な計算に誤りがあり、誤った最終結果が導かれることが判明しました。ただし、このときも研究者がその部分だけを修正すれば全体は正しく動作することも確認しました。このようにPARCは中間計算や実行結果を逐次レポートするため、研究者が正確に介入できる点も大きな利点です。
今後も全体の最適化をAIがしつつ人が適切に介入できるシステム設計が重要になると考えられます。 December 12, 2025
Vibe Coding 零基础入门工具 Google Antigravity 教程,无痛体验目前最强大的 Claude & GPT 模型
别看名称复杂,这是目前免费 Vibe Coding 使用门槛最低的工具,看完这篇帖子你就能上手了。
Antigravity 是 Google 推出的一款 IDE(代码编辑器)的 Vibe Coding工具,
相比于 Claude、Codex 等需要付费才能使用的工具,这款工具目前完全免费。
安装过程如下:
1. 从官网下载安装包后,一路选择默认配置,然后点击安装。不知道怎么选的可以参考图片1和2
2. 选择完成配置后,使用谷歌账号登录。
3. 登录后,查看 Antigravity 的右侧,会发现一个对话框,对话框会提示你选择模型。目前主流模型都可以使用,完全免费,只是有对话次数限制。
4. 选择你想要编写项目的文件夹,没有文件夹可以新建。
这里我选择了 Claude Sonnet 4.5 模型,然后在对话框中输入了“介绍我目前自己编写的项目”的提示词
然后就会出现对应的结果了。 December 12, 2025
## 🧠 Methods & Approach / 方法与技术
### Overview / 概述
The solver uses a **code-generation-based approach** where LLMs generate Python transformation functions that are iteratively refined through feedback.
该求解器使用**基于代码生成的方法**,LLM 生成 Python 转换函数,并通过反馈进行迭代优化。
```
Problem → Parallel Experts → Iterative Code Generation → Vote/Rank → Top 2 Results
问题 → 并行专家 → 迭代代码生成 → 投票/排序 → 前 2 个结果
```
---
### 1. Iterative Coding-Based Solving / 迭代式代码求解
**English:**
For each ARC problem, the solver executes up to 10 iterations:
1. **Prompt Construction**: Format problem as ASCII grid with training examples
2. **LLM Invocation**: Call LLM (Gemini 3 Pro) with temperature 1.0
3. **Code Extraction**: Parse Python code from markdown response
4. **Sandbox Execution**: Run `transform(grid)` function safely on all examples
5. **Validation**: Check if ALL training examples pass exactly
6. **Feedback Generation**: If failed, build detailed error feedback showing:
- Which examples passed/failed
- Shape mismatches
- Pixel-wise differences (format: `pred/expected`)
7. **In-Context Learning**: Add successful solutions to history for next iteration
**中文:**
对于每个 ARC 问题,求解器最多执行 10 次迭代:
1. **提示构建**:将问题格式化为带有训练示例的 ASCII 网格
2. **LLM 调用**:以温度 1.0 调用 LLM(Gemini 3 Pro)
3. **代码提取**:从 markdown 响应中解析 Python 代码
4. **沙箱执行**:在所有示例上安全运行 `transform(grid)` 函数
5. **验证**:检查是否所有训练示例都完全通过
6. **反馈生成**:如果失败,构建详细的错误反馈,显示:
- 哪些示例通过/失败
- 形状不匹配
- 逐像素差异(格式:`预测值/期望值`)
7. **上下文学习**:将成功的解决方案添加到历史记录中供下一次迭代使用
---
### 2. Parallel Expert Ensemble / 并行专家集成
**English:**
Multiple independent experts (1-8) solve problems concurrently:
1. **Parallel Execution**: Each expert has unique seed offset for diversity
2. **Result Grouping**: Solutions grouped by identical test outputs
3. **Voting Mechanism**:
- "Passers" = solutions where all training examples pass
- "Failures" = partial solutions
- Rank by vote count (most agreement wins)
4. **Diversity-First Selection**: Take 1 representative per unique output group
5. **Output**: Top 2 ranked results → Kaggle's 2 attempts per test case
**中文:**
多个独立专家(1-8 个)并行求解问题:
1. **并行执行**:每个专家有独特的种子偏移以确保多样性
2. **结果分组**:按相同的测试输出对解决方案进行分组
3. **投票机制**:
- "通过者" = 所有训练示例都通过的解决方案
- "失败者" = 部分解决方案
- 按投票数排名(共识最多者获胜)
4. **多样性优先选择**:每个独特输出组选取 1 个代表
5. **输出**:排名前 2 的结果 → Kaggle 每个测试用例的 2 次尝试机会
---
### 3. Prompt Engineering / 提示工程
**English:**
Three specialized prompts optimized for different reasoning:
| Prompt | Focus / 重点 |
|--------|--------------|
| `SOLVER_PROMPT_1` | Structured, step-by-step guidance / 结构化,逐步指导 |
| `SOLVER_PROMPT_2` | Hypothesis generation & iterative refinement / 假设生成和迭代优化 |
| `SOLVER_PROMPT_3` | Computer vision techniques, concise code / 计算机视觉技术,简洁代码 |
Each prompt emphasizes: Analyze → Hypothesize → Code → Test → Refine
**中文:**
三个针对不同推理优化的专用提示:
每个提示都强调:分析 → 假设 → 编码 → 测试 → 优化
---
### 4. Soft Scoring System / 软评分系统
**English:**
Instead of binary pass/fail, uses pixel-wise accuracy:
- `soft_score = mean(prediction == ground_truth)`
- Range: 0.0 (complete failure) to 1.0 (perfect)
- Helps guide improvement even with partial matches
**中文:**
使用逐像素准确度而非二元通过/失败:
- `软分数 = mean(预测 == 真实值)`
- 范围:0.0(完全失败)到 1.0(完美)
- 即使部分匹配也能指导改进
---
### 5. Safe Code Execution / 安全代码执行
**English:**
LLM-generated code runs in isolated subprocess:
- 1.5 second timeout per execution
- Only numpy, scipy, standard library available
- JSON I/O for result passing
- No network access
- Deterministic with PYTHONHASHSEED
**中文:**
LLM 生成的代码在隔离的子进程中运行:
- 每次执行 1.5 秒超时
- 仅提供 numpy、scipy、标准库
- 使用 JSON 进行结果传递
- 无网络访问
- 通过 PYTHONHASHSEED 确保确定性
---
### 6. Multi-Model Support / 多模型支持
**English:**
Supports 9+ models via LiteLLM abstraction:
| Provider | Models |
|----------|--------|
| Google | Gemini 2.5 Pro, Gemini 3 Pro Preview |
| OpenAI | GPT-5, GPT-5.1 |
| Anthropic | Claude Sonnet 4.5, Claude Haiku 4.5 |
| XAI | Grok-4, Grok-4-fast |
| Groq | GPT-OSS-120B |
**中文:**
通过 LiteLLM 抽象层支持 9+ 个模型:
| 提供商 | 模型 |
|--------|------|
| Google | Gemini 2.5 Pro, Gemini 3 Pro Preview |
| OpenAI | GPT-5, GPT-5.1 |
| Anthropic | Claude Sonnet 4.5, Claude Haiku 4.5 |
| XAI | Grok-4, Grok-4-fast |
| Groq | GPT-OSS-120B |
---
## 🔄 Execution Flow / 执行流程
```
https://t.co/vp4U3gs8db
↓
Load challenges JSON / 加载挑战 JSON
↓
For each problem (async) / 对每个问题(异步):
↓
solve_parallel_coding()
↓
[Expert 1] [Expert 2] ... [Expert N] (parallel / 并行)
↓
solve_coding() × 10 iterations / 10次迭代
↓
1. format_problem() → ASCII grid / ASCII 网格
2. build_prompt() → solver + feedback / 求解器 + 反馈
3. llm() → LLM response / LLM 响应
4. extract code / 提取代码
5. https://t.co/jEyVi4TQNo() → execute / 执行
6. if all pass: return success / 如果全部通过:返回成功
7. else: build feedback / 否则:构建反馈
↓
Group by test output / 按测试输出分组
Rank by voting / 按投票排名
↓
Return top 2 results / 返回前 2 个结果
↓
build_kaggle_two_attempts() → submission.json
``` December 12, 2025
Opus4.5はエージェントの解禁だという話
本当に進化を感じる
以下引用
————-
数世代に一度、私たちは主要なモデル解禁の瞬間――新しい働き方を解禁する瞬間――を得ます。GPT-4はチャットの解禁でした、Sonnet 3.5はコードの解禁でした、そして今Opus 4.5はエージェントの解禁です。Opus 4.5のおかげで、エージェントは今、ますます長い時間軸で信頼性を持って働き、あなたに代わって現実世界の仕事をこなせるようになりました。
Opus 4.5はWaymoのようなものです。「AからBまで連れて行って」と言うと、そこまで連れて行ってくれます。何度かこれを経験すると、脳が「ああ、なるほど。今、私たちはこの世界に生きているんだ」と気づきます。そして、あなたは夢中になります。
その瞬間から、あなたの働き方は二度と元には戻りません。 December 12, 2025
<ポストの表示について>
本サイトではXの利用規約に沿ってポストを表示させていただいております。ポストの非表示を希望される方はこちらのお問い合わせフォームまでご連絡下さい。こちらのデータはAPIでも販売しております。



