1
ODOTTEMITA ANNIVERSARY
0post
2025.12.07 09:00
:0% :0% (-/男性)
人気のポスト ※表示されているRP数は特定時点のものです
#今年造った最高傑作で2025年を振り返る
#ゾイド
間違いなくこいつ。
1/700スケール換算の超巨大航空母艦!
艦載機もかなり拘って作ってますからー!
ZOADでいろんな方に私のウルトラ空母お誉め頂いたので、巨大ゾイド空母打撃群編成したくなったのが作ったきっかけなり。 https://t.co/2soxqkfFep December 12, 2025
2RP
Abemaで今『鬼灯の冷徹』OAD全話見られるけど(あと2日)、1期と2期も続けてやるみたい。あっちもこっちも無料公開凄いなあ。
12月6日(土) 20:00〜👹1期
https://t.co/g7unnomyAu
12月12日(金) 11:00~👹2期その1&2
https://t.co/Ybj5rsHBcq
もう3期やったらいいのでは?? December 12, 2025
1RP
@Support @Lizm54896907
ログインループ(ユーザー名存在しないエラー)とタイムライン読み込み失敗が現在19時間続いています。 Basic有料ユーザーです。他アカウントからもプロフィールがロードできません。
Help! I'm a basic subscriber, stuck in a login loop, and my timeline won't load for the past 19 hours.
I can't even see my profile from other accounts. December 12, 2025
1RP
@Support @Lizm54896907
ログインループ(ユーザー名存在しないエラー)とタイムライン読み込み失敗が現在19時間続いています。 Basic有料ユーザーです。
他アカウントからもプロフィールがロードできません。
Help! I'm a basic subscriber, stuck in a login loop, and my timeline won't load for the past 19 hours.
I can't even see my profile from other accounts. December 12, 2025
## 🧠 Methods & Approach / 方法与技术
### Overview / 概述
The solver uses a **code-generation-based approach** where LLMs generate Python transformation functions that are iteratively refined through feedback.
该求解器使用**基于代码生成的方法**,LLM 生成 Python 转换函数,并通过反馈进行迭代优化。
```
Problem → Parallel Experts → Iterative Code Generation → Vote/Rank → Top 2 Results
问题 → 并行专家 → 迭代代码生成 → 投票/排序 → 前 2 个结果
```
---
### 1. Iterative Coding-Based Solving / 迭代式代码求解
**English:**
For each ARC problem, the solver executes up to 10 iterations:
1. **Prompt Construction**: Format problem as ASCII grid with training examples
2. **LLM Invocation**: Call LLM (Gemini 3 Pro) with temperature 1.0
3. **Code Extraction**: Parse Python code from markdown response
4. **Sandbox Execution**: Run `transform(grid)` function safely on all examples
5. **Validation**: Check if ALL training examples pass exactly
6. **Feedback Generation**: If failed, build detailed error feedback showing:
- Which examples passed/failed
- Shape mismatches
- Pixel-wise differences (format: `pred/expected`)
7. **In-Context Learning**: Add successful solutions to history for next iteration
**中文:**
对于每个 ARC 问题,求解器最多执行 10 次迭代:
1. **提示构建**:将问题格式化为带有训练示例的 ASCII 网格
2. **LLM 调用**:以温度 1.0 调用 LLM(Gemini 3 Pro)
3. **代码提取**:从 markdown 响应中解析 Python 代码
4. **沙箱执行**:在所有示例上安全运行 `transform(grid)` 函数
5. **验证**:检查是否所有训练示例都完全通过
6. **反馈生成**:如果失败,构建详细的错误反馈,显示:
- 哪些示例通过/失败
- 形状不匹配
- 逐像素差异(格式:`预测值/期望值`)
7. **上下文学习**:将成功的解决方案添加到历史记录中供下一次迭代使用
---
### 2. Parallel Expert Ensemble / 并行专家集成
**English:**
Multiple independent experts (1-8) solve problems concurrently:
1. **Parallel Execution**: Each expert has unique seed offset for diversity
2. **Result Grouping**: Solutions grouped by identical test outputs
3. **Voting Mechanism**:
- "Passers" = solutions where all training examples pass
- "Failures" = partial solutions
- Rank by vote count (most agreement wins)
4. **Diversity-First Selection**: Take 1 representative per unique output group
5. **Output**: Top 2 ranked results → Kaggle's 2 attempts per test case
**中文:**
多个独立专家(1-8 个)并行求解问题:
1. **并行执行**:每个专家有独特的种子偏移以确保多样性
2. **结果分组**:按相同的测试输出对解决方案进行分组
3. **投票机制**:
- "通过者" = 所有训练示例都通过的解决方案
- "失败者" = 部分解决方案
- 按投票数排名(共识最多者获胜)
4. **多样性优先选择**:每个独特输出组选取 1 个代表
5. **输出**:排名前 2 的结果 → Kaggle 每个测试用例的 2 次尝试机会
---
### 3. Prompt Engineering / 提示工程
**English:**
Three specialized prompts optimized for different reasoning:
| Prompt | Focus / 重点 |
|--------|--------------|
| `SOLVER_PROMPT_1` | Structured, step-by-step guidance / 结构化,逐步指导 |
| `SOLVER_PROMPT_2` | Hypothesis generation & iterative refinement / 假设生成和迭代优化 |
| `SOLVER_PROMPT_3` | Computer vision techniques, concise code / 计算机视觉技术,简洁代码 |
Each prompt emphasizes: Analyze → Hypothesize → Code → Test → Refine
**中文:**
三个针对不同推理优化的专用提示:
每个提示都强调:分析 → 假设 → 编码 → 测试 → 优化
---
### 4. Soft Scoring System / 软评分系统
**English:**
Instead of binary pass/fail, uses pixel-wise accuracy:
- `soft_score = mean(prediction == ground_truth)`
- Range: 0.0 (complete failure) to 1.0 (perfect)
- Helps guide improvement even with partial matches
**中文:**
使用逐像素准确度而非二元通过/失败:
- `软分数 = mean(预测 == 真实值)`
- 范围:0.0(完全失败)到 1.0(完美)
- 即使部分匹配也能指导改进
---
### 5. Safe Code Execution / 安全代码执行
**English:**
LLM-generated code runs in isolated subprocess:
- 1.5 second timeout per execution
- Only numpy, scipy, standard library available
- JSON I/O for result passing
- No network access
- Deterministic with PYTHONHASHSEED
**中文:**
LLM 生成的代码在隔离的子进程中运行:
- 每次执行 1.5 秒超时
- 仅提供 numpy、scipy、标准库
- 使用 JSON 进行结果传递
- 无网络访问
- 通过 PYTHONHASHSEED 确保确定性
---
### 6. Multi-Model Support / 多模型支持
**English:**
Supports 9+ models via LiteLLM abstraction:
| Provider | Models |
|----------|--------|
| Google | Gemini 2.5 Pro, Gemini 3 Pro Preview |
| OpenAI | GPT-5, GPT-5.1 |
| Anthropic | Claude Sonnet 4.5, Claude Haiku 4.5 |
| XAI | Grok-4, Grok-4-fast |
| Groq | GPT-OSS-120B |
**中文:**
通过 LiteLLM 抽象层支持 9+ 个模型:
| 提供商 | 模型 |
|--------|------|
| Google | Gemini 2.5 Pro, Gemini 3 Pro Preview |
| OpenAI | GPT-5, GPT-5.1 |
| Anthropic | Claude Sonnet 4.5, Claude Haiku 4.5 |
| XAI | Grok-4, Grok-4-fast |
| Groq | GPT-OSS-120B |
---
## 🔄 Execution Flow / 执行流程
```
https://t.co/vp4U3gs8db
↓
Load challenges JSON / 加载挑战 JSON
↓
For each problem (async) / 对每个问题(异步):
↓
solve_parallel_coding()
↓
[Expert 1] [Expert 2] ... [Expert N] (parallel / 并行)
↓
solve_coding() × 10 iterations / 10次迭代
↓
1. format_problem() → ASCII grid / ASCII 网格
2. build_prompt() → solver + feedback / 求解器 + 反馈
3. llm() → LLM response / LLM 响应
4. extract code / 提取代码
5. https://t.co/jEyVi4TQNo() → execute / 执行
6. if all pass: return success / 如果全部通过:返回成功
7. else: build feedback / 否则:构建反馈
↓
Group by test output / 按测试输出分组
Rank by voting / 按投票排名
↓
Return top 2 results / 返回前 2 个结果
↓
build_kaggle_two_attempts() → submission.json
``` December 12, 2025
<ポストの表示について>
本サイトではXの利用規約に沿ってポストを表示させていただいております。ポストの非表示を希望される方はこちらのお問い合わせフォームまでご連絡下さい。こちらのデータはAPIでも販売しております。



