首页 第 394 页

2025-12-09

Devstral 2 与 Vibe CLI：本地化大模型如何一句 vibe 出可合并 PR

拆解 Mistral 新发布的 Devstral 2（72.2% SWE-Bench）与 Vibe CLI，看本地化大模型如何端到端 vibe 出可合并 PR。

ai-systems · 2025-12

2025-12-09

拆解 Devstral 的 SWE-Bench 冠军回路：补丁级生成与测试回环加速

基于开源代理框架，Devstral 以 46.8% 拿下 SWE-Bench Verified 第一，其补丁生成与测试反馈回路的关键参数与优化策略。

ai-systems · 2025-12

2025-12-09

拆解 Mistral Devstral 2 的 SWE-Bench 微调配方：数据构造、强化学习奖励与推理时 patch 验证流水线

在现有 46.8% 成绩基础上，按 Mistral 披露的三段式配方继续放大，推导出迈向 72.2% 的关键阈值与可落地参数清单。

ai-systems · 2025-12

2025-12-09

Devstral 2 如何冲击 72.2%：自研沙盒、并行验证与失败回放

以 46.8% 为起点，拆解 Mistral 若要再提 25 个百分点可落地的评估工程化框架与参数。

ai-systems · 2025-12

2025-12-09

Devstral 2 如何在 RTX 3090 上蒸馏出高 pass@1 的代码修复小模型

基于 46.8% SWE-Bench Verified 的 Devstral，给出单卡 RTX 3090 蒸馏到 7B、pass@1 提升至 55% 的完整工程参数与监控方案。

ai-systems · 2025-12

2025-12-09

cuTile Python：轻量级 DSL 加速 PyTorch 算子 3-5 倍

cuTile 用几行 Python DSL 表达 GPU 分块与共享内存优化，实现 PyTorch 自定义算子 3-5 倍提速的关键参数与融合实践。

ai-systems · 2025-12

2025-12-09

Devstral 2 以 72.2% SWE-Bench Verified 刷新开源上限：训练数据配比与后训练策略复盘

拆解 Devstral 2 如何通过 80/20 真实+合成数据配比与 RL+DPO 后训练策略，实现开源模型 SWE-Bench Verified 72.2% 历史新高，提供微调参数清单与部署监控要点。

ai-systems · 2025-12

2025-12-09

拆解 Devstral 2 在 SWE-Bench 72.2% 的验证机制与 Vibe CLI 实时干预：本地代码智能体流水线落地

基于 Mistral Devstral 2 的 SWE-Bench 高分验证机制与 Vibe CLI 实时干预架构，给出本地代码智能体流水线的参数配置、监控要点与风险阈值。

ai-systems · 2025-12

2025-12-09

Devstral 本地 CLI 实战：零样本函数级补丁与多文件 diff 回写参数拆解

基于 Devstral 46.8% SWE-Bench Verified 领先开源成绩，拆解本地 CLI 零样本函数级补丁生成、多文件 diff 回写工程参数与监控清单。

ai-systems · 2025-12

2025-12-09

用运行时干预钩子把 LLM 的生成流在 token 级做热替换，实现可控输出修正

面向多模型流式输出，给出 SSE 连接管理与断线续传的工程化参数与监控要点。

ai-systems · 2025-12

2025-12-09

把 Devstral 跑在 3090：一条 CLI 工作流与四项关键参数

官方并未发布‘Devstral 2’与 72.2% 分数，但社区已验证：单卡 RTX 3090 可无损跑通 Devstral-Small 全流程，本文给出量化下载、vLLM 起服务、OpenHands 对接与监控点清单。

ai-systems · 2025-12

2025-12-09

Devstral 2 如何以 72.2% SWE-Bench 逼近 Sonnet-3.5：Agent 策略与沙盒加速参数清单

假如 Devstral 2 真拿到 72.2%，它在 Agent 编排、工具调用与沙盒加速上必须落地的三项参数与两项风险控制。

ai-systems · 2025-12

2025-12-09

Devstral 46.8% SWE-Bench 开源第一：本地部署与 LoRA 微调 CLI 实战

Devstral-Small-2505 在 SWE-Bench Verified 达 46.8%，开源领先。详解 Ollama 一键运行、vLLM 多卡部署及 Axolotl LoRA 微调全流程。

ai-systems · 2025-12

2025-12-09

用 Python 绑定 cuTile：快速上手 NVIDIA GPU 高阶 Tile 原语

通过 cuTile Python 绑定，掌握 GPU Tile 编程模型，从向量加法到矩阵乘的高阶原语实战参数与优化要点。

ai-systems · 2025-12

2025-12-09

Epsilon：纯 Go 零依赖 WASM 虚拟机的冷启动与内存优化实践

聚焦嵌入式与 Serverless 场景，拆解 Epsilon 如何通过纯 Go 栈式解释器把冷启动压到 0.3 ms、常驻内存降到 150 KB，并给出可落地的编译标签与快照预热参数。

systems-engineering · 2025-12

2025-12-09

Nia 给编码智能体注入结构化上下文：用检索式知识库替代手工提示工程

面向多模型流式输出，给出 SSE 连接管理与断线续传的工程化参数与监控要点。

ai-systems · 2025-12

2025-12-09

给编码代理注入“不会丢”的实时业务上下文

用短时记忆晋升、钩子注入、动态工具三种模式，把业务规则、字段语义、约束条件实时塞回编码 Agent，降低多轮幻觉，给出可落地的参数与防注入校验代码。

ai-systems · 2025-12

2025-12-09

给编码 Agent 注入项目级上下文的可落地方案：Nia 的实时知识切片与注入机制

用 Nia 的三件套（监听→切片→注入）让编码 Agent 获得秒级更新的项目脑，附双阈值语义折叠算法与 Token 经济学参数。

ai-systems · 2025-12

2025-12-09

用 cuTile Python 写 GPU 并行 kernel：像 NumPy 广播一样简洁却跑满 Tensor Core

基于 CUDA 13.1 的 cuTile Python，15 行代码即可写出打满 Tensor Core 的 GPU kernel，并给出 Tile 尺寸、dtype、occupancy 等可直接落地的调优参数。

ai-systems · 2025-12

2025-12-09

给编码智能体注入更细粒度的仓库级上下文，提升多文件补全与重构准确率

解析 JetBrains Junie 如何通过 RAG+MCP 把‘行级补全’升级为‘仓库级任务’，并给出 2 min 级多文件接口生成的落地参数与回滚策略。

ai-systems · 2025-12

最新文章 · 第 394 页