首页 第 388 页

2025-12-11

本地 PII 防火墙：流式 Guardrails 零配置隐私拦截

在本地侧拦截 PII 与机密再送入 ChatGPT，用流式 Guardrails 实现零配置隐私防火墙。

ai-security · 2025-12

2025-12-11

本地 PII 防火墙：在请求到达 ChatGPT 前实时拦截隐私与密钥

基于浏览器扩展+本地 BERT 的双层过滤器，零外部请求，可插拔 SDK，适合企业与个人在 AI 聊天场景下落地零信任隐私防护。

ai-security · 2025-12

2025-12-11

拆解 Qwen3-Omni 原生多模态推理系统：统一音频-视觉-文本编解码与流式调度实现

Qwen3-Omni 通过 AuT 编码器、TM-RoPE 位置编码与 Thinker-Talker MoE 架构，实现四模态统一序列输入与 234ms 低延迟流式输出。详解工程参数、并发优化与部署清单。

ai-systems · 2025-12

2025-12-11

基于 VCMI 开源引擎注入跨平台 C++ 插件与 Lua 脚本扩展

实战剖析如何为 Heroes III VCMI 引擎注入跨平台 C++ 插件与 Lua 脚本框架，包括接口设计、事件总线与 mod 打包要点。

systems-engineering · 2025-12

2025-12-11

用Rust打造可插拔AI Agent运行时：Goose的MCP插件机制与工程化参数

Rust实现的Goose Agent运行时，通过MCP插件化设计支持任意LLM驱动的全流程自动化，附工程化参数与监控清单。

ai-systems · 2025-12

2025-12-11

实测 Qwen3-Omni-Flash：单模型同步多模态推理的延迟与显存底线

面向单模型原生多模态推理，给出端到端延迟实测、显存优化参数与部署清单。

ai-systems · 2025-12

2025-12-11

实测 Qwen3-Omni-Flash 原生多模态推理链路与端侧延迟：跨模态并行调度器拆解

用 234 ms 首包实测切入，拆解 Thinker-Talker MoE 背后跨模态并行调度器的四条机制与可落地参数，给出并发曲线与端侧优化清单。

ai-systems · 2025-12

2025-12-11

Qwen3-Omni-Flash 8GB 吞吐延迟曲线实测：端侧量化策略与原生多模态推理

实测 Qwen3-Omni-Flash 在 8GB 显存 RTX 4060 下的 INT8 量化吞吐/延迟曲线，给出工程参数清单与监控要点。

ai-systems · 2025-12

2025-12-11

用 Wirebrowser 实现断点驱动的 JavaScript 堆内存搜索：大型 Web 应用内存泄漏自动化调试

基于 BDHS 算法，优化大型 Web 应用的内存泄漏检测流程，提供断点搜索、可视化追溯与运行时修补参数配置。

systems-engineering · 2025-12

2025-12-11

Qwen3-Omni-Flash：8B端侧原生多模态流式推理的异构缓存设计

聚焦Qwen3-Omni-Flash原生多模态推理：流式I/O与异构缓存设计，让8B端侧模型实时处理图文音混合请求。

ai-systems · 2025-12

2025-12-11

VCMI 如何把 90 年代 Heroes III 引擎重构成可热插拔、Lua 可扩展的现代游戏运行时

拆解 VCMI 的 C++ 重构思路：JSON 描述 + 动态脚本加载 + Lua 事件总线，实现零冲突模组与热插拔。

systems-engineering · 2025-12

2025-12-11

Goose：Rust 实现的 LLM 驱动本地代码执行运行时

聚焦 Goose 如何借助 Rust 异步运行时把 LLM 调用翻译成可验证的本地代码执行，并给出并发、成本、安全三维度可落地参数与回滚策略。

ai-systems · 2025-12

2025-12-11

VCMI 如何用 C++ 重写 Heroes III 引擎并暴露 Lua 模组 API，实现跨平台沙盒与热重载

拆解 VCMI 的 C++ 引擎重写、Lua 事件总线与热重载机制，给出可落地的跨平台沙盒参数与开发清单。

systems-engineering · 2025-12

2025-12-11

用 Qwen3-Omni-Flash 原生多模态推理链实战：端到端语音+视觉 token 融合与流式输出优化

面向实时多模态交互，详解 Qwen3-Omni-Flash 原生推理链中语音视觉 token 融合机制与流式输出低延迟工程参数。

ai-systems · 2025-12

2025-12-11

拆解 Qwen3-Omni-Flash 原生多模态架构：统一编码器+交错推理的延迟与吞吐优化要点

从统一编码到交错推理，逐帧拆解 Qwen3-Omni-Flash 如何在 234 ms 首包延迟下仍保持单模态性能无损，并给出可直接落地的显存与并发参数表。

ai-systems · 2025-12

2025-12-11

Qwen3-Omni-Flash原生多模态推理的端侧量化与流式调度实践

用 INT4 量化把 30B 模型压到消费级显存，用流式 chunk 把延迟压到 200ms 以内，给出可落地的显存/延迟/并发参数表与回滚策略。

ai-systems · 2025-12

2025-12-11

Qwen3-Omni-Flash 多模态流式并发实测：延迟、显存与可复制脚本

给出 1×A100 上 Qwen3-Omni-Flash 并发 1/2/4 路的延迟与显存曲线，附 vLLM 压测脚本与三项优化阈值，可直接落地。

ai-systems · 2025-12

2025-12-11

RAGFlow Agentic RAG：Planner-Executor 多跳工作流实战

RAGFlow v0.20+ 内建 Agentic Workflow，用 Planner-Executor 串联多跳查询、API调用与动态重排，提升召回15%、准确率显著。给出无代码配置清单与阈值参数。

ai-systems · 2025-12

2025-12-11

Qwen3-Omni-Flash 本地多模态推理优化：量化与批调度实测

实测 Qwen3-Omni-Flash 端到端多模态延迟与显存，FP16 14GB→INT4 <4GB，RTX4080 跑 15s 视频；vLLM 批调度参数与 KV-cache 压缩清单。

ai-systems · 2025-12

2025-12-11

Qwen3-Omni-Flash 原生多模态流式推理：234 ms 端到端延迟与 28 GB 显存实战

基于官方技术报告与实测数据，拆解 Qwen3-Omni-Flash 在 234 ms 冷启动首包、28 GB 显存内并发 2 路音视频流的关键参数与落地清单。

ai-systems · 2025-12

最新文章 · 第 388 页