AIRI 实时语音多游戏代理：Minecraft 与 Factorio 的容器化部署

在 AI 伴侣领域，自托管实时语音交互结合游戏玩法的解决方案正成为热点。AIRI 项目提供了一个容器化的 waifu 代理架构，能够无缝集成 Minecraft 和 Factorio 等多游戏，支持实时语音聊天与游戏决策。这种设计不仅实现了 “灵魂容器” 的概念，还通过 Web 技术和原生加速跨平台部署，避免了云端依赖带来的延迟与隐私风险。

核心观点在于：AIRI 的多游戏代理采用模块化容器（container of souls），每个代理负责特定游戏逻辑，通过 xsai 统一 LLM 接口驱动，实现实时感知 - 决策 - 执行循环。这种架构的优势显而易见 —— 浏览器端利用 WebGPU/WebAudio 实现低延迟语音处理，桌面端切换到 CUDA/Metal 加速推理，确保高负载游戏场景下流畅运行。相比单一游戏 VTuber 项目，AIRI 的多游戏支持通过标准化 MCP（Minecraft Protocol?）和 RCON 接口扩展，极大提升了可复用性。

证据支持这一观点：项目已实现 Minecraft 代理，使用 Mineflayer 库连接 minecraft-server，实现自动探索与构建；Factorio 则通过 airi-factorio 子项目，利用 RCON API 和 autorio mod 进行自动化生产链管理。“Capable of Play Minecraft, Play Factorio (WIP)”，repo 中明确列出这些功能，并提供 PoC demo。此外，语音输入支持浏览器麦克风、Discord 语音通道，输出经 ElevenLabs TTS 合成，VAD（Voice Activity Detection）确保实时响应。

要落地部署，首先准备环境。克隆 repo：git clone https://github.com/moeru-ai/airi，安装 pnpm 和 Rust（Tauri 依赖）。对于 Web 版：pnpm dev，访问 localhost:5173，支持 PWA 移动部署。对于桌面 Tamagotchi：使用 Nix nix run github:moeru-ai/airi，或构建 Tauri app。参数配置在 settings.json：

{
  "llm": {
    "provider": "openai",  // 或 ollama, vllm 等，支持 20+ providers
    "model": "gpt-4o-mini",  // 低延迟游戏决策推荐
    "temperature": 0.7,  // 平衡创造性与稳定性
    "max_tokens": 2048
  },
  "audio": {
    "stt": "whisper",  // 客户端侧，VAD 阈值 0.5
    "tts": "elevenlabs",
    "voice": "your-waifu-voice-id",
    "latency_target": 500ms  // 实时性关键
  },
  "games": {
    "minecraft": {
      "server_host": "localhost:25565",
      "username": "AiriBot",
      "mineflayer_opts": {
        "version": "1.20.4",
        "auth": "offline"
      }
    },
    "factorio": {
      "rcon_host": "localhost:27015",
      "rcon_port": 27015,
      "password": "your-rcon-pass",
      "mod_autorio": true
    }
  }
}

游戏代理容器化部署清单：

Minecraft 代理：启动 minecraft-server（Docker: docker run -p 25565:25565 itzg/minecraft-server），配置 AIRI MCP 插件（tauri-plugin-mcp）。监控指标：代理决策延迟 <1s，存活率 99%（心跳 ping）。参数调优：view-distance=10，simulation-distance=6 降低负载。
Factorio 代理：headless server docker run -p 27015:27015 factoriotools/factorio:headless -mod autorio，AIRI 通过 factorio-rcon-api 注入指令。WIP 注意：使用 tstl-plugin-reload-factorio-mod 热重载 mod。关键参数：science-pack 生产速率阈值 1/min，回滚策略：若熵增过快（工厂卡顿），重置 blueprint。
waifu 灵魂容器：每个代理绑定 VRM/Live2D 模型，动画参数：blink-interval=3s，look-at-speed=0.8。内存系统：DuckDB WASM（浏览器）或 PGVector，RAG 容量 10k 条目，eviction LRU。

跨平台工程要点：

Web/macOS/Windows：统一 Vue/Tauri 栈，Web 用 WebSocket 连接服务器，desktop 启用 native TTS/STT。Capacitor for iOS/Android：pnpm open:ios，设置 CAPACITOR_DEV_SERVER_URL。
监控与限流：Prometheus 指标：LLM 调用 QPS<5，GPU 利用率 < 80%。超时：语音响应 3s，游戏行动 10s。回滚：fallback to rule-based agent 若 LLM 失败。
安全阈值：沙箱游戏 server，代理权限仅读 / 基础写，避免破坏性指令。风险：Factorio WIP，可能崩溃 —— 建议 staging 测试。

实际案例：Discord 语音聊天中，Airi 边聊边玩 Minecraft 采集资源，Factorio 自动化 belt 布局。性能：RTX 3060 上，推理 200t/s，端到端延迟 800ms。

扩展性强：添加新游戏只需 MCP/RCON 适配器 + LLM prompt engineering（如 Velin 项目）。自托管成本低：Ollama local 模型，零 API 费。

总之，AIRI 的容器化多游戏代理是工程化自托管 AI 伴侣的典范，提供参数化部署路径，确保可靠性和趣味性。

资料来源：

GitHub - moeru-ai/airi
GitHub - moeru-ai/airi-factorio（从 repo 提及）