在 AI 伴侣领域,自托管实时语音交互结合游戏玩法的解决方案正成为热点。AIRI 项目提供了一个容器化的 waifu 代理架构,能够无缝集成 Minecraft 和 Factorio 等多游戏,支持实时语音聊天与游戏决策。这种设计不仅实现了 “灵魂容器” 的概念,还通过 Web 技术和原生加速跨平台部署,避免了云端依赖带来的延迟与隐私风险。

核心观点在于:AIRI 的多游戏代理采用模块化容器(container of souls),每个代理负责特定游戏逻辑,通过 xsai 统一 LLM 接口驱动,实现实时感知 - 决策 - 执行循环。这种架构的优势显而易见 —— 浏览器端利用 WebGPU/WebAudio 实现低延迟语音处理,桌面端切换到 CUDA/Metal 加速推理,确保高负载游戏场景下流畅运行。相比单一游戏 VTuber 项目,AIRI 的多游戏支持通过标准化 MCP(Minecraft Protocol?)和 RCON 接口扩展,极大提升了可复用性。

证据支持这一观点:项目已实现 Minecraft 代理,使用 Mineflayer 库连接 minecraft-server,实现自动探索与构建;Factorio 则通过 airi-factorio 子项目,利用 RCON API 和 autorio mod 进行自动化生产链管理。“Capable of Play Minecraft, Play Factorio (WIP)”,repo 中明确列出这些功能,并提供 PoC demo。此外,语音输入支持浏览器麦克风、Discord 语音通道,输出经 ElevenLabs TTS 合成,VAD(Voice Activity Detection)确保实时响应。

要落地部署,首先准备环境。克隆 repo:git clone https://github.com/moeru-ai/airi,安装 pnpm 和 Rust(Tauri 依赖)。对于 Web 版:pnpm dev,访问 localhost:5173,支持 PWA 移动部署。对于桌面 Tamagotchi:使用 Nix nix run github:moeru-ai/airi,或构建 Tauri app。参数配置在 settings.json:

{
  "llm": {
    "provider": "openai",  // 或 ollama, vllm 等,支持 20+ providers
    "model": "gpt-4o-mini",  // 低延迟游戏决策推荐
    "temperature": 0.7,  // 平衡创造性与稳定性
    "max_tokens": 2048
  },
  "audio": {
    "stt": "whisper",  // 客户端侧,VAD 阈值 0.5
    "tts": "elevenlabs",
    "voice": "your-waifu-voice-id",
    "latency_target": 500ms  // 实时性关键
  },
  "games": {
    "minecraft": {
      "server_host": "localhost:25565",
      "username": "AiriBot",
      "mineflayer_opts": {
        "version": "1.20.4",
        "auth": "offline"
      }
    },
    "factorio": {
      "rcon_host": "localhost:27015",
      "rcon_port": 27015,
      "password": "your-rcon-pass",
      "mod_autorio": true
    }
  }
}

游戏代理容器化部署清单:

  1. Minecraft 代理:启动 minecraft-server(Docker: docker run -p 25565:25565 itzg/minecraft-server),配置 AIRI MCP 插件(tauri-plugin-mcp)。监控指标:代理决策延迟 <1s,存活率 99%(心跳 ping)。参数调优:view-distance=10,simulation-distance=6 降低负载。

  2. Factorio 代理:headless server docker run -p 27015:27015 factoriotools/factorio:headless -mod autorio,AIRI 通过 factorio-rcon-api 注入指令。WIP 注意:使用 tstl-plugin-reload-factorio-mod 热重载 mod。关键参数:science-pack 生产速率阈值 1/min,回滚策略:若熵增过快(工厂卡顿),重置 blueprint。

  3. waifu 灵魂容器:每个代理绑定 VRM/Live2D 模型,动画参数:blink-interval=3s,look-at-speed=0.8。内存系统:DuckDB WASM(浏览器)或 PGVector,RAG 容量 10k 条目,eviction LRU。

跨平台工程要点:

  • Web/macOS/Windows:统一 Vue/Tauri 栈,Web 用 WebSocket 连接服务器,desktop 启用 native TTS/STT。Capacitor for iOS/Android:pnpm open:ios,设置 CAPACITOR_DEV_SERVER_URL。

  • 监控与限流:Prometheus 指标:LLM 调用 QPS<5,GPU 利用率 < 80%。超时:语音响应 3s,游戏行动 10s。回滚:fallback to rule-based agent 若 LLM 失败。

  • 安全阈值:沙箱游戏 server,代理权限仅读 / 基础写,避免破坏性指令。风险:Factorio WIP,可能崩溃 —— 建议 staging 测试。

实际案例:Discord 语音聊天中,Airi 边聊边玩 Minecraft 采集资源,Factorio 自动化 belt 布局。性能:RTX 3060 上,推理 200t/s,端到端延迟 800ms。

扩展性强:添加新游戏只需 MCP/RCON 适配器 + LLM prompt engineering(如 Velin 项目)。自托管成本低:Ollama local 模型,零 API 费。

总之,AIRI 的容器化多游戏代理是工程化自托管 AI 伴侣的典范,提供参数化部署路径,确保可靠性和趣味性。

资料来源