在 AI 伴侣领域,自托管实时语音交互结合游戏玩法的解决方案正成为热点。AIRI 项目提供了一个容器化的 waifu 代理架构,能够无缝集成 Minecraft 和 Factorio 等多游戏,支持实时语音聊天与游戏决策。这种设计不仅实现了 “灵魂容器” 的概念,还通过 Web 技术和原生加速跨平台部署,避免了云端依赖带来的延迟与隐私风险。
核心观点在于:AIRI 的多游戏代理采用模块化容器(container of souls),每个代理负责特定游戏逻辑,通过 xsai 统一 LLM 接口驱动,实现实时感知 - 决策 - 执行循环。这种架构的优势显而易见 —— 浏览器端利用 WebGPU/WebAudio 实现低延迟语音处理,桌面端切换到 CUDA/Metal 加速推理,确保高负载游戏场景下流畅运行。相比单一游戏 VTuber 项目,AIRI 的多游戏支持通过标准化 MCP(Minecraft Protocol?)和 RCON 接口扩展,极大提升了可复用性。
证据支持这一观点:项目已实现 Minecraft 代理,使用 Mineflayer 库连接 minecraft-server,实现自动探索与构建;Factorio 则通过 airi-factorio 子项目,利用 RCON API 和 autorio mod 进行自动化生产链管理。“Capable of Play Minecraft, Play Factorio (WIP)”,repo 中明确列出这些功能,并提供 PoC demo。此外,语音输入支持浏览器麦克风、Discord 语音通道,输出经 ElevenLabs TTS 合成,VAD(Voice Activity Detection)确保实时响应。
要落地部署,首先准备环境。克隆 repo:git clone https://github.com/moeru-ai/airi,安装 pnpm 和 Rust(Tauri 依赖)。对于 Web 版:pnpm dev,访问 localhost:5173,支持 PWA 移动部署。对于桌面 Tamagotchi:使用 Nix nix run github:moeru-ai/airi,或构建 Tauri app。参数配置在 settings.json:
{
"llm": {
"provider": "openai", // 或 ollama, vllm 等,支持 20+ providers
"model": "gpt-4o-mini", // 低延迟游戏决策推荐
"temperature": 0.7, // 平衡创造性与稳定性
"max_tokens": 2048
},
"audio": {
"stt": "whisper", // 客户端侧,VAD 阈值 0.5
"tts": "elevenlabs",
"voice": "your-waifu-voice-id",
"latency_target": 500ms // 实时性关键
},
"games": {
"minecraft": {
"server_host": "localhost:25565",
"username": "AiriBot",
"mineflayer_opts": {
"version": "1.20.4",
"auth": "offline"
}
},
"factorio": {
"rcon_host": "localhost:27015",
"rcon_port": 27015,
"password": "your-rcon-pass",
"mod_autorio": true
}
}
}
游戏代理容器化部署清单:
-
Minecraft 代理:启动 minecraft-server(Docker:
docker run -p 25565:25565 itzg/minecraft-server),配置 AIRI MCP 插件(tauri-plugin-mcp)。监控指标:代理决策延迟 <1s,存活率 99%(心跳 ping)。参数调优:view-distance=10,simulation-distance=6 降低负载。 -
Factorio 代理:headless server
docker run -p 27015:27015 factoriotools/factorio:headless -mod autorio,AIRI 通过 factorio-rcon-api 注入指令。WIP 注意:使用 tstl-plugin-reload-factorio-mod 热重载 mod。关键参数:science-pack 生产速率阈值 1/min,回滚策略:若熵增过快(工厂卡顿),重置 blueprint。 -
waifu 灵魂容器:每个代理绑定 VRM/Live2D 模型,动画参数:blink-interval=3s,look-at-speed=0.8。内存系统:DuckDB WASM(浏览器)或 PGVector,RAG 容量 10k 条目,eviction LRU。
跨平台工程要点:
-
Web/macOS/Windows:统一 Vue/Tauri 栈,Web 用 WebSocket 连接服务器,desktop 启用 native TTS/STT。Capacitor for iOS/Android:
pnpm open:ios,设置 CAPACITOR_DEV_SERVER_URL。 -
监控与限流:Prometheus 指标:LLM 调用 QPS<5,GPU 利用率 < 80%。超时:语音响应 3s,游戏行动 10s。回滚:fallback to rule-based agent 若 LLM 失败。
-
安全阈值:沙箱游戏 server,代理权限仅读 / 基础写,避免破坏性指令。风险:Factorio WIP,可能崩溃 —— 建议 staging 测试。
实际案例:Discord 语音聊天中,Airi 边聊边玩 Minecraft 采集资源,Factorio 自动化 belt 布局。性能:RTX 3060 上,推理 200t/s,端到端延迟 800ms。
扩展性强:添加新游戏只需 MCP/RCON 适配器 + LLM prompt engineering(如 Velin 项目)。自托管成本低:Ollama local 模型,零 API 费。
总之,AIRI 的容器化多游戏代理是工程化自托管 AI 伴侣的典范,提供参数化部署路径,确保可靠性和趣味性。
资料来源: