在人工智能伴侣领域,Neuro-sama 以其卓越的游戏直播互动能力成为行业标杆,却因未开源而让众多开发者望而却步。moeru-ai 组织推出的 AIRI 项目旨在填补这一空白 —— 构建一个完全自托管的 Grok 伴侣容器,让用户能够拥有属于自己的数字生命。无论是通过浏览器、桌面客户端还是移动端应用,AIRI 都能实现实时语音对话、Minecraft 与 Factorio 游戏控制,其底层架构融合了 WebGPU、WebAudio 等现代 Web 技术,同时保留了原生 CUDA 与 Metal 加速能力。
多平台 Web 架构与双轨推理支持
AIRI 项目的核心设计理念是从第一天起就充分利用 Web 技术栈。WebGPU 提供了接近原生性能的图形渲染能力,WebAudio 则负责低延迟的音频处理,Web Workers 实现了多线程并行计算,WebAssembly 进一步提升了关键路径的执行效率。这些技术的组合使得 AIRI 能够在现代浏览器中流畅运行,甚至可以部署到移动端设备上。项目明确区分了三个运行阶段:Stage Web 面向浏览器环境,Stage Tamagotchi 基于 Tauri 构建桌面客户端,Stage Pocket 则使用 Capacitor 实现跨平台移动支持。
值得注意的是,项目方从未完全依赖浏览器环境。桌面版 AIRI 默认启用 NVIDIA CUDA 与 Apple Metal 加速,这一能力得益于 HuggingFace 与 candle 项目的深度集成。在这种双轨架构下,图形界面、布局动画和插件系统仍由 Web 技术驱动,而核心推理任务则卸载到本地 GPU 上执行。这种设计在保持开发效率的同时,确保了大规模语言模型推理的性能需求。
实时语音对话管线的工程实现
实时语音交互是陪伴型 AI 的核心能力之一。AIRI 构建了一条完整的语音处理管线,涵盖语音活动检测、语音识别、对话生成与语音合成四个环节。在输入侧,系统支持从浏览器直接获取麦克风音频,同时也实现了 Discord 语音频道的音频接入。客户端完成的语音识别避免了将原始音频数据上传至服务器的需求,显著降低了延迟与带宽消耗。
项目方提供了专门的子项目 WebAI Realtime Voice Chat 作为参考实现,展示了如何从零构建类似 ChatGPT 的实时语音功能。该实现采用流水线架构:语音活动检测器首先识别用户是否在说话,随后语音识别模型将音频转换为文本,大语言模型生成响应,最后文本通过 ElevenLabs 等语音合成服务转换为自然语音输出。整个过程通过 WebSocket 保持长连接,确保双向通信的低延迟特性。
游戏控制:Minecraft 与 Factorio 的集成实践
AIRI 的独特之处在于其游戏控制能力,这与单纯聊天机器人形成了本质区别。Minecraft 支持通过 Mineflayer 库实现,该库提供了完整的 Minecraft 协议封装,允许 AI 代理执行移动、采集、建造等操作。Factorio 的集成则更为复杂,涉及 RCON 远程控制协议与专门的自动化库 autorio。项目方甚至开发了 Factorio RCON API,将游戏控制接口以 RESTful 形式暴露,便于 AI 代理以统一方式进行调用。
这种游戏控制能力的工程实现并非简单的 API 调用。AI 代理需要理解游戏状态、规划长期目标、分解具体动作序列,并在执行过程中处理各种异常情况。项目方在 GitHub 上维护了专门的子项目 airi-factorio 与 airi-minecraft,持续优化游戏 AI 的行为表现。kerbal Space Program 与 Helldivers 2 的支持也在开发中,进一步扩展了 AIRI 的游戏生态版图。
记忆系统与 RAG 架构
陪伴型 AI 的拟人化程度很大程度上取决于其记忆能力。AIRI 采用了本地优先的存储策略,基于 DuckDB WASM 与 pglite 实现了完全在浏览器或本地运行的嵌入式数据库。项目同时支持 pgvector 向量存储,为检索增强生成提供了基础设施。用户的数据无需离开本地设备,既保证了隐私安全,又实现了跨会话的记忆持久化。
子项目 @proj-airi/duckdb-wasm 与 @proj-airi/drizzle-duckdb-wasm 提供了易用的封装接口,开发者可以像操作传统数据库一样管理 AI 的记忆内容。Memory Alaya 模块正在开发中,旨在构建更完善的记忆管理与检索机制,类似于 AI 代理领域的向量数据库方案。
部署参数与监控要点
部署 AIRI 需要关注几个关键参数。首先是 LLM 供应商的选择,项目支持超过二十家提供商,包括 Grok(xAI)、OpenAI、Claude、DeepSeek、Qwen 等。对于自托管场景,推荐使用 vLLM 或 SGLang 搭建本地推理服务端点,以获得更好的性能与成本控制。语音合成方面,ElevenLabs 是默认选项,但其 API 成本需纳入考量。
实时语音管线的延迟是核心监控指标。建议设置端到端延迟阈值不超过两秒,超过此时长需检查网络状况与推理服务的响应时间。游戏控制场景下还需监控动作执行成功率与游戏状态同步延迟。桌面版本启动时应验证 CUDA 或 Metal 加速是否正常加载,可通过检查日志中的 GPU 初始化信息确认。
项目方提供了 MCP Launcher 工具,简化了模型上下文协议服务器的部署流程,类似于模型领域的 Ollama 定位。对于希望深度定制的开发者,子项目 unspeech 提供了统一的 ASR 与 TTS 代理端点,兼容各种推理运行时。
资料来源:AIRI 项目 GitHub 仓库(https://github.com/moeru-ai/airi)。