多平台AI研究Agent的自动化信息聚合与事实核验机制解析

在 AI 驱动的自动化研究工具领域，如何高效地从多个异构平台聚合信息并进行实时事实核验，一直是工程实现的核心挑战。last30days-skill 作为 GitHub Trending 今日榜单项目，提供了一套完整的多平台信息采集与事实核验解决方案。该项目以 Claude Code 插件形式运行，支持 Reddit、X、YouTube、Hacker News、Polymarket 等八个主流平台，能够在 2-8 分钟内完成任意主题的深度调研并生成带有真实引用标注的结构化报告。本文从工程实现角度，解析其信息采集 pipeline 与事实核验机制的关键设计。

两阶段搜索架构：从广度发现到深度补充

last30days-skill 的核心创新在于其两阶段搜索架构。第一阶段执行广度发现，通过多个专用 API 并行抓取各平台内容：Reddit 搜索使用 OpenAI Responses API 的 web_search 工具并限定 reddit.com 域名；X 搜索调用内置的 Twitter GraphQL 客户端（Node.js 22+ 环境），在配置 AUTH_TOKEN 和 CT0 Cookie 的情况下可完全本地运行，无须浏览器交互；YouTube 搜索依赖 yt-dlp 工具，在检测到其安装于系统 PATH 后自动激活，除获取视频元数据外还会提取自动生成的字幕作为内容来源；Hacker News 通过 Algolia 免费 API 获取 stories 和评论数据；Polymarket 预测市场则调用 Gamma API 拉取实时赔率、交易量和流动性数据。

第二阶段执行智能补充搜索，这一设计解决了纯关键词匹配的覆盖率问题。在第一阶段结果返回后，系统会从提取的 @handle（来自 X）和 subreddit 名称（来自 Reddit）出发，针对性运行第二轮查询。例如，研究 “Open Claw” 主题时，系统自动发现 @openclaw 和 @steipete 这类关键账号，并执行 from:@handle 形式的精确查询。对于 Reddit，则利用其免费的 .json 搜索端点按发现的 subreddit 范围限定检索。这一阶段被 --quick 模式跳过以提升速度，在 --deep 模式下则进一步扩展检索深度至 50-70 个 Reddit 帖子和 40-60 条 X 内容。

多信号质量评分：超越简单关键词匹配

单纯聚合多平台内容并不能保证调研质量，last30days-skill 实现了复杂的多信号评分管道对所有结果进行质量排序。文本相似度引擎采用双向子串匹配结合同义词扩展和 token 级重叠评分，同一核心词的不同表达形式（如 "hip hop" 对应 "rap"，"MacBook" 对应 "Mac"）被纳入匹配范围。频道权威性权重根据来源账号的影响力对结果进行加权，确保来自核心创作者的内容获得更高曝光。

跨平台收敛检测是另一个关键机制。当同一事件或话题在多个平台同时出现时，系统通过混合相似度算法（字符 trigram Jaccard + token Jaccard）识别跨平台重复内容，并在输出中标注 [also on: Reddit, HN] 或 [also on: X, YouTube]。这种收敛信号是最强的相关性证据 —— 多个独立社区同时讨论同一话题，恰恰说明该话题具有实际影响力。

对于 Polymarket 预测市场，评分采用五因子加权模型：文本相关性占 30%、24 小时交易量占 30%、流动性深度占 15%、价格变动速度占 15%、结果竞争力（即胜率）占 10%。值得注意的是 outcome-aware scoring 机制 —— 系统将用户查询与单个市场仓位而非仅与市场标题进行匹配，这使得 “Arizona Basketball” 查询能够发现 “NCAA Tournament Winner” 市场中的具体赔率数据，而非仅匹配标题包含该词的市场。

实时事实核验：从收敛检测到预测市场校验

事实核验是该系统区别于普通搜索聚合工具的核心能力。其核验逻辑分为三个层次。第一层是跨平台收敛检测 —— 当同一信息在 Reddit、X、YouTube、HN 等至少两个平台同时出现时，系统自动将其标记为高置信度信号。第二层是预测市场校验，Polymarket 的实时赔率提供了独特的真实验证维度：用户查询 “Anthropic odds” 时，系统不仅聚合社交媒体讨论，还会拉取 11 个 Polymarket 市场的实时数据（模型表现预期、IPO 可能性、估值预测等），金钱投票本身就是最硬的事实校准。

第三层是 handle 解析与身份验证。搜索 “Dor Brothers” 时，系统首先通过 WebSearch 解析其官方账号 @thedorbrothers，然后直接检索该账号的历史发文。由于这类 viral 内容往往在正文中不包含品牌名称，关键词搜索无法覆盖，但 handle 解析配合无主题过滤的检索可以捕获这类内容。系统还会验证解析的账号非 parody 或 fan 账号，确保引用准确性。

以 Kanye West 研究为例，系统在聚合 X 和 Reddit 讨论时发现疑似伪造的截图（Ye 评论 Kim 的 Complex 杂志帖子），随后通过 Grok 工具确认识别为伪造内容。输出报告中明确标注 “multiple Grok fact-checks confirmed it's likely fabricated”，同时保留了该 viral 内容的传播路径信息和社区反应，形成 “事实核验结果 + 原始舆情” 的完整叙事。

工程化落地的关键参数配置

对于希望在本地环境部署类似多平台研究 pipeline 的团队，以下是可落地的关键参数与配置建议。

API 密钥策略：核心数据源需要 ScrapeCreators API 密钥（覆盖 Reddit、TikTok、Instagram 三个平台，一次配置全局生效），X 搜索优先配置 AUTH_TOKEN 和 CT0 Cookie（从 x.com 开发者工具获取），备选方案为设置 XAI_API_KEY 使用 x.ai 的 x_search 后端。YouTube 依赖 yt-dlp（通过 brew install yt-dlp 或 pip install yt-dlp 安装）。可选的 Web 搜索后端包括 Brave Search（免费额度 2000 次 / 月）、Parallel AI（LLM 优化结果）或 OpenRouter/Perplexity Sonar Pro。

时间范围控制：默认回溯 30 天可通过 --days=N 参数调整。短期热点使用 --days=7 获得周维度聚合，长期趋势分析可扩展至 60 或 90 天。注意 Polymarket 市场的流动性随时间衰减，过往市场的数据可靠性需要结合 24 小时交易量指标筛选。

速度与深度权衡：系统提供三种运行模式。默认模式执行完整两阶段搜索，覆盖 8-10 个平台，耗时 2-8 分钟。--quick 模式跳过补充搜索阶段，YouTube 仅检索 10 个视频和 3 份字幕，适合需要快速概览的场景。--deep 模式扩展至 50-70 个 Reddit 帖子、40-60 条 X 内容和 8 份 YouTube 字幕，适合深度调研场景。

结果评分与过滤阈值：项目方未公开硬性的过滤阈值，但透露 v2.5 版本的盲测质量评分为 4.38/5.0（相比 v1 的 3.73/5.0 提升显著）。核心质量增益来自预测市场数据引入和跨平台收敛检测，建议在实际部署中重点监控这两个维度的信号覆盖度。

自动化与持久化：对于需要持续监控的场景，可部署 open 变体（将 variants/open/SKILL.md 复制到技能目录），配合 cron job 或 Open Claw 等常驻 bot 定期执行研究。研究成果默认持久化至 ~/Documents/Last30Days/ 目录（Markdown 格式），watchlist 模式下的数据存储于 ~/.local/share/last30days/research.db（SQLite）。

小结

last30days-skill 展示了一套完整的多平台 AI 研究自动化范式：两阶段搜索架构解决了覆盖率与精确性的矛盾，多信号质量评分系统将简单的关键词匹配升级为综合相关性判断，跨平台收敛检测与预测市场数据则提供了事实核验的硬锚点。其工程化价值不仅在于聚合了多少平台，而在于建立了从信息发现到真实验证的完整链路 —— 这正是自动化研究工具从 “信息罗列” 走向 “可信洞察” 的关键跃迁。对于需要构建类似系统的团队，建议优先实现两阶段搜索和跨平台收敛检测两个模块，再根据场景需求逐步集成预测市场数据和高级认证机制。

资料来源：https://github.com/mvanhorn/last30days-skill