在主流搜索巨头将资源倾注于商业化内容与算法优化的背景下,小规模个人站点面临的可见性困境日益严峻。Kagi 作为一家以用户体验为核心的付费搜索服务,其 Small Web 项目提供了一种截然不同的索引思路:通过精选订阅源与人工审核相结合的方式,为独立创作者构建专门的搜索入口。本文将从架构设计、索引管道、收录标准三个维度,解析这一方案的技术实现,并为期望提升搜索可见性的个人站点运营者提供可落地的参数参考。

元搜索与专用索引的双层架构

Kagi 搜索服务的整体架构采用元搜索与自建索引相结合的模式。在查询处理流程中,系统首先向多个第三方搜索提供商发送请求,获取标准化格式的 URL、摘要与评分;与此同时,Kagi 维护着三套自建专用索引 ——Teclis、TinyGem 以及 Small Web—— 分别覆盖不同类型的内容源。当用户发起搜索请求时,外部引擎结果与内部索引结果会在查询时进行合并,随后通过 Kagi 自有的排名逻辑进行重新打分,并应用个性化调整(如用户对特定域名的升降级设置)。这种设计的核心优势在于:既利用了成熟搜索提供商的广泛覆盖能力,又保留了针对特定内容类型的精细化控制权。

Small Web 索引在这套架构中承担着独特使命。它不追求覆盖整个商业化网络,而是聚焦于独立创作者生成的、非商业性质的个人博客与教育性内容。通过为这类内容建立独立的索引集合,Kagi 能够在相关查询中将小站点结果与商业化内容进行差异化融合,从而降低大型平台与 SEO 优化内容对搜索结果的垄断程度。

索引管道:基于 RSS 的轻量级采集

Small Web 索引的构建遵循一条清晰的数据管道:订阅源管理、内容采集、索引写入、查询服务。整个流程围绕 RSS 与 Atom 提要展开,这一选择体现了务实的技术考量 —— 对于个人站点而言,RSS 几乎是最普遍的标准化输出格式,无需专门的爬虫策略即可获取结构化内容。

具体而言,Kagi 在 GitHub 上维护着一个开放仓库,其中包含 smallweb.txt(个人博客)、smallyt.txt(YouTube 频道)、smallcomic.txt(独立漫画)三个文件,分别列出所有收录站点的 RSS 订阅地址。采集程序定期轮询这些订阅源,提取全文内容、元数据(标题、作者、发布时间)以及摘要信息,并写入专用的 Small Web 索引。采集到的内容会同时服务于两个场景:独立的 Small Web 网站与搜索结果的增强 API。

在时间维度上,Small Web 采用了严格的时效性窗口。网站展示的 "最近" 内容限定为发布后七天内的新帖子,超出这一窗口的内容不会出现在 Small Web 网站首页,但仍会保留在搜索索引中供长尾查询使用。此外,系统单独维护常青内容的评分机制,确保高质量的旧文不会因为时间流逝而彻底丧失可见性。这种双轨处理方式既满足了用户对即时信息的消费需求,又保护了深度内容的长期价值。

收录标准与质量控制参数

Small Web 索引的高质量定位依赖于一套精细的收录标准体系。这些标准既是过滤器,也是对站点运营者的行为指引,理解这些参数有助于个人站点针对性地优化自身的搜索可见性。

内容类型要求方面,系统明确要求英文内容、信息性或教育性定位、非商业性质。禁止出现任何形式的广告、未披露的附属链接、新闻通讯订阅弹窗以及 LLM 自动生成内容。提交规则要求申请者同时推荐至少两个非本人站点,且这些站点此前未被收录,以此确保社区驱动的筛选机制。

时效性门槛包括两项硬性指标:最近十二个月内必须有可检索的帖子(满足入池的基本要求),而在网站上展示的帖子必须新于此七天(满足首页曝光的要求)。值得注意的是,YouTube 频道的收录额外施加了频率与规模限制:每周发布不超过两期,且订阅者数量需低于四十万。

技术兼容性方面,虽然 iframe 嵌入能力并非搜索结果展示的必要条件,但却是 Small Web 网站展示的硬性要求。站点若无法在 iframe 中呈现内容,将失去在独立网站上的曝光机会,但仍可参与搜索结果的融合。这一细节反映了 Kagi 对内容控制权的重视 —— 通过强制嵌入能力,确保展示层面的品牌一致性。

查询融合与排名策略

Small Web 结果的查询时处理遵循两种模式。在默认的 "All" 视图中,系统会将 Small Web 结果混入主搜索结果流,并赋予适当的权重提升 —— 当独立创作者的深度内容与商业化页面在相关性上接近时,前者会获得额外的排名加成。同时,Kagi 提供独立的 "Small Web" 视图切换,用户可以一键过滤至仅展示精选索引的结果。在两种模式下,用户均可进行域名级别的升降级与屏蔽操作,这些个性化调整在基础排名完成后生效,确保用户对搜索结果的实际控制力。

排名逻辑的设计理念强调内容深度与创作真实性。系统会对页面质量进行评估,削减低信息量、高广告密度、用户体验恶劣的页面权重。这一机制直接回应了小型个人站点的核心优势 —— 通常缺乏商业化动机,内容更聚焦于知识分享与兴趣表达。

实践参数清单

对于期望进入 Small Web 索引的个人站点运营者,以下参数可作为自检清单:确保 RSS 订阅输出包含全文或至少包含足够完整的摘要;保持至少每季度更新一次的频率,且最近十二个月内存在可检索内容;移除页面上的广告组件与订阅弹窗;内容定位应为信息性或教育性,避免任何商业推广意图;如期望在 Small Web 网站展示,需确保站点支持 iframe 嵌入。满足这些条件后,可通过 GitHub 仓库提交订阅源申请。


资料来源:Kagi Small Web 官方文档与 GitHub 仓库(https://github.com/kagisearch/smallweb)