当一个国家在政治版图上消失时,它的数字身份 —— 域名系统中的国家代码顶级域(ccTLD)—— 将何去何从?2026 年 3 月,独立研究员 Jacob Filipp 发布了一份包含 21,864 个已失效 .yu 域名的完整列表,其中 13,292 个在互联网档案馆(Wayback Machine)中存有归档副本。这组数据不仅是一份历史记录,更为技术社区提供了关于 ccTLD 生命周期管理的珍贵案例。我们可以从中提取可落地的工程参数与监控策略,用以应对未来类似场景。
国家代码顶级域名的失效机制
ccTLD 的生命周期与传统国家主权紧密绑定。.yu 域名属于前南斯拉夫社会主义联邦共和国,该国于 1990 年代初期解体,随后分裂为多个独立国家。2006 年黑山独立后,.yu 域名的管理实体塞尔维亚和黑山国家顶级域注册局(RNIDS)正式申请注销该顶级域。2009 年开始清算流程,2010 年 .yu 彻底从互联网根域名服务器中移除,所有基于该顶级域的网站在技术层面变得不可解析。
这种失效并非单纯的技术操作,而涉及复杂的法律归属、注册数据迁移与历史存档问题。与商业顶级域(如 .com、.net)不同,ccTLD 的存续直接取决于主权实体的存在状态。当领土边界发生变化时,域名系统中的「国家」概念便面临重新定义的挑战。类似情形已在基里巴斯(.ki)、图瓦卢(.tv)等面临海平面上升威胁的国家身上初现端倪,未来可能愈发常见。
从技术实现角度,域名失效包含三个关键节点:首先是注册局层面的「冻结期」,此时域名虽可续费但禁止新注册;其次是「宽限期」,已注册域名可被赎回;最后是「删除期」,域名从注册局数据库中彻底清除并释放回公共池。.yu 的处置方式较为特殊 —— 整个顶级域被直接注销而非重新分配,这意味着所有历史数据需要在注销前完成导出与归档。
遗留域名归档的工程实践
Jacob Filipp 在获取这批域名数据的过程中,展示了若干值得复用的技术手段。其核心思路并非直接扫描整个 .yu 命名空间(通配符查询需要互联网档案馆授权),而是利用特定的历史索引入口逐层下探。
第一个入口是 www.yu 网站。该站点由前南斯拉夫 ISP Memodata 运营,其域名列表页面按字母顺序收录了几乎所有注册的 .yu 域名。Jacob 利用 Wayback Machine 的 CDX Server API 批量获取该站点的历史快照,再通过正则表达式从 HTML 中提取域名列表。这里的关键参数是使用 id_ URL 模式 —— 这是互联网档案馆提供的一种特殊重写方式,可返回未经链接重写处理的原始页面,从而确保提取到的域名格式干净可解析。
第二个入口是 CDX API 本身。通过构造针对子域名的查询(如 url=*.co.yu、url=*.org.yu),可以枚举特定二级域下的所有历史 URL。需要注意的限制是:大规模通配符查询默认被禁止,需向档案馆工作人员申请授权方可执行。实际工程中,更可行的策略是先获取已知的域名列表,再用批量 CDX 查询逐一检测每个域名的存档状态。
第三个入口是学术资源。特拉维夫大学学者 Anat Ben-David 在其论文《What does the Web remember of its deleted past? An archival reconstruction of the former Yugoslav top-level domain》中,通过抓取维基媒体邮件列表中 Nikola Smolenski 维护的种子列表,结合链接图扩展,最终重建出 17,460 个唯一 .yu 网站的网络图谱。这提示我们:学术论文与历史存档列表往往包含不公开的元数据,是域名考古的重要补充来源。
综合上述三个来源,Jacob 最终产出的数据集包含 21,864 个独立域名,其中约 60% 在 Wayback Machine 中存在至少一个归档快照。这一比例显著高于互联网档案馆对随机样本的覆盖率,说明 .yu 作为特定历史时期的数字遗产,其存档价值已得到社区的部分认可。
可落地的技术参数与监控清单
基于 .yu 案例的实践经验,可以提炼出以下工程参数,供技术团队在处理类似 ccTLD 注销场景时参考。
在数据采集层面,单次 CDX 查询的返回上限通常为数千条记录,需通过分页(page 参数)与游标机制实现全量枚举。对于按字母分组的列表页面(如 www.yu 的 /domain.asp?slovo=all 及其分页),建议并行抓取所有字母索引页以提高效率。域名去重时应注意大小写规范化与国际化域名(IDN)的 punycode 转换。
在归档检测层面,CDX 查询的推荐参数组合为:matchType=host(匹配主机名而非精确 URL)、collapse=urlkey(去重)、filter=mimetype:text/html(仅保留 HTML 文档)、filter=statuscode:^2(仅保留成功响应)。批量检测时建议添加请求间隔(≥200ms)以避免触发速率限制。若需获取归档页面的原始内容,可使用 url= 参数的完整 URL 形式直接查询。
在监控预警层面,针对处于政治变动期的 ccTLD,应建立以下监控指标:注册局公告中的「冻结期」「宽限期」时间节点;根域名服务器中该 ccTLD 的 NS 记录变更日志;相关学术论文与媒体报道的情感趋势。当监测到主权实体存续性出现不确定性时,应提前启动域名清单的快照采集。
在数据保留层面,建议采用「三副本」策略:一份存储于本地数据库(如 SQLite 或 PostgreSQL),一份导出为 CSV/JSON 供公开共享,一份提交至互联网档案馆的 Save Page Now 功能实现云端存档。Jacob 提供的 CSV 文件正是第三种策略的产物 —— 它不仅便于研究者二次分析,也为后续的数字化人文研究奠定了数据基础。
风险与边界
本文所述方法在实践中面临若干约束。其一,ccTLD 的注销流程缺乏国际统一规范,部分国家可能在未提前公告的情况下直接移除根服务器记录,导致归档窗口极短。其二,并非所有历史网站均被存档 —— 根据互联网档案馆的爬虫策略,政治敏感或需认证的站点往往缺席于归档库。其三,域名列表的商业使用可能涉及隐私合规,特别是当列表包含个人注册的博客或小微企业站点时。
此外,ccTLD 的归档不仅是技术问题,更是数字主权的伦理议题。.yu 案例中,一个已不复存在的国家,其互联网遗产被零散地保存在 Wayback Machine、学术论文与个人项目中,缺乏系统性的国家层面数字档案管理机制。这一空缺在未来可能需要由 ICANN、各国注册局与学术机构协作填补。
小结
21,864 个 .yu 域名的归档实践,揭示了国家代码顶级域名在政治实体消亡后面临的技术与治理挑战。通过 CDX API 的批量查询、历史索引页面的数据提取与学术资源的交叉验证,我们可以构建可复用的遗留域名采集管线。在操作层面,关键参数包括:使用 id_ 模式获取原始链接、采用 matchType=host 与 collapse=urlkey 进行去重枚举、以及建立覆盖注册局公告、Root Server 日志与学术舆情的监控体系。随着全球地缘政治格局的持续演变,类似的域名遗产管理需求将不断涌现,现在积累的经验与方法论将成为未来数字考古的重要基础设施。
资料来源:Jacob Filipp 在 jacobfilipp.com/yu/ 发布的《21,864 Yugoslavian .yu Domains》及其公开的 CSV 数据集;Anat Ben-David 发表的相关学术论文;互联网档案馆 CDX Server API 文档。