注意: 国内可能无法直接访问,需网络代理
Wayback Machine(网页时光机)是由美国非营利组织互联网档案馆(Internet Archive)创建并运营的全球最大网页历史存档服务,官方访问地址为 https://web.archive.org/。该项目于 1996 年启动网页抓取工作,2001 年正式向公众开放,迄今已走过近 30 年历史。
📦 数据规模
截至 2025 年 10 月,Wayback Machine 完成了一项里程碑式的壮举——存档网页总数突破一万亿页,数据体量超过 10 万 TB,被誉为"文明级别"的互联网记忆库。其最早的存档记录可追溯至 1995 年,涵盖全球数亿个不同域名下的网站。
🔍 核心功能
- 历史版本浏览:输入任意网址,通过日历视图选择特定日期,即可回溯该网页在过去某一时刻的完整页面内容,包括图片、排版、文字等,即使原网站已关闭或删除,依然可以查阅。
- Save Page Now(立即存档):任何人无需注册,可将指定网页手动提交存档,生成永久可引用的存档链接,有效防止网页内容丢失或被篡改后无从溯源。
- 站点搜索:基于对数千亿外链的索引,可检索超过 3.5 亿个站点的首页存档,并按抓取次数排序呈现结果。
- API 接口:提供 CDX API 等接口,供开发者、研究人员批量查询存档状态或集成至自身工具中。
- 浏览器扩展:支持 Chrome、Firefox、Safari、iOS 及 Android 平台,可在浏览器中一键查看当前页面的历史存档,或快速保存当前页面。
🎯 典型使用场景
- 新闻与调查报道:查阅已被删除或修改的政府网页、企业声明等原始内容,是调查记者的重要工具。
- 学术与法律引用:为已失效的网页生成稳定的存档链接,广泛用于学术论文注释和法律诉讼中的网页内容取证。
- SEO 与竞品分析:对比竞争对手网站在不同时期的内容变化,分析其关键词策略和页面结构演变。
- 互联网历史研究:研究早期互联网的视觉风格与内容生态,了解各类网站的历史沿革。
- 网站恢复:当自有网站意外丢失数据时,可通过存档记录寻回部分历史内容。
⚠️ 使用注意
Wayback Machine 遵循 robots.txt 协议,部分网站主动拒绝被抓取,因此存档并非完整覆盖所有网页。此外,存档页面中的图片、CSS 样式或脚本资源有时可能无法完整加载。网站所有者可通过发送邮件至 info@archive.org 申请移除特定存档内容。
2025 年起,《纽约时报》、《卫报》等主流媒体开始封锁 Wayback Machine 的爬虫,原因是担忧存档内容被 AI 公司用于模型训练,这一趋势对存档完整性带来一定影响。
加载中...