注意: 國內可能無法直接訪問,需網絡代理
Wayback Machine(網頁時光機)是由美國非營利組織互聯網檔案館(Internet Archive)創建並運營的全球最大網頁歷史存檔服務,官方訪問地址爲 https://web.archive.org/。該項目於 1996 年啓動網頁抓取工作,2001 年正式向公衆開放,迄今已走過近 30 年曆史。
📦 數據規模
截至 2025 年 10 月,Wayback Machine 完成了一項里程碑式的壯舉——存檔網頁總數突破一萬億頁,數據體量超過 10 萬 TB,被譽爲"文明級別"的互聯網記憶庫。其最早的存檔記錄可追溯至 1995 年,涵蓋全球數億個不同域名下的網站。
🔍 核心功能
- 歷史版本瀏覽:輸入任意網址,通過日曆視圖選擇特定日期,即可回溯該網頁在過去某一時刻的完整頁面內容,包括圖片、排版、文字等,即使原網站已關閉或刪除,依然可以查閱。
- Save Page Now(立即存檔):任何人無需註冊,可將指定網頁手動提交存檔,生成永久可引用的存檔鏈接,有效防止網頁內容丟失或被篡改後無從溯源。
- 站點搜索:基於對數千億外鏈的索引,可檢索超過 3.5 億個站點的首頁存檔,並按抓取次數排序呈現結果。
- API 接口:提供 CDX API 等接口,供開發者、研究人員批量查詢存檔狀態或集成至自身工具中。
- 瀏覽器擴展:支持 Chrome、Firefox、Safari、iOS 及 Android 平臺,可在瀏覽器中一鍵查看當前頁面的歷史存檔,或快速保存當前頁面。
🎯 典型使用場景
- 新聞與調查報道:查閱已被刪除或修改的政府網頁、企業聲明等原始內容,是調查記者的重要工具。
- 學術與法律引用:爲已失效的網頁生成穩定的存檔鏈接,廣泛用於學術論文註釋和法律訴訟中的網頁內容取證。
- SEO 與競品分析:對比競爭對手網站在不同時期的內容變化,分析其關鍵詞策略和頁面結構演變。
- 互聯網歷史研究:研究早期互聯網的視覺風格與內容生態,瞭解各類網站的歷史沿革。
- 網站恢復:當自有網站意外丟失數據時,可通過存檔記錄尋回部分歷史內容。
⚠️ 使用注意
Wayback Machine 遵循 robots.txt 協議,部分網站主動拒絕被抓取,因此存檔並非完整覆蓋所有網頁。此外,存檔頁面中的圖片、CSS 樣式或腳本資源有時可能無法完整加載。網站所有者可通過發送郵件至 info@archive.org 申請移除特定存檔內容。
2025 年起,《紐約時報》、《衛報》等主流媒體開始封鎖 Wayback Machine 的爬蟲,原因是擔憂存檔內容被 AI 公司用於模型訓練,這一趨勢對存檔完整性帶來一定影響。
加載中...