スナップショットの取得頻度はウェブサイトによって異なっていて[11]、「Worldwide Web Crawls」内のウェブサイトはクロール毎に一回アーカイブされたサイトがある「クロールリスト」に含まれている[11]。たとえば「Wide Crawl Number 13」は2015年1月9日に始まり、2016年7月11日に完成した[15]。しかし、複数のクロールがある時点で同時進行していることがあり、また特定のサイトが複数のクロールリストに含まれるため、サイトのクロール頻度が大きく異なることが多い[11]。
歴史的に、ウェイバックマシンはRobots Exclusion Standard (robots.txt)の設定でウェブサイトをクロールできるかできないか、既にクロールされているか、そのウェブサイトのアーカイブが一般向けに閲覧できるかを判断している。ウェブサイト管理者は任意でrobots.txtを使ってウェイバックマシンをオプトアウトするか設定できる。robots.txtの設定を遡及的に適用していて、もしインターネットアーカイブをブロックしている場合、そのドメインから過去にアーカイブされたページも直ちに利用できなくなる。加えて、インターネットアーカイブは「時々ウェブサイト管理者が、我々に直接連絡したり、サイトのクロールやアーカイブを止めるように求めることがあり、この要求に我々は従っている。」と声明している[37]。さらに、「インターネットアーカイブは自身の資料をコレクションに追加することを望まない人のウェブサイトやその他インターネットドキュメントを保存したり提供することは考えていない。」とも述べている[38][39]。
Oakland Archiveの規定
Waybackの遡及的除外規定は2002年にカリフォルニア大学バークレー校の情報管理学部が出した、ウェブサイト管理者がサイトのアーカイブへのアクセスを阻止する権利について書かれている「Recommendations for Managing Removal Requests and Preserving Archival Integrity」の一部に基づいている[40]。Waybackは高額訴訟を避けるためにこの規定を遵守している[41]。
2004年10月の訴訟である、「Telewizja Polska USA, Inc. v. Echostar Satellite」, No. 02 C 3293, 65 Fed. R. Evid. Serv. 673 (N.D. Ill. October 15, 2004)は、訴訟の当事者がウェイバックマシンのアーカイブを有効な証拠の典拠とした初めての裁判とされている。Telewizja PolskaはTVPポロニア(英語版)のプロバイダでエコースター(英語版)はディッシュ・ネットワークを運営している。裁判の手続きの前に、エコースターはTelewizja Polskaウェブサイトの過去のコンテンツの証拠になるウェイバックマシンのスナップショットを提出しようとしたが、Telewizja Polskaは伝聞証拠禁止の原則や認証されていない典拠であることを理由にスナップショットを採用しないように予備的申し立て(英語版)を行ったが、アランダー・キーズ判事はTelewizja Polskaによる伝聞証拠禁止の原則の主張を退け、TVPの裁判での証拠としての除外を求める予備的申し立てを認めなかった[58][59]。
^ abcArora, Sanjay K.; Li, Yin; Youtie, Jan; Shapira, Philip (May 5, 2015). “Using the wayback machine to mine websites in the social sciences: A methodological resource” (英語). Journal of the Association for Information Science and Technology67 (8): 1904–1915. doi:10.1002/asi.23503. ISSN2330-1635.
^Rossi, Alexis (25 October 2013). "Fixing Broken Links on the Internet". archive.org. San Francisco, CA, US: Collections Team, the Internet Archive. 2014年11月7日時点のオリジナルよりアーカイブ。2015年3月25日閲覧。We have added the ability to archive a page instantly and get back a permanent URL for that page in the Wayback Machine. This service allows anyone – wikipedia editors, scholars, legal professionals, students, or home cooks like me – to create a stable URL to cite, share or bookmark any information they want to still have access to in the future.
^The VirusTotal Team (25 March 2015). "207.241.226.190 IP address information". virustotal.com. Dublin 2, Ireland: VirusTotal. 2014年7月14日時点のオリジナルよりアーカイブ。2015年3月25日閲覧。2015-03-25: Latest URLs hosted in this IP address detected by at least one URL scanner or malicious URL dataset. ... 2/62 2015-03-25 16:14:12 [complete URL redacted]/Renegotiating_TLS.pdf ... 1/62 2015-03-25 04:46:34 [complete URL redacted]/CBLightSetup.exe
^Advisory provided by Google (25 March 2015). "Safe Browsing Diagnostic page for archive.org". google.com/safebrowsing. Mountain View, CA, US: Google. 2015年4月6日時点のオリジナルよりアーカイブ。2015年3月25日閲覧。2015-03-25: Part of this site was listed for suspicious activity 138 time(s) over the past 90 days. ... What happened when Google visited this site? ... Of the 42410 pages we tested on the site over the past 90 days, 450 page(s) resulted in malicious software being downloaded and installed without user consent. The last time Google visited this site was on 2015-03-25, and the last time suspicious content was found on this site was on 2015-03-25. ... Malicious software includes 169 trojan(s), 126 virus, 43 backdoor(s).
^Sampath Kumar, B.T.; Prithviraj, K.R. (October 21, 2014). “Bringing life to dead: Role of Wayback Machine in retrieving vanished URLs” (英語). Journal of Information Science41 (1): 71–81. doi:10.1177/0165551514552752. ISSN0165-5515.
^Jeff (23 September 2002). "exclusions from the Wayback Machine"(Blog). Wayback Machine Forum. Internet Archive. 2007年2月11日時点のオリジナルよりアーカイブ。2007年1月4日閲覧。 Author and Date indicate initiation of forum thread.
^ abInternet Archive v. Shell, 505 F.Supp.2d 755 at justia.com, 1:2006cv01726 (Colorado District Court August 31, 2006) (“'April 25, 2007 Settlement agreement announced.' Filing 65, 2007-04-30: '...therefore ORDERED that this matter shall be DISMISSED WITH PREJUDICE...'”).
^ abBabcock, Lewis T., Chief Judge (13 February 2007). "Internet Archive v. Shell Civil Action No. 06cv01726LTBCBS"(PDF). 2014年1月25日時点のオリジナルよりアーカイブ(PDF)。2015年3月25日閲覧。1) Internet Archive's motion to dismiss Shell's counterclaim for conversion and civil theft (Second Cause of Action) is GRANTED, 2) Internet Archive's motion to dismiss Shell's counterclaim for breach of contract (Third Cause of Action) is DENIED; 3) Internet Archive's motion to dismiss Shell's counterclaim for Racketeering under RICO and COCCA (Fourth Cause of Action) is GRANTED.
^Samson, Martin H., Phillips Nizer LLP (2007). "Internet Archive v. Suzanne Shell". internetlibrary.com. Internet Library of Law and Court Decisions. 2014年8月3日時点のオリジナルよりアーカイブ。2015年3月25日閲覧。More importantly, held the court, Internet Archive's mere copying of Shell's site, and display thereof in its database, did not constitute the requisite exercise of dominion and control over defendant's property. Importantly, noted the court, the defendant at all times owned and operated her own site. Said the Court: 'Shell has failed to allege facts showing that Internet Archive exercised dominion or control over her website, since Shell's complaint states explicitly that she continued to own and operate the website while it was archived on the Wayback machine. Shell identifies no authority supporting the notion that copying documents is by itself enough of a deprivation of use to support conversion. Conversely, numerous circuits have determined that it is not.'
^brewster (25 April 2007). "Internet Archive and Suzanne Shell Settle Lawsuit". archive.org. Denver, CO, USA: Internet Archive. 2010年12月5日時点のオリジナルよりアーカイブ。2015年3月25日閲覧。Both parties sincerely regret any turmoil that the lawsuit may have caused for the other. Neither Internet Archive nor Ms Shell condones any conduct which may have caused harm to either party arising out of the public attention to this lawsuit. The parties have not engaged in such conduct and request that the public response to the amicable resolution of this litigation be consistent with their wishes that no further harm or turmoil be caused to either party.