ウェブアーカイブ

ウェブアーカイブまたは(ウェブ)魚拓(ぎょたく)とは、あるサイトを保存し、アーカイブとするサービスである。

当ページでは主に恒心教とウェブアーカイブの関連性及び使い方について記述する。

概要

Webサイトは製作者がボンクラでない限りは随時恒心されており[1]事実追求や特定の作業中に相手が気づいて情報を消すこともある。またカラッキングについては、管理者が気付き次第復旧する場合が殆どである。このため、当WikiWikipediaにおいて、リンク先が消えたり編集されていることはよくあることである。しかしながら、かようなことが起きれば事実関係が有耶無耶になってしまい、ねつ造などと吹聴される場合もある。

特にTwitterにおいては、アカウント保持者が鍵をかけたり、アカウントそのものを削除する、あるいはTwitter社により凍結されることもありうる。そこで下記サイトに代表されるアーカイブサービスを利用することで、引用元が気付きあわてて削除なり編集なりをしても、当該項目の削除以前にアーカイブに登録しておけば引用元の真偽を証明でき、比較することで答え合わせもできる。

その他にも、魚拓経由で閲覧すると相手に広告収入(いわゆるアフィリエイト)が入らないというメリットがある。アフィブログが炎上した際にもよく用いられる。

主なウェブアーカイブサービス

魚拓は取得に失敗することがあったり、サービスごとの方針の違いによって削除されたりすることもある。

また、サイモントン療法協会公式サイトや唐揚げコロッケ掲示板のように、魚拓対策を行っているサイトもある。Wayback Machine、ウェブ魚拓、FreezePageなど未規制のサービスを経由することで、archive.todayで保存できる可能性がある。

Peeep.usのようにサービス自体が終了する可能性もないわけではないので特に有力情報を発見した場合は複数のサービスで魚拓を残すことやローカル環境に保存しておくことを推奨する。

Wayback Machine

ウェブアーカイブサービスではおそらく最大手である。基本的に自動でクロールして保存するが、手動で登録することもできる。ただし、すべて英語である点に注意。読みたいページが削除されていた場合は、諦めずにここを当たると運良く保存されている場合がある。また読み込みの音楽ファイルも一緒にアーカイブされるため凝ったカラッキング[2]はこちらで魚拓を取った方が再現性が高い場合がある。

ウェブ魚拓からのアクセスを禁止している。また、法的リスクを避けるために削除申請が適応されやすいという面もあるようだ[3]

使用方法

魚拓登録は右下部の「Save Page Now」の下部のボックスに対象のURLを入力し「SAVE PAGE」を押す、もしくはhttps://web.archive.org/save/対象URLにアクセスする。もしくはPCの場合はブックマークにjavascript:void(open('https://web.archive.org/save/'+encodeURIComponent(document.location)))とブックマークレットを登録し、保存したいサイトで登録したブックマークレットを使う。(要js) なお、Sign in to use extra features: "Save outlinks",(以下省略)[4]、とあり会員登録するとそのページから飛べるリンクもついでに保存できるようである。

魚拓の検索はGoogle検索にはほとんど引っかからず、独自の検索機能[5]も日本語検索の精度は非常に低い。そのため対象のurlを画面上部のボックスに入力して検索するしかない。一方、対象ページの下位ページを検索する機能は非常に優秀でhttps://web.archive.org/web/*/対象URL/*[6]をアドレスバーに直接入力するとアドレスや魚拓の取られた年月日等でソートできるばかりかキーワードで絞り込み検索までできる。ただし日本語表示や検索には対応していないため各自でUTF-8変換ツール等を使う必要がある。

archive.today

Wayback Machineとは違い、完全手動登録制であるが、Wayback Machineより再現性が高く、日本語で表記に対応しているのも特徴。このサイトの強みは余程の事がない限り取得したページが削除されない事、また送信元のIPアドレスを開示することがない[7]である[8]。そのため恒心教徒に最も利用されていると言っても過言ではない。但し取得した際のIPアドレスはarchive.today側に伝わる[9][10]ため必要に応じてTorやProxyを利用すること。

ドメインは.today[11]、.is、.fo、.li、.vn、.md、.phと、いくつかあるがページ名は共通している。

archive.isがアク禁にされた場合でも.vn、.li、.phなら魚拓を取ることができる場合がある。また最近.onion[12][13]ができ、Torによる閲覧、魚拓登録が簡易化された。

なお、スマホで魚拓を閲覧する際に何かしらのリンク(内部リンク含む)を踏むと、スパムサイトに飛ばされる可能性が高いので要注意[14]。この件に関し、茨城県警が注意喚起をしている[15]

ChromeやFirefox、Edgeを使用しているのであれば拡張機能を使うことで効率良く魚拓の蒐集、確認ができる。大量に魚拓を取る必要がある場合は半ば必須。[16]

使用方法

魚拓登録は赤背景のボックスにURLを入力し「ページを保存」(又は「save the page」)を押す、もしくはhttps://archive.vn/?run=1&url=対象URLにアクセスする。同URLの魚拓が撮られていた場合「This page was last archived ~~~ ago」というダイアログが表示されるが6分以上経過しているとき「save the page」を押せば登録出来る。ダイアログが表示されない場合はブラウザや回線を変更したりキャッシュを削除したりすることで再度取得することができる。

魚拓のワード検索はトップページ下部の黒背景のボックスに入力すると利用でき、Googleエンジンを使用しているため抜けがあるもののWayback Machineと比べてはるかに良く引っかかる。またURLを入力するとそのページを検索することができ、URLの末尾に*をつけると下位ページを一覧で表示させることもできる[17]。その消されにくいという性質と魚拓のURLだけでなく魚拓元のURLでも検索に引っかかる[18]ため魚拓の魚拓という形で使用されることがある。

ウェブ魚拓

Flashも保存されるが上記2つと違い日本の会社が行っているサービスのため、削除要請や開示請求にあっさりと応じる[19]。恒心教徒にはほとんど利用されていないが、長谷川亮太が書き遺したSNSやブログが保存されている。自分用に取っておけるサービスもあるが有料。恒心以外の日本人利用者は多いためニュースの魚拓等を探す際は有用。

使用方法

魚拓登録は「魚拓をURLで検索・取得」の下のボックスにURLを入力「検索と確認」を押すと確認ページに飛ばされる。確認ページ中部の「このまま魚拓を取る」の下の「取得」ボタンを押す。

魚拓のワード検索は「魚拓をフリーワードで検索」下のボックスに入力すればarchive.today同様Googleエンジンを使用した検索が行われ日本語検索も優秀、ただし魚拓が一度も外部に貼られていないとGooglebotに認識されないため抜けは多い。またURL検索は下位ページ検索が実装されていないため、一つ一つ手打ちで確認するか過去の魚拓一覧[20]から探し出すしかない[21]。そのため一度紛れてしまった魚拓を探し出すのは困難であるために意外と魚拓の魚拓を取ると権利者等に削除される可能性は低い。

WebCite

ここで紹介する中で最も使用されていないサイト。防弾状況等も不明。ただしその無名さからアクセス拒否しているサイトは限りなく少ない。ウェイバックマシンの魚拓を取れる数少ないサイトの一つであるという以外で利用価値は低い。現在魚拓の収集は行なっていない模様[22]

使用方法

「URL to Archive [url]:」の右のボックスに対象のURLを入力し、すぐ下のボックスにメールアドレスを入力する[23]。その他の項目は無視して「Submit」と書かれたボタンを押す。

ワード検索はGoogleのサイト指定検索しかなく、URL検索は下位ページ検索が実装されておらずウェブ魚拓と使用感は似ている。


arquivo.pt

ポルトガルのサイトらしい。ダウンしていることも多いとか

使用方法

アドレスを入力する


GoogleやYahoo!のキャッシュ

上記の魚拓サイトとは全く性質が異なり手動登録は(原則)出来ず、勝手に取得される。取得頻度や取得率がウェイバックマシンと比べて高いことが特徴。だが他サービスによって魚拓を取らないと数日で消えてしまう。

使用方法

GoogleやYahoo!でワード検索すると、URLの横に「キャッシュ」もしくは「▼」をクリックする事で見ることができる。またGoogleであればcache:対象URLで検索すれば最新のバージョンのキャッシュが表示される[24]

スクリーンショット

各種魚拓とは違い捏造が可能な点から証拠能力が落ちるが、画像化することで保存が容易になり、魚拓以上に様々なサイトに拡散できるため削除しきることは不可能となる。また、アクセスを拒否することが不可能な点で魚拓に勝る。

使用方法

捏造が疑われない方法として、ネット上でスクリーンショットを取得できるサービス[25]でスクリーンショットを撮影し出力されたURLを上記サイトで魚拓を取得するというものがある。

閉鎖済のウェブアーカイブサービス

Peeep.us

2018年9月頃にサービスを終了した模様[26]

画像やCSS、JS等の読み込みファイルは保存されないがHTMLだけは保存される。自分だけが見れるサービスもある。ただし、Googleアカウントでログインする必要がある。一部ブラウザでは不正なサービスであると警告が出る模様。

使用方法

魚拓取得はページ中部の緑枠に囲まれたボックスにURLを入力し右の「submit」を押す。するとGoogleアカウントを入力するように誘導される。

魚拓検索機能は全く無いのでGoogleのサイト指定検索を使うことになる。

外部リンク

出典・註釈

  1. 特にニュースサイトは恒心が早く、たとえばNHKニュースは1日程度でページが消去されてしまうことが殆どである。
  2. ネルケカラッキング(魚拓)沖縄電力カラッキング(魚拓)
  3. ウェブアーカイブ綜合>>5(魚拓) - マヨケー
  4. 会員登録すると他にも「外部リンクの保存」(略)などが使えますといったニュアンスだろう
  5. 「唐澤貴洋」の検索結果
  6. 当Wikiの下位ページ検索
  7. F&Q 「Do you preserve archivers' privacy? E.g. not disclose the source IP address?」の節
  8. 検証のために藤原太一田中一哉に関する虚偽の魚拓を添付しておく。個人レベルの権限で削除できるならば、この魚拓も消えているはずである
  9. 魚拓を取った者の環境をなるべく再現しようとするために一瞬対象サイトにアクセスさせられる。前述の通りarchive.today側からネットに強い弁護士などにIPアドレスを渡すことはないが、IPが直接表示されるサイトやGoogle検索などの位置情報を表示するサイト、天気予報があるサイトなどは特定の材料になることがあり、さらに、カラッキングされたサイトに関しては生ipのアクセスにより自身がカラッキングに関与したと国営セコムに疑われる可能性があるので、特に注意が必要。
  10. F&Q 「Do you preserve archivers' privacy? E.g. not disclose the source IP address?」の節
  11. 現在は.phにリダイレクトされる。
  12. archivecaslytosk.onion
  13. archiveiya74codqgiixo33q62qlrqtkgmcitqx5u2oeqnmn5bpcbiyd.onion
  14. 本来であればリンク先の魚拓がある場合はその魚拓に、なければ魚拓でない普通のサイトに飛ぶ。
  15. 茨城県警察ホームページを模倣したウェブサイトにご注意ください/茨城県警察( ​www.pref.ibaraki.jp/kenkei/a05_introduction/announce/notice.html​ の魚拓)
  16. ブックマークレットでも代用可(要js) javascript:void(open('https://archive.today/?run=1&url='+encodeURIComponent(document.location)))
  17. 当Wikiの下位ページ検索
  18. 始めはリンクされないがしばらくするとリンクされるようになる?詳細不明
  19. 「ウェブ魚拓」が取得した利用者のIPアドレスを開示(魚拓) - GIGAZINE
  20. 過去の魚拓
  21. 一日分が約60~200ページほどに分割されているため、手作業での検索はほぼ不可能である。
  22. サイトの上部にWe are currently not accepting archiving requests.(現在アーカイブリクエストは受け付けていない)と書かれている
  23. 全く架空の物(karasawa@takahiro.comなど)でも通る
  24. 当wikiのGoogleキャッシュ
  25. 数多くあるがこれ[リンク切れ]など高画質で1枚で出力される。当Wikiのスクリーンショット( ​kwout.com/grab?address=https://sonshi.xyz/​ の魚拓)
  26. Error 404 (Page not found)!!1( ​peeep.us/​ の魚拓)

関連項目