ウェブアーカイブ

2018年3月29日 (木) 18:39時点における>つるつるぽんちょによる版 (へきブロ探索で得た知識など)

ウェブアーカイブまたは(ウェブ)魚拓(ぎょたく)とは、あるサイトを保存し、アーカイブとするサービスである。

当ページでは主に恒心教とウェブアーカイブの関連性及び使い方について記述する。

概要

Webサイトは製作者がボンクラでない限りは随時恒心されており[1]事実追求や特定の作業中に相手が気づいて情報を消すこともある。またカラッキングについては、管理者が気付き次第復旧する場合が殆どである。このため、当WikiやWikipediaにおいて、リンク先が消えたり編集されていることはよくあることである。しかしながら、かようなことが起きれば事実関係が有耶無耶になってしまい、包皮民などからねつ造などと吹聴される場合もある。

特にTwitterにおいては、アカウント保持者が鍵をかけたり、アカウントそのものを削除する、あるいはTwitter社により凍結されることもありうる。そこで下記サイトに代表されるアーカイブサービスを利用することで、引用元が気付きあわてて削除なり編集なりをしても、当該項目の削除以前にアーカイブに登録しておけば引用元の真偽を証明でき、比較することで答え合わせもできる。

その他にも、魚拓経由で閲覧すると相手に広告収入(いわゆるアフィリエイト)が入らないというメリットがある。アフィブログが炎上した際にもよく用いられる。

おもなウェブアーカイブサービス

Internet Archive Wayback Machine

概要

ウェブアーカイブサービスではおそらく最大手である。基本的に自動でクロールして保存するが、手動で登録することもできる。ただし、すべて英語である点に注意。読みたいページが削除されていた場合は、諦めずにここを当たってみよう。運よく保存されている事がある。また読み込みの音楽ファイルも一緒にアーカイブされるため凝ったカラッキング[2]はこちらで魚拓を取った方が再現性が高い場合がある。
archive.isやweb魚拓からのアクセスを禁止している。

使用方法

魚拓登録は右下部の「Save Page Now」の下部のボックスに対象のURLを入力し「SAVE PAGE」を押す。
魚拓の検索はGoogle検索にはほとんど引っかからず、独自の検索機能も日本語検索の精度は非常に低い。そのため対象のurlを画面上部のボックスに入力して検索するしかない。一方、対象ページの下位ページを検索する機能は非常に優秀で「https://web.archive.org/web/*/対象URL/*」[3]をアドレスバーに直接入力するとアドレスや魚拓の取られた年月日等でソートできるばかりかキーワードで絞り込み検索までできる。ただし日本語表示や検索には対応していないため各自でUTF-8変換ツール等を使う必要がある。

Webpage archive(archive.is, archive today)

概要

上のInternet Archiveとは違い、完全手動登録制であるが、Internet Archiveより再現性が高く、日本語で表記に対応しているのも特徴。このサイトの強みは余程の事がない限り取得したページが削除されない事である。そのため恒心教徒に最も利用されていると言っても過言ではない。但し取得した際のIPアドレスは相手に伝わる[4]ため必要に応じてTor[5]や串を利用すること。
ドメインはarchive.is、archive.fo、archive.li、archive.todayと、いくつかあるがページ名は共通している。archive.isがアク禁にされた場合でもarchive.fo、archive.li、archive.todayなら魚拓を取ることができる場合がある。また最近onion版が出来、Torによる閲覧、魚拓登録が簡易化された。

使用方法

魚拓登録は赤背景のボックスにURLを入力し「ページを保存」(又は「save the page」)を押す。同URLの魚拓が撮られていた場合「This page was last archived ~~~ ago」というダイアログが表示されるが「save the page」を押せば登録出来る。ダイアログが表示されない場合はブラウザや回線を変更したりキャッシュを削除したりすることで再度取得することができる。
魚拓のワード検索はトップページ下部の黒背景のボックスに入力すると利用でき、Googleエンジンを使用しているため抜けがあるもののInternet Archiveと比べてはるかに良く引っかかる。またURLを入力するとそのページを検索することができ、URLの末尾に*をつけると下位ページを一覧で表示させることもできる[6]。その消されにくいという性質と魚拓のURLだけでなく魚拓元のURLでも検索に引っかかる[7]ため魚拓の魚拓という形で使用されることがある。

ウェブ魚拓

概要

Flashも保存されるが上記2つと違い日本の会社が行っているサービスのため、削除要請や開示請求にあっさりと応じる。恒心教徒にはほとんど利用されていない。自分用に取っておけるサービスもあるが有料。恒心以外の日本人利用者は多いためニュースの魚拓等を探す際は有用。

使用方法

魚拓登録は「魚拓をURLで検索・取得」の下のボックスにURLを入力「検索と確認」を押すと確認ページに飛ばされる。確認ページ中部の「このまま魚拓を取る」の下の「取得」ボタンを押す。
魚拓のワード検索は「魚拓をフリーワードで検索」下のボックスに入力すればWebpage archive同様Googleエンジンを使用した検索が行われ日本語検索も優秀、ただし魚拓が一度も外部に貼られていないとgooglebotに認識されないため抜けは多い。またURL検索は下位ページ検索が実装されていないため、一つ一つ手打ちで確認するか過去の魚拓一覧から探し出すしかない[8]。そのため一度紛れてしまった魚拓を探し出すのは困難であるために意外と魚拓の魚拓を取ると権利者等に削除される可能性は低い。

Peeep.us

概要

上記三つと違い画像やCSS、JS等の読み込みファイルは保存されないがHTMLだけは保存される。自分だけが見れるサービスもある。ただし、Googleアカウントでログインする必要がある。一部ブラウザでは不正なサービスであると警告が出る模様。

使用方法

魚拓取得はページ中部の緑枠に囲まれたボックスにURLを入力し右の「submit」を押す。するとGoogleアカウントを入力するように誘導される。
魚拓検索機能は全く無いのでGoogleのサイト指定検索を使うことになる。

WebCite

概要

ここで紹介する中で最も使用されていないサイト。防弾状況等も不明。ただしその無名さからアクセス拒否しているサイトは限りなく少ない。Internet Archive Wayback Machineの魚拓を取れる数少ないサイトの一つであるという以外で利用価値は低い。

使用方法

「URL to Archive [url]:」の右のボックスに対象のURLを入力し、すぐ下のボックスにメールアドレスを入力する[9]。その他の項目は無視して「Submit」と書かれたボタンを押す。
ワード検索はGoogleのサイト指定検索しかなく、URL検索は下位ページ検索が実装されておらずweb魚拓と使用感は似ている。

GoogleやYahoo!のキャッシュ

概要

上記の魚拓サイトとは全く性質が異なり手動登録は(原則)出来ず、勝手に取得される。取得頻度や取得率がInternet Archive Wayback Machineと比べて高いことが特徴。だが他サービスによって魚拓を取らないと数日で消えてしまう。

使用方法

GoogleやYahoo!でワード検索すると、URLの横に「キャッシュ」もしくは「▼」をクリックする事で見ることができる。またGoogleであれば「cache:対象URL」で検索すれば最新のバージョンのキャッシュが表示される[10]

スクリーンショット

概要

各種魚拓とは違い捏造が可能な点から証拠能力が落ちるが、画像化することで保存が容易になり、魚拓以上に様々なサイトに拡散できるため削除しきることは不可能となる。また、アクセスを拒否することが不可能な点で魚拓に勝る。
捏造が疑われない方法として、ネット上でスクリーンショットを取得できるサービス[11]でスクリーンショットを撮影し出力されたURLを上記サイトで魚拓を取得するという方法がある。

なお、たまに登録失敗することがあるし、サービスごとの方針の違いによって消されたりすることもある。また、サイモントン療法協会公式サイト[12]のように、特定の魚拓対策を行っているサイトも稀にある。 サービス自体が終了する可能性も0ではないので特に有力情報を発見した場合は複数のサービスで魚拓を残すことやローカル環境に保存しておくことを推奨する。

出典・註釈

  1. 特にニュースサイトは恒心が早く、たとえばNHKのニュースは1日程度でページが消去されてしまうことが殆どである
  2. ネルケカラッキング(魚拓)沖縄電力カラッキング(魚拓)
  3. 当wikiの下位ページ検索(Internet Archive Wayback Machine)
  4. 魚拓を取った者の環境をなるべく再現しようとするために一瞬対象サイトにアクセスさせられる。診断くんなどのIPが直接表示されたりGoogle検索などの位置情報を表示されるサイトは特に注意が必要。
  5. 現在Torによるアクセスは弾かれている
  6. 当wikiの下位ページ検索(Webpage archive)
  7. 始めはリンクされないがしばらくするとリンクされるようになる?詳細不明
  8. 一日分が約60~200ページほどに分割されているため、手作業での検索はほぼ不可能である。
  9. 全く架空の物(karasawa@takahiro.comなど)でも通る
  10. 当wikiのGoogleキャッシュ
  11. 数多くあるがこれなど高画質で1枚で出力される。当ページwikiのスクリーンショット魚拓
  12. archive.isのIPをアク禁している。Web魚拓やarchive.org経由で保存できた。なお2018年3月現在解除されている模様

外部リンク