Wayback Machine(Web archive)とは?使い方や削除方法を紹介。古いサイトを見直すことができます。

waybackmachineトップ

 

今回のお話は「Wayback Machine(Web archive)」(=ウェイバックマシン)というサイトのお話です。
皆さんはホームページの過去データというものはご存知でしょうか?
過去データってどういう意味かといいますと、たとえば自身の会社のホームページの歴史が保存されているサイトです。
昔公開されていた ページだけど、更新されてして、確認できない。
利用規約などが勝手に修正されていて変更まえの規約を証拠としてみたい、
そんなことないですか?
 
「Wayback Machine」は過去のホーム ページを膨大なデータとして蓄積してるサービスです。
そんなWayback Machineの使い方をご紹介します。
 

無料のメールフォームCMS「EasyMail」
無料で簡単インストール。PHP言語で開発されたオープンソースのメールフォームCMS「EasyMail(イージーメール)」を使ってみませんか?
改変でも、再配布でも、商用利用でも、有料販売でも、自由に無料でつかうことができるメールフォームです。
無料のメールフォームはこちら

Wayback Machine(Web archive)とは

Wayback Machine(ウェイバックマシン)とはインターネット上の Webやその他情報を扱うサイトです。
アメリカにある非営利団体のインターネットアーカイブという組織が1996年から収集を始め2001年に一般向けにサービスを開始しました。
WEBのみならず音楽、ビデオなどの情報も集められておりすべて無料で利用できるおもしろいサービスです。

保存しているデータは約6,400億ページ以上あり、WEBサイトだけでなく、Twitterや書籍、音楽、映画などといったデータも保存されています。

Wayback Machineには以下のURLからアクセスすることができます。

URLはこちら: https://archive.org/
 

Wayback Machine(Web archive)のデータ保存数の確認方法

Wayback Machine(ウェイバックマシン)に対象のURLやキーワードに対して、どれくらいのデータが保存されているのかを確認する方法を解説します。

結果が表示されると、画面内に「Saved 〇〇times between 〇〇 and 〇〇」と表示があるので、この部分がデータの保存数になり、以下の画像を参考にすると

ファーストネットジャパンのデータ保存数

「Saved 244 times between March 29, 2003 and January 18, 2022.」と書かれており、2002年3月29日から2022年1月18日の間に 244のアーカイブデータを保存しているという意味になります。

こちらは当社のwww.1st-net.jpのサイトを調べたのですが、こうした小さな規模のWEBサイトの場合であっても、Wayback Machineは昔からアーカイブデータを保存し、無料で簡単に閲覧することができます。

Wayback Machine(Web archive)の使い方

それでは実際にWayback Machine(ウェイバックマシン)の使い方について解説していきます。
 

URLから検索する

URLから検索

にアクセスするとメイン部分にURLを入力する箇所があります。
たとえばヤフーのアドレスwww.yahoo.co.jp
をいれてみましょう。
すると1996年の11月からの履歴が出てきます。
※この入力するURLはサイトのTOPページのURLだけでなく、記事単位でのURLでも問題ありません。
 
この時代からあるヤフー。さすがインターネットの創始者といってもいいくらいの早さですね。
さっそく1996/11/20をクリックしてみてください。
ほんとシンプルなポータルサイトのデザイン。いかに軽くするかというのを突き詰めたテキストばかりのサイトです。

キーワードから検索する

キーワードから検索

同じくWayback Machine(ウェイバックマシン)のサイトにアクセスして上述のURLをいれた入力欄に調べたいキーワードを入れます。すると、キーワードに関連するサイトの一覧が表示されるので、一覧に表示されたサイトのURLかサイトのサムネイルをクリックすると選択したサイトの情報を見ることができます。

検索窓に入力するキーワードは「サッカー」のような単ワードだけでなく「サッカー 高校生」のように複合キーワードでも可能です。

Wayback Machine(Web archive)で自分のサイトを探してみよう!

弊社のサイトでためしてみます。
弊社が個人会社の時に最初にとったドメインは
「apupu.net」
になります。こちらを入力すると一番古い履歴として2001年の3月が見当たりました。
それがこのページ
あっぷっぷ
(画像などがところどころ見らない部分もありますし、古いデータは取得できない場合もあります。)
一番最初はこのような感じでホームページの無料支援サイトを作成しそこからWEB制作のお仕事依頼につなげるようなマーケティング手法で集客をしていました。
 
弊社の1st-net.jpでホームページ制作のコーポレートサイトのアーカイブも掲載済みです。
うん、ださい・・・、いやもはやダサいというか資料です(笑)
「1st-netホームページ制作サービス」:https://web.archive.org/web/20030110233123/http://www.1st-net.jp/web/

ファーストネットホームページ制作サービス
 
ちなみにWaybackMachineからヤフーのカテゴリを奥底までたどっていくと弊社がヤフーカテゴリに登録されているのが確認できます。
ヤフーの「ホームページ制作カテゴリ」2003年1月のアーカイブ
Yahooカテゴリ登録
ホームページ制作のカテゴリでは上位に表示されていました。
 

Wayback Machine(Web archive)にサイトを登録する方法

Wayback Machineでアーカイブをさせる方法については、2つの方法があります。自身のサイトや競合サイトをアーカイブしておけば、後から振り返ってサイトを確認する時にも役立ちますので参考にしてみてください。

自動保存

Wayback Machineは基本的に自動でアーカイブをしてくれますが、必ず自身のサイトをアーカイブしてくれるかや、アーカイブしてくれる日時を指定するといったことができません。

そのため、運営するサイトのアーカイブ結果を調べてみて、過去のアーカイブ状況が1ヶ月に1回程アーカイブされているということであれば、今後も同じくらいのペースでアーカイブされる可能性があります。(ただし、絶対ではありません)

そこで、確実にアーカイブをしておきたいという場合は次の手動保存する方法を試してみてください。

手動保存

Wayback MachineのTOPページの右下に以下画像のSave Page Nowという項目があります。
その欄に保存したいURLを入力してアーカイブ保存された最新ページに移動したらOKです。

Save Page Now

Wayback Machine(Web archive)にあるサイトの削除方法

Wayback Machine(ウェイバックマシン)にアーカイブされた過去の情報を削除したいという場合は、Wayback Machineの運営元であるInternet Archiveにアーカイブ削除依頼のメールを送る必要があります。

削除方法はinfo@archive.org 宛にメールで削除依頼するようになります。
Internet Archiveはアメリカに拠点がある団体ですので、メールのやり取りは全て英文でおこなう必要があります。

Wayback Machine(Web archive)からアクセスを制限する方法

削除ではなく、以降はWayback Machine(ウェイバックマシン)に保存されたくないといった場合は、クローラーのアクセスを制限してサイトを保存させないようにすることもできます。

Wayback Machineはロボットクローラーと呼ばれるプログラムが24時間365日インターネット上を巡回し、WEBサイトのページデータをアーカイブ保存することで、過去のページを閲覧することができるようになります。

つまりWayback Machineのクローラーをサイトにアクセスさせないようにすれば、物理的にアーカイブができなくなります。

「robots.txt」と言われるクローラーのアクセス管理をするための命令文が記述されたファイルを使用するのですが、いくつかやり方があるので、それぞれのやり方については以下で解説します。

作業に慣れていない方は、必ず作業前にバックアップデータを保存しておくようにしましょう。

ドメインでアクセス制限

「robots.txt」に以下のテキストを記載してテキストファイルを保存し、サイトデータを保存しているデータサーバー内の一番上の階層であるディレクトリ(ルートディレクトリ)の中にアップロードして保存します。

この対応で、ドメイン単位でWayback Machineのクローラーアクセスを制限することができます。

ディレクトリでアクセス制限

先ほどは、ドメイン単位でしたが、次はディレクトリ単位でアクセスを制限したい場合は「Disallow: /」以下にディレクトリ名を記載してルートディレクトリの中に「robots.txt」ファイルを保存します。

以下になります。

制限したいディレクトリが複数ある場合は、以下のように制限したいディレクトリを追加していくイメージになります。

指定ページでアクセス制限

最後に指定したページでアクセス制限したい場合は、以下のテキストを「robots.txt」ファイルに記載してルートディレクトリの中に保存をします。

ディレクトリ名が「seo」でページファイル名が「waybackmachine.html」の場合は以下のようになります。

Wayback Machine以外のWeb archiveサイト

Web archiveサイトは、インターネット上のコンテンツを保存している複数のサイトが存在します。Wayback Machineは最も有名なWeb archiveサイトの1つですが、以下にいくつかの代替Web archiveサイトを紹介します。

  1. 国立国会図書館WARP:国立国会図書館が運営するWeb archiveサイトです。
  2. WebCite: このサイトは、Webページのアーカイブを作成するためのサービスを提供します。
  3. Internet Archive Canada: このサイトは、カナダのインターネットアーカイブを保存することを目的としています。
  4. European Library: このサイトは、ヨーロッパのインターネットアーカイブを保存することを目的としています。

これらのWeb archiveサイトは、Webページのアーカイブを保存することで、インターネットの歴史を保存することができます。特定のWebページのアーカイブを探す際には、Wayback Machine以外のWeb archiveサイトも利用することができます。

「Wayback Machine(Web archive)とは?」最後に

Wayback Machine(ウェイバックマシン)を使えば、昔のデザインを確認することでき、懐かしむことができます。
自社で運営しているホームページだけでなく、他社のホームページの情報を確認することもできるので、競合サイト調査にもおすすめのツールです。
そのサイトが時代によってどう改変されていったのか考えることも WEB制作・WEBマーケティング力のお勉強に役立つかもしれません。
 
もし気になる ページがあれば活用してみてください。