はじめに
いつかやろう思いつつ、なかなかできていなかった能年さんの公式ブログを丸ごとダウンロード保存してみました。何のサイトか分からない感じですが、メモしておきます。長くなってしまったので数回に分けています。能年さんの公式ブログというよりもヤプログ!のダウンロード方法の手順になるかもしれません。
※ 以下はWindowsPC向けの内容となっており、スマートフォンやMacなど他の環境では別の方法が必要になります。
※ このページ内の手順はWindows10を使用しています。その他のWindows OSでは若干異なる場合があると思いますが、Windows7以降であれば(試してないので多分)同様の方法でダウンロードできると思います。
ブログのダウンロードは結構面倒
ブログというのは大抵どこのサービスでも同じだと思うですが、URLを入力して表示されたページが常に同じ内容で表示されるわけではなく、その場その場で表示される内容が変わる仕組みになっています。このような仕組みとなっているため、内容が変わらないWebページを保存することを前提としたWebサイト丸ごと保存系ソフトではダウンロードするのが結構大変になっているように感じました。そのなかでダウンロードから閲覧までできた方法について紹介したいと思います。他にも方法があると思うので、あくまでも私が行った方法ということでご理解いただければと思います。
ダウンロードに使うソフトと大まかな手順
現在では常時接続が当たり前になっているためか、Webサイトをダウンロードして保存するという行為自体にあまり需要が無いのかもしれません。数十ページであれば、ほとんどのWebブラウザに搭載されている、ページ保存機能などを利用しても良いのですが、ブログのように数百〜数千の保存対象ページがある場合には手動で保存していくのは大変です。そこでいくつかのWebサイト丸ごと保存系のフリーソフトを試してみたのですが、上手くダウンロードできなかったり、多くのソフトが何年も前から更新が止まっているためか、最近のOS環境ではエラーが頻発したりと当初考えていたよりも大変でした。その中で唯一想定通りに動いたのがWgetというツールでした。これはコマンドラインで操作するツールとなるので、今回は、予めスクリプトを用意して、ダウンロード対象のURLをテキストファイルに書いた後、スクリプトからダウンロードを実行するという手順で行います。
ヤプログ!のブログ構成について
ヤプログ!のブログをダウンロードするにあたり、まずはブログの構成について整理し、何をダウンロードするかを決めていきます。ページの名称は便宜上適当に付けていますが、これ以降はこの名称で紹介していきます。また、ここで紹介している各ページは目に見えてる範囲(閲覧者が通常に表示できる範囲)での構成となっており、ブログの設定などによりこれら以外のページがブログ内に存在することもあるかもしれません。
個々のページについて
- トップページ
-
URLは「
http://yaplog.jp/lp-n-rena/
」となります。最初に表示されるページです。最新の1件の記事が表示されます。下記スクリーンショットの赤枠内をクリックすることで別のページに移動します。 - 日別アーカイブページ
-
URLは「
http://yaplog.jp/lp-n-rena/daily/YYYYMM/DD/
」となります。日別の記事一覧へのリンクが表示されます。記事タイトルをクリックすることで個別記事ページに移動します※ YYYY=西暦4桁、MM=月2桁、DD=日2桁
- カテゴリアーカイブページ
-
URLは「
http://yaplog.jp/lp-n-rena/category_1/
」となります。記事に付けたカテゴリごとの一覧へのリンクが表示されます。ただし、能年さんのブログの場合にはカテゴリが付けられていない記事があるようで、全ての記事がここから辿れるわけではないようです。 - 月別アーカイブページ
-
URLは「
http://yaplog.jp/lp-n-rena/monthly/YYYYMM/
」となります。月別の記事一覧へのリンクが表示されます。記事タイトルをクリックすることで個別記事ページに移動します。※ YYYY=西暦4桁、MM=月2桁
- 個別記事ページ
-
URLは「
http://yaplog.jp/lp-n-rena/archive/xxxx
」となります。ブログに投稿された記事そのものです。記事が追加される度に増えていくページです。 - サムネイル画像
-
URLは「
http://img.yaplog.jp/img/18/pc/l/p/-/lp-n-rena/1/xxxx.png
」となります。URLの「http://img.yaplog.jp/img/
」以下は記事や時期によって変更されます。個別記事ページ内に表示されている画像ファイルそのものです。オリジナル画像の縮小版となっており、画像ファイル自体がオリジナル画像とは異なっています。 - 個別画像ページ
-
URLは「
http://yaplog.jp/lp-n-rena/image/xxxx/yyyy
」となります。個別記事ページ内のサムネイル画像をクリックすることで表示されるページです。このページにオリジナル画像が表示されます。※ xxxx=個別記事ページの記事番号、yyyy=画像番号
- オリジナル画像
-
URLは「
http://img.yaplog.jp/img/18/pc/l/p/-/lp-n-rena/1/yyyy_large.png
」となります。URLの「http://img.yaplog.jp/img/
」以下は記事や時期によって変更されます。個別画像ページに表示されている画像そのものです。アップロード時の原型に近いサイズの大きな画像です。※ yyyy=画像番号_large。
何をダウンロードするか
いくつかのページがあるなかで何をダウンロードして保存するかについてですが、今回は一覧ページなどを除外して、個別記事ページとそこに貼り付けられているサムネイル画像、個別記事ページからリンクされている個別画像ページとそこに貼り付けられているオリジナル画像をダウンロードすることにしました。これらのファイルを保存していけば、ブログの記事本文とそこからリンクされている画像ページを全て保存することができるためです。
本来であれば、一覧ページがあってそこをダウンロードのスタート地点としてリンクを追跡していくというのが、Webサイト丸ごと保存系ソフトのお作法のようですが、能年さんの公式ブログの場合は1ページに表示されるのが1記事となっているので、全ての記事をトップページから追跡するためには1000以上の追跡をしていかなくてはなりません。また、月別アーカイブページも、1ページに表示されるのが10件なので2007年まで全て辿っていくためには、同様に深い階層まで追跡していくことになり、収拾がつかなくなるおそれがあります。そのため、今回は個別記事ページのURLをダウンロードのスタート地点に指定してダウンロードしていくことにします。ただし、個別記事ページは記事数分存在しています。一つ一つやっているとキリがないのですが、今回使用するソフトで はURLの一覧を指定することでまとめてダウンロードすることが可能なので比較的楽に行えます。
注意点
能年さんの公式ブログに存在する過去の記事の中にはアメブロの画像サーバに画像が存在するものもあります。これらの場合は個別画像ページが存在しないなど、少し事情が異なっていますが、後述のダウンロード時の設定により問題無くダウンロードすることができます。
Wgetのダウンロードとインストール
ダウンロードに使用するソフトWgetのインストール方法などを紹介します。
Wgetについて
WgetはUNIX系OSで広く使われているダウンロードツールです。私も初めて使ったのですが、オプション指定がとても豊富なので、今回のように複雑なサイトをダウンロードする場合には便利ではないかと思います。また、ダウンロードして保存されたファイルは独自のファイル形式ではなく、一般的なWebブラウザで閲覧できる形式で保存されます。そのため、OSのバージョンアップによりソフトが使えなくなり、閲覧できなくなってしまう可能性は将来にわたってもほぼ無いのではないかと思います。今回はWindowsを前提としているので、Windows用に移植されたプログラムを利用します。コマンドラインで操作するツールとなっていますが、簡単なスクリプトファイルを作ってダウンロードするので一度作ってしまえばダブルクリックするだけでダウンロードすることができます。
Wgetについて詳しくは以下のサイトなどご覧ください。
コマンドライン未経験者のための「Wgetの使い方」 – ITmedia エンタープライズ
※ Wgetは他のOSでも利用できるので、後述のWgetのオプション指定などはOSに関わらずそのまま使えると思います。
Wgetのダウンロード
Wgetのダウンロードを行います。配布先がいくつかあるようなのですが、一般的には下記サイトがWIndows用のWgetの配布先として紹介されることが多いようです。
ダウンロードするのは一番上の「Complete package, except sources」と書かれている「Setup」になります。
Wgetのインストール
ダウンロードした「wget-1.11.4-1-setup.exe
」を実行し、インストールを行っていきます。今回は特に変更する必要はないのでそのまま進めていきます。
以下の画面が表示されたら、Wgetのインストールフォルダをメモするなどして覚えておいてください。一般的には64bitOS、32bitOSそれぞれ以下にインストールされると思います。
- 64bitOSの場合
-
「
C:\Program Files (x86)\GnuWin32
」 - 32bitOSの場合
-
「
C:\Program Files\GnuWin32
」
インストールが完了したら、エクスプローラで上記Wgetをインストールしたフォルダを開きます。
その中の「bin
」というフォルダを開き、中にある「wget.exe
」をキーボードのShiftキーを押しながら右クリックします。すると、「パスのコピー」という項目が表示されるので選択します。
これがWgetのパスとなります。後で必要となるので、メモ帳などにペーストしておいてください。
インストールの確認
無事にインストールされているか確認します。まずはスタートメニューからコマンドプロンプトを起動して下さい。コマンドプロンプトが起動したら、インストール時にメモしておいたWgetのパスを貼り付けて、以下のコマンドを入力します。
- 64bitOSの場合
-
「
"C:\Program Files (x86)\GnuWin32\bin\wget.exe" --version
」 - 32bitOSの場合
-
「
"C:\Program Files\GnuWin32\bin\wget.exe" --version
」
ちなみに、コマンドプロンプトではコピー&ペーストのショートカットキーが「CTRL+V」では行えなかったと思うのですが、Windows10では行えるようになってるようです。それ以前のOSではコマンドプロンプトの左上のアイコンをクリックすることで編集メニューが表示され、そこから貼り付けることができます。
上記コマンドを入力し、Enterキーを押すとずらずらと文字が表示されると思います。これはバージョン番号を表示しているだけなので特に意味はありませんが、これが表示されれば問題なくWgetがインストールされています。