ダウンロードの実行と閲覧
準備が出来たので実際にダウンロードを始めていきます。
ダウンロードの実行
ここまででスクリプトファイルとURLを定義したファイルの2つのファイルが作業フォルダに作られていると思います。
ダウンロードの実行はスクリプトファイルをダブルクリックするだけです。コマンドプロンプトが表示され下記の様な状態(何も表示されない)になります。下記スクリーンショットの赤枠内にダウンロード中のファイルが順次表示されます。
スクリプトの処理が全て終わると下記のメッセージが表示されますので、OKを押して終了して下さい。
ちなみに、途中でエラーになっても同様のメッセージが表示されるので必ずしも正常終了を示しているわけではありません。
ダウンロードされたファイルを確認
ダウンロードが完了したら、作業フォルダが以下のような状態になっていると思います。
「data
」というフォルダにダウンロードしたブログのデータが保存されます。「log.txt
」というのはWgetでダウンロードされたファイルの情報などが記録されています。これはダウンロードの度に書き込みされていくので、不要であればダウンロード後に削除して下さい。そのまま放置していくと結構なファイル容量になるかもしれません。もしエラーなどが発生している場合にはこのファイルにエラーが記録されます。
- 個別記事ページの保存場所
-
「
data
」フォルダの中の「yaplog.jp\lp-n-rena\archive\1179.html
」というファイルが今回ダウンロードした個別記事ページになります。 - 個別画像ページの保存場所
-
「
data
」フォルダの中の「yaplog.jp\lp-n-rena\image\1179
」というフォルダ内にある各ファイルが今回ダウンロードした各個別画像ページになります。 - 画像ファイルの保存場所
-
「
data
」フォルダの中の「img.yaplog.jp
」フォルダの奥の方にあるのがサムネイル画像およびオリジナル画像になります。ファイル名の末尾に「_large
」と付いている方がオリジナル画像です。ただし、画像は必ずしもこのフォルダに保存されるとは限りません。記事の投稿時期によっても異なりますし、アメブロに存在している画像の場合には別のフォルダに保存されます。
Webブラウザで閲覧する
ダウンロードしたファイルの閲覧は「data
」フォルダに保存された「yaplog.jp\lp-n-rena\archive\1179.html
」をWebブラウザで表示するだけです。今回ダウンロードしたのは「http://yaplog.jp/lp-n-rena/archive/1179
」というURLの記事だったので「1179.html
」というファイル名でしたが、他の記事の場合は番号の部分が変化します。
このファイルをブラウザで表示すると下記スクリーンショットのように表示されると思います。これはWebブラウザのキャッシュを削除し、インターネット回線を切断して表示しています。この状態で表示されている画像などはパソコン内に保存されているファイルを参照しています。
サムネイル画像をクリックすると、個別画像ページが表示されます。
個別画像ページ内に貼り付けられている画像のURLがパソコン内に保存されているファイルを参照していることが分かるかと思います。
なお、今回のダウンロード手順では一覧ページなどのリンクは機能しません。リンクとして機能するのは個別記事ページ内のサムネイル画像をクリックした時のみとお考え下さい。これは階層を深く設定し、ダウンロード対象を増やすことでブログそのものとは関係のない不要なファイルをダウンロードしてしまったり、時間が掛かってしまうのを防ぐためこのような手順にしています。
まとめてダウンロード
一つ一つの記事をダウンロードしていくのは大変なので、まとめてダウンロードする手順を紹介します。
複数URLを記載したURL定義ファイルを作成する
URL定義ファイル(list.txt)に複数のURLを下記スクリーンショットのように記載することで、Wgetが順繰りにまとめてダウンロードしてくれます。
能年さんの公式ブログの記事URL一覧についてはGoogleスプレッドシートに保存しましたので、こちらからURLをコピペしたURL定義ファイルを作成し、スクリプトを実行すればダウンロードされていくと思います。ただし、一度にまとめてダウンロードするとサーバに負荷を掛ける可能性もありますので、小分けにしてダウンロードすることをオススメします。
lp-n-rena URL一覧 – Google スプレッドシート
※ スプレッドシートの内容は必ずしも全ての記事が網羅されているとは限りません。確認していないので抜けがあるかもしれませんし、既に削除されている記事のURLも含まれています。思い出した時に更新するようにしたいと思います。
複数のURLからのダウンロードが終わると「data
」フォルダの「yaplog.jp\lp-n-rena\archive
」の中に複数のファイルが保存されていくと思います。このファイルがそれぞれ個別記事ページになっているので、これをWebブラウザで開くことで閲覧できます。なお、毎回全てのファイルをダウンロードするわけではなく、各記事で共通となっているファイルはダウンロードされないはずなので、2回目以降は比較的早くダウンロードが終わると思います。
正常にダウンロード出来ない場合
まとめてダウンロードすると、上手くダウンロード出来ない場合があります。見分け方としては、下記スクリーンショットのようにファイルサイズが0KBと表示されているものは正常にダウンロードできていません。インターネット上には存在しているので、このようなファイルがあった場合は一度「記事番号.html
」のファイルを削除し、再度ダウンロードすると上手くダウンロードできる可能性が高いです。もしブログから記事自体が削除されている場合にはダウンロードされないため、ファイルも作られません。
おまけ 一覧ページを作る
ここまでの手順で閲覧はできるようになると思うのですが、記事番号の若い方が必ずしも古い投稿日時とは限らず、閲覧時に不便なので各記事の一覧ページを作るスクリプトを作成してみました。使いたい方がいらっしゃいましたら、下記ファイルをダウンロードしてお使いください。なお、ダウンロード時には拡張子が「.txt」となっていますが、ダウンロード後に「.vbs」に変更するようにして下さい。
ヤプログ一覧作成用スクリプト
ダウンロードした「create_index.vbs
」を「yaplog.jp\lp-n-rena\archive
」フォルダ内に移動かコピーした後に、ダブルクリックして実行すると同じフォルダに「index.html
」というファイルが作成されます。
このファイルをWebブラウザで開くと、パソコン内に保存されている各記事に対するリンクと投稿日時、タイトル、インターネット上のURLが表示されます。
このスクリプトは保存したフォルダ内の各ファイルから投稿日時やタイトル、URLを取得して、それを一覧として「index.html
」という新たなファイルに書き出すことをしています。自動的に更新されるわけではないので、新たにブログの記事をダウンロードした場合には再度実行する必要があります。再度実行されると「index.html
」は最新の内容で上書きされます。VBScriptとやらを初めて使ったので、おかしなところがあるかもしれませんし、ファイルが大量にあってもちゃんと動くのか確認していませんので、おまけ程度にお考え下さい。
ちなみに日付順の連番で「No」という項目を勝手に付けていますが、この番号は上記のGoogleスプレッドシートと比較するために同じ付け方をしています。ただしインターネット上から既に削除された記事があるため、どこかの時点でズレが生じると思います。
※ 上記の0KBのファイルがフォルダ内に存在していると、エラーが出て正常に動きません。その場合は該当ファイルを再ダウンロードして試してみてください。
最後に
GoogleスプレッドシートのURLを全てダウンロードしたところ、およそ870MB程度(全ファイル)になりました。いくつかピックアップして確認しただけなので、正常にダウンロードできているか全てを確認しているわけではありませんが、大体このくらいになるのではないかと思います。50記事くらいずつやりましたが、一度のダウンロードは大体10分程度で終わります。50という数字には何の根拠もありませんが、できるだけ小分けにして、間隔を開けたほうが良いとは思います。
上手くダウンロードできなかったり、閲覧出来ない場合にはお問い合わせやコメントでご連絡をいただければ、分かる範囲でお答えできると思いますので、お気軽にご連絡下さい。
ブログのダウンロードにあたっての注意事項
ここに書かれている方法でダウンロードした場合でも、ブログが稼働している限りはインターネット上に存在するブログを直接閲覧することを強くオススメします。あくまでも個人的なバックアップ用途に留めて下さい。芸能人のブログというのはアクセス時のデータが様々な方面に利用されているのではないかと思います。しかし、パソコンに保存した状態で閲覧すると、それらのデータが正常に反映されなくなり、結果的に迷惑を掛けてしまうことにもなりかねないので、よろしくおねがいします。
【2016年5月9日(月)追記】再ダウンロードの方法
画像の差し替えなど何らかの理由により、記事が更新された場合に再度、最新の状態でダウンロードする方法を念のため書いておきます。
-
再ダウンロードしたい記事のURLに対応する「
記事番号.html
」ファイルを削除します。 -
ダウンロードしたい記事のURLが「
http://yaplog.jp/lp-n-rena/archive/1224
」の場合、削除するファイルのパスは「yaplog.jp\lp-n-rena\archive\1224.html
」なります。 -
再ダウンロードしたい記事のURLをURL定義ファイル(list.txt)に記載し、再度ダウンロードスクリプトを実行します。
「記事番号.html
」ファイルの上書きがされないので、一度削除する必要があります。これで個別記事ページと追加された個別画像ページ、画像ファイルが最新の状態で再度ダウンロードされます。