2ちゃんねる ■掲示板に戻る■ 全部 1- 最新50    

■ このスレッドは過去ログ倉庫に格納されています

Internet Archive総合 (web.archive.org) #4

1 :名無しさん@お腹いっぱい。:2021/08/13(金) 03:38:17.64 .net
なんだかんだでお世話になってるInternet Archiveについて語りましょう
Internet Archive
ttp://www.archive.org/index.php

インターネット・アーカイブ - Wikipedia
ttp://ja.wikipedia.org/wiki/InternetArchive
  ------------------


Q.Internet Explorerで日本語などの2byte言語のページのWeb Archiveキャッシュを見ようとしても
真っ白なページ&文字化けが起きる&極端に重いなどの症状が出てしまう

A.[表示]もしくは右クリック→[エンコード]→[日本語(自動選択)]やその言語の文字コードに則したものをクリック


Q.Web Archiveでダウンロードしたzipなどが開けない&CRCが違うと表示される

A.よくWeb Archiveは1byte欠けを起こすのでバイナリエディタなどで該当ファイルを開き、
16進数の最後の末尾に「00」を付加すると正常なファイルになることがあります。


前スレッド
Internet Archive総合 (web.archive.org) #3
https://mevius.5ch.net/test/read.cgi/esite/1585760889/

434 :429:2022/05/14(土) 12:11:45.08 .net
そもそも SAVE PAGE ボタンを押して Saving page http:〜 のページに切り替わった後は、
それを閉じても保存に全く影響しないんだけどな。

ぐるぐる表示している間は何をやっているかというと、保存の進行状況を
タイマーで繰り返し表示しているだけ。
単に「保存が成功したか失敗したか、運が良ければ教えてくれる」だけで、
ページを閉じたからと言って保存が中止される訳ではないし、
タイマーが止まって表示が一切更新されなくなることすらある。
どーせギガバイト級のファイルでも 5 分もあれば保存できるのだから、
保存開始後しばらくしたら web.archive.org/web/2/ を付けた URL で
実際に保存できているか試したほうが良いと思うな。

435 :429:2022/05/14(土) 12:13:07.09 .net
少し専門的な話。

Save Page Now 2 Public API のドキュメント
https://docs.google.com/document/d/1Nsv52MvSjbLb2PCpHlat0gkzw0EvtSgpKHu4mk0MnrA/edit
これと対比させて考えてみればよい。

保存開始のリクエスト方法は Capture request の節に書かれているが
同じ https://web.archive.org/save の URL を使っていて、パラメータの与え方が異なるだけ。
保存のリクエストを出したら、それ以降はユーザ側で制御する必要は無し。

これとは別に、出されたリクエストの進行状況を調べる API が用意されていて、
それは Status request の節で説明されている。
ぐるぐるの表示中も、バックグラウンドでこれを繰り返し呼んでいるだけ。
(で、たまに止まってしまう。ブラウザのタブをバックグラウンドにするとかなりの確率で止まる。)

進行状況を調べる際に誰がいつ出したリクエストかを特定するために
job_id というパラメータが使われているが、これは Save Page Now のページから
リクエストを出した時も、保存中ページの HTML ソースから spn.watchJob の語を頼りに
拾うことができる。spn2- で始まる文字列がそれ。
> spn.watchJob("spn2-be5deb2f51d8cf21858418b09fefeef80e32938c", "/_static/",

この文字列に http://web.archive.org/save/status/ を付けると Status request API の URL となり
JSON 形式のデータが返ってくるが、ブラウザで直接開くだけでも内容は確認できると思う。
> https://web.archive.org/save/status/spn2-be5deb2f51d8cf21858418b09fefeef80e32938c
status の値が pending なら保存中、success なら保存成功、error ならエラー。

それから job_id の有効期限は保存開始から一時間くらい。
上の URL に今アクセスすると duration_sec、counters、timestamp 等
保存したときのデータが色々返ってくるが、今日の午後 1 時過ぎには
重要なデータは空になっているはず。

総レス数 1000
237 KB
新着レスの表示

掲示板に戻る 全部 前100 次100 最新50
read.cgi ver 2014.07.20.01.SC 2014/07/20 D ★