【保存・記録】ウェブアーカイブ総合 Page.02
1 :192.168.0.774 :2023/11/21(火) 07:23:34.80 ID:QN4SUfby0.net ウェブアーカイブ関連の話題を総合的に扱うスレです。 情報交換し合って貴重なインターネット遺産を後世に残しましょう。 Internet ArchiveなどのWebサービスだけでなく、wget・HTTrack・Heritrix等のツールやソフト、自作クローラの話題もOKです。 ・関連リンク(Rock54回避のためピリオドをカンマに変更) Wayback Machine https://archive,org/ archive,today https://archive,fo/ ウェブ魚拓 https://megalodon,jp/ Archive Team https://archiveteam.org/ ・関連スレ Internet Archive総合 (web,archive,org) #2 https://mevius.5ch.net/test/read.cgi/esite/1690495133/ ウェブ魚拓 Part3 https://mevius.5ch.net/test/read.cgi/esite/1498902308/ 【和塩】geocitiesスレ10【ジオシティーズ】 https://mevius.5ch.net/test/read.cgi/hosting/1554115546/ 【ヤフー】Yahoo!ブログ【アーカイブ】 https://mevius.5ch.net/test/read.cgi/blog/1554380939/ ・ジオシティーズでの失敗から学んだアーカイブにあたっての注意事項 1. 早めに行動しましょう 2. まずは既存のプロジェクトや遺産を探しましょう 3. 単独ではなく組織的に動きましょう 4. 呼びかけや情報共有を積極的に行いましょう
2 :998 :2023/11/22(水) 11:01:01.11 ID:QZxCudHS0.net 勝手に次スレ立てたなら、前スレのURLぐらい貼れよ https://mevius.5ch.net/test/read.cgi/internet/1554553882/
3 :998 :2023/11/22(水) 11:13:01.57 ID:QZxCudHS0.net >>1 の関連リンクや関連スレのリンク先の状況確認もしてなさそうだし
4 :998 :2023/11/22(水) 11:30:01.04 ID:QZxCudHS0.net 前スレで、残り書き込めれるレス数が少ないのに悪口で埋めるのかよ。阿保らしい
5 :192.168.0.774 :2023/11/22(水) 12:17:26.13 ID:DuzB/ozg0.net >>2 うるせえよ死ねゴミ
6 :192.168.0.774 :2023/11/22(水) 12:58:35.19 ID:gLGwnryk0.net 次スレどうする云々は早めに議論始めないと大抵こうなるんだよね。 5CH自体、人減ったからそういうのを仕切れる人も減った。
7 :192.168.0.774 :2023/11/22(水) 13:08:04.66 ID:R+bORu+V0.net >>3 リンク先の確認はしてる 文句言う前にお前こそ確認しろ
8 :192.168.0.774 :2023/11/22(水) 20:45:03.42 ID:RBjZhLtj0.net 例のスレを私物化してるというかひたすら日記帳にしてた句読点空改行マンは正直叩かれても仕方ないかと
9 :192.168.0.774 :2023/11/23(木) 16:21:52.04 ID:M5PJ+4vU0.net 次スレ立ったんだし別になんでも良いでしょ 仮にこのスレの次スレが立つなら>>950 が立てれば良いさ テンプレは使い回しして
10 :192.168.0.774 :2023/11/29(水) 19:55:45.97 ID:Bv4X1MKX0.net 今さらだがtok2の無料プラン6月に死んでたのね
11 :192.168.0.774 :2023/11/29(水) 20:05:03.99 ID:hfZzT9ef0.net 長期で見たらどのアーカイバが飛ぶかわからない砂上の楼閣感がある
12 :192.168.0.774 :2023/11/30(木) 15:45:33.23 ID:CeXtDLxF0.net 信用度で言ったら インターネットアーカイブ>>>>>>>>>today>その他 って感じだしな 特に運営元が分からない奴はいつ飛んでもおかしくない
13 :192.168.0.774 :2023/12/01(金) 20:55:06.14 ID:/RlTQaSn0.net .orgで連続で弾かれた内部的な仕様変更だろうか "Not Found The requested URL was not found on the server. If you entered the URL manually please check your spelling and try again."
14 :192.168.0.774 :2023/12/01(金) 21:02:28.18 ID:/RlTQaSn0.net Windows版FireFox、Chrome、BraveとSafariで同じ症状
15 :192.168.0.774 :2023/12/01(金) 23:14:24.37 ID:WQmdyjUL0.net IAのスレでもその話題出てるけどIAの不具合ぽい
16 :192.168.0.774 :2023/12/06(水) 10:23:22.54 ID:9VVxiS460.net archive.is 日本時間今朝10時7分にサーバ証明書期限切れ、更新されてない
17 :192.168.0.774 :2023/12/12(火) 19:22:42.21 ID:hW2qVqPj0.net archive todayで気軽にアーカイブ化できるようなショートカットとかないですか?
18 :192.168.0.774 :2023/12/13(水) 12:39:45.28 ID:pBChJXnH0.net 公式にブックマークレットあったはずだけど使えなくなったのか?
19 :192.168.0.774 :2023/12/18(月) 14:32:47.54 ID:rr5iksGZ0.net ブックマークレット見当たらないんだけどどこにある?
20 :192.168.0.774 :2023/12/18(月) 22:09:24.58 ID:VHkEpDN70.net >>19 確かにそんなものがあったなぁ。 https://web.archive.org/web/20191022034909/archive.is/ archive.today で定期的にアーカイブさせるスクリプトを動かしていたことがあるけど、 ブックマークレットが行っていたような「保存したい URL を付けて送信するだけ」という方法が 何年か前に受け付けられなくなり、http://archive.is/ のトップページでトークン (submitid) を 得ることを要求するようになった。 ブックマークレットが掲載されなくなったのはその頃。
21 :192.168.0.774 :2023/12/18(月) 23:02:56.83 ID:SRfhFfWq0.net 今も一応第三者が作ってGithubに上げてるブックマークレットならちゃんと今見てるページのワンポチ魚拓取得出来るよ トップページ一回経由するやつ
22 :192.168.0.774 :2023/12/19(火) 14:10:59.19 ID:be8ZnnnO0.net >>21 ま?探してくるわ
23 :192.168.0.774 :2023/12/28(木) 15:22:56.59 ID:aVvZh5OJ0.net archive.today 今朝、運良く取得できたけど、welcome to nginx病・・・ しかも一度出ると再アクセスしても接続がタイムアウトして繋がらなくなる・・・ 回避方法あったら教えて
24 :192.168.0.774 :2023/12/28(木) 15:53:07.15 ID:eQrjkTct0.net >>23 見た感じ archive.today の応答がかなり悪くなってるみたいだけど archive.is とか archive.md とか archive.li とか、リダイレクトの生じない名前なら サクサク返って来るんだよね
25 :192.168.0.774 :2023/12/29(金) 16:14:00.57 ID:mcUEm1710.net 今日もarchive.todayでWelcome to nginx!になって取得できない・・・ 取得するコツってないの?
26 :192.168.0.774 :2023/12/29(金) 16:24:41.89 ID:56/eqjqc0.net >>25 あるよw
27 :192.168.0.774 :2023/12/29(金) 16:30:00.41 ID:QoMdPNgl0.net >>5 お前みたいな人はボランティアとかに向いていないから、ここのスレとかに来ない方が良いんだけどな。 >>8 ここ匿名なのに、「日記帳にしてた人」と「指摘した人」同じに見える能力があるんだな。すげえな。 もし有事があっても朝鮮人の所為にするなよ。
28 :192.168.0.774 :2023/12/29(金) 16:44:03.51 ID:QoMdPNgl0.net >>7 関連スレの「#2」の部分は直さなかったのかw #5なのに
29 :192.168.0.774 :2023/12/29(金) 16:53:00.74 ID:QoMdPNgl0.net まあ、>>5 >7 >8はもう居ないだろうけど。
30 :192.168.0.774 :2023/12/29(金) 21:39:19.78 ID:BeXMuX5W0.net スレを日記帳にしてた連投句読点おじさん帰ってきちゃったじゃん…
31 :192.168.0.774 :2024/01/02(火) 12:32:26.24 ID:W/dfs4mD0.net 質問です このサイトをそのままの形で落としたいのですが https://goodsmileshop.com/ja/ HTTrackでやったら、商品ページまで落とせず終わったり商品の画像が表示されません そこでwgetで wget -m -p -E -k -np をつけてやってみました。コマンドはよく分かりませんがネットでサイトそのまま再現 で検索したらこのコマンドを使えと記載がありました まだ終わってませんがindexを覗いてみたら、カテゴリページを延々とダウンロードしてるようで 商品ページはまだで、途中ですがやっぱり画像が表示されてません またいつまで経っても終わりません 画像が表示されないのは、表示方法にjavascriptとかを使っているからなんでしょうか 放置してダウンロードが終了すれば、きちんと表示されるんでしょうか
32 :192.168.0.774 :2024/01/02(火) 16:22:32.88 ID:lNtBlc7t0.net >>31 スレタイ ❌ ローカルアーカイブ総合 ⭕ ウェブアーカイブ総合
33 :192.168.0.774 :2024/01/02(火) 19:16:28.75 ID:W/dfs4mD0.net wget・HTTrack・Heritrix等のツールやソフト、自作クローラの話題もOKです。 って書かれてたんで来ちゃいました。すみません wgetの使い方に詳しい方がいる板ってどのあたりなんでしょうかね
34 :192.168.0.774 :2024/01/09(火) 19:48:58.47 ID:p24Ans9E0.net 最近インターネットアーカイブで見れる閉鎖サイトを丸々コピーしてる攻略サイトが増えてるわ 代表的なのはこれ https://xneo.jp/ https://kouryaku7.com/
35 :192.168.0.774 :2024/01/22(月) 15:30:21.91 ID:YHuj1Ww20.net スラド終了のお知らせ https://srad.jp/story/24/01/22/0311225/
36 :192.168.0.774 :2024/01/22(月) 15:33:31.38 ID:BqifyO/10.net スラドの保存を依頼しに来たが、既に書かれてた 1月いっぱいで閉鎖との事なので、技術を持ってる方がいたらWayback Machineへの保存をお願いします
37 :192.168.0.774 :2024/02/01(木) 03:41:51.12 ID:uruf4q6/0.net >>31 亀レスだけど、落とそうとしてるファイルが多すぎる&サイトにJavaScriptが使われてる、の両方では でかいサイトをwgetでまともにクロールするなら1週間くらい置いといた方がいい あと最近のサイトは大概JavaScriptを多用してるから、Heritrixを使った方が楽かもしれん 参考にしたというのは多分このサイトだな https://tex2e.github.io/blog/shell/wget-entire-website あと>>32 は間違ってる、ローカルアーカイブもれっきとしたWebアーカイブの一種だよ >>1 にもちゃんとwgetも含むと書いてあるし
38 :192.168.0.774 :2024/02/04(日) 23:33:32.14 ID:wTdVULUN0.net 採択
39 :192.168.0.774 :2024/02/20(火) 12:53:52.46 ID:cyS+ObVG0.net 『OKMusic』サービス終了のお知らせ https://okmusic.jp/news/548328 <終了までのスケジュール> ・2024年3月31日(日)午後11時59分 記事更新を終了 ・2024年4月1日(月)午前11時59分 会員機能の提供を終了 ※以降会員登録、ログインできません ・2024年5月以降(予定) サイトの公開を終了 ※終了日時に関しては、このページにて改めて告知させていただきます
40 :192.168.0.774 :2024/02/25(日) 02:04:04.75 ID:cjUiDYTX0.net 自作ツールの話だけど、DLしたデータを保存するファイル形式って何かいいのある? 例えば https://example.com/blog/article?mode=view&page=10 とかのURLを保存する時、 リクエストしたURL、レスポンスヘッダー、日時等のメタデータ、もちろんレスポンス本文 を保存したい。 もちろんレスポンス本文はバイナリの場合もある。 wgetだとローカルに example.com フォルダの中に blogフォルダの中に article_mode=view&page=10 というファイルを作る(半角の?はファイル名で使えないので置換される) みたいなのがベタだと思うけど、それだとまずURL文字列の情報が失われてるし、レスポンスヘッダも消えてる。 それに1URLが1ファイルに保存されるから1サイトまるごとだとファイル数が多すぎて取り回しがしにくくなる。 warcファイルでいいやと思ったけど、一般的にはマイナーでエコシステムが力不足な事があるし じゃあsqlteに自分でテーブルやカラムを作ってやればいいけど独自規格は後々困りそうだし…。 どうすればいいんすかね。
41 :192.168.0.774 :2024/02/25(日) 15:52:11.05 ID:6fhfw2DW0.net warcで良いだろ 今後どれだけ時を経てもエコシステムが充足することはないから考慮する必要もない
42 :192.168.0.774 :2024/02/25(日) 19:29:29.32 ID:cjUiDYTX0.net うーん、それもそうか…
43 :192.168.0.774 :2024/02/26(月) 21:52:37.14 ID:badvTVSb0.net warcは腐ってもISO規格で標準化されてて、マイナーな業界とはいえ世界中の専門機関で使われてる訳だしな 下手に自作するよりはずっと良い
44 :192.168.0.774 :2024/02/26(月) 21:58:07.39 ID:badvTVSb0.net エコシステムが不足してるなら自分が貢献できるよう頑張ろう、位のガッツがあった方が良いよ(実際に貢献できるかは別として) 何しろマイナーな技術分野で先駆者が少ないから、それくらいの意気込みがないと現実的にやっていられない
45 :192.168.0.774 :2024/02/27(火) 00:51:18.39 ID:o1ZUbZhQ0.net 流行ると後から来たお客様にオワコンにされる流れ多すぎるのが悪い 先駆者利益も大きなお客様に乗っ取られた後の利益と比べたらリスクとリターン見合ってないし
46 :192.168.0.774 :2024/02/27(火) 12:09:56.51 ID:ncN5iY7H0.net オープンソースかつアーカイブ界隈でそれ気にする必要ある?
47 :192.168.0.774 :2024/03/12(火) 13:39:21.51 ID:DaYLFx9E0.net どなたかArchiveTeamに連絡お願いします >> このたび、ODN「ホームページサービス」につきましては、ご利用者の減少に伴い、2023年6月30日(金)に新規受付を終了し、 >> 2024年3月31日(日)をもちましてサービスを終了させていただくこととなりましたので、ご案内申し上げます。 https://www.odn.ne.jp/odn_info/20230413.html
48 :192.168.0.774 :2024/03/12(火) 14:00:43.70 ID:kcrHEzLE0.net 個人サイトなんだけど、todayが消してくれないのどうにかならんかな。
49 :192.168.0.774 :2024/03/12(火) 14:24:31.31 ID:XJRNS97w0.net >>48 残されて困るようなものを公開したお前が悪い
50 :192.168.0.774 :2024/03/12(火) 20:00:28.00 ID:rAwzeJQ40.net 長期的には.orgや.todayが潰される可能性も
51 :192.168.0.774 :2024/03/12(火) 21:27:17.34 ID:XJRNS97w0.net .org は無いと思うが .today はわからんな
52 :192.168.0.774 :2024/03/14(木) 17:05:30.27 ID:4OkU93Wi0.net .todayが重宝されてる一番の理由って日本語どころか.todayが運営してる国の言葉で正式な削除依頼を出しても突っぱねられて消えない事だからなあ それこそ生半可な弁護士雇っても無理で某春○ちゃんの後任弁護士が英語と現地法律ガチった結果ようやく削除依頼が通ったみたいな記事書いてた気がする
53 :192.168.0.774 :2024/03/14(木) 21:27:55.19 ID:iPr/ZwFh0.net スクリプト爆撃対策できない5ch自体もそろそろやばそうだ
54 :192.168.0.774 :2024/03/27(水) 10:00:12.13 ID:VvChnD9t0.net 過去の悪行をアーカイブされてる変態新聞がAI児ポに絡めてアーカイバを悪に仕立てる構図
55 :192.168.0.774 :2024/03/27(水) 10:47:01.22 ID:/iyhPo8d0.net archive.is Loading. ↓ Not Found (yet?) All site
56 :192.168.0.774 :2024/03/27(水) 16:16:54.74 ID:VvChnD9t0.net .todayで俺もなった
57 :192.168.0.774 :2024/04/02(火) 01:43:49.44 ID:1ckoJKH40.net 2024/4/1、長年Google検索トップに鎮座していた 【文字数カウント】がODNホームページサービス終了に伴い消滅 SNSでは突然の別れに惜しむ声が絶えない このツールは2002年から存在していた模様 https://i.imgur.com/i3wHZKp.jpg http://www1.odn.ne.jp/megukuma/count.htm 【文字数カウント】サイト閉鎖 ユーザー「一番使いやすかった」「ありがとうございました」 https://www.itmedia.co.jp/news/spv/2404/01/news121.html
58 :192.168.0.774 :2024/04/17(水) 05:00:01.19 ID:LoOXS4eE0.net archive.is can no longer save Twitter from around April. example: https://twitter.com/ifc_srh/status/1776527766412018126 (deleted an unsolicited ad)
59 :58 :2024/04/17(水) 05:44:01.19 ID:LoOXS4eE0.net Last saved example: https://archive.is/WGCqu ( https://twitter.com/ifc_srh/status/1776527766412018126 ) (deleted an unsolicited ad)
60 :192.168.0.774 :2024/04/18(木) 16:23:26.26 ID:31KqVUKw0.net .todayでXの保存ができなくなったか ユーザーごとに魚拓を検索できたから重宝してたんだが
61 :192.168.0.774 :2024/04/19(金) 04:12:56.08 ID:f+QDn1hh0.net 画像とかクリックして別タブで開かずそのページでポップアップみたいな感じで開くやつは archive.org、arhive.isどちらでもアーカイブとってもクリックにその箇所が反応しないな
62 :192.168.0.774 :2024/04/19(金) 04:29:19.53 ID:Cp941s2b0.net >>61 archive.org の場合はサイト次第
63 :192.168.0.774 :2024/04/19(金) 18:52:53.74 ID:f+QDn1hh0.net >>62 そうなの MEN'S NON-NOのサイトだが画像をクリックすると、それとともに取材相手への質問が表示されるやつ 先にアーカイブとられてたやつは画像が表示されてなかったから改めてアーカイブしたら 画像表示自体はしたがクリックに無反応
17 KB
新着レスの表示
掲示板に戻る
全部
前100
次100
最新50
read.cgi ver 2014.07.20.01.SC 2014/07/20 D ★
本文 スレッドタイトル 投稿者