■ このスレッドは過去ログ倉庫に格納されています
【保存・記録】ウェブアーカイブ総合 Page.01
- 1 :192.168.0.774:2019/04/06(土) 21:31:22.29 ID:KqAD+H9+0.net
- ウェブアーカイブ関連の話題を総合的に扱うスレです。
情報交換し合って貴重なインターネット遺産を後世に残しましょう。
Internet ArchiveなどのWebサービスだけでなく、wget・HTTrack・Heritrix等のツールやソフト、自作クローラの話題もOKです。
・関連リンク(Rock54回避のためピリオドをカンマに変更)
Wayback Machine
https://archive,org/
archive,today
https://archive,fo/
ウェブ魚拓
https://megalodon,jp/
Archive Team
https://archiveteam.org/
・関連スレ
Internet Archive総合 (web,archive,org) #2
http://mevius.5ch.net/test/read.cgi/esite/1475246713/
ウェブ魚拓 Part3
http://mevius.5ch.net/test/read.cgi/esite/1498902308/
【和塩】geocitiesスレ10【ジオシティーズ】
http://mevius.5ch.net/test/read.cgi/hosting/1554115546/
【ヤフー】Yahoo!ブログ【アーカイブ】
http://mevius.5ch.net/test/read.cgi/blog/1554380939/
・ジオシティーズでの失敗から学んだアーカイブにあたっての注意事項
1. 早めに行動しましょう
2. まずは既存のプロジェクトや遺産を探しましょう
3. 単独ではなく組織的に動きましょう
4. 呼びかけや情報共有を積極的に行いましょう
- 354 :192.168.0.774:2020/04/17(金) 19:43:09.88 ID:DEdL3XQ50.net
- >>353
名前を色々と増やし始めたのはこれが発端。
http://echo.5ch.net/test/read.cgi/esite/1189771222/587-590
ドメイン名乗っ取り攻撃に対する冗長性確保が目的。
何れかの名前が乗っ取られても他の名前で利用できるようにしてあるだけで、
> ひとつがサーバーダウンしている時には
> 他のURLも使え
〜るといった 20 年前みたいな事は意図していないはず。
http://o.5ch.net/1n6sx.png
- 355 :192.168.0.774:2020/05/10(日) 10:41:36 ID:qgpD+Q890.net
- 「DLsite blog」サービス終了予定のお知らせ【5/28(木) 13:59まで】
http://home-info.dlsite.com/archives/9506936.html
月末ではなく28日昼まで
- 356 :192.168.0.774:2020/05/10(日) 18:31:31.05 ID:0BWUOz3X0.net
- >>355
> 「DLsite blog」
そんなブログサービスがあるということを今はじめて知った
- 357 :192.168.0.774:2020/05/13(水) 22:57:43 ID:+6V16oE90.net
- >>351
そう簡単に常識が変わるわけではないジャンルだしな
- 358 :192.168.0.774:2020/05/21(木) 20:23:00.43 ID:tw1fIQhk0.net
- ニッチなニーズかもしれませんがスクリプトを公開しました。
Wayback Machine でURL検索をした際、最古または最新のページに自動で飛びます。
https://greasyfork.org/ja/scripts/403724-wayback-machine-auto-hopper
- 359 :192.168.0.774:2020/05/25(月) 18:40:03 ID:DqvUJCjh0.net
- 2020年6月30日
連合型SNS『マストドン』 日本2位,3位のインスタンスが閉鎖
・msdtn.jp (登録20万人, 5500万トゥート)
・mastodon.cloud (利用者数6万人, 340万トゥート)
SNS『mstdn.jp』、誹謗中傷への対応の事務負担増に耐えられないと判断して6月30日で閉鎖へ
https://news.yahoo.co.jp/byline/shinoharashuji/20200525-00180247/
運営引き継ぎも募集しているらしい
https://mstdn.jp/about
- 360 :192.168.0.774:2020/06/12(金) 19:07:45.35 ID:Ex7ysahg0.net
- コレで問題無しかな?
>>359
終了予定だった国内最大級のマストドンインスタンス「mstdn.jp」、サービス譲渡し継続
https://nlab.itmedia.co.jp/nl/articles/2006/11/news153.html
- 361 :192.168.0.774:2020/06/12(金) 20:04:22.23 ID:kaj5j2rY0.net
- >>360
外資は儲からないと判断するとすぐ撤退する傾向が強いからなあ。不安。
- 362 :192.168.0.774:2020/06/12(金) 23:01:41.40 ID:r8G+EqEg0.net
- 「誹謗中傷の証拠取得用に」と謳った「Twitter魚拓」なるWebサービスが出来てバズってるが、
やってることは単にスクショ撮ってimgurに上げるだけらしい
スクショはブラウザの開発者機能でいくらでも改竄できるし、
これならArchive.isの方がずっと優秀だな
スクショに法的な証拠能力ってあるのかな
- 363 :192.168.0.774:2020/06/12(金) 23:03:10.00 ID:r8G+EqEg0.net
- >>361
買収先は確かTwitter非公式クライアントの開発チームじゃなかったっけ
儲からないのは織り込み済みじゃないかな?
- 364 ::2020/06/15(月) 08:25:53.32 ID:8HydZjTx0.net
- webrecorder.ioの名前とURLが変わった
https://blog.conifer.rhizome.org/2020/06/11/webrecorder-conifer.html
新しいURL
https://conifer.rhizome.org/
- 365 :192.168.0.774:2020/06/18(木) 15:31:00.91 ID:YE4F+hQG0.net
- Twitter魚拓に画像ハッシュを電子署名で埋め込む機能がやっと付いたらしい
結局画像を撮る前の段階で偽造可能なのはどうしようもないけど
- 366 :192.168.0.774:2020/06/20(土) 02:54:49.17 ID:h9ZrYl1H0.net
- archive todayの魚拓検索でURL以外の文字列入力すると
Googleのカスタム検索経由で全文検索できるようになってるな
- 367 :192.168.0.774:2020/06/20(土) 03:30:32.99 ID:7f7o1of+0.net
- 旧Yahoo地図が完全終了するらしい
ジオカタログ製の世界地図が便利だったから終了するのは惜しい
https://map.ultra-zone.net/y/35.681236/139.767125/6
- 368 :192.168.0.774:2020/06/20(土) 12:12:23.28 ID:D5VLdHFC0.net
- Googleのやつより見やすいな
日本語で書いてあるせいか?
- 369 :192.168.0.774:2020/06/24(水) 20:08:29.48 ID:VaXpj8XL0.net
- 149 名前:名無しさん@ggmatome :2020/06/24(水) 19:41:32 ID:GJp4RZxo0
Adobe Flash Playerの2020年末サービス終了は、古いゲームの公式サイトとかに影響が出そう
- 370 :192.168.0.774:2020/06/25(木) 23:41:47.74 ID:dwRtuOnD0.net
- ArchiveTeamがなんかやってるかなと思ったけどまだ動いてないっぽい
- 371 :192.168.0.774:2020/06/27(土) 14:07:35 ID:qfiK+Scz0.net
- Flashの保存活動やってる人自体はいるよ
ArchiveTeamが動いてないだけかと
- 372 :192.168.0.774:2020/07/01(水) 06:54:14.16 ID:pvfyXrsy0.net
- This URL has been excluded from the Wayback Machine.のサイトも掘り出したいわね
- 373 :192.168.0.774:2020/07/01(水) 07:00:53.26 ID:pvfyXrsy0.net
- Wayback Machineで見れない主なドメイン
http://dion.ne.jp/
http://biglobe.ne.jp/
http://homepage2.nifty.com/
- 374 :192.168.0.774:2020/07/01(水) 11:22:29.30 ID:ha7maYO50.net
- かなりデカい保存対象がやってきた
NAVERまとめ サービス終了のお知らせ : NAVERまとめ公式ブログ
http://navermatome-official.blog.jp/archives/83259956.html
>突然ではございますが、NAVERまとめは2020年9月30日をもちましてサービスを終了することとなりました。​​
>下書きや非表示のまとめも含め、9月30日をもちましてすべて閲覧ができなくなります。​
- 375 :192.168.0.774:2020/07/01(水) 20:40:49.49 ID:36DWDi3y0.net
- naverブランドじゃ将来性見えないもんな
かといってヤフー、ラインブランドに変えてまでやるほどでもないし
- 376 :192.168.0.774:2020/07/01(水) 22:39:13.89 ID:4eKj5JMl0.net
- >>373
いちいちブロックしてたらキリがないなろう系サイトはともかく
こういうドメインは一部のサイトだけ見れないように緩和してほしいわ
- 377 :192.168.0.774:2020/07/02(木) 03:05:37.80 ID:qEIVQ0nx0.net
- Webサイト保存してる人はなに使ってる?
自分は巡集とWebsite Explorerを使ってる
- 378 :192.168.0.774:2020/07/02(木) 22:25:47.86 ID:PGzwXvql0.net
- >>371
ちなみにFlash のアーカイブって何やるの?
- 379 :192.168.0.774:2020/07/02(木) 22:55:14.72 ID:VMG0QPRf0.net
- >>374
ほぼコピペしか無いサイトだからオリジナルのデータは少なそう…
- 380 :192.168.0.774:2020/07/03(金) 01:54:56.18 ID:pnZtief20.net
- >>379
8割方はどうでもいいコピペまとめなんだけど、これを個人サイトみたいに使ってる人や、真っ当な有益情報をまとめてくれてる人もいるんだよね
そういった情報が消えるのはもったいないし、今後困る人がいそう
- 381 :192.168.0.774:2020/07/03(金) 22:23:28.54 ID:0J0hhHF10.net
- 来年から新しい著作権法が施行されるらしいけど、
ウェブ魚拓とかの古いデータが、削除されたりしないか少し心配
- 382 :192.168.0.774:2020/07/03(金) 23:54:06.51 ID:pnZtief20.net
- ウェブ魚拓は削除申請来たらバンバン消してるらしいから今更感ある
archive.todayやInternet Archiveは著作権の前にサーバ処理が追いつくのか心配
- 383 :192.168.0.774:2020/07/04(土) 13:35:00.45 ID:inafeRIM0.net
- >>382
同意
- 384 :192.168.0.774:2020/07/08(水) 22:28:06.73 ID:JMicZAgO0.net
- NAVERまとめだけじゃ無くLINEノベルも終了か…
ソフトバンクグループ特有のサービス終了ラッシュ
- 385 :192.168.0.774:2020/07/09(木) 01:28:23.13 ID:c1obRcGo0.net
- へー、ソフバンは避けよう
- 386 :192.168.0.774:2020/07/09(木) 03:09:48.75 ID:K/ssIawO0.net
- 朝鮮系は避けてたから掠りもしないw
- 387 :192.168.0.774:2020/07/09(木) 07:32:19.74 ID:qxukY3NX0.net
- ヤフーと合併するってことはこういうことだ
米国のヤフーがその典型で、買収した企業やサービスはことごとく閉鎖させてるしね
- 388 :192.168.0.774:2020/07/09(木) 08:42:41.16 ID:c1obRcGo0.net
- 潰したい企業を買収してからわざと潰すっていう性格の悪い投資家の話聞いたことがあるけど
まさかヤフーがそれだったりしないよな
- 389 :192.168.0.774:2020/07/13(月) 15:08:26.85 ID:JeHTcZXr0.net
- >>384
うーんこの
- 390 :192.168.0.774:2020/07/14(火) 15:25:35.44 ID:bp/ba6L20.net
- >>351
変則将棋とかのニッチすぎるカードゲームやボードゲームのサイトもだね
- 391 :192.168.0.774:2020/07/15(水) 12:36:07.34 ID:6KInjDIb0.net
- 保存する価値が特に高いサイト
(時間が経っても役に立たなくなることがまずないため)
レビューサイト
ゲーム攻略サイト
ボードゲーム・カードゲーム関係(ただしTCGなどは除く)
タロット占いなどの占い系
料理レシピ・裁縫などの家事系
- 392 :192.168.0.774:2020/07/16(木) 02:27:44.38 ID:okkeNa+i0.net
- ウェブ小説サイトとかも
- 393 :192.168.0.774:2020/07/17(金) 17:41:35.04 ID:iWA6pxH10.net
- 旅行・探検系も含めていいかも
あと災害etcで現存しない場所の訪問記とか
- 394 :192.168.0.774:2020/07/18(土) 01:13:41.89 ID:MoAmN+OG0.net
- 昔のイベント体験記もだな
- 395 :192.168.0.774:2020/07/18(土) 01:27:31.30 ID:MoAmN+OG0.net
- ついでに暇つぶしにネット検索してたら
ocn1.netなるサイトを発見した
- 396 :192.168.0.774:2020/07/18(土) 02:15:45.46 ID:HI8FU48P0.net
- >>395
https://www.google.com/search?q=site:ocn1.net&lr=lang_ja&newwindow=1&hl=ja&tbs=lr:lang_1ja&sxsrf=ALeKk03M6bSG2JwS_U8icd02MQFRuM0Vsg:1595006071724&ei=d9wRX__qK7KCr7wPofi7mAQ&start=200&sa=N&ved=2ahUKEwi_gsfS5NTqAhUywYsBHSH8DkM4ZBDw0wN6BAhlEDQ&biw=944&bih=1083
- 397 :192.168.0.774:2020/07/18(土) 14:45:04.72 ID:42EZKBGK0.net
- >>391-394
こういうサイトを優先的に保存すべきだな
- 398 :192.168.0.774:2020/07/19(日) 04:44:14.87 ID:lFOHvKxW0.net
- こういう魚拓系サイトってエロ動画とか保存いけんの?
- 399 :192.168.0.774:2020/07/19(日) 14:44:03.36 ID:5VoHw/dK0.net
- ocn1.netってサーバー名だったのかサイト名ではなかったのか
キューブのへやは一通り保存しといたけど他にもいっぱいあるやん
- 400 :192.168.0.774:2020/07/21(火) 21:19:19.64 ID:iEzABfS/0.net
- 2020年8月31日(月)サービス終了
暮らしのレシピ投稿サイト 「 nanapi 」
https://nanapi.jp/
料理:約11000ページ
ライフハック & 雑学系:約8000ページ
暮らしの情報サイトnanapi終了のお知らせ
https://nanapi.jp/info/9
Twitter @nanapi
https://twitter.com/nanapi
(deleted an unsolicited ad)
- 401 :192.168.0.774:2020/07/22(水) 00:43:31 ID:Qv2V5tOA0.net
- >>400
保存する価値が高いな
- 402 :192.168.0.774:2020/07/22(水) 06:22:06.26 ID:5ZyfxxsF0.net
- 検索サイトにアーカイブが引っ掛かる又はWeb Archiveに保存されてる以外だと実質的な消滅に等しい
- 403 :192.168.0.774:2020/07/25(土) 12:03:11.28 ID:vPQBVdbR0.net
- > お知らせです。Neverまとめ終了に伴い、【実走!酷道・険道のまとめ】についても、終了させることにしました。
>2013年以来、約7年間のご利用有難う御座いました。
>道路ネタについては、引き続きツイートしていきます。どうぞ、宜しくお願いします。
twitter.com/kendou774/status/1286852266280890368
(deleted an unsolicited ad)
- 404 :192.168.0.774:2020/07/25(土) 20:28:57.46 ID:op0juaWZ0.net
- ウェイバックでアーカイブしたNAVERまとめ記事でページ移動しようとすると
URLにgrid=falseっていうパラメータが追加されるみたい
誰か原因わかる人いる?
このせいでせっかくアーカイブしても2ページ目以降が参照できない問題が起きてしまう
- 405 :192.168.0.774:2020/07/25(土) 23:03:50.67 ID:vPQBVdbR0.net
- >>404
自分が取ったアーカイブはそんな症状は出てないな
その問題が出たアーカイブのURLを教えてくれんか
- 406 :192.168.0.774:2020/07/26(日) 00:15:07.54 ID:6TmDXbEI0.net
- >>405
例えばこのまとめのアーカイブ
2159020990876963301
2ページ目のボタンを押すとこのページに移動してエラー
2159020990876963301?page=2&grid=false
何度か試すと通常通りのページが表示される時もあるようで、今一どういう条件で発生するのかわからない
- 407 :192.168.0.774:2020/07/28(火) 01:55:57.75 ID:GOjmQFzm0.net
- >>406
そのまとめではエラーにならなかったが、別の複数のまとめでエラー発動したわ
条件は全然分からないな
- 408 :192.168.0.774:2020/07/31(金) 18:21:02.96 ID:hz5s2lhM0.net
- 最近/save/の後にURLつけてブラウザで踏んで保存しようとするととんでもなく時間かかるようになってるんだけど
もっと早く保存する方法ないかな
- 409 :192.168.0.774:2020/07/31(金) 19:38:16.52 ID:gaCi8uhU0.net
- >>408
同じく
しかもちゃんと保存できてるかどうかも怪しい
- 410 :192.168.0.774:2020/07/31(金) 20:26:07 ID:TTL90URn0.net
- これ使えんの?
175 名前:py ◆o3kzHb/in8w0 [sage] 投稿日:2019/05/14(火) 19:06:58.64 ID:cP8wStLG0
https://u1.getuploader.com/irvn/download/1657
web2IAWBM.dms ver0.000.007 WayBackMachineに保存 (web.archive.org) 2019/05/14
web2IAWBM.dmsはIrvineとDorothy2を使ってInternet Archive WayBack Machineに自動登録(保存)するためのスクリプトです。
自動で全てのリンクをたどって保存してくれるはずです。
web2IAWBM.dmsは素人が作った物なので至らない点も多々ありますが、
一応使える水準になったと思われるので公開します。
無料のウィルススキャンはしましたが、念のためもう一度スキャンされることをお勧めします。
同梱のDorothy2(の一部)は別の方が作った物です。
■ Irvine初回起動前に必ず jwordフォルダを削除してください。■
動作試験環境:windows10pro Irvine1.3.1
- 411 :192.168.0.774:2020/07/31(金) 21:15:44.33 ID:x6UEbNzr0.net
- >>410
自分で使ってみては?
レビューしてくれ
- 412 :192.168.0.774:2020/07/31(金) 22:16:46 ID:BOBaNxn40.net
- >>411
>>408-409
へのレスしたつもりなんだけどね
誤解させてごめんねw
- 413 :192.168.0.774:2020/07/31(金) 22:59:42 ID:x6UEbNzr0.net
- >>412
理解した
このところ/save/にURL繋げて直接保存させるのやってないから分からんけど、
ブラウザのsave page nowのフォームから保存するときとは色々処理が違うのかもね
最近Waybackの調子が特に良くないらしいから多分サーバ自体の問題だとは思うけど
- 414 :192.168.0.774:2020/08/02(日) 02:59:54.76 ID:BxGk29Xt0.net
- Naverまとめを色々漁ってたらネット上で出回ってるコラの元画像・出典を集めたやつがあった
単なる宣伝まとめに完全汚染される前は、こういう地味だけど役立つまとめを書く人がそこそこいたんだけどな...
00年代から10年代のインターネットの残滓みたいな側面もあっただけに惜しい話だ
ArchiveTeamにどうにかして持っていきたい
- 415 :192.168.0.774:2020/08/04(火) 10:42:23 ID:kQccth3l0.net
- 昔のエロゲーとか普通の深夜アニメとかの公式サイトで保存されていないページが時々ある
- 416 :192.168.0.774:2020/08/07(金) 14:35:38.67 ID:SiHrQHil0.net
- Googleマップの埋め込みはArchiveTodayで録れる
- 417 :192.168.0.774:2020/08/15(土) 19:40:30.73 ID:PMZXDU5C0.net
- >>398
無理じゃね?
- 418 :192.168.0.774:2020/08/16(日) 20:27:14.92 ID:98xsFRfG0.net
- ストリーミング配信のクロールは技術的に結構難しい
- 419 :192.168.0.774:2020/08/16(日) 20:27:47.53 ID:98xsFRfG0.net
- 動画を保存するならメタデータを含めた上で普通にダウンロードした方がいい
- 420 :192.168.0.774:2020/08/18(火) 18:55:08 ID:e28RrLlN0.net
- トップページは見れるけど細かい中身までは保存されてないのか見れないことが多いわね 特に画像や動画は死んでる
- 421 :192.168.0.774:2020/08/18(火) 21:04:20.75 ID:xoxZKMa90.net
- さくらインターネット専用サーバ
2020年11月30日で全て終了
- 422 :192.168.0.774:2020/08/18(火) 23:33:08.82 ID:FetPd1Vj0.net
- >>421
古い専用サーバだけが対象
>この度、1997年6月より提供開始した「専用サーバ」および2007年1月より提供開始した「専用サーバ Platform Ad / St」につきまして、
>2020年11月をもちまして、サービスを終了いたします。
>これらサービスは、サービス開始から10年以上の期間が経過しており、今後、保守部材の確保ができず、サービス継続が困難な状況でございます。
>さくらの専用サーバ(2012年2月 提供開始 〜 現在申込受付)」はサービス終了の対象ではございません。
https://server.sakura.ad.jp/dedicated_server_end/
- 423 :192.168.0.774:2020/08/19(水) 17:14:03.56 ID:iZ5+0Ecr0.net
- >>422
既に消えてるページあるよ
エロゲの回想未収録エロを個別セーブデータで対応してくれてたサイトとか
まあlzhの脆弱性騒動でlzh書庫セーブデータはsなしhttp,xp,win7締め出しみたいにサーバ側に既に全消去されてたけど
http://daidokoro.sakura.ne.jp/data/eroge_data.htm
http://web.archive.org/web/20180430112946/http://daidokoro.sakura.ne.jp:80/data/eroge_data.htm
NGワード引っかかったから、気になるなら半角にテキストエディタかなんかで変換して
- 424 :192.168.0.774:2020/09/06(日) 17:22:46.19 ID:CBf1XfYV0.net
- サービス終了のお知らせ
長らくのご利用まことにありがとうございます。
大変恐れ入りますが、当サービスは2020年9月末をもって終了させていただきます。
mobile space
携帯(ケータイ)無料ホームページ提供フリーサイト「MobileSpace(モバスペ)」
http://m-space.jp/
- 425 :192.168.0.774:2020/09/07(月) 12:06:40.69 ID:3OpmkuSp0.net
- Naverまとめのバックアップしてる有志いないかー?
自分も最近バックアップしてるんだがURL集めとかどこにすればいいかわからない
- 426 :192.168.0.774:2020/09/07(月) 15:14:13.63 ID:3OpmkuSp0.net
- >>404
それはしゃあない、NAVERまとめは2ページ以降のURLも規則的だから、そこは見る側がインターネットアーカイブからURLをいじってアーカイブを見る方法しかないと思う
2ページ以降のURLがわかる以上アーカイブするにあたってそこまで気にしなくてもいい
- 427 :192.168.0.774:2020/09/08(火) 03:14:53.75 ID:rgMOAV4l0.net
- >>397
同意
- 428 :192.168.0.774:2020/09/08(火) 22:10:50 ID:+a/fwcct0.net
- 将来役に立つか分らんけど書いとく
Naverまとめは2ページ目以降のURL末尾が
?: ?page=ページ番号
?: ?&page=ページ番号
の2パターンあるので注意
通常であれば2ページ目→?、3ページ目以降→?のパターンで保存されてるはず(だが例外もある)
あとはこの辺 >>404 >>406
- 429 :192.168.0.774:2020/09/09(水) 08:08:33.67 ID:iGXkHt4n0.net
- とりあえず作ったからURL集めここにしないか?
NAVERの終了近づいてるから立てといた
https://jbbs.shitaraba.net/internet/25479/
5chだと多量URLは規制くらうし、かといっていちいちGeoLogみたいなURL集め場作るのもあれだし
したらばはGoogle検索ひっかかるししたらば自体もアーカイブできるから万が一にも備えられるしURL保管庫としては優秀
後から集めたURLにタイトルつけてスレ立てすれば後世代の人がググって見つけられる可能性が出てくるのが大きい
他にサービス終了候補出たらここにスレ立ててURL集める感じで
- 430 :192.168.0.774:2020/09/09(水) 22:03:15 ID:GaAB5Js70.net
- >>429
乙
汎用的に使えるし次スレからここのテンプレに入れた方がいいな
>>429は念の為にトリップ付けてしたらばと5ch両方に書き込んでおくと良いかも
したらばと5ch(&おーぷん2ch)とではトリップの生成アルゴリズムが違うらしく同じ名前でも違うトリップになるけど、とりあえずでも管理人だという証明がある方が何かと安心だしね
- 431 :◆Oddz6L15vQ :2020/09/09(水) 22:23:41 ID:iGXkHt4n0.net
- >>430
OK、付けておく
- 432 :192.168.0.774:2020/09/10(木) 17:58:45.52 ID:lCL9EyAY0.net
- 150万記事くらいURLかき集めてタイトルとページ数もセットで保存してあるよ
ArchiveTeamにも先月渡したんだけどどうやら忙しいらしくて動きがない
- 433 :192.168.0.774:2020/09/10(木) 20:34:28.12 ID:S0dI6L/m0.net
- >>432
ArchiveTeamに渡すってことはインターネットアーカイブには保存できてないってこと?
- 434 :192.168.0.774:2020/09/11(金) 15:17:14.37 ID:FY5rw0Vj0.net
- >>433
ArchiveTeamが保存したサイトはWayback Machineにアップロードされて、最終的にちゃんとInternet Archiveに保存される仕組みになってる
- 435 :192.168.0.774:2020/09/11(金) 15:43:42.84 ID:FY5rw0Vj0.net
- >>432
150万はすごいな、何を使って収集したのか気になる
あとArchiveTeamとのコンタクトってどうやって取ったん?
サイトの説明を色々読んでるけど窓口が見つからない
- 436 :192.168.0.774:2020/09/11(金) 17:53:04.83 ID:vIEy03BU0.net
- >>434
いや、そういう意味ではなくArchiveTeamの動きないってことはインターネットアーカイブに保存できてないんじゃないかってこと
もしインターネットアーカイブに現時点で保存できなくて、ArchiveTeamに動きなければ>>432がローカルで保存できてない限り9月30日を迎えたらそれも無駄になる
- 437 :192.168.0.774:2020/09/11(金) 18:38:50.57 ID:FY5rw0Vj0.net
- >>436
なるほどな、確かにArchiveTeamに動きがなかったら保存されないね
ArchiveTeamが今どういう状況なのかがよく分からないんだけど、本当にNAVERまとめは一切手付かずなのかな?
- 438 :192.168.0.774:2020/09/11(金) 19:41:43.80 ID:vIEy03BU0.net
- >>437
いろいろ保存してるけど本当に2ページ以降はクロールされてないよ
クローラーの仕様でGoogle検索に出る1ページだけは保存されるけど
だから人力で保存されてる記事はあんまりないね
- 439 :192.168.0.774:2020/09/12(土) 09:44:43.85 ID:+xgSs3Ql0.net
- >>438
もう自分でクローラソフト動かしてローカルに保存した方が安心じゃね?
ネットのデータなんて今じゃいつ消えるか分からない
もうバックアップのバックアップ(調子悪くてバックアップ後に取り外したHDDに入れっぱなしのデータ等)くらいのオマケ
アーカイブサイトに保存して安心してたら見られなくなってて、
txtでちょっとメモした断片的情報しか手元に残ってなくて絶望したわ
- 440 :192.168.0.774:2020/09/12(土) 12:00:07.88 ID:G5q1lmCg0.net
- >>439
確かにそれもそうだし愛読書のごとく読むようなウェブページはpdf化してるけどさ
やはりローカル保存じゃ限界がある、数万記事とか保存しようものならHDD持たないし
それにアーカイブに保存する理由はみんなが見れるからね、知恵袋や古い2chの過去ログ見ててそこのリンクがリンク切れになっても大丈夫なようにある
インターネットアーカイブが消えるときってやっぱり削除要請に応じてるからなのかな
今のところ自分で保存した記事で消えた経験はないが、削除要請以外の自動削除はないと信じたい
- 441 :192.168.0.774:2020/09/12(土) 12:06:20.24 ID:G5q1lmCg0.net
- ちなみにArchivetodayや他の魚拓サイトは個人経営らしいから経営者が死んだらサーバー更新できず見られなくなるから、そこに大事なものがあればローカル保存したほうがいい、数十年後に見られなくなってる可能性あるし
やはり数百年後の人類に情報を残すなら法人経営のインターネットアーカイブ
- 442 :192.168.0.774:2020/09/12(土) 14:19:44.63 ID:smUg5j0l0.net
- >>439
そうなんだよなあ
前にインターネットアーカイブで閲覧してた削除済みのサイトが
「This URL has been excluded from the Wayback Machine」で
見られなくなってしまってローカルに保存していなくて今も後悔してるわ
前は見られていた分ショックがでかい
こういうのってドメイン再取得した人が解除申請出すしかまた見られる
方法ないのかね?
これって「完全に削除」されたわけじゃなくて単純に「除外」された状態らしいから
- 443 :192.168.0.774:2020/09/12(土) 19:09:30.26 ID:G5q1lmCg0.net
- >>442
除外したってことはやっぱりサーバーの容量不足とかじゃなくて要請に応えただけか
サービス終了とかじゃなくてそのページがあると都合が悪いからって意図的に消してるのはローカル保存しかないと思うよ
俺は何回も読むサイトは1ページだけならpdf化してる
さすがに保存対象のURLが何個もあるサイトを全部やるのは面倒だけど
ドメイン再取得していけるかはわからんけど管理者であったことを証明しないとさすがに難しいんじゃないか?でも今の管理者ではダメとも限らないしなー
- 444 :192.168.0.774:2020/09/12(土) 19:14:06.20 ID:GdLneOCP0.net
- >>443
クローラソフトで.mhtやindex.html等で階層いくつ潜るか設定してクロールすればいいじゃん
- 445 :192.168.0.774:2020/09/12(土) 19:35:49.12 ID:smUg5j0l0.net
- >>443
>>444
微妙なラインだよなー
ぶっちゃけるとそのサイトはジオシティーズドメインのページで、ジオシティーズの
URLは普通にアーカイブ何万も保存されてて見られるんだけど、そのドメインのサイトは
除外されてるんだよな
自分はそもそもの管理者じゃなくてそのページのファンで、もしまた見られるなら
自分が読んで楽しみたいだけなんだけど、やっぱ厳しいかもしれんな
- 446 :192.168.0.774:2020/09/14(月) 03:08:56.33 ID:W68LNMti0.net
- ArchiveTeamがNAVERまとめのアーカイブ作業に取り組み始めてくれてたみたい
進捗はわからないけど、これでひとまず安心かな
漏れもあるだろうから重要なページは各自で保存する必要があるけどね
>>435
pythonでスクリプト組んで収集した
ArchiveTeamはIRCを使って活動してる
サイトの#から始まるリンクをクリックすれば各プロジェクトに対応したチャットルームに行けるよ
コマンド入力でクローラ操作してる人がいるArchiveBotの部屋が活発なイメージ
- 447 :435:2020/09/14(月) 04:11:09.04 ID:Np2NU3M80.net
- >>446
なるほど、どうもありがとう
ArchiveTeamが動いてくれたなら最悪の事態は避けられるはずだな...
もちろん>>432(446)の収集したURLあってこその事だから自分も見習わないといけないが
- 448 :446:2020/09/14(月) 11:29:54.09 ID:sR0ATY0Y0.net
- NAVERまとめデータ共有
csvデータ(URL, ページ数, タイトル)記事数:1472709, 更新日昇順, 192 MB
https://web.archive.org/web/20200913150754if_/https://transfer.notkiska.pw/r9mfn/NAVER_matome_article_list.csv
※収集後に更新されたことでタイトル、ページ数が異なったり削除されていたりする可能性あり
トピック一覧ページから収集したからトピックが設定されてない記事は1つも収集できてない
- 449 :192.168.0.774:2020/09/14(月) 15:27:58.62 ID:Np2NU3M80.net
- >>448
503エラーのページがアーカイブされているんだが
- 450 :192.168.0.774:2020/09/14(月) 15:30:52.44 ID:fWxNFkB80.net
- ごめんなさい。恥ずかしいのですがarchiveteamって何ですか?
- 451 :192.168.0.774:2020/09/14(月) 15:32:16.47 ID:Np2NU3M80.net
- Wayback Machineが一時的に落ちてただけだった
何回かリロードしたらちゃんとダウンロード出来たわ、すまん
- 452 :192.168.0.774:2020/09/14(月) 15:36:10.18 ID:Np2NU3M80.net
- >>450
ウェブアーカイブを組織的にやってる(おそらく非営利の)団体
ArchiveTeamが保存したコンテンツはInternet Archiveで公開される仕組みになってる
正直に言うと自分もArchiveTeamの公式サイトを読んでる途中だから、具体的な活動の様子とかはちょっとわからない
https://ja.wikipedia.org/wiki/Archive_Team
https://www.archiveteam.org/
- 453 :192.168.0.774:2020/09/17(木) 17:02:04.46 ID:/9nSrgLL0.net
- 【ネット】1000万件以上の研究論文がオンライン上から消失することを防ぐインターネットアーカイブの取り組みとは? [すらいむ★]
http://egg.5ch.net/test/read.cgi/scienceplus/1600244016/
総レス数 1003
271 KB
新着レスの表示
掲示板に戻る
全部
前100
次100
最新50
read.cgi ver.24052200