2ちゃんねる スマホ用 ■掲示板に戻る■ 全部 1- 最新50    
レス数が1000を超えているけど、まだ書けるかも知れないよ。

Internet Archive総合 (web.archive.org) #4

1 :名無しさん@お腹いっぱい。:2021/08/13(金) 03:38:17.64 .net
なんだかんだでお世話になってるInternet Archiveについて語りましょう
Internet Archive
ttp://www.archive.org/index.php

インターネット・アーカイブ - Wikipedia
ttp://ja.wikipedia.org/wiki/InternetArchive
  ------------------


Q.Internet Explorerで日本語などの2byte言語のページのWeb Archiveキャッシュを見ようとしても
真っ白なページ&文字化けが起きる&極端に重いなどの症状が出てしまう

A.[表示]もしくは右クリック→[エンコード]→[日本語(自動選択)]やその言語の文字コードに則したものをクリック


Q.Web Archiveでダウンロードしたzipなどが開けない&CRCが違うと表示される

A.よくWeb Archiveは1byte欠けを起こすのでバイナリエディタなどで該当ファイルを開き、
16進数の最後の末尾に「00」を付加すると正常なファイルになることがあります。


前スレッド
Internet Archive総合 (web.archive.org) #3
https://mevius.5ch.net/test/read.cgi/esite/1585760889/

550 :名無しさん@お腹いっぱい。:[ここ壊れてます] .net
むしろそこが読めん

551 :名無しさん@お腹いっぱい。:[ここ壊れてます] .net
一昨日昨日とせっかく順調だったのにたった今・・・

552 :名無しさん@お腹いっぱい。:2022/08/23(火) 23:29:24.71 .net
togetterって保存できても閲覧できないようになってる?
カレンダーから飛んでも現在のページに戻されてしまう

553 :名無しさん@お腹いっぱい。:2022/08/25(木) 05:13:13.00 .net
最近ドメイン指定で/*/を見てるとArchiveteamがサイトマップのXMLファイルURLをいろんなブログで保存してるのを見かけるんだけど
そのサイトマップに載ってるブログ記事のURLの方を保存してほしいな
サイトマップだけじゃ意味ない

554 :名無しさん@お腹いっぱい。:2022/08/25(木) 10:26:00.53 .net
archive.org
(failed)net::ERR_CONNECTION_TIMED_OUT

555 :名無しさん@お腹いっぱい。:2022/08/25(木) 11:36:11.20 .net
IA自体が落ちるとか大丈夫なのか

556 :名無しさん@お腹いっぱい。:2022/08/25(木) 11:57:50.22 .net
Internet Archiveに保存したデータって100年後も残ってると思う?
本当に永久に残せる気がしなくて悩んでる

557 :名無しさん@お腹いっぱい。:2022/08/25(木) 13:45:37.67 .net
復旧まだ?

558 :名無しさん@お腹いっぱい。:2022/08/25(木) 13:55:43.16 .net
>>556
デジタル情報を後世に残せる可能性が唯一あるのがInternet Archiveだろうね
ネット規制が年々厳しくなってるから情報を本にまとめて国立国会図書館に納本した方が案外残ってたりするかも?

559 :名無しさん@お腹いっぱい。:2022/08/25(木) 15:35:07.68 .net
やっぱり落ちてたんだ なんらかの方法でアク禁喰らったかと思ったw

560 :名無しさん@お腹いっぱい。:2022/08/25(木) 16:40:22.94 .net
アク禁喰らうほど負荷かけちゃ駄目よ

561 :名無しさん@お腹いっぱい。:2022/08/25(木) 16:53:16.25 .net
「Temporarily Offline
Internet Archive services are temporarily offline.

Please check our Twitter feed for the latest information.

We apologize for the inconvenience.」

今日は俺環だけではなかったのか・・・

562 :名無しさん@お腹いっぱい。:2022/08/25(木) 17:22:38.17 .net
10時サーバーが落ちていた
16時サーバーが落ちていた
17時サーバーが復旧してメンテ中になっていた

twitter.com/internetarchive/status/1562637688918142976
2022年8月25日(木)12:07:12 JST
> We are working to resolve the outage affecting
> http://archive.org & @waybackmachine

お前らの行動あるある
archive.ph/foxJV
archive.ph/LMz1C
archive.ph/z1gVl
archive.ph/W61NL
(deleted an unsolicited ad)

563 :名無しさん@お腹いっぱい。:2022/08/25(木) 17:55:50.65 .net
ほんとに落ちてて草

ここがサ終したらと思うとゾッとするわ

564 :名無しさん@お腹いっぱい。:2022/08/25(木) 18:12:34.13 .net
>>1
https://twitter.com/internetarchive/
-
(deleted an unsolicited ad)

565 :名無しさん@お腹いっぱい。:2022/08/25(木) 21:27:27.54 .net
直った

566 :名無しさん@お腹いっぱい。:2022/09/08(木) 00:46:00.71 .net
kiwifarmsという掲示板住民の嫌がらせ対象となった活動家らがCloudflareに対して抗議
掲示板はCloudflareからのブロックに続き、Wayback Machineのアーカイブ対象からも除外されたことで物議を醸してる
https://i.imgur.com/gzErRBc.jpg

Reddit r/Archiveteam のスレでは賛否両論
https://www.reddit.com/r/Archiveteam/comments/x7xmxy/wayback_machine_deletes_kiwifarms_archive

参考
ITmedia『Cloudflare、フォーラムKiwi Farmsをブロック 「命にかかわる脅威と判断」』
https://www.itmedia.co.jp/news/spv/2209/05/news059.html

567 :名無しさん@お腹いっぱい。:2022/09/08(木) 01:06:13.64 .net
redditをSPNすると404になるやつ、まだ直ってないのか・・・

568 :名無しさん@お腹いっぱい。:2022/09/10(土) 16:56:52.81 .net
昨日あたりから調子悪い?

569 :名無しさん@お腹いっぱい。:2022/09/11(日) 01:37:35.36 .net
Not Fundになる

570 :名無しさん@お腹いっぱい。:2022/09/11(日) 07:29:45.30 .net
404 not found継続中

571 :名無しさん@お腹いっぱい。:2022/09/11(日) 12:04:17.42 .net
確かにここ何日か「Internal server error.」とか「Not Found」が頻繁に出てる

572 :名無しさん@お腹いっぱい。:[ここ壊れてます] .net
エラー出ても2、3回やれば保存が始まるか保存制限に引っ掛かるかのガチャだな
保存できる確率は1/3か1/4

573 :名無しさん@お腹いっぱい。:2022/09/11(日) 23:57:16.77 .net
エラーになった後もう一度やると「The same snapshot had been made seconds/minutes ago」が返ってくることがある
保存できてるならちゃんと返してほしいが

574 :名無しさん@お腹いっぱい。:2022/09/12(月) 12:47:12.64 .net
本当にできてるならまだ良いが、
できてないのにできてるとみなされて「The same snapshot had been made ** minutes, ** seconds ago. You can make new capture of this URL after 45 minutes.」なんてことも
本当にできてないのに45分待ちはきつい
ちなみに「web.archive.org/web/*/(URL)/*」では本当にできてる場合は緑or青、みなされてるだけの場合は赤or黄で表示

575 :名無しさん@お腹いっぱい。:2022/09/12(月) 23:14:14.97 .net
>>574
> ちなみに「web.archive.org/web/*/(URL)/*」では本当にできてる場合は緑or青、みなされてるだけの場合は赤or黄で表示

嘘はいかんよ。
緑として記録されても、リダイレクトされた先で 403 や 404 (つまり赤) ってこともありうる。
IA の説明通り、HTTP のステータスコードのみで考えるべし。

576 :名無しさん@お腹いっぱい。:[ここ壊れてます] .net
直った気がする

577 :名無しさん@お腹いっぱい。:2022/09/13(火) 11:03:38.19 .net
某M社からDMCA報告が来たらしく、アップしてた動画が削除された
IAも巡回してるんだな(YouTubeの元動画は放置なのが謎だけど)
MAD動画とかは--metadata=noindex:trueで上げた方がいいかも

578 :名無しさん@お腹いっぱい。:2022/09/15(木) 13:39:05.63 .net
てか最近YouTubeの動画URLが一度&themeRefresh=1が付いたURLにリダイレクトされてもう一度リダイレクトされて元のURLに戻るようになってるんだけど
SPNの動画ファイルの保存までちゃんとできてる?

579 :名無しさん@お腹いっぱい。:2022/09/16(金) 16:32:46.10 .net
>>575
済まない、「できてる場合:青、できてる場合とできてない場合と:緑」
communityserver.org/contents/2602/

580 :sage:2022/09/17(土) 14:17:53.95 .net
最近、ラブライブや仮面ライダー関連のツイッターの返信コメント欄が保存されていないのは>>571>>572が原因かな?

ttps://twitter.com/bandai_ridertoy/status/1569589209190776834の中の各返信コメント欄URLをインターネットアーカイブで検索しても見つからなかったし。
(deleted an unsolicited ad)

581 :名無しさん@お腹いっぱい。:2022/09/17(土) 14:20:02.00 .net
最近、各ツイッターのページの返信コメント欄をインターネットアーカイブで探しても過去のデータでは見つからないパターンが多いな。
担当者さぼってんのか?それとも保存する人いなくなったのか?

582 :名無しさん@お腹いっぱい。:2022/09/19(月) 01:06:12.59 .net
あらら?インターネットアーカイブが現状では見れなくなっている。

583 :名無しさん@お腹いっぱい。:[ここ壊れてます] .net
そうなってくるとインターネットアーカイブアーカイブがいるな

584 :名無しさん@お腹いっぱい。:2022/09/20(火) 10:26:44.70 .net
>>581
Twitterを大量に保存してるのはArchiveTeamだから
youtubeの動画と違って公式じゃないんよね

585 :名無しさん@お腹いっぱい。:2022/09/21(水) 03:41:43.60 .net
それはゲリラか何かなのか

586 :名無しさん@お腹いっぱい。:2022/09/26(月) 02:13:39.95 .net
>>581
他人に頼ってないで重要だと思うなら自らSave Page NowにツイートのURL突っ込めんでいけばいいだろ
ArchiveTeamも全てのツイートURLを保存してるわけじゃないし抜けまくりだぞ

587 :名無しさん@お腹いっぱい。:[ここ壊れてます] .net
ニコニコ動画で「vipper吹き替え」と言う物が消えるのですが
お暇な方いればそのアーカイブ活動に協力していただきたいです

私がアーカイブしようとしている物は大体アーカイブできていて
あと「タグ」と「コメント」だけです
詳しい事はニコニコ大百科の掲示板にレスしています
https://dic.nicovideo.jp/b/a/vipper%E5%90%B9%E3%81%8D%E6%9B%BF%E3%81%88/31-
https://dic.nicovideo.jp/b/a/vipper%E5%90%B9%E3%81%8D%E6%9B%BF%E3%81%88/61-
(ID: Yv+WglHqgh のレスです)

588 :名無しさん@お腹いっぱい。:2022/09/26(月) 11:32:22.44 .net
A screen shot was captured. View screen shot:

SPNでページのスクショ画像が一緒に保存されたりされなかったりする機能が始まってる様子

589 :名無しさん@お腹いっぱい。:2022/09/26(月) 14:41:39.24 .net
何の意味があるんだろう
当時のレンダリングエンジンの記録?

590 :名無しさん@お腹いっぱい。:2022/09/26(月) 15:55:53.05 .net
今どきの動的なサイトだとSPNじゃ取れなかったりするが
スクショなら見た目だけでもアーカイブ出来たりする

591 :名無しさん@お腹いっぱい。:2022/09/26(月) 23:47:44.20 .net
(´‥∀‥`)ほう

592 :名無しさん@お腹いっぱい。:2022/09/28(水) 09:19:48.78 .net
9月20日以降ツイートのアーカイブが自動で取られなくなってる?
めんどくせぇんだよなぁ膨大な数のツイート1つ1つ手動でアーカイブさせんの

593 :名無しさん@お腹いっぱい。:2022/10/02(日) 14:01:31.65 .net
Sorry
Job failed

594 :名無しさん@お腹いっぱい。:[ここ壊れてます] .net
「Job failed」今日はやたら出るなぁ
取得したいサイトとの相性の問題かと思ったらあちらこちらでそんな感じ

595 :名無しさん@お腹いっぱい。:2022/10/06(木) 08:09:49.83 .net
>>586 自分が初めて見る前のデータが見たいだけですが…。
仕事中などで見られなかったデータとか。

アクティブチームも最近全然見てないパターン多すぎ。
ちゃんとの人の事考えてるのか?
もう少し早くできないものか。

596 :名無しさん@お腹いっぱい。:2022/10/06(木) 10:56:37.49 .net
>>595
文句言ってる暇があったら自分で実行すればいいだけでは?
アクティブチームが誰だかは知らんが、ArchiveTeamは誰でも参加できるぞ

https://wiki.archiveteam.org/index.php/ArchiveTeam_Warrior

597 :名無しさん@お腹いっぱい。:2022/10/07(金) 08:02:54.16 .net
インターネットアーカイブもすべてのYouTubeのURLを保存してるわけではないと思いますが・・・。

https://www.youtube.com/watch?v=2tI1YCwYzIo

https://www.youtube.com/shorts/Bx__LBTXFDM

https://www.youtube.com/watch?v=MWNnX_HROUQ

これらのページの保存が遅すぎる。

598 :名無しさん@お腹いっぱい。:2022/10/07(金) 23:59:11.39 .net
上でも書いてる人いるけど、/shorts/から始まるYoutubeのショート動画って動画ファイルの自動保存対応してないのかな?
watch?v=に置き換えたURLでも見れるので、念の為両方のURLで保存してるけど、ショート動画のファイルだけ保存できていないような・・・

599 :名無しさん@お腹いっぱい。:2022/10/08(土) 15:48:17.11 .net
動画まで保存するとコスト凄そうだな

600 :名無しさん@お腹いっぱい。:2022/10/10(月) 01:58:16.83 .net
>>592 最近ツイッターの公開直後のデータがアーカイブされなくなっているのはこれが原因だとしたら納得いく。
アクティブチームが膨大な数のツイート1つ1つ手動でアーカイブさせるのはめんどくさいのはわかるけど・・・。

601 :名無しさん@お腹いっぱい。:2022/10/10(月) 01:59:45.27 .net
>>592 もしかするとYouTubeの動画の方もアーカイブが自動で取られなくなってるかもしれない。

602 :名無しさん@お腹いっぱい。:[ここ壊れてます] .net
>>598 >>601
ほう

603 :名無しさん@お腹いっぱい。:[ここ壊れてます] .net
つべとれてないね

604 :名無しさん@お腹いっぱい。:2022/10/11(火) 17:46:02.12 .net
全くだ。
https://www.youtube.com/watch?v=ZXrKwldUWn0
上記のURLの保存が遅すぎる。
何やってんだ担当者は!

605 :名無しさん@お腹いっぱい。:2022/10/16(日) 00:14:47.38 .net
>>604
人に文句言ってないで自分で保存しろ

606 :名無しさん@お腹いっぱい。:2022/10/16(日) 10:20:41.68 .net
YouTubeの自動アーカイブって容量的に非現実的に思える

607 :名無しさん@お腹いっぱい。:2022/10/16(日) 18:14:42.48 .net
でも本家はそれでやっていっているんでしょう?

608 :名無しさん@お腹いっぱい。:2022/10/16(日) 19:05:29.39 .net
やっていってないぞ
クローラーは全ての動画を保存していないし、SPNでも全て保存する訳ではない。(CNNとかのニュースは割と保存される)
それに、インターネットアーカイブの人も「少数の人しか興味がなく、長い動画を、メタデータを付加することなく、ただインターネットアーカイブに突っ込むのはやめてね」(訳)と言っている。
https://www.reddit.com/r/DataHoarder/comments/sq6wbq/please_do_not_mirror_youtube_on_the_internet/

それでも雑談とゲームの動画をすぐに保存してほしいのなら、寄付するといいよ。開発に参加するのもいい。

609 :名無しさん@お腹いっぱい。:2022/10/17(月) 19:38:48.84 .net
選別はどういう原理なんだろう

610 :名無しさん@お腹いっぱい。:2022/10/17(月) 23:52:20.94 .net
アーカイブって著作権引っかかりそうで
手軽にできない
一応引用って形で引っかからないんだろうか
正直ページとしては残しておきたいもの結構あるんだけどなぁ…

611 :名無しさん@お腹いっぱい。:2022/10/18(火) 01:15:56.16 .net
>>610
SPNの話ならフェアユースで合法だよ

612 :名無しさん@お腹いっぱい。:2022/10/18(火) 13:57:43.00 .net
dtiがサービス終了だって

613 :名無しさん@お腹いっぱい。:2022/10/21(金) 12:04:03.87 .net


614 :名無しさん@お腹いっぱい。:2022/10/23(日) 09:50:10.13 .net
ファボ1万以上のツイートでもアーカイブチームが取りに来なくなってるな
どうしたんだろ?Twitter社からお𠮟りでも受けた?

615 :名無しさん@お腹いっぱい。:2022/10/25(火) 10:08:14.34 .net
みんなSPNの話ばっかりでアイテムのアップロードは使わないの?

616 :名無しさん@お腹いっぱい。:2022/10/26(水) 00:05:19.14 .net
ここ1週間何度試しても「Cannot resolve host (URL)」と表示されて取得できないサイトが
前はなんのこともなく取得できてたのに・・・

617 :名無しさん@お腹いっぱい。:2022/10/30(日) 05:24:56.68 .net
Internal Server Error for https://www.excite.co.jp/world/ (HTTP status=500).

618 :名無しさん@お腹いっぱい。:2022/11/01(火) 19:41:42.25 .net
二人くらい垢消しが確定してるユーザーのツイートを一人で手動で片っ端からアーカイブ取ってたけど
量多くて時間はかかるし自分が動かなきゃ誰もやらんから自分がしくじったら一生残せなくなるという罪悪感もあるしで
兎に角ツラい こういう不毛な作業こそ全部ロボットにやらせるべきやろ

なんかいいツールでもないもんかねぇ

619 :名無しさん@お腹いっぱい。:2022/11/03(木) 10:45:34.96 .net
>>605 だから仕事や睡眠の関係で早く保存できない場合があるから自分で早く保存しろと言われても・・・。

620 :名無しさん@お腹いっぱい。:2022/11/03(木) 10:50:22.06 .net
>>614 ・・・ツイッター社からお叱りを受けたとしたらツイッターのページの自動アーカイブが出来なくなったのも納得がいく。
権利関係かな?

621 :名無しさん@お腹いっぱい。:2022/11/05(土) 19:47:39.33 .net
archive.stが取れない…

622 :名無しさん@お腹いっぱい。:2022/11/06(日) 12:06:34.61 .net
Saving page https://w.atwiki.jp/soulou/sp/
Worker exited prematurely: signal 15 (SIGTERM) Job: 644.

623 :名無しさん@お腹いっぱい。:2022/11/06(日) 12:24:09.00 .net
>>618
https://github.com/JustAnotherArchivist/snscrape
これでURL集めて後はその辺のスクリプトでアーカイブすればいい

624 :名無しさん@お腹いっぱい。:2022/11/09(水) 17:23:42.06 .net
YouTube動画の保存初めてやってみたんだけど
すごい時間かかるうえエラー出て何度やってみても保存できないのも多いし
うまく保存できてもコメント欄はなぜか明らかに違う動画のものだったり文字化けしまくりでめちゃくちゃだった…
あんまり使えないな

625 :名無しさん@お腹いっぱい。:2022/11/10(木) 06:12:44.32 .net
12月までに保存じゃー
https://geolog.mydns.jp/

626 :名無しさん@お腹いっぱい。:2022/11/12(土) 06:08:18.30 .net
ツイッター保存するとほぼ全てfirst archiveになる
何万もいいねされてバズってるのでもそう
もうツイッターは一切自動保存しないのかな…

627 :名無しさん@お腹いっぱい。:2022/11/12(土) 11:26:29.99 .net
今週SPNで保存してもfaviconだけしか保存されない例が何回も起きたんだが
24時間後に同じURLを確認するとやっぱり保存できてなかったわ
保存できてるか確認したほうがいいよ

628 :名無しさん@お腹いっぱい。:2022/11/13(日) 16:46:40.56 .net
>>625
zipかなんかに全部か分割して別の場所に投稿してほしい。
管理人見かけたら言っといて。

629 :名無しさん@お腹いっぱい。:2022/11/14(月) 13:49:25.52 .net
>>625
学区以外のwww.geocitiesのページ開こうと思っても
まともに開けないくらい重いんだが

630 :名無しさん@お腹いっぱい。:2022/11/14(月) 20:47:39.81 .net
>>622
このエラーが出たら数分後に自動で保存をやり直してくれる時とやってくれない時があるなー。
最近出るようになった他のセグメンテーション系エラーも同じ感じ。
>>624
今の所、コメント欄のJavaScript周りがおかしいので直してほしいね。

631 :名無しさん@お腹いっぱい。:2022/11/14(月) 22:52:15.62 .net
今日は調子が良い気がするようなしないような

632 :名無しさん@お腹いっぱい。:2022/11/16(水) 04:29:12.79 .net
5ちゃんのアーカイブもGone.になってしまうの多い
最近ここ調子悪いけど大丈夫なんかね
寄付金のお願いもずっと出てるし

633 :名無しさん@お腹いっぱい。:2022/11/16(水) 20:08:56.54 .net
>>632
普通のブラウザでも同じ鯖に連続してアクセスするとGone.になるから、
時間を置いて取得するしかない。それがどのタイミングなのかは分からないけど

634 :名無しさん@お腹いっぱい。:2022/11/16(水) 21:36:23.91 .net
締め付け厳しくなってるのか、
20分ぐらいつながらないことが

635 :名無しさん@お腹いっぱい。:2022/11/17(木) 17:20:37.12 .net
worldstarhiphop.com
200万以上も魚拓が保存されているようだが、excludedと表示される

636 :名無しさん@お腹いっぱい。:2022/11/18(金) 10:43:43.03 .net
最近重すぎる

637 :名無しさん@お腹いっぱい。:2022/11/18(金) 19:58:05.57 .net
今日は「Job failed.」がやたら出るなぁ
あまりやり直すと1分あたり3件までのしばりで引っかかる
前はもう少しできたっけ・・・これも締め付け厳しくなってるような
取得できてるのかも怪しくて確認すると「Fail with status: 503」

638 :名無しさん@お腹いっぱい。:2022/11/18(金) 22:06:53.56 .net
システム運用がカツカツなんだろうな

639 :名無しさん@お腹いっぱい。:2022/11/19(土) 00:38:40.53 .net
SPNの最新ファイルを見てみると、
18日9時〜14時33分(日本時間18日午後6時〜午後11時33分)の間はファイルが全く追加されてなかったので、
5時間ほど保存できなかったっぽい
この間に保存しようとしたらjob failedエラーだらけだった
今は問題なく保存できるぜ

640 :名無しさん@お腹いっぱい。:2022/11/22(火) 04:48:34.40 .net
WaybackMachineとなOpenLibraryとか
もっと知られてもいいもんだろこれ
知ってるのと知らないのじゃ全然便利さが違う
そもそもInternetArchiveが知られて無さすぎる

641 :名無しさん@お腹いっぱい。:2022/11/24(木) 06:21:48.95 .net
そりゃまあ一般人はネットのアーカイブなんてこれっぽっちも
気にしてないからな

642 :名無しさん@お腹いっぱい。:2022/11/25(金) 01:50:48.75 .net
誰も動かないから自分が動かなきゃいけない
自分がアーカイブ間に合っていれば遺せたのに

こんな使命感持っちまったせいで病んじまったわ

消える前に残すのも大事だが既に消えてしまった物を「消える前に残す」以外の手段で発掘する方法ってないもんかね

643 :名無しさん@お腹いっぱい。:2022/11/25(金) 08:18:14.39 .net
哲学的じゃの
もうどうにも取り戻せないから「消えてしまった」と言うのだよ

644 :名無しさん@お腹いっぱい。:2022/11/25(金) 20:11:50.98 .net
大げさだけどなんか人の命みたいだ
でも亡くなった人が自分の生きた証にみたいに一生懸命残してたブログとかが跡形もなく消えてしまってたりすると…悲しい

645 :名無しさん@お腹いっぱい。:2022/11/26(土) 23:33:08.71 .net
また>>547に近い事態で困ってて別のブラウザでアクセスし直したらつながった
たまにつながらないこともあるが、回復は先に使ってたブラウザより早い
同じ時間帯に使い比べたら片方つながらないのに、もう片方はなんのこともなくつながったり
たまたまか、それともブラウザとの相性の問題か・・・

646 :名無しさん@お腹いっぱい。:2022/11/27(日) 04:04:49.75 .net
>>645
まぁロードバランサが入ってるだろうし、アクセス毎に運試しをやってるようなもんだな

647 :名無しさん@お腹いっぱい。:2022/11/27(日) 17:26:01.10 .net
前は重くても繋がってはいたが
最近はアクセスすら出来ないことが多い

648 :名無しさん@お腹いっぱい。:2022/11/27(日) 17:46:34.00 .net
本当に繋がんないね
資金繰りヤバいんじゃないかと心配になる

649 :名無しさん@お腹いっぱい。:2022/11/27(日) 19:23:05.98 .net
archive.todayを代用してください。

650 :名無しさん@お腹いっぱい。:2022/11/27(日) 20:58:34.67 .net
結局ローカルでも保存するしかないやん

651 :名無しさん@お腹いっぱい。:2022/11/28(月) 02:04:21.68 .net
Wayback Machine がダウンしているかタイムアウトで保存できない、
あるいは、保存に成功したのを開けないのが続いてて困る
https://archive.is/wkgwG

652 :名無しさん@お腹いっぱい。:2022/12/01(木) 08:14:56.48 .net
>>639
最新ファイルはどこで見れるか教えていただけませんか・

653 :名無しさん@お腹いっぱい。:2022/12/01(木) 08:30:40.22 .net
>>652
>>269

654 :名無しさん@お腹いっぱい。:2022/12/01(木) 09:32:56.82 .net
ありがとうございます

655 :名無しさん@お腹いっぱい。:2022/12/03(土) 09:15:41.02 .net
テスト

656 :名無しさん@お腹いっぱい。:2022/12/03(土) 09:16:59.78 .net
https://www.youtube.com/watch?v=KyCAITT8iSA

https://www.youtube.com/watch?v=tlLo7jypqDI

アクティブチームの皆さん、上記のURLのアーカイブが遅いぞ、もしかしてこの時はW杯で忙しかったのか?
自分は寝てました。

657 :名無しさん@お腹いっぱい。:2022/12/04(日) 07:15:29.49 .net
>>656
https://archive.ragtag.moe/
https://hololivevideos.download/

658 :名無しさん@お腹いっぱい。:2022/12/04(日) 10:51:22.42 .net
動画はtubeupで上げれば良くね?
https://github.com/bibanon/tubeup

659 :名無しさん@お腹いっぱい。:2022/12/04(日) 15:29:19.99 .net
>>658 権利が無いから無理です。

660 :名無しさん@お腹いっぱい。:2022/12/04(日) 19:31:01.38 .net
もしInternetArchiveが無くなったら
割とひどい文化的な痛手になるんじゃないだろうか
どっか国立のサービスにデータ引き渡すのかな

661 :名無しさん@お腹いっぱい。:2022/12/04(日) 22:22:21.88 .net
YouTubeの動画の再生ページでもアーカイブが自動で取られなくなっている・・・?

662 :名無しさん@お腹いっぱい。:2022/12/05(月) 17:04:47.22 .net
>>660
ジオシティーズがなくなった時の損失の比ではなさそうだな…

663 :名無しさん@お腹いっぱい。:2022/12/06(火) 18:59:20.83 .net
ここ最近、公開直後にアーカイブされてないこと多いよな。
運営も最善を尽くすと言っていたが、やはり難しいのか・・・?

と思ってたら対象の下記のURLをアーカイブ保存するのに時間がかかっている。
https://www.youtube.com/watch?v=QVipLYBQ31g
もしかするとシステムのエラーが引っ掛かっているかも・・・。

664 :名無しさん@お腹いっぱい。:2022/12/07(水) 14:49:59.21 .net
そもそも動画保存はオマケなので
確実にするならローカルに保存すべき

665 :名無しさん@お腹いっぱい。:2022/12/07(水) 18:58:22.97 .net
私は動画公開直後のページのデータを求めているのです。

666 :名無しさん@お腹いっぱい。:2022/12/07(水) 23:36:49.30 .net
>>665
youtubeのページのデータならなおさら不安定だと思うが
yt-dlpとかでメタデータごと落とせば?

667 :名無しさん@お腹いっぱい。:2022/12/08(木) 00:06:43.49 .net
>>664
何でもそうだが誰でも好きな時に見れるようにしてようやくアーカイブと言えるんだよなぁ
自分一人だけの手元にずっとあっても意味がないんだよ

668 :名無しさん@お腹いっぱい。:2022/12/09(金) 18:57:23.93 .net
Twitterマスク氏、15億アカウントを削除すると発表 対象は休眠ユーザー
https://asahi.5ch.net/test/read.cgi/newsplus/1670577460/
これ故人のも全部消えてしまうんだろうか

669 :名無しさん@お腹いっぱい。:2022/12/10(土) 13:28:20.80 .net
Twitterのフルアーカイブってどうすればいいのでしょうか?
単純にアーカイブしたいアカウントのトップをアーカイブしても
ある程度直近のツイートがアーカイブされるだけで
スクロールした場合などの古いツイートはアーカイブされないのですが…
現状個別にツイート開いてアーカイブするしかないんでしょうか?

670 :名無しさん@お腹いっぱい。:2022/12/10(土) 16:22:21.70 .net
このサイトでアーカイブすればいい
https://archive.md/

671 :名無しさん@お腹いっぱい。:2022/12/10(土) 19:54:05.27 .net
最近waybackmachineでツイートのアーカイブがされにくくなってる。
俺は手動で片っ端から保存してるけど、量が膨大過ぎて到底追いつかん。

672 :名無しさん@お腹いっぱい。:2022/12/12(月) 11:30:16.44 .net
されにくい、じゃなくてされてない
そのせいで今まで通り勝手に録ってくれれば残ってた物が残らなくなって滅茶苦茶腹立つ

そうでなくても勝手に録られてた頃でさえそれ以前の過去は録ってくれない無能だった
人一人の力で1日にアーカイブにブッ込めるのは1000くらいが限界だっての

673 :名無しさん@お腹いっぱい。:2022/12/12(月) 17:23:21.95 .net
そんなにアーカイブをするのは確固たる出典が欲しいウィキペディアン?

674 :名無しさん@お腹いっぱい。:2022/12/12(月) 19:02:11.51 .net
保存したページ見ようとしたら延々と読み込みが続いて見れないんだがサイト側が保存対策でもしたんだろうか

675 :名無しさん@お腹いっぱい。:2022/12/12(月) 23:24:17.63 .net
Twitterは保存する人が多すぎで時間かかるわって表示されるね

676 :名無しさん@お腹いっぱい。:2022/12/13(火) 18:18:36.60 .net
>>670
archive.md は古い端末からだと画像認証やり難くなってしまった…。

11月までは画像認証じたい要求されなかったけど

677 :名無しさん@お腹いっぱい。:2022/12/13(火) 18:23:17.04 .net
>>675
Nitter変換( >>488 )で拓取るほうがたぶん楽。

Twitter公式はUIがムチャクチャ重くなってしまった

678 :名無しさん@お腹いっぱい。:2022/12/14(水) 00:48:53.31 .net
Nitterも本家ツイートが消えると連動して消えるから結局手間は同じなんだよな…
ちょっとくらい猶予くれたら完璧に録れるのだが

679 :名無しさん@お腹いっぱい。:2022/12/14(水) 13:53:28.10 .net
>>669

>>623

680 :名無しさん@お腹いっぱい。:2022/12/14(水) 16:15:23.92 .net
また取得エンジン不具合か・・・

681 :名無しさん@お腹いっぱい。:2022/12/15(木) 10:52:17.55 .net
>>670
>>679
ありがとうございます
もう故人になったアカとかのアーカイブが捗ります
参考にさせていただきます

682 :名無しさん@お腹いっぱい。:2022/12/15(木) 14:09:48.67 .net
最近サムネが沢山あるサイトを開くとサムネが表示されない事がある

683 :名無しさん@お腹いっぱい。:2022/12/17(土) 18:54:58.46 .net
archive todayはwaybackmachineと違って全ツイートが保存できるんでしょうか?
初歩的な質問で、すみません

684 :名無しさん@お腹いっぱい。:2022/12/18(日) 18:14:08.31 .net
>>683
全ツイート保存は無理だけどtodayの方が保存件数多いみたいね
数えてみたらWayBack で保存されるツイートは40件くらいだけど、 today は百数十件保存されてた

全ツイート保存は愚直に1ツイートずつ投げていくしかない

685 :名無しさん@お腹いっぱい。:2022/12/19(月) 08:35:36.36 .net
例のWayback拒否ニュースサイトが記事にWaybackのリンクを貼るのはおかしいだろ

686 :名無しさん@お腹いっぱい。:2022/12/19(月) 23:05:57.30 .net
>>684
それが数百程度で済むならいいんだが数千、数万超えると自分一人だけの力だと到底取り切れなくなる
生半可な覚悟で挑戦して、中途半端に記録して挫折して、再開するかと思ったら鍵かけられたり最悪ツイ消し垢消し
これで何度苛付かされたか!

指定の垢のツイートをひたすら遡ってツイート1つ1つのURLをWaybackmachineにブチ込んでいく
これやらせるの別に生身の人間じゃなくても十分可能だと思うんだけど

687 :名無しさん@お腹いっぱい。:2022/12/19(月) 23:45:24.38 .net
todayはIPバレるみたいな話がありましたけど、今もそうなんですか?

688 :名無しさん@お腹いっぱい。:2022/12/20(火) 07:55:12.74 .net
>>687
https://archive.is/taruo.net/e/
2020 年に入ってからお漏らししなくなってるかな。

689 :名無しさん@お腹いっぱい。:2022/12/20(火) 17:03:59.68 .net
>>688
そうなんですね
ありがとうございます

690 :名無しさん@お腹いっぱい。:2022/12/23(金) 12:23:17.31 .net
過去tweetの確認ですがwayback machineでjsonで保存されているやつは中身を見ることは出来ないんでしょうか

691 :名無しさん@お腹いっぱい。:2022/12/24(土) 16:14:40.64 .net
>>690
俺が知ってる限りない
もし元のツイートが現存してるならお手数おかけするが改めて取り直しておいて欲しい

マジで無能だと思うよ 折角取ったのにjsonとかいうよくわからん形式で保存しよってからに

692 :名無しさん@お腹いっぱい。:2022/12/24(土) 16:56:04.32 .net
>>691
ありがとうございます 承知いたしました

693 :名無しさん@お腹いっぱい。:2022/12/25(日) 12:02:04.99 .net
>>690

textがツイート本文なので、そこを変換すれば見れるよ
https://tech-unlimited.com/escape-unicode.html

jsonでも表示形式が違うだけでデータは保存されてる

694 :名無しさん@お腹いっぱい。:2022/12/26(月) 12:48:15.60 .net
もうすぐ2023か…
インターネット上の情報がまた一つ年をとるのか…
残していかないとな

695 :名無しさん@お腹いっぱい。:2022/12/26(月) 14:51:38.79 .net
>>693
見ること出来ました!大変ありがとうございました!

696 :名無しさん@お腹いっぱい。:2022/12/27(火) 16:49:50.40 .net
広告画像のドメインは大半がブロックリストに入ってるけど
個人的にはああいうのも重要だと思うんだけどなぁ

697 :名無しさん@お腹いっぱい。:2023/01/01(日) 12:33:10.80 .net
ゲームアツマールがサービス終了するらしいけど
サイトの構造的にアーカイブは厳しいかな?

698 : :2023/01/01(日) 14:05:31.41 .net
ツイッターはモバイル用サイト(mobile.~)だと正常に保存されないのね
PC用サイトのURLを入力して保存する必要があるからスマホからだと気をつけないとならない

699 :名無しさん@お腹いっぱい。:2023/01/01(日) 15:17:22.03 .net
>>698

φ(..)メモメモ

700 :名無しさん@お腹いっぱい。:2023/01/03(火) 01:24:57.31 .net
archive todayでインスタ保存できるんやね
今日初めて知った
インスタはウェイバックで保存できないが故に記録が手薄になってるのは禍根を残すと思う

701 :名無しさん@お腹いっぱい。:2023/01/03(火) 05:00:02.49 .net
>>700
Wayback Machineで上手く保存できない所はArchive today使ってるなぁ
例えばboothの商品ページとかArchive today使ってる一方商品画像そのものはWayback Machineで録ってる
結局は最終的に原本が消える前にどこかに残せさえすればいい

702 :名無しさん@お腹いっぱい。:2023/01/07(土) 11:52:29.07 .net
中の人曰く去年帯域幅を80Gbpsから140Gbpsに増やしたらしい
twitter.com/textfiles/status/1547365784770543618
だからちょっと早くなってるはず
(deleted an unsolicited ad)

703 :名無しさん@お腹いっぱい。:2023/01/08(日) 12:48:26.32 .net
twitterの保存がスムーズになってるな

704 :名無しさん@お腹いっぱい。:2023/01/08(日) 20:48:19.82 .net
今InternetArchiveの総データ量って
何PBになってるんだろうか
てかPBって冷静に考えるとクソ多いな

705 :名無しさん@お腹いっぱい。:2023/01/08(日) 23:56:10.95 .net
>>704
運用コスト馬鹿にならないだろうなぁ
ストレージ(サーバ)に回線にデータバックアップに、気が遠くなりそう

706 :名無しさん@お腹いっぱい。:2023/01/09(月) 00:42:30.99 .net
2021年12月時点で保存容量は212ペタバイトみたいだね
そのうち57ペタバイトをwaybackが占めているんだと
https://archive.org/web/petabox.php

そこらのサービスと違ってうっかりデータ破損でもした時に
賠償しますでは済まないのが恐ろしいね
人類が将来参照できる史料が一瞬で失われてしまうんだもの

707 :名無しさん@お腹いっぱい。:2023/01/09(月) 00:46:01.79 .net
保存容量というよりデータ量といった方が正しいか

708 :名無しさん@お腹いっぱい。:2023/01/09(月) 19:41:49.29 .net
インターネットアーカイブそのもののバックアップが将来的には必要だと思うけどね

709 :名無しさん@お腹いっぱい。:2023/01/10(火) 08:41:36.86 .net
There was a delay in registering this snapshot with the Wayback Machine.
The snapshot may not be available right now, please try again later.
→このスナップショットを Wayback Machine に登録するのに遅延がありました。
スナップショットは現在利用できない可能性があります。後でもう一度試してください。

後日忘れたころに取得できてるなら良いが、やり直さなきゃなんない可能性て・・・

710 :名無しさん@お腹いっぱい。:2023/01/10(火) 16:06:49.97 .net
スナップショット取得完了後にその保存ページを確認しても、のちに消えている可能性があるということ?

711 :名無しさん@お腹いっぱい。:2023/01/10(火) 23:41:52.58 .net
そう、それが心配
せっかく時間かけても消えてたら(取得できてなかったら)悲しい

今は「Job failed.」が出やすい
ようやく取得できたと思ったら今度は・・・
There was a delay in registering this snapshot with the Wayback Machine.
You may be redirected to a previous version right now. This snapshot will be available later.
→このスナップショットを Wayback Machine に登録するのに遅延がありました。
現在、以前のバージョンにリダイレクトされる場合があります。このスナップショットは後で利用可能になります。
本当に可能なら良いが

712 :名無しさん@お腹いっぱい。:2023/01/10(火) 23:49:16.56 .net
取得できたと思ったら→Doneになったと思ったら(取得できてるのかはまだ確実ではない)

713 :名無しさん@お腹いっぱい。:2023/01/19(木) 00:07:06.28 .net
最近のインターネットアーカイブ、この辺の時間ずっと落ちてるな

714 :名無しさん@お腹いっぱい。:2023/01/19(木) 06:33:50.54 .net
>>713

ありゃりゃ

715 :名無しさん@お腹いっぱい。:2023/01/20(金) 18:32:14.50 .net
今日はいつもに増して「Job failed.」が出る
やり直しも1分あたり3件までのしばりで非効率

716 :名無しさん@お腹いっぱい。:2023/01/21(土) 10:48:18.26 .net
皆様におかれましては既知であるとは思われますが、今やっと見付けたので共有いたしまする
Time Travel
timetravel.mementoweb.org
あっちこっちのWeb archiveを串刺しで検索してくれる

717 :名無しさん@お腹いっぱい。:2023/01/21(土) 15:18:06.87 .net
>>716

それは自分が
「このページの魚拓をとりたい」
と思ってもとれないんですよね。

たしか。

718 :名無しさん@お腹いっぱい。:2023/01/21(土) 16:19:21.13 .net
某有名人のインスタ調べたけど全くと言っていいほど保存されてなくて笑った。
もう少しインスタやらSNSやらの保存も強化しても良いんじゃないかと思った(まあ口出すなら寄付しろと言われるかもしれんが)

719 :名無しさん@お腹いっぱい。:2023/01/21(土) 21:17:47.90 .net
>>717
> あっちこっちのWeb archiveを串刺しで検索してくれる

720 :名無しさん@お腹いっぱい。:2023/01/22(日) 02:50:05.38 .net
Internet Archive にアップロードされた DVD-ROM ディスクイメージから
中のファイルを直接ダウンロードすると、1 ギガバイトあたりでちょん切れる問題

https://archive.org/details/ti-308752-d-0-a-2
ここの TI308752D0A_2.ISO の中の ZZIMAGES/ZZIMAGES/PREINST7.SWM をダウンロードすると、
1485739900 バイトのはずが 1074528256 バイトで終わってしまう。
HTTP の Content-Length ヘッダは送られて来ないので、ダウンローダでの検知は不可能。

元の .iso をダウンロードすれば済む話なんだけどね。
パッケージの中のファイルが見える機能は便利でよく使うけど、こういう制限があるんだなぁ、と。
UDF 以外のファイルシステム (ISO 9660 とか Joliet とか) でも起こるかは未確認。
他のパッケージ形式 (.tar とか .7z とか .zip とか) で起こるかも未確認。

721 :名無しさん@お腹いっぱい。:2023/01/23(月) 18:48:19.71 .net
PANDORATV
ウェブリブログ
Lobi

1月31日にサービス終了

722 :名無しさん@お腹いっぱい。:2023/01/28(土) 23:14:25.28 .net
>>721
一度に複数のサービスがあと数日とかこんなん一人〜少人数が人力でカバーすんの無理やろ

723 :名無しさん@お腹いっぱい。:2023/01/29(日) 22:55:14.90 .net
重い

724 :名無しさん@お腹いっぱい。:2023/01/30(月) 15:32:24.15 .net
LINE BLOG サービス終了のお知らせ
https://lineblog.me/official/archives/1062469364.html

725 :名無しさん@お腹いっぱい。:2023/01/30(月) 15:46:52.71 .net
それにつながらないことが多くて作業を進めづらいし

726 :名無しさん@お腹いっぱい。:2023/01/30(月) 22:39:37.25 .net
>>724
LINE BLOGさえも終わりか…

727 :名無しさん@お腹いっぱい。:2023/01/31(火) 20:50:43.21 .net
ただ今制限を設けております

728 :名無しさん@お腹いっぱい。:2023/02/01(水) 19:31:42.08 .net
一時応答しなくなってた

729 :名無しさん@お腹いっぱい。:2023/02/02(木) 00:15:32.12 .net
ところでさ、最近Save Page Nowの同時保存制限が3個から4個に変わった?
タブ4個開いて数秒で立て続けに保存ボタン押してもYou have already reachedって出ないんだけど。
5個目は今まで通り出て待たされるが。

730 :名無しさん@お腹いっぱい。:2023/02/03(金) 11:48:23.73 .net
>>729
>>435のドキュメントのLimitationsを見ると、匿名ユーザーは1分間に4までって書いてるから合ってる

SPN2 APIを使ってる人に聞きたいんだけど、User statusって取得できてる?
ドキュメントの通りに送ってもログインしろよ的なエラーが返ってくるんだが
キーが合ってるのは確認済み

731 :名無しさん@お腹いっぱい。:2023/02/04(土) 14:47:54.24 .net
>>729
確かにそのようだ
締めつけ厳しい傾向の中でありがたい
あとはつながらないことが多い問題がなぁ

732 :名無しさん@お腹いっぱい。:2023/02/04(土) 19:44:00.52 .net
Firefoxユーザーだが今年に入ってから接続エラーばかりでweb.archive.org自体見れない状態が続いてたが、
about:supportにある「起動時キャッシュの消去」をしてみたら見れるようになって解決した。
同じ状況の人がいるなら自己責任で試してみるといいよ。一番上のリフレッシュのボタンは初期化されるから押さないように。
これをやった後でもたまに同じエラーが表示されるが前よりはマシになった。

733 :名無しさん@お腹いっぱい。:2023/02/05(日) 19:08:01.22 .net
どうもユーザの新規登録周りがおかしくなってるような。

メアドやパスワードを入れて、認証メールが来るところまでは良いんだけど
ある条件の時、メールに記載された URL を開いても常に Sorry, we're kinda busy になってしまう。

ユーザ名が英数字のみの時は問題なし、かな漢字や絵文字を使うとダメ。
おそらくプロフページの URL が archive.org/details/@user_数字
となるようなケースで問題が起きてるのではないかと。

734 :名無しさん@お腹いっぱい。:2023/02/05(日) 21:09:01.70 .net
>>730
問題無いけどなぁ。

GET /save/status/user HTTP/1.1
Accept: application/json
Authorization: LOW xxxxxxxxxxxxxxxx:xxxxxxxxxxxxxxxx
Connection: close
Host: web.archive.org

HTTP/1.1 200 OK
Server: nginx/1.19.5
Date: Sun, 05 Feb 2023 12:06:03 GMT
Content-Type: application/json
Content-Length: 79
Connection: close
x-app-server: wwwb-app53
x-ts: 200
x-tr: 79
X-location: save2stat
X-RL: 0
X-NA: 1
X-Page-Cache: MISS
X-NID: -
Referrer-Policy: no-referrer-when-downgrade
Permissions-Policy: interest-cohort=()

{"available":8,"daily_captures":0,"daily_captures_limit":100000,"processing":0}

735 :名無しさん@お腹いっぱい。:2023/02/06(月) 11:45:14.45 .net
>>734
まじかー・・・、ありがとう
もう一度確認してみるわ

736 :名無しさん@お腹いっぱい。:2023/02/12(日) 06:52:17.87 .net
リンク先が画像の場合は自動で保存してほしいんだよなぁ。
サムネだけ保存しても意味無いし。

737 :名無しさん@お腹いっぱい。:2023/02/12(日) 11:00:21.26 .net
>>736
Save outlinks 使えよ

738 :名無しさん@お腹いっぱい。:2023/02/12(日) 21:00:12.74 .net
>>736
ChatGPT(人工知能)を学習させといた
https://i.imgur.com/VX6qxTj.png

問: Internet Archive の wayback machine を知っていますか?

答: はい、私は Internet Archive の Wayback Machine について知っています。(以下省略)

問: Wayback Machine の "Save Page Now" で保存したいページ内のリンク先のページも同時に保存する方法を教えてください。

答: Wayback Machine の "Save Page Now" を使用して、ページ内のリンク先のページも同時に保存することはできません。Wayback Machine は、単独のページを保存することしかできません。(以下省略)

問: あなたの回答は、間違っています。Wayback Machine の "Save Page Now" で外部リンクを保存するには、Internet Archive にログインすると使えるようになる "Save outlinks" オプションを使います。

答: 申し訳あります。その通りです。Wayback Machine の "Save Page Now" 機能には、Internet Archive にログインすると使える "Save outlinks" オプションがあります。このオプションを使用することで、ページ内の外部リンクも同時に保存することができます。再度、お詫び申し上げます。ありがとうございました。

739 :名無しさん@お腹いっぱい。:2023/02/13(月) 00:02:24.47 .net
>>738
それ学習してるのはログインしてる間だけだろ?
次回ログイン後や他のユーザーからは学習効果ない

740 :名無しさん@お腹いっぱい。:2023/02/13(月) 19:59:01.85 .net
>>737
ページが複数階層で全部の階層に大量のリンクあっても同じ事言えるんか?
Outlinksぐらいとっくに知っとるわボケが

741 :名無しさん@お腹いっぱい。:2023/02/13(月) 20:23:37.77 .net
>>740
手で掘れよ、どーせ暇なんだろ?

742 :名無しさん@お腹いっぱい。:2023/02/15(水) 10:15:39.14 .net
curlでの保存確認が途中から429エラーになる。

743 :名無しさん@お腹いっぱい。:2023/02/15(水) 18:49:59.88 .net
https://web.archive.org/web/20230215084609/https://fig-memo-r18.site/figurereview/93774/

ベタベタ貼ってるアフィのせいか延々と読み込み繰り返して見れないんだが何か対応策とかないかね

744 :名無しさん@お腹いっぱい。:2023/02/16(木) 04:32:39.08 .net
>>742
Status: 429 - Too Many Requests

API で User status を調べて available が1以上になるまで待ってから次の処理をする

{"available":8,"daily_captures":58,"daily_captures_limit":100000,"processing":0}
{"available":0,"daily_captures":170,"daily_captures_limit":100000,"processing":24}

745 :名無しさん@お腹いっぱい。:2023/02/16(木) 06:56:24.96 .net
>>738
Bing の AI Chat が使えるようになたので Wayback Machine について
訊いてみたら、AI が Wayback Machine を使ってユーザーの質問に
答えることができると言っていた

https://i.imgur.com/rZeedlY.png

746 :LBXBB:2023/02/16(木) 13:28:08.07 .net
3日前ぐらいから、Internet Archiveに繋がりにくくなっているんですけど、同じ症状に悩んでる同士いますか?

747 :名無しさん@お腹いっぱい。:2023/02/17(金) 07:27:55.83 .net
「The capture will start in ~* hour, ** minutes because our service is currently overloaded. You may close your browser window and the page will still be saved.」
数分単位はここ数日見かけるが、○時間単位とか久々

748 :名無しさん@お腹いっぱい。:2023/02/17(金) 12:27:29.15 .net
twitter保存できなくなった?
保存してもツイートが表示されない
自分だけ?

749 :名無しさん@お腹いっぱい。:2023/02/17(金) 19:10:36.19 .net
>>748
モバイル用URLを突っ込んでない?

750 :名無しさん@お腹いっぱい。:2023/02/18(土) 08:47:18.37 .net
748とは別だけど、モバイルドメイン関係なく昨日の夜からツイートのURLを保存しようとするとJob failedしか出ないわ

751 :名無しさん@お腹いっぱい。:2023/02/18(土) 10:55:10.00 .net
てかツイートを保存しようとするとapi.twitter.comの方にリダイレクトされてちゃんと保存されてないな。
Twitter APIの改悪は関係あるのかこれ。

752 :名無しさん@お腹いっぱい。:2023/02/19(日) 07:27:45.62 .net
>>751
たしかにAPI改悪と関係ありそうだな
アーカイブ取得エンジン(というのかな)がWebブラウザ(擬似)によるアクセスと認識されなくなったとか

753 :名無しさん@お腹いっぱい。:2023/02/19(日) 13:34:25.72 .net
すまん、748だけど数日経って確認したら保存できてたわ。 保存の仕様が変わってtweetが見れるようになるまで時間がかかることがあるみたい。 直近3200ツイートを同時保存する機能も追加されてる。

754 :名無しさん@お腹いっぱい。:2023/02/21(火) 00:31:31.75 .net
>>753
>>直近3200ツイートを同時保存する機能

これってどこの話?見つからないけど

755 :名無しさん@お腹いっぱい。:2023/02/21(火) 21:53:11.17 .net
>>754
save page nowにtwitterのリンク入れると出るよ。

756 :名無しさん@お腹いっぱい。:2023/02/22(水) 03:03:59.75 .net
>>755
あなたは、選ばれし者のようですね。

 □ Archive up to 3,200 most recent Tweets from this Twitter profile

こちらでは、twitter_archiver は "display: none" として隠されていました。

https://i.imgur.com/8VuNUdB.gif

|<div id="wm-twitter-archiver" style="display: none;">
| <input type="checkbox" name="twitter_archiver" id="twitter_archiver">
| <label for="twitter_archiver">Archive up to 3,200 most recent Tweets from this Twitter profile</label>
|</div>

757 :名無しさん@お腹いっぱい。:2023/02/22(水) 03:56:35.13 .net
https://web.archive.org/_static/js/bundle-spn.js

クッキーを読んでログインユーザだと判定すると
#wm-capture-outlinks や #wm-capture-screenshot 等を非表示解除してるけど、
それとは別の条件で #wm-twitter-archiver の非表示を解除してるなぁ。

758 :名無しさん@お腹いっぱい。:2023/02/22(水) 04:37:36.03 .net
>>756
display: none消して、style変更してチェックボックス出現させたら動作してくれたりしない?

759 :名無しさん@お腹いっぱい。:2023/02/22(水) 10:58:16.45 .net
ボタンが表示される条件分かったわ
トップページのSave Page Nowに入力するだけだと表示されない
遷移後のページ( https://web.archive.org/save )で再入力すると表示される

対応URLはTwittetのプロフィールページ
(mobile.twitter.comは非対応)

760 :名無しさん@お腹いっぱい。:2023/02/22(水) 10:58:31.78 .net
神機能だな

761 :名無しさん@お腹いっぱい。:2023/02/24(金) 04:07:00.59 .net
重い重い
https://o.5ch.net/20kcs.png

762 :名無しさん@お腹いっぱい。:2023/02/24(金) 04:25:43.53 .net
重いというか、午前1時頃以降に保存しようとした分は保存できてないっぽい。
SPNの復帰まで待つしかないな。

763 :名無しさん@お腹いっぱい。:2023/02/24(金) 05:25:25.65 .net
つながらないよりは増しとはいえ、4時間待ちか・・・
閉じても保存されてるという建前だが、待った挙げ句「Job failed.」とかfaviconだけ(>>627)とかでおちおち閉じるわけにも

>>729
数日前3件までに戻ったようだ
1件の差とはいえ・・・

764 :名無しさん@お腹いっぱい。:2023/02/24(金) 05:47:30.05 .net
と思ったらつながりづらい
これでは二重苦
今のうちに保存しなきゃなんないものが多いときにかぎ・・・いえ、なんでも

765 :名無しさん@お腹いっぱい。:2023/02/24(金) 13:49:21.36 .net
3200ツイート保存できるやつ、使ってる人がいたら何日位で完了したか教えてほしい
自分は2日経ったけどまだ完了メールが来ない

766 :名無しさん@お腹いっぱい。:2023/02/24(金) 18:30:54.01 .net
763の件、今は数分〜10数分に落ち着いた

767 :名無しさん@お腹いっぱい。:2023/02/26(日) 13:10:11.40 .net
>>765だけど今見たら完了してた
あと下のエラーが出たから、1日に合計1万ツイートが限界っぽい
複数ユーザーをアーカイブしたいときは注意

This host has been already captured 10,000 times today by this user account.

768 :名無しさん@お腹いっぱい。:2023/03/01(水) 03:57:25.37 .net
初心者なんですけどアーカイブしたあともとのURLを無くしたら発掘するのは不可能ですか?
もちろん検索機能なんてないですよね

769 :名無しさん@お腹いっぱい。:2023/03/01(水) 04:05:45.32 .net
フリーワードで検索できるよ

770 :名無しさん@お腹いっぱい。:2023/03/01(水) 13:22:58.05 .net
【中居正広】 ワク接種 ⇒ 虫垂炎 ⇒ ターボ癌
://mao.5ch.net/test/read.cgi/cancer/1668137860/l50
https://o.5ch.net/20lio.png

771 :名無しさん@お腹いっぱい。:2023/03/01(水) 14:11:13.39 .net
対策すると運営にお願いせずともアーカイブとるの不可能なんだな

https://x0o0x.ml/archive/wayback-machine-settle/

772 :名無しさん@お腹いっぱい。:2023/03/01(水) 14:58:25.32 .net
>>768-769
検索できるけどドメイン単位だからURLを無くしたら事実上発掘不可能
Collection Searchに含まれてるなら可能性はあるけど、まぁまず無理と考えていい

773 :名無しさん@お腹いっぱい。:2023/03/01(水) 17:02:04.45 .net
>>771
見せたくない情報ならそもそもネット上に載せるなと言いたいね

774 :名無しさん@お腹いっぱい。:2023/03/02(木) 00:05:27.82 .net
ニュース記事とかだったらtwitterに共有された短縮リンクの残骸とかが残ってたりするから、twitterで検索かけたりしてみてみるのもあり。

775 :名無しさん@お腹いっぱい。:2023/03/06(月) 23:55:19.29 .net
20数分待ち
また○時間単位まで膨れ上がってしまうのかどうか

776 :名無しさん@お腹いっぱい。:2023/03/07(火) 01:01:54.86 .net
残念ながら本当に膨れ上がった

777 :名無しさん@お腹いっぱい。:2023/03/07(火) 07:36:38.75 .net
と思ったら今度は>>764

778 :名無しさん@お腹いっぱい。:2023/03/09(木) 20:01:49.70 .net
ようやく8000億突破したね

779 :名無しさん@お腹いっぱい。:2023/03/10(金) 22:36:33.18 .net
>>778
過去6年分遡って表示されてるページ数確認してみた
毎年約1.2倍ペースで指数関数的に増えてるみたい
https://i.imgur.com/pOsie9N.jpg

※2016年10月に数え方が変わったか何かで大幅に数字が減少してたから2017年から表示してる

780 :名無しさん@お腹いっぱい。:2023/03/10(金) 22:38:45.08 .net
>>765
3月頭にリクエストしたのが1週間後にメールきた
Twitterの一括保存は大分時間かかるね

781 :名無しさん@お腹いっぱい。:2023/03/14(火) 12:04:02.25 .net
https://web.archive.org/web/20230000000000*/www.tokyo-sports.co.jp/
スポーツ新聞野郎、2月は入院でもしてたのかw

782 :名無しさん@お腹いっぱい。:2023/03/15(水) 13:50:39.43 .net
>>779
集計方法がURLの数からWebページの数に変わったから数字が減少したんだと思う
多分だけど

783 :名無しさん@お腹いっぱい。:2023/03/15(水) 18:29:13.47 .net
また>>775

784 :名無しさん@お腹いっぱい。:2023/03/15(水) 21:00:18.98 .net
その後39分待ちをピークに落ち着いた

785 :名無しさん@お腹いっぱい。:2023/03/16(木) 08:48:47.33 .net
反応はあるけど落ちてる
https://o.5ch.net/20p7u.png

786 :名無しさん@お腹いっぱい。:2023/03/16(木) 10:03:03.66 .net
<a href="http://o.5ch.net/20p7u.png"><img src="http://o.5ch.net/20p7u.png" />

787 :名無しさん@お腹いっぱい。:2023/03/16(木) 18:56:40.40 .net
1時間待ち
よりによって取得しなきゃなんないものが多(ry

ただ時間がかかるだけならわからないではない(のちのち無事取得できてるなら良い)
だが待った挙げ句「Job failed」で取得できてないこともあるし、
早く済ませたいからと取得するものがあまり多いと「429 Too Many Requests」が出たり、
最悪つながらなかったり

788 :名無しさん@お腹いっぱい。:2023/03/16(木) 20:35:28.47 .net
787の件は落ち着いた

789 :名無しさん@お腹いっぱい。:2023/03/16(木) 22:53:47.10 .net
せっかく落ち着いたと思ったらまた20数分待ちか

790 :名無しさん@お腹いっぱい。:2023/03/19(日) 00:40:27.17 .net
This host has been already captured 100,845.0 times today. Please try again tomorrow. Please email us at "info@archive.org" if you would like to discuss this more.

みんなでYoutubeの様々なページを10万個保存し続けたらこの制限エラーが出るわけか?
アメリカ時間基準でも1日が始まってから15時間半でこの表示が出たら結構困るんだけど。
SNS系サイトのドメインは制限取っ払って欲しいな。

791 :名無しさん@お腹いっぱい。:2023/03/19(日) 01:01:44.26 .net
>>790
>>107-117

792 :790:2023/03/19(日) 02:05:20.29 .net
どうも。その書き込みの1つ(>>113)は俺だから覚えてるけど、
YoutubeのURLを保存しようとしてこのエラーが出たのは初めて見かけたので、報告の意味で書いた。
制限取っ払ってほしい状況は1年半前と変わってない。

793 :名無しさん@お腹いっぱい。:2023/03/19(日) 02:23:57.43 .net
>>790
俺も初めてこの表示出た
APIドキュメントにも記載は無いし、バグだと思いたいが・・・

794 :名無しさん@お腹いっぱい。:2023/03/22(水) 05:38:12.76 .net
Not Found
The requested URL was not found on the server. If you entered the URL manually please check your spelling and try again.

1回でただけだが

795 :名無しさん@お腹いっぱい。:2023/03/22(水) 12:15:17.01 .net
40数分待ち
ただし、PDFは除く(過去には逆にPDFが時間かかるということがあったが)

796 :名無しさん@お腹いっぱい。:2023/03/22(水) 13:17:49.38 .net
>>794
このエラーが出たら、保存できてる時と、できてないときがあるので、あとで確認したほうがいい。
ページがないって言ってる割にはエラーの判定がおかしいよな。
>>795
PDFや画像やテキストファイル系はページについてるファイルを巡回しないからなのか判らんが、
overloadedが出て待たされてる時でも順番の割り込みできる仕様になってるみたい。
急いでるなら画像のURLだけを保存かけてみるのも手。

797 :名無しさん@お腹いっぱい。:2023/03/22(水) 21:50:02.10 .net
zippyshare閉鎖マジ?

798 :名無しさん@お腹いっぱい。:2023/03/23(木) 11:48:24.14 .net
noteてとれないんだっけ

799 :名無しさん@お腹いっぱい。:2023/03/23(木) 13:26:31.42 .net
Note.comはSPNで保存できるけど、robots.txtでia_archiveをブロックしてるから保存してるのを見れないって状態。
Noteが閉鎖してrobots.txtが消されて解消するか、IAがrobots.txtを完全無視する方針になったら多分復活するはず。
保存できるならしとくだけしといたほうがいい。Availability APIでも保存されてるスナップショットはないって返ってきちゃうけどね。
何年か前に投稿者のIPアドレスかホスト名が載ってた時のも含めてデータ自体はどこかに残ってる。

800 :名無しさん@お腹いっぱい。:2023/03/23(木) 17:28:19.93 .net
>>771
こういうのとかってアーカイブ取る方法ないですか?
GIGAZINEとかも。

801 :名無しさん@お腹いっぱい。:2023/03/23(木) 19:27:09.83 .net
>>800
GIGAZINEみたいなexcluded系はIAには保存されてる、閲覧が制限されてるだけ
見れることが重要ならtodayを使えばいい
771の様にサイト側で対策されてるタイプは難しい

802 :名無しさん@お腹いっぱい。:2023/03/23(木) 20:35:30.06 .net
>>800
Webプロキシを間に挟んで間接的に取る方法もある
信頼性とか参照可能性が損なわれるのが欠点

803 :名無しさん@お腹いっぱい。:2023/03/25(土) 13:44:06.78 .net
IAがフェアユースに基づくと主張して電子書籍を公開していたことに対して、
出版社が著作権侵害を申し立てた裁判の判決が下された

判決は出版社の主張が認められ、IAの敗訴
IAはこの判決を不服とし控訴すると宣言
https://i.imgur.com/atO3lrP.jpg

【関連記事】
The Fight Continues
http://blog.archive.org/2023/03/25/the-fight-continues/
The Internet Archive has lost its first fight to scan and lend e-books like a library
https://www.theverge.com/2023/3/24/23655804/internet-archive-hatchette-publisher-ebook-library-lawsuit
U.S. judge rules Internet Archive's digital book lending violates copyrights
https://www.reuters.com/legal/us-judge-rules-internet-archives-digital-book-lending-violates-copyrights-2023-03-25/
Judge Decides Against Internet Archive
https://file770.com/judge-decides-against-internet-archive/

804 :名無しさん@お腹いっぱい。:2023/03/25(土) 14:11:37.65 .net
>>801 , >>802

ありがとうございます。

805 :名無しさん@お腹いっぱい。:2023/03/28(火) 22:14:09.96 .net
doi.orgを保存しようとすると403エラーで保存できないって返ってくるのはちょっとまずいな。
サイト閉鎖したら転送先の論文URLを探すの大変だわ。

806 :名無しさん@お腹いっぱい。:2023/03/29(水) 00:46:01.00 .net
LinkedIn も Internet Archive をブロック
999 とか変なエラーコード返して来てるw
https://o.5ch.net/20s2r.png

807 :名無しさん@お腹いっぱい。:2023/03/29(水) 02:14:03.72 .net
日付が変わってすぐは数分待ちだったのが、1時間待ちに

808 :名無しさん@お腹いっぱい。:2023/03/29(水) 19:37:54.81 .net
>>799
ほー 勉強になあるわ

809 :名無しさん@お腹いっぱい。:2023/03/29(水) 19:39:49.22 .net
>>803
同 ps://scan.netsecurity.ne.jp/article/2023/03/28/49118.html

810 :名無しさん@お腹いっぱい。:2023/03/29(水) 23:39:14.48 .net
PDF以外もPDFも数十分待ち

811 :名無しさん@お腹いっぱい。:2023/03/30(木) 01:20:09.90 .net
2時間待ち
昨日の比ではない膨れ上がり方・・・

812 :名無しさん@お腹いっぱい。:2023/03/30(木) 05:23:29.98 .net
今の所1時間45分待ち

午前0時半にボタン押した分が20230329172xxxだから日本時間で午前2時半に保存完了してた
1時間50分後ぐらいだから予定時間通りの遅れ

813 :名無しさん@お腹いっぱい。:2023/03/30(木) 06:18:00.83 .net
こっちは4時間待ちに
環境によるのか・・・

814 :名無しさん@お腹いっぱい。:2023/03/30(木) 14:24:03.48 .net
昨日からsave待ちメッセージ いったいなんなのよ ということで

The capture will start in ~4 hours, 12 minutes because our service is currently overloaded. You may close your browser window and the page will still be saved.

815 :名無しさん@お腹いっぱい。:2023/03/30(木) 14:51:09.40 .net
>>798-799
過去にIAにいくつか保存したnote記事が、note側がIA保存対策したのか、その後IA上に残ってなかった覚えがある。(非公開のままか、本当にキャッシュを削除したのは不明)

saveしたとしても、後にサイト側からの要求でキャッシュ一斉削除される可能性は0ではないんだろうなと。

816 :名無しさん@お腹いっぱい。:2023/03/30(木) 15:04:06.33 .net
test

817 :名無しさん@お腹いっぱい。:2023/03/30(木) 15:04:44.65 .net
保存してキャッシュがその時は見れてたのに、ある日を境に、
web.archive.org/web/*/ note.com/{.../記事ID}
でいうカレンダーページに、何もキャッシュが残ってなかったっていうことね。

818 :名無しさん@お腹いっぱい。:2023/03/30(木) 19:57:54.23 .net
昨日の夕方だか夜からの長時間待ち、まだ落ち着いてないなぁ
環境によるだろうが、こっちは3時間台

819 :名無しさん@お腹いっぱい。:2023/03/30(木) 20:55:02.40 .net
>>815-817
そもそもアーカイブされた内容の「削除」って、出来るのか?
サイト別に分けて保存している訳じゃあるまいし
申し出のあったサイトについて、前方一致か何かで非表示にしてるだけだろ

ちなみに例の事件の直後、note から IA へ連絡が行ったようで
全体が excluded になった話は前スレで既出
robots.txt 云々と過去の仕様の話をしてる奴は無視するに限る

820 :名無しさん@お腹いっぱい。:2023/03/30(木) 22:07:48.83 .net
1時間待ちだの24分待ちだの今日は長過ぎる・・・何の制限なんだ

821 :名無しさん@お腹いっぱい。:2023/03/30(木) 23:17:44.96 .net
>>819
DMCA関係なら削除は出来るはず
昔あったpixivのパクリサイトは完全に消えてる(一度も取られてないとは考えにくい)
まぁ815のnoteの話は違うと思うけど

822 :名無しさん@お腹いっぱい。:2023/03/31(金) 01:41:44.50 .net
ついに5時間台
こりゃ落ち着きそうにない

823 :名無しさん@お腹いっぱい。:2023/03/31(金) 08:42:19.81 .net
The capture will start in ~7 hours, 52 minutes because our service is currently overloaded. You may close your browser window and the page will still be saved.

珍しい。

824 :名無しさん@お腹いっぱい。:2023/03/31(金) 12:29:09.15 .net
やっとオーバーロードの表示出なくなったのはいいんだけど、
ボタン押して保存始まるまで1分ぐらい待たされてる感じがあるのは俺環か気のせい?
何時間も待たされるよりはいいけどさ。

825 :名無しさん@お腹いっぱい。:2023/03/31(金) 12:40:18.39 .net
10分経たずに9時間待ちに戻っちゃった。短い昼休みだったな〜

826 :名無しさん@お腹いっぱい。:2023/03/31(金) 20:01:21.74 .net
同じIPアドレスのまま初めの2〜3回目は待ち時間なしで、3〜4回目を保存しようとすると急に30分〜9時間待ちの表示が出る仕様になってる?
昼ぐらいから何度か試したけど、このパターンにハマることがやけに多いんだが。スマホ回線で試しても同じパターン。
このスレでもここ数日は人や環境によって表示される待ち時間がバラバラになってるようだし。
ちょっと時間を空けると同じIPアドレスでも待ち時間なしに戻る。この仮説が正しいとするとひどいイジワルされてる気持ちになるわ。
大量のURLにすぐに保存したい人にとっては作業時間増えてイライラするだろうな。

827 :名無しさん@お腹いっぱい。:2023/04/01(土) 17:23:00.03 .net
イジワルねえ…

あくまでも無料なんだからさ(無料だからっていう理由も不明だが)。ボランティアみたいなもんだろうからさ。

「すぐに保存したい」っていうのが「IAに投げる自分の作業をすぐに完了させたい」という意味なら、その作業を自動的にする環境を自前で作るしかないような。

828 :名無しさん@お腹いっぱい。:2023/04/01(土) 19:18:22.71 .net
占有すんなってことかね

829 :名無しさん@お腹いっぱい。:2023/04/01(土) 22:42:50.18 .net
826の件は多分昨日だけだったんじゃね?今日は起きてないし

それよりもエイプリルフールのサイトは日付変わる前にできるだけ保存しとけよ
二度と見れなくなるぞ

830 :名無しさん@お腹いっぱい。:2023/04/02(日) 17:09:52.15 .net
ブルーアーカイブとかいうゲームが登場したせいでスレッド検索がしづらくなったな

831 :名無しさん@お腹いっぱい。:2023/04/02(日) 23:30:28.00 .net
最後にドット付けて「archive.」で検索すれば一発でこのスレ出てくるよ。
使ってるスレ検索で対応してればだけど。正規表現も対応してたら他のスレも出てくるかも。

832 :memo:2023/04/03(月) 11:15:59.88 .net
Sorry
Please try again in ~32 min. Crawling this host is paused because they notified us that they are overloaded right now.

833 :名無しさん@お腹いっぱい。:2023/04/03(月) 21:04:58.51 .net
「Archive up to 3,200 most recent Tweets from this Twitter profile」
これ

834 :名無しさん@お腹いっぱい。:2023/04/03(月) 21:12:00.39 .net
やべっ誤操作で途中で書き込まれちゃった。

「Archive up to 3,200 most recent Tweets from this Twitter profile」
未ログインでも出てくるこのオプションって、ログインしないと有効にならないの?
未ログインでそのオプション付けても付けなくても41件しか取れてないようだった。

835 :名無しさん@お腹いっぱい。:2023/04/04(火) 08:58:54.78 .net
3/31夜〜さっきまで順調だったのに・・・
>>826がいうように引っかかってしまったのだろうか
今のところ数分待ちで済んでるからまだ良いが、また数時間待ちとかなりかねないのが心配

>>824
確かにオーバーロードの表示がないのに始まらないことがあるなぁ

836 :名無しさん@お腹いっぱい。:2023/04/04(火) 10:36:57.65 .net
/*/のページだけど1度しか保存されてないURLはリンク先が/*/じゃなくて直接保存されてるスナップショットURLに変わった?

837 :名無しさん@お腹いっぱい。:2023/04/04(火) 23:41:19.62 .net
835の件、結局1時間待ちに
先月末の膨れ上がり方よりは増しとはいえ・・・

838 :名無しさん@お腹いっぱい。:2023/04/05(水) 07:46:24.46 .net
皆さんインスタって何で保存してますか?
evernote良かったんですけど無料版の容量少なすぎる…
WAYBACKもarchive.todayもfreezepageもzoom.itも保存出来ないし…

839 ::2023/04/05(水) 19:17:06.47 .net
別スレッド(https://mevius.5ch.net/test/read.cgi/internet/1554553882/874)に書き込んだ874だが、
>>838は、私の書き込みではないのであしからず。(マルチポストではない。)

念のため書いとくわ。

840 :名無しさん@お腹いっぱい。:2023/04/06(木) 15:26:20.14 .net
TwitterのAPIが止まったら最新3200個の選択肢のやつもダメなわけ?
それでもsnscrapeはAPI止まった今でも使えるんだよな。だからツイートURL取り出すだけなら今もできるはず。

841 :名無しさん@お腹いっぱい。:2023/04/07(金) 05:30:57.28 .net
This URL has been excluded from the Wayback Machine.



https://sakue.com/

842 :名無しさん@お腹いっぱい。:2023/04/07(金) 08:31:01.98 .net
上の方も書き込んでおられましたが、やはりwaybackは1万URLしか保存できず、古いものから順番に消えていくのでしょうか?

archivestodayも2700個しか見れず、それより古いものは見れないような。

843 :名無しさん@お腹いっぱい。:2023/04/07(金) 10:15:52.32 .net
>>842
作文の勉強からやり直せ

844 :名無しさん@お腹いっぱい。:2023/04/07(金) 16:20:44.43 .net
>>842
todayの方は知らないけど、/*/のページのことなら、そのドメインかディレクトリ以下のURLは1万件までしか検索結果として表示されてないだけで、削除されたわけじゃない。
もうちょっと細かくディレクトリ指定をすれば探してるページを見つけられるのでは?
2021年12月までは10万件まで表示されてたんだけどね >>209

845 :名無しさん@お腹いっぱい。:2023/04/07(金) 20:41:57.08 .net
全URL欲しい場合は>>332 に書いてあるWayback CDX Server API 使うのが良さそうだね
データ整形が面倒だけど
https://github.com/internetarchive/wayback/tree/master/wayback-cdx-server#query-result-limits

846 :39:2023/04/08(土) 09:05:42.83 .net
ここ一週間ほど、訳あって非ログイン且つ Tor 経由で作業してるけど
今日初めて、それも 8:50 になってからやっとこのメッセージを見た。
>>39 より保存数の制限は厳しくなってるけど、24 時間で使いきれるかどうかの線なのね。

9:00 まで待ったら保存できたのは言うまでもない。
sssp://o.5ch.net/20ui0.png

847 :名無しさん@お腹いっぱい。:2023/04/10(月) 12:39:35.47 .net
なろう系の金字塔オーバーロード

848 :名無しさん@お腹いっぱい。:2023/04/10(月) 12:43:02.28 .net
薬屋のひとりごとを知らん情弱め

849 :名無しさん@お腹いっぱい。:2023/04/11(火) 19:42:57.17 .net
>>826
3〜4回目どころかすぐに30分待ち・・・

850 :名無しさん@お腹いっぱい。:2023/04/12(水) 01:12:07.58 .net
3200ツイートのやつを使おうとしたときに出たエラー
Sorry.
This snapshot cannot be displayed due to an internal error.

851 :名無しさん@お腹いっぱい。:2023/04/12(水) 05:51:06.28 .net
4時間待ち
今月になってから最もひどい

852 :名無しさん@お腹いっぱい。:2023/04/12(水) 15:05:08.26 .net
非ログイン状態で3200ツイート取れるの無くなってるな
やっぱバグだったのか

853 :名無しさん@お腹いっぱい。:2023/04/12(水) 16:52:17.80 .net
俺の環境では表示されるけど。ただし一度も保存に成功した事ない。
「twitter.com/アカウント名」だけでURL最後に/があると表示されない。

854 :名無しさん@お腹いっぱい。:2023/04/12(水) 18:15:30.16 .net
851の件は今は3時間台
あれから落ち着いてるのか、一旦落ち着いてからまた膨れ上がってるのか・・・

855 :名無しさん@お腹いっぱい。:2023/04/12(水) 22:54:00.64 .net
>>853
ああなるほど、確かに最後の/を抜いたら表示されたわ
でも850のエラーが出てしまう

856 :名無しさん@お腹いっぱい。:2023/04/13(木) 01:02:45.12 .net
同時に2つ保存しようとしたらそれぞれ40分と5時間40分待ちになった
826と似た状態がまだ続いてるのか?
ページ削除される時間がわかってるなら都合の悪いURLを長時間待ち状態して保存されないよう時間稼ぎする悪用方法が思いついたわw

857 :名無しさん@お腹いっぱい。:2023/04/13(木) 07:11:45.73 .net
>>856
こっちも5時間台
昨日はずっとひどくて今日も相変わらず

>>787の問題は閉じても取得はできるという建前どおり閉じることで回避できる反面、
建前どおり閉じたら閉じたで一部が取得できてないリスクがなぁ・・・

858 :名無しさん@お腹いっぱい。:2023/04/13(木) 12:36:26.31 .net
>>857
建前も何もSPNボタンを押した時点で保存ジョブは開始されてる
>>434-435に詳しく書いてあるが、待機中はジョブの状態について問い合わせを繰り返してるだけ
無駄な負荷になってるからさっさと閉じるべき

失敗するときは閉じようが閉じまいが失敗してる

859 :名無しさん@お腹いっぱい。:2023/04/13(木) 18:06:06.44 .net
>失敗するときは閉じようが閉じまいが失敗してる
 それは確かにそうだが・・・
 閉じなければ「Job failed」が出てるのかどうかで区別がつくが、
 閉じたらどれが取得できててどれが失敗してるのか調べないとなぁ
 取得するものが少ないときはそれでも良いが多いときは・・・

860 :名無しさん@お腹いっぱい。:2023/04/13(木) 19:39:11.99 .net
ようやく数時間待ちから数十分待ちに
数十分ですら増しに思えてくる状況

861 :名無しさん@お腹いっぱい。:2023/04/13(木) 23:56:28.81 .net
アーカイブされたWEBページ見ると
管理人プロフィールに電話番号書いてあったり
住所書いてあったりすることあるな…
リンクからアーカイブURL探さないとまともに辿れないから
検索機能が進化しなきゃ今の所問題にはならないんだろうけど
問題になった時アーカイブ大量削除されそうで怖いな

862 :名無しさん@お腹いっぱい。:2023/04/14(金) 01:08:04.96 .net
ネットで匿名で物を売りたいやつは特商法違反なんで警察と消費者庁へ通報どうぞ

863 :名無しさん@お腹いっぱい。:2023/04/15(土) 05:41:20.90 .net
めっちゃ見当違いの書き込みだな

864 :名無しさん@お腹いっぱい。:2023/04/15(土) 23:11:43.58 .net
We're sorry — something's gone wrong.
Our team has been notified.
保存できない

865 :名無しさん@お腹いっぱい。:2023/04/19(水) 02:17:11.56 .net
やっぱり非ログイン状態で3200ツイートをやろうとするとこのエラー(>>850)が出るな
バグというか、本来はログインしてない状態で表示しちゃいけないやつかな

866 :名無しさん@お腹いっぱい。:2023/04/20(木) 11:08:02.25 .net
この前非ログインで保存かけて2日後に/*/を見てみると、十数個のツイートURLがボタン押した時間以降に短期間で保存されてるのを確認した。
非ログインでエラー出ても一応動いてるっぽいけど、3200ツイートの保存はしてくれなかった。不安定すぐる

867 :名無しさん@お腹いっぱい。:2023/04/22(土) 06:58:40.51 .net
昨日ぐらいからTwitterのHTMLとJavascriptの仕様が変わったようで、
IA側が対応できてないからちゃんと保存されない模様。
犬の404エラーしか保存されない。

868 :名無しさん@お腹いっぱい。:2023/04/22(土) 17:51:26.36 .net
ついでにsnscrapeも動かなくなってるな

869 :名無しさん@お腹いっぱい。:2023/04/22(土) 23:15:29.71 .net
>>867
今やったけど普通に保存できたよ

>>868
一昨日辺りから非ログイン状態でツイート検索が出来なくなったから
その影響かも

870 :名無しさん@お腹いっぱい。:2023/04/23(日) 09:23:51.94 .net
質問です。
Imgurの規約が変更され
ポルノコンテンツなどが削除される可能性があるため
5ちゃんのスレの画像などをアーカイブしようと考えています
その際、InternetArchive側の規約違反になる可能性はありますか?
アメリカなどはポルノコンテンツに厳しいイメージがあるのですが…

871 :名無しさん@お腹いっぱい。:2023/04/23(日) 10:43:26.06 .net
別にならんでしょ
むしろポルノコンテンツ大国では?
児ポとかには厳しいが

872 :名無しさん@お腹いっぱい。:2023/04/23(日) 14:25:34.24 .net
>>871
JKとかのエロイラストとかも
スレによってはあるのであっちの児ポに該当しないか心配です
該当していたとしたらInternet Archiveの規約には違反するのでしょうかね…?

873 :名無しさん@お腹いっぱい。:2023/04/24(月) 07:22:51.76 .net
違反したところで保存したスナップショットが見えなくなるだけだから気にしなくてもいいよ。
気になるなら「俺が保存したぞ〜」と足がつくような記録をネットに残さなきゃいいし。
逆にそういう選別をしてたら時間もったいないと思うけど。

874 :名無しさん@お腹いっぱい。:2023/04/25(火) 00:03:49.91 .net
IAで弾かれるがfoではなんともないっていうパターンは普通なんかな

875 :名無しさん@お腹いっぱい。:2023/04/25(火) 09:50:53.63 .net
>>873
ありがとうございます
とりあえず保存することにします

876 :名無しさん@お腹いっぱい。:2023/04/26(水) 05:44:19.35 .net
Hrm.
sssp://o.5ch.net/20yls.png

877 :名無しさん@お腹いっぱい。:2023/04/27(木) 03:02:44.39 .net
Twitter、ログインしないと検索できないの不便過ぎるなぁ・・・
そのうち非ログイン状態では閲覧できないとかやりそうなのが

878 :名無しさん@お腹いっぱい。:2023/04/27(木) 05:37:25.46 .net
>>877
インスタグラムみたいに閉鎖的なサービスに改悪されるのはありそうだな…

879 :名無しさん@お腹いっぱい。:2023/05/03(水) 21:36:51.26 .net
このサイト、ストリートビューのアーカイブって見れる?
アーカイブのデータ自体はいっぱいあるんだけど読込が遅すぎて

880 :名無しさん@お腹いっぱい。:2023/05/05(金) 09:00:04.44 .net
テスト

881 :名無しさん@お腹いっぱい。:2023/05/05(金) 09:06:07.95 .net
ここ最近ようつべの動画の再生ページがウェイバックマシンに保存されるの遅すぎだろ・・・。
公開から1~4時間後って。
自動アーカイブも全然機能されてないし。
何やってんだよアクティブチームといつもアーカイブを取ってる人は、やる気あんのか?

もしかしてエラーでも引っかかって保存されるのに時間かかってんのか?

882 :名無しさん@お腹いっぱい。:2023/05/05(金) 10:28:31.41 .net
ここ最近YouTubeの再生ページのアーカイブが自動で取られなくなってる?
もしかしてYouTube側から御叱りを受けたのか?
それともエラーにでも引っかかって早期保存が難しくなっているとか?
みんなめんどくさいのに何故!?

883 :名無しさん@お腹いっぱい。:2023/05/06(土) 13:22:01.40 .net
Haasie: imgurの画像をアーカイブするサイト
https://haasie.com

【使い方】
テキストボックスに https://i.imgur.com/* のリンクを改行区切りで入力して Backup をクリック
保存後は https://i.haasie.com/* のリンクから閲覧可能


5月15日に、ポルノ画像・匿名ユーザーが投稿した非アクティブコンテンツが削除されるという報告を受けて開発に至ったとのこと
↓開発者の投稿
https://news.ycombinator.com/item?id=35835971

884 :名無しさん@お腹いっぱい。:2023/05/09(火) 00:54:02.23 .net
imgurはアーカイブチームが保存してるっぽい
https://tracker.archiveteam.org/imgur/

885 :名無しさん@お腹いっぱい。:2023/05/09(火) 05:01:50.46 .net
>>884
URLリストを持ってる人はIRCに投げれば保存してくれるみたいだね

このサイトでアップロードして
https://transfer.archivete.am/
このIRCチャンネルで保存依頼
https://webirc.hackint.org/#irc://irc.hackint.org/imgone

詳細はarchive teamのwiki参照
https://wiki.archiveteam.org/index.php/Imgur#How_to_help_if_you_have_lists_of_URLs

886 :名無しさん@お腹いっぱい。:2023/05/10(水) 05:12:07.55 .net
IRC覗いてたら、ガチ勢がプロキシ8000個動かして
ブルートフォースでimgurの5文字URL特定しててワロタ
半日で全走査して約3億5千個集まったらしい

887 :名無しさん@お腹いっぱい。:2023/05/10(水) 16:53:16.14 .net
IRCってなんですか?

888 :名無しさん@お腹いっぱい。:2023/05/10(水) 21:45:15.69 .net
>>885
ArchiveTeamはIRCっていうチャットツールを使って活動してる
チャット除いてるとアーカイブの進捗状況とかわかるよ リンク>>885

889 :名無しさん@お腹いっぱい。:2023/05/10(水) 23:53:14.82 .net
知識ある人はWarriorをダウンロードすればアーカイブに参加出来て面白いよ
自分も1GB程度imgurのアーカイブに貢献してる

https://wiki.archiveteam.org/index.php/ArchiveTeam_Warrior

890 :名無しさん@お腹いっぱい。:2023/05/11(木) 10:35:00.71 .net
Internet Relay Chat

891 :名無しさん@お腹いっぱい。:2023/05/12(金) 01:27:00.00 .net
Twitterのプロフィールページ、SPNだと取れてるのにSPN-outlinksだと取れてないの不思議だな
通常のSPNとoutlinksとで環境が別なのか?

892 :名無しさん@お腹いっぱい。:2023/05/14(日) 15:50:31.49 .net
twitter・google の検索画面とnoteはarchive .todayで保存可能なのか

893 :名無しさん@お腹いっぱい。:2023/05/16(火) 04:12:02.04 .net
先月からGoogle Spreadsheetからアーカイブのキュー入れられるやつが全く機能してないんだが原因は何なのだろう
https://archive.org/post/2427823/is-wayback-gsheets-very-busy-recently

Outlinks機能が使えて、URLのリストをまとめて保存できる手段なにかないですか?
pythonで試してみたんだけど、うまくいかず。。。
https://pastebin.com/raw/YhuQGPj1

894 :名無しさん@お腹いっぱい。:2023/05/16(火) 18:04:49.90 .net
Python は使ったこと無いけど、/save/ に GET メソッド?
あそこ POST の時しか認証情報見てくれないでしょ。
クッキーも、Authorization: ヘッダで S3 API Keys を送った場合も然り。

認証情報と capture_outlinks=1 を見てもらえるようになったら、
今度は 1 つの URL から outlinks の保存のために並行プロセス数が
20 とか 30 とかに増えてしまうのに、それが 5 秒なんかで終わる訳が無い。
きちんと https://web.archive.org/save/status/user で空きをチェックしなよ。

895 :名無しさん@お腹いっぱい。:2023/05/17(水) 19:48:53.67 .net
1時間待ちとか今月になって初めてか
○時間待ちでないほうが珍しいぐらいの先月だか先々月よりは増しとはいえ・・・

896 :名無しさん@お腹いっぱい。:2023/05/17(水) 23:34:39.99 .net
2時間待ち

897 :名無しさん@お腹いっぱい。:2023/05/17(水) 23:48:40.78 .net
どこをどう頑張っても数分待ちにしかならんw

898 :名無しさん@お腹いっぱい。:2023/05/18(木) 07:55:22.17 .net
ようやく落ち着いた

>>897
上のほうにあるが、環境によってバラバラなのがなぁ

899 :名無しさん@お腹いっぱい。:2023/05/19(金) 23:59:40.14 .net
イーロンがここまで終わってるとは思わなかった
https://twitter.com/elonmusk/status/1659255118196355073
(deleted an unsolicited ad)

900 :名無しさん@お腹いっぱい。:2023/05/20(土) 07:54:28.80 .net
PDFファイルのURLを保存させたらその1ページ目しか保存されないのだけど仕様?
なわけないよなぁ

901 :名無しさん@お腹いっぱい。:2023/05/20(土) 14:46:31.42 .net
>>900
閲覧環境によっては、1ページ目しか表示されない場合がある
(iOSとかだとダメっぽいな)

解決策は、閲覧したいページのURLを編集して数字の後ろにid_ をつけ加えると保存されたまんまの状態で表示されるから、これで全ページ閲覧できるようになるよ

↓こんな感じ
https://web.archive.org/web/数字id_/ページURL

902 :名無しさん@お腹いっぱい。:2023/05/21(日) 08:54:49.03 .net
>>901
thx。たしかにiOSのSafariで見てた
保存ではなく閲覧環境の問題なのね

903 :名無しさん@お腹いっぱい。:2023/05/22(月) 06:19:18.94 .net
>>893

https://github.com/overcast07/wayback-machine-spn-scripts
これいいよーs3キーも渡せて
URLリストがあるテキストファイルも渡せる
あと便利なのが再試行機能がある

904 :名無しさん@お腹いっぱい。:2023/05/22(月) 23:11:28.24 .net
>>903
WSL使うのが嫌だったので遠ざけていましたが使ってみます。
ありがとうございます。

905 :名無しさん@お腹いっぱい。:2023/05/23(火) 00:08:11.50 .net
画像類似検索に対応しないのだろうか

906 :名無しさん@お腹いっぱい。:2023/05/23(火) 00:11:24.51 .net
「リンクと画像の抜き出しツール」のアーカイブから画像のURLを入れると画像が保存されているか確認できる。

907 :名無しさん@お腹いっぱい。:2023/05/23(火) 00:13:41.17 .net
「URLからタイトルゲット君」というサイトも保存確認できる。

908 :名無しさん@お腹いっぱい。:2023/05/23(火) 05:22:57.93 .net
>>904
そんなに量がないんだったら無料版Colabで走らせてもいいかもね

909 :名無しさん@お腹いっぱい。:2023/05/23(火) 20:02:46.33 .net
>>892
3月までtodayでアーカイブしたGoogle検索結果をorgで重バックアップしたり出来たが(アクセス環境により検索ワード化けが生じるため)、4月からエラーで弾かれるようになってしまった。

ヤフオクの出品物もorgから取れなくなったし

910 :名無しさん@お腹いっぱい。:2023/05/25(木) 06:53:09.12 .net
302エラーの無限ループってなんか解決法ある

911 :名無しさん@お腹いっぱい。:2023/05/25(木) 23:16:17.83 .net
Something went wrong. Try reloading.

ツイッターのアーカイブ閲覧しようとするとこうなるけど、おま環?

912 :名無しさん@お腹いっぱい。:2023/05/27(土) 13:07:42.53 .net
ふとIAの動画ブラウジングしてたんだけど字幕付きのアニメとか滅茶苦茶うpされて、無法地帯になっててワロタ
アメリカのフェアユースってそんな強いのか

913 :名無しさん@お腹いっぱい。:2023/05/28(日) 00:55:59.95 .net
>>912
いや普通にアウトだし消されてるよ、いたちごっこだけど
IAの人も何が重要なデータか分からなくなるから止めろってツイートしてたりする
基本的にIAのアカウントがアップしたもの以外は信用しない方がいい

914 :名無しさん@お腹いっぱい。:2023/05/30(火) 00:40:42.53 .net
502エラーだ

915 :名無しさん@お腹いっぱい。:2023/06/07(水) 14:18:47.51 .net
アイテムの方にある動画、一定以上のサイズだとブラウザで再生出来ないっぽいな
自分が見たのは20GB超だけど読み込みがされなかった
curlでダウンロードしてローカルで再生は出来たので、ちゃんとアーカイブはされてるらしい

916 :名無しさん@お腹いっぱい。:2023/06/07(水) 16:00:32.06 .net
それってエンコード時の設定に依ったりしない?
例えば mp4 なら moov atom をファイル先頭に持ってきていないとか。

917 :名無しさん@お腹いっぱい。:2023/06/11(日) 12:01:40.24 .net
トップページの保存数(Explore more than XXX billion)がたまに十億単位で減るの
何なんだろうか?

918 :名無しさん@お腹いっぱい。:2023/06/14(水) 11:09:59.33 .net
詳しいことよく知らなくてTorのブラウザでarchivetoday使おうとしたらTor使ってないときでもarchivetodayにアクセスできなくなった
クッキー消去したらまた使えるようになったけどブラックリスト的なものに載ってないか不安

919 :名無しさん@お腹いっぱい。:2023/06/14(水) 13:17:02.82 .net
>>918
まともにTor使ってるなら、生IPとの関連付けが出来ないんだからTor使ってないときにアクセス不可になるはずがない
それすら分からないならtorは使わない方が良いよ、絶対にどこかでやらかす

920 :名無しさん@お腹いっぱい。:2023/06/14(水) 13:48:21.90 .net
なんでわざわざTorブラウザでarchivetoday使おうとしたの?普通のブラウザでも使えるよ

921 :名無しさん@お腹いっぱい。:2023/06/14(水) 14:07:59.22 .net
>>920
10年以上前にTor使えばInstagramでも魚拓取れるって書き込みを見つけたので試したくなったんです
無知ですいませんでした

922 :名無しさん@お腹いっぱい。:2023/06/14(水) 15:38:07.85 .net
IP紐づいてなくてもフィンガープリントで同一デバイスだと疑われてる可能性はある

とは言っても、torブラウザでtoday使うとCloudflareにブロックされて要JSの認証要求されるから回避も難しいんだよな

唯一の回避策は、使えそうなweb串探してtor→web串→todayでアクセスするくらいか

フィンガープリント追跡防止の拡張機能とかもあるからそういうのを普段使いしてみるのも対策の一つになるかもね

923 :名無しさん@お腹いっぱい。:2023/06/16(金) 02:07:18.67 .net
今更だけど3200ツイート保存のやつエラーで動かなくなってる
Twitterの仕様が変わった辺りからかな?確認してなかった

924 :名無しさん@お腹いっぱい。:2023/06/16(金) 14:06:14.26 .net
collections情報死んでるなぁ

925 :名無しさん@お腹いっぱい。:2023/06/22(木) 18:22:40.12 .net
IAでTwitter取れなくなってる?

926 :925:2023/06/23(金) 19:17:09.24 .net
今やったら取れた、何だったんだろう

927 :名無しさん@お腹いっぱい。:2023/06/23(金) 19:17:24.81 .net
>>867>>869
Twitterの鍵垢を保存したら犬のエラーが保存されたわ。原因はこれじゃない?

928 :名無しさん@お腹いっぱい。:2023/06/24(土) 10:29:59.86 .net
>>927
いや普通の公開アカウントだった
なぜか木曜日だけどのツイートも犬のエラーになってた

929 :名無しさん@お腹いっぱい。:2023/06/27(火) 20:37:16.58 .net
https://esica.shop/collections/weekly-ranking/products/eset-4660

↑みたいなサイトを保存すると保存直後は画像が表示されてるのに数か月後保存ページにアクセスすると、
一部画像が表示されないって事が多々あるんだけどおま環?
そのページの画像(大きい小さい表示されるの全て)を一括で保存する方法って無いのかな

930 :名無しさん@お腹いっぱい。:2023/06/28(水) 09:49:10.92 .net
>>929
数か月後どころか、保存直後も大量の画像が欠落してるんだけど・・・

スクリプトで読み込ませてる画像の一括取得は現状では無理。
ブラウザでアーカイブを表示したときに初めて取得リクエストが発行されるが、
毎分 2 個か 3 個の画像を取得するだけで、あとは 429 Too Many Requests エラーが返ってしまう。
必要な画像を拾い終えるまで、同じアーカイブを数分おきにブラウザで繰り返し表示するしかない。

昨晩ここの画像を全部拾わせてみたので、数か月後にどうなってるか見てみよう。
https://web.archive.org/web/20230627123623/esica.shop/collections/weekly-ranking/products/eset-4160

931 :名無しさん@お腹いっぱい。:2023/06/29(木) 14:23:51.75 .net
今風のスクリプトマシマシ動的サイトはアーカイブするのが難しいからね
画像だけ欠落するならまだマシで、サイト自体が取れないことも珍しくない

932 :名無しさん@お腹いっぱい。:2023/06/30(金) 19:13:53.48 .net
Twitterの投稿、wayback machineはアーカイブできるけどarchive todayはできなくなってない?

933 :名無しさん@お腹いっぱい。:2023/06/30(金) 23:57:35.95 .net
>>932
Twitterの仕様変更でログイン状態じゃないとログインページにリダイレクトされるようになったっぽいな
Internet Archiveは何か特別な処理挟んでるのかね

934 :名無しさん@お腹いっぱい。:2023/07/01(土) 08:31:58.04 .net
save-page-now-outlinksって今動いてないの?
リンク先の保存もやらなきゃいけないじゃんか

935 :名無しさん@お腹いっぱい。:2023/07/01(土) 23:20:07.49 .net
>>933
ほんとだログインしたらアーカイブできた
どうやってログイン状態検出してるのかも謎だ

936 :名無しさん@お腹いっぱい。:2023/07/02(日) 15:59:18.82 .net
Pixivのページを保存したいとき、英語ページのURL(en)へ転送されないようにするにはヘッダーに何を指定すればいい?
なんか方法ある?

937 :名無しさん@お腹いっぱい。:2023/07/02(日) 17:27:30.52 .net
Pixiv から user_language=ja ってクッキーを食べたことにしておけば、
つまりそれを capture_cookie 引数に与えて Save Page Now すれば
転送はされなくなるけど・・・どこも真っ白だぁ

938 :名無しさん@お腹いっぱい。:2023/07/02(日) 18:18:54.77 .net
waybackもtodayもtwitter保存できねえ

939 :名無しさん@お腹いっぱい。:2023/07/02(日) 19:09:16.35 .net
Twitter自体が現在不調だからね直してもらわないと

940 :名無しさん@お腹いっぱい。:2023/07/02(日) 20:01:41.67 .net
仕様やぞ

941 :名無しさん@お腹いっぱい。:2023/07/03(月) 00:38:46.97 .net
Twitterの仕様変更で
魚拓取れなくなるのかな…
アカウント必須になったら魚拓取れない…

942 :名無しさん@お腹いっぱい。:2023/07/05(水) 02:00:10.44 .net
Twitterは仕様変更するわ、IAは保存しても読み込めるまで1日以上かかるわ、インターネットに波乱起きすぎ

943 :名無しさん@お腹いっぱい。:2023/07/05(水) 17:06:56.09 .net
やっとTwitter直ったか?

944 :名無しさん@お腹いっぱい。:2023/07/06(木) 15:44:51.95 .net
今保存できない?

945 :名無しさん@お腹いっぱい。:2023/07/06(木) 16:39:15.39 .net
archive.org/details/save-page-now?sort=-addeddate
日本時間13時21分のファイル以降、SPNの新しいコレクションファイルが増えてないので止まってたっぽいが、今は復帰して保存できるっぽい。

946 :名無しさん@お腹いっぱい。:2023/07/07(金) 16:44:02.26 .net
Twitter、一応取れるようにはなったが単体ツイートしか取れなくなったな
前はリプライも全部保存出来たが不可能になった
あとプロフィールページも保存出来ない

IAの問題ではなく、Twitter側が非ログイン状態での表示を止めたせい

947 :名無しさん@お腹いっぱい。:2023/07/10(月) 20:27:23.81 .net
5chもぼちぼちアーカイブしていかないとヤバイ感じか?

948 :名無しさん@お腹いっぱい。:2023/07/10(月) 21:07:05.59 .net
5ちゃんのスレも個人的に保存はちょくちょくやってはいるんだけど、すぐ人大杉になって作業が止まるのが難点。
自分の住民やってるスレやその過去スレからでいいので、やっておいた方がいいよ。

949 :名無しさん@お腹いっぱい。:2023/07/11(火) 00:09:37.44 .net
これはヤバいな
過去ログごと消えたら洒落にならない

950 :名無しさん@お腹いっぱい。:2023/07/11(火) 00:36:08.07 .net
筑波大吉田光男准教授が公開してる5chスレタイのデータセット
http://open.ceek.jp

951 :名無しさん@お腹いっぱい。:2023/07/11(火) 06:54:39.48 .net
IAのチームに過去ログ全部クロールして欲しいな。今はなんとか過去ログが見れるけど、明日急に全部見れなくなっても全く不思議じゃないからヒヤヒヤしてる
似たようなサイトでredditって過去ログ保管されてるんだろうか

952 :名無しさん@お腹いっぱい。:2023/07/12(水) 22:56:55.39 .net
threadsってアーカイブ出来ないタイプのサイトかぁ・・・

953 :名無しさん@お腹いっぱい。:2023/07/12(水) 22:56:57.12 .net
threadsってアーカイブ出来ないタイプのサイトかぁ・・・

954 :名無しさん@お腹いっぱい。:2023/07/14(金) 06:06:05.56 ID:cnQfqv0Jq
2022年07月19日 13時00分メモ
大手出版社に著作権侵害で訴えられた「電子図書館」を電子フロンティア財団が支持、デジタル世界の図書館は成り立つのか議論が白熱
https://gigazine.net/news/20220719-internet-archive-eff/

2023年03月17日 08時00分ネットサービス
大手出版社に著作権侵害で訴えられたインターネットアーカイブが「すべての図書館の将来を脅かす訴訟だ」と主張して支持を求める
https://gigazine.net/news/20230317-battle-for-libraries-internet-archive/

2023年03月27日 12時42分ネットサービス
インターネットアーカイブが電子書籍の著作権を巡る大手出版社との著作権訴訟の一審で敗訴
https://gigazine.net/news/20230327-internet-archive-e-books-first-fight/

955 :名無しさん@お腹いっぱい。:2023/07/14(金) 06:06:42.35 .net
埋まるからちとscに貼っとこ

956 :名無しさん@お腹いっぱい。:2023/07/15(土) 00:51:33.90 .net
「好き嫌い.com」は魚拓サイトで魚拓を取ってもコメント欄だけが保存されない

どうすればコメント欄も保存できるかな?

i.imgur.com/2uPwBGz.png archive.li/6nRmy

957 :名無しさん@お腹いっぱい。:2023/07/15(土) 05:12:26.78 .net
5chを保存しようとクロールしたらクロールが全く意味を成さないわね…なにかいい方法あるだろうか?

958 :名無しさん@お腹いっぱい。:2023/07/15(土) 20:07:35.02 .net
Internet ArchiveのFlashエミュレータが改良されてより多くの作品をサポートできるようになった模様
これにより今まで利用できなかった作品がコレクションに加わるとのこと

詳細
https://mastodon.archive.org/@textfiles/110697893762381822q
新たに実行可能になった作品例
https://twitter.com/internetarchive/status/1679948028008955904
(deleted an unsolicited ad)

959 :名無しさん@お腹いっぱい。:2023/07/16(日) 13:40:10.97 .net
これからAI時代になると、IAのデータってますます重要になりそうだな(AIとIAでややこしい)

960 :名無しさん@お腹いっぱい。:2023/07/17(月) 19:01:14.10 .net
5chの過去ログほとんどアーカイブされてないのか

961 :名無しさん@お腹いっぱい。:2023/07/18(火) 18:40:50.87 .net
yahooニュースのコメント保存できるようになったな

962 :名無しさん@お腹いっぱい。:2023/07/19(水) 01:28:09.90 .net
>>960
板にもよるだろうけど軽く触ってみた感じは全部first archiveだな
https://litter.catbox.moe/bk9qgj.png

963 :名無しさん@お腹いっぱい。:2023/07/19(水) 08:24:09.27 .net
過去ログ取ろうとしたけど膨大やな
自分の環境だと七時間で2500urlぐらい

964 :名無しさん@お腹いっぱい。:2023/07/20(木) 17:51:13.77 .net
>>962
2chから5chにURL変わった影響もありそう

てかTwitterの会話取れなくなったの不便すぎるな

965 :名無しさん@お腹いっぱい。:2023/07/20(木) 17:53:22.93 .net
ここ最近やる気を感じないな、アクティブチームは。
自動アーカイブも全然取れてないし。

966 :名無しさん@お腹いっぱい。:2023/07/20(木) 22:16:04.23 .net
>>965
>>595

アクティブチームw

967 :名無しさん@お腹いっぱい。:2023/07/20(木) 23:04:52.71 .net
アクティブチームって何だArchive-teamのこと?

968 :名無しさん@お腹いっぱい。:2023/07/21(金) 00:44:18.55 .net
URLが.phから.isに変わった?

969 :名無しさん@お腹いっぱい。:2023/07/21(金) 03:00:05.35 .net
>>968
すれち&時代遅れ
https://itest.5ch.net/mevius/test/read.cgi/internet/1554553882/

970 :名無しさん@お腹いっぱい。:2023/07/22(土) 00:46:07.17 .net
うーん、ボタンを押しても即座にこれが返ってくる
sssp://o.5ch.net/21i4q.png

971 :名無しさん@お腹いっぱい。:2023/07/22(土) 01:02:42.11 .net
俺もや、ついに規制くらったかと思ったけど
サーバー側の問題か

972 :名無しさん@お腹いっぱい。:2023/07/22(土) 01:16:32.28 .net
どこか特定のサイトを取得する場合の問題かと思ったら別のサイトで試しても>>970

973 :969:2023/07/22(土) 06:28:15.78 .net
https://web.archive.org/web/1im_/o.5ch.net/21i4q.png
復活っ!!

974 :名無しさん@お腹いっぱい。:2023/07/23(日) 01:54:01.56 .net
https://web.archive.org/web/*/mevius.5ch.net/esite/oyster/*
過去ログdatのアーカイブ取ってる人って居ないよなぁ

975 :名無しさん@お腹いっぱい。:2023/07/23(日) 04:07:26.60.net
過去ログはとってるけど全然追いついてないな

976 :名無しさん@お腹いっぱい。:2023/07/24(月) 07:55:27.47.net
放置してたらURL8万行分集めてて、もう飽きたからこれアーカイブしてdatアーカイブやめます
保存されるやつみたら文字化けしてるし意味あるのかなといった感じでもある
普通の過去ログやる方が有意義におもう

977 :名無しさん@お腹いっぱい。:2023/07/25(火) 22:01:25.69.net
スクリプト回してるのにim_とかid_とか知らないって嘘くせぇ

978 :名無しさん@お腹いっぱい。:2023/07/25(火) 23:00:40.88.net
Twitchもyoutubeみたいにアーカイブ保存出来るようにならんかなぁ
というかyoutubeと違って一定期間で消えるから、むしろこっちを優先して欲しいまである

979 :名無しさん@お腹いっぱい。:2023/07/26(水) 07:00:14.47.net
動画ファイルバカでかいししゃーないでしょ
キリないもん、あとtubeupえばupはできると思う
だけどあれ待機時間がすげー長いんだよなぁ

980 :名無しさん@お腹いっぱい。:2023/07/26(水) 16:48:33.58.net
>>977
それなに? スクリプト使ってないから知らない

981 :名無しさん@お腹いっぱい。:2023/07/27(木) 08:29:32.45 .net
>>976
どうやって8万行も集めたの?
詳しく聞かせてほしい

Googleの拡張機能でアーカイブ常に取る設定にしてたとか?

982 :名無しさん@お腹いっぱい。:2023/07/27(木) 16:31:17.56.net
>>981

ただずっと>903のスクリプト動かしてただけ
outlinkの取得先は全板の過去ログのurlを指定した

983 :名無しさん@お腹いっぱい。:2023/07/27(木) 18:44:11.66.net
スクリプト回してるのにim_とかid_とか知らないって嘘くせぇ

984 :名無しさん@お腹いっぱい。:2023/07/28(金) 05:52:22.75.net
次スレたのんます

985 :名無しさん@お腹いっぱい。:2023/07/28(金) 07:03:23.87.net
Internet Archive総合 (web.archive.org) #5
https://mevius.5ch.net/test/read.cgi/esite/1690495133/

986 :名無しさん@お腹いっぱい。:2023/07/28(金) 16:20:58.19.net
おつでごわす

987 :名無しさん@お腹いっぱい。:2023/07/31(月) 10:21:47.20 .net
立て乙

988 :名無しさん@お腹いっぱい。:2023/08/01(火) 08:12:52.33 .net
1週前ぐらいに取得した(ことになってる)はずなのに取得できてないのがいくつも・・・
The snapshot may not be available right now, please try again later.
最近が↑たまに出るが、
それとの関係だろうか・・・
せっかく時間かけて取得したはずができてないのは残念

989 :名無しさん@お腹いっぱい。:2023/08/01(火) 08:14:32.08 .net
最近が↑→最近↑が

990 :名無しさん@お腹いっぱい。:2023/08/09(水) 21:27:34.47 .net
>>976
エアプ乙w

991 :名無しさん@お腹いっぱい。:2023/08/09(水) 22:47:57.99 .net
todayの話題はここでいいの?

992 :名無しさん@お腹いっぱい。:2023/08/10(木) 05:28:04.06 .net
archive.isはもう3日ほど繋がらないし
Wayback Machineは相変わらずツイッタープロフィールとリプがダメで
リプで繋がってるものも個々でしか取れないから面倒くさい

993 :名無しさん@お腹いっぱい。:2023/08/10(木) 18:48:05.30 .net
todayは普通に使えるが
おま環では?

994 :名無しさん@お腹いっぱい。:2023/08/10(木) 21:07:26.73 .net
archive.today は、まだ Cloudflare の DNS(1.1.1.1) を拒否しているのかな?

995 :名無しさん@お腹いっぱい。:2023/08/11(金) 20:59:13.51 .net
>>992
おま環なのかわからないけどtodayは4日前までは普通に繋がってたけど
急に繋がらくなって今も繋がない
このサイトにアクセスできませんarchive.is により途中で接続が切断されましたって出る
chrome・edge・Fire Foxの全部で繋がらないから環境だとしたら何が原因なのかさっぱり
因みにCloudflare の DNS(1.1.1.1)ではないよ

996 :名無しさん@お腹いっぱい。:2023/08/11(金) 21:46:49.16 .net
レス間違えましたすみません
>>995 は >>993 が正しいです

997 :名無しさん@お腹いっぱい。:2023/08/11(金) 23:46:35.07 .net
>>994
とか言うだけで、実際に叩いてみたりしないんだ

所詮その程度w
sssp://o.5ch.net/21n1h.png

998 :名無しさん@お腹いっぱい。:2023/08/13(日) 12:11:34.23 .net
あれarchive.org落ちてる?spnエラー吐いてる

999 :名無しさん@お腹いっぱい。:2023/08/13(日) 12:18:35.35 .net
直ってた

1000 :名無しさん@お腹いっぱい。:2023/08/16(水) 22:02:08.32 ID:qUaMqCKh6
防衛名目の軍拡利権.少子化名目の私利私欲利権.旅行支援名目の気侯変動災害連発騷音私権侵害の強盗殺人利権による白々しい増税の数々
安全保障を取り巻く状況とか何も変わってないし,原爆使ってみたかった某ならず者国家はWW2で曰本に先制攻撃させるエ作してたわけた゛か゛、
キチガイナセ゛レンスキ一と共謀しての□シア攻撃と同し゛手法て゛,台湾ついて゛に曰本も巻き込んて゛自民公明と共謀してクソシナ攻撃したいだけな
貧乏人か゛子供なんて作ったら遺棄罪て゛逮捕するのが筋だろうに.孑供給付とか孑や嫁と得た効用の対価を赤の他人から奪い取る不当利得だわな
他人の子を連れ込んて゛育てる行為を推進するとか、乱交推進して誰の孑か分からなくするとかしないと、憲法の下の平等なんて確保できんた゛ろ
小池デタラメ百合子なんて私立に行かせてる金持ちの親に毎年10万くれてやるとか.税金で個人の資産形成させるなら税金泥棒公務員利権の
ナマポやら廃止して給付付き税額控除とかやるのか゛筋だろ.つか風俗て゛働いて孑育てしてる自立した女はいくらでもいるた゛ろうに,そんな女と
陳情寄生虫女と.温室効果ガスに騒音にコ□ナにとまき散らして人殺して他人の権利を強奪して儲けてる強盜殺人女とクズっぷり比較してみろ

創価学會員は、何百万人も殺傷して損害を与えて私腹を肥やし続けて逮捕者まて゛出てる世界最惡の殺人腐敗組織公明党を
池田センセ−か゛口をきけて容認するとか本気で思ってるとしたら侮辱にもほどがあるぞ!
hтtΡs://i,imgur,сom/hnli1ga.jpeg

237 KB
新着レスの表示

掲示板に戻る 全部 前100 次100 最新50
名前: E-mail (省略可) :

read.cgi ver 2014.07.20.01.SC 2014/07/20 D ★