2ちゃんねる ■掲示板に戻る■ 全部 1- 最新50    

■ このスレッドは過去ログ倉庫に格納されています

【保存・記録】ウェブアーカイブ総合 Page.01

1 :192.168.0.774:2019/04/06(土) 21:31:22.29 ID:KqAD+H9+0.net
ウェブアーカイブ関連の話題を総合的に扱うスレです。
情報交換し合って貴重なインターネット遺産を後世に残しましょう。
Internet ArchiveなどのWebサービスだけでなく、wget・HTTrack・Heritrix等のツールやソフト、自作クローラの話題もOKです。

・関連リンク(Rock54回避のためピリオドをカンマに変更)
Wayback Machine
https://archive,org/
archive,today
https://archive,fo/
ウェブ魚拓
https://megalodon,jp/
Archive Team
https://archiveteam.org/

・関連スレ
Internet Archive総合 (web,archive,org) #2
http://mevius.5ch.net/test/read.cgi/esite/1475246713/
ウェブ魚拓 Part3
http://mevius.5ch.net/test/read.cgi/esite/1498902308/
【和塩】geocitiesスレ10【ジオシティーズ】
http://mevius.5ch.net/test/read.cgi/hosting/1554115546/
【ヤフー】Yahoo!ブログ【アーカイブ】
http://mevius.5ch.net/test/read.cgi/blog/1554380939/

・ジオシティーズでの失敗から学んだアーカイブにあたっての注意事項
1. 早めに行動しましょう
2. まずは既存のプロジェクトや遺産を探しましょう
3. 単独ではなく組織的に動きましょう
4. 呼びかけや情報共有を積極的に行いましょう

940 :192.168.0.774:2023/09/13(水) 21:43:41.21 ID:gFcddnfB0.net
Yahooニュースのアーカイブを保管するサイトらしい
https://yahoo-archive.activetk.jp

自動巡回で保存されるのかな?
(画像はYahooのCDN直叩きで、恐らく保存されてるのはテキストのみ)

ソースコード
https://end2end.tech/dcbb65019bb4

作者ツイート:https://twitter.com/ActiveTK5929/status/1701917875609715025
(deleted an unsolicited ad)

941 :192.168.0.774:2023/09/16(土) 23:10:40.53 ID:Ow+h1ktP0.net
>>940
普通にInternetArchiveでいい気がするけど
まぁ分散化されるのは良いこと

942 :192.168.0.774:2023/09/21(木) 07:56:00.91 ID:JVPizmuq0.net
502 Bad Gateway
nginx/1.18.0 (Ubuntu)
https://megalodon.jp/

※復帰済

943 :192.168.0.774:2023/09/23(土) 22:08:25.17 ID:Zvh9/x5L0.net
>>939
なんでnitterだと訴訟で使えなくなるの?

944 :192.168.0.774:2023/09/26(火) 03:07:26.06 ID:NdzKENx+0.net
Internet Archiveに保存されてるサイトをローカルに保存したいんだが、良い方法はないか
wgetは何かうまくいかないしブラウザで一ページずつ保存するのも面倒

945 :192.168.0.774:2023/09/26(火) 22:56:31.11 ID:VP9Z7Tjk0.net
>>943
nitterがツイート内容を改ざんしている可能性があるから
Twitter直取りよりは信用度が落ちる

>>944
これとか?使ったことないから分らんけど
https://github.com/hartator/wayback-machine-downloader

946 :192.168.0.774:2023/09/30(土) 00:38:53.02 ID:QkH/6pUe0.net
どんなことでも相談してみて。助けるよ。

947 :ぼやき:2023/10/01(日) 08:22:04.23 ID:RnrJ/PMK0.net
X/Twitterについてもあまり詳しくないけど

Nitterってnitter.netが大元な本家でいいんだよな‥? (他: nitter.1d4.us nitter.cz)

でもnitter.netでのツイートをarchive.isで保存しようとすると、Not Found (yet?)で必ず失敗して保存できない覚えがあったような。


(nitter.)czの場合は、保存できた覚えがあるけど、czやusなどのNitterミラー版の発信元や信頼性って不明な印象で(※自分はまだ調べてない)、

もしページを信頼性も保ったまま恒久的に残そうとしたら総合的にはnet版以外のNitterは何かうまくいかなさそうな印象が。

948 :テスト:2023/10/01(日) 08:43:01.92 ID:RnrJ/PMK0.net
サンプル:
https://nitter.net/Taito_Hey/status/1707568135640088871

web.archive.org は保存可能で
archive.is は「Not Found (yet?)」


ちなみに、ユーザーのトップページをIAにsaveすると、トップページにあった画像は保存できていない。
https://web.archive.org/web/20230930232600/https://nitter.net/Taito_Hey

949 :192.168.0.774:2023/10/01(日) 08:49:01.44 ID:RnrJ/PMK0.net
もしarchive.isで保存できても、
「「https://nitter.net/Taito_Hey/status/1707568135640088871#m」と「#m」が付いてて
と表記揺れしてリンクが散逸してしまう可能性があるから、現archive.isの仕様だと意外と面倒な問題があるな…と。

950 :で、:2023/10/01(日) 08:54:01.82 ID:RnrJ/PMK0.net
そんな事よりも、

Nitter(>>939)といい、ArchiveBox(>>0914)といい、それらをここで最近知ったけど、

皆どこで そういう便利な物があるっていう事を知り得てるの? ツイッター?ニュースサイト?

951 :946の続き:2023/10/01(日) 09:26:01.85 ID:RnrJ/PMK0.net
(この場合、やっぱりここ ツリー型の方が見やすいんだろうな…。)

----

詰まるところ


nitter.czで見た物と
nitter.netで見た物、

「どちらも原本である」っていう事が分かるようにできればいいんだろうな。

(なんなら「twitter.comとNitterが同一であるか? またはそれを証明可能か?」ができればいいんだろうが。)

952 :949:2023/10/01(日) 09:39:01.87 ID:RnrJ/PMK0.net
そうなると、Web3(ブロックチェーン)???

超うろ覚えだけど、あれってあれなのか。エンドユーザーに浸透するの?

953 :192.168.0.774:2023/10/01(日) 12:53:27.91 ID:QbUlJotb0.net
>>951
TwitterとNitterの違いはツイートの時間表記だけ
Twitterは日本時間だけどNitterはUTCになってる
でもアカウント名、IDとかツイート内容は同じだから同一であると証明できるんじゃないですか

954 :192.168.0.774:2023/10/02(月) 01:30:11.89 ID:3/wo9WhU0.net
>>945
ありがとう
これはなかなか良い
リンクをローカル用に修正してくれないのが欠点だが、保存だけなら完璧

955 :192.168.0.774:2023/10/05(木) 15:54:01.76 ID:i6GCcsDS0.net
ここはお前のTwitter(X)やブログじゃないんだから毎度だらだら連投しないである程度考えまとめたり結論出してから1つのレスで書き込んでくれないか

956 :950:2023/10/05(木) 21:51:08.86 ID:NdAg2WJu0.net
意外と読んでる人いるのね、このスレって。レスの勢いが鈍行なので。

てっきり、(>>952までの途中過程の)自分のレスは、取捨して読み飛ばしてくれてるものだと思ってた。(ちなみに >>947を書き込んだ際は、間違ってageてしまった。)



>>953
「Nitter側が、本当にツイート内容などを改竄してないか?」「ツイート内容変更後に、原本(Twitter)とNitterで差異が無いか?」とかの証明は難しいんでしょうね。

957 :931:2023/10/06(金) 07:48:00.80 ID:iu8iKKZW0.net
>>933-934
なんとなく表記揺れをまとめると

X(旧Twitter)
X(Twitter)
Twitter(X)
TwitterX
x=Twitter (従来通りTwitter表記呼称、あるいは Xと書いて 読みはツイッター)
Twitter/X
X/Twitter
x.com (https://www.affility.co.jp/?p=1770 )

958 :192.168.0.774:2023/10/06(金) 10:37:09.47 ID:iu8iKKZW0.net
昨夜あたりから、archive.isで ウェブ魚拓(トップページ)を保存しようとすると、

「Welcome to nginx!」画面になって、再アクセスすると

「このサイトにアクセスできません archive.is からの応答時間が長すぎます。」

と、一定時間アクセスできなくなる気がする。

例: https://archive.is/submit/?submitid=sxIrd9y3YbEtDKkLjC8I3IfsId506PIYo1H3XOT5fjyjpXszt70KHIOege2rgiV3&url=http%3A%2F%2Fmegalodon.jp%2F


もしかしたら、archive.isの使用者ごと弾かれるNGなサイトURLでもあって、archive.is側は判定しているんだろうか?

しかし、5chも重いなあ…最近。

959 :192.168.0.774:2023/10/10(火) 14:48:25.08 ID:AfINMwgb0.net
>>945
まNitterのほうがX(Twitter)本体のUIよか圧倒的に挙動も軽いから、訴訟以外のバックアップ取りなら最強だけどな

960 :192.168.0.774:2023/10/11(水) 18:05:55.84 ID:xUx5SPHW0.net
Archive todayに削除依頼を送っているんだけど、こいつほんまに通さないな。
良い方法ない?

961 :192.168.0.774:2023/10/11(水) 20:18:18.45 ID:jHEB4zsh0.net
archive.todayの削除に成功したのってはるかぜちゃんの新しい方の弁護士と尊師だけなんじゃなかったっけ
確か現地の弁護士経由かつかなりしっかり動かないと全部突っぱねられるんじゃなかった?

962 :192.168.0.774:2023/10/11(水) 20:55:34.32 ID:xUx5SPHW0.net
>>958
このまま潰れてくんねぇかな。

963 :192.168.0.774:2023/10/11(水) 20:56:39.25 ID:xUx5SPHW0.net
>>961
流石にふざけてると思うわ。

964 :192.168.0.774:2023/10/11(水) 20:57:58.76 ID:xUx5SPHW0.net
法的手順をチラつかせたら削除されたってヤフー知恵遅れを見たが、どうなんだろうな。

965 :192.168.0.774:2023/10/11(水) 21:06:00.49 ID:EL8C4Tol0.net
ドメインも著作権も全部自分に帰属してるんだがな。
ウェイバックマシンは、テキストファイルを用意して、サイトにアドレス置いたら消してくれたんだが。
こいつは、手順も不明確且つ削除してくれる望みが薄そう。
どうかしてるぜ。

966 :192.168.0.774:2023/10/11(水) 21:07:44.35 ID:xUx5SPHW0.net
DMCAとかで検索エンジンから表示は消せても、ウェブサイトの削除依頼はできないんだからなぁ
どうにかならんもんかね。

967 :192.168.0.774:2023/10/11(水) 21:32:14.34 ID:xUx5SPHW0.net
ISPに通報するのが有用とも聞いたけどどうなの?

968 :192.168.0.774:2023/10/12(木) 02:18:23.64 ID:7bMyoE320.net
サービスが終了しそうになっても、誰かしら引き継いだり売ったりするんじゃないのか?
まぁそもそもインターネットアーカイブのサービス終了ってのは想像がつかないが。

969 :192.168.0.774:2023/10/12(木) 02:21:30.42 ID:7bMyoE320.net
実際、運営は個人レベルだったはずだから、寿命を迎えれば消えてなくなるかもな。
それ相応の団体化するとそう簡単には行かないが。
それこそ寄付金があるからな。あれが潰れるってのはあまり考えれられない。

970 :192.168.0.774:2023/10/12(木) 22:24:19.71 ID:Cc0NPZ9j0.net
>>967
todayは何度もドメイン変えたり、過去に児ポ通報攻撃にあっても生き残ってるので無理じゃないかな
まぁURL分からなきゃまず誰もアクセス出来ないし、諦めて忘れた方が良いと思う

971 :192.168.0.774:2023/10/14(土) 17:33:19.38 ID:Jcc+eBcl0.net
早い話、日本人のnitterサーバー管理者を証拠申請すれば済むような

972 :192.168.0.774:2023/10/16(月) 11:40:48.28 ID:azdWzTrc0.net
セルフホストしたらええんちゃう
https://matoken.org/blog/2021/02/17/self-hosting-the-lightweight-twitter-front-end-nitter/

973 :192.168.0.774:2023/10/16(月) 11:41:38.02 ID:azdWzTrc0.net
セルフホストしたらええんちゃう
tps://matoken.org/blog/2021/02/17/self-hosting-the-lightweight-twitter-front-end-nitter/ ↩

974 :192.168.0.774:2023/10/16(月) 17:36:48.55 ID:BkCyhBrA0.net
.orgだとイスラエル首相がツイートした焼死赤子の写真が全部"Hmm...this page doesn’t exist. Try searching for something else."
.todayで1件だけ見れる

975 :192.168.0.774:2023/10/18(水) 16:16:06.14 ID:RIuGCdRE0.net
今気づいたんだけどツイートの直リンクだとログインなしで見れるのね
Nitter からスクレイプして直リンク取得でwaybackmachineに打ち込めるやん!

976 :192.168.0.774:2023/10/19(木) 17:03:11.12 ID:YZO3LNYf0.net
>>975
一部見れないツイートがあるのと(おそらくR18認定)、リプライが見れなくなったから一つひとつアーカイブしなきゃいけないけどね

977 :192.168.0.774:2023/10/19(木) 18:32:56.68 ID:BbSSQwx/0.net
nitterはシクブラとか職場でR18突破するために見つけたんだよね、イーロン以前

978 :192.168.0.774:2023/10/20(金) 05:27:28.98 ID:MWss6HyY0.net
Nitterのスクレイプ試したけど2万ツイートぐらいで取得できなくなる?
インスタンスにもよるのかな一度だけ三万ツイート取得できたけど

979 :192.168.0.774:2023/10/22(日) 10:17:10.67 ID:ZodK+h9h0.net
.org沈黙したな

980 :192.168.0.774:2023/10/22(日) 13:31:28.62 ID:S1DF3x8M0.net
orz

981 :192.168.0.774:2023/10/22(日) 17:52:16.71 ID:hiS5hxVm0.net
Twitter公式が旧UI完全廃止で重ったるい現行UI強制来た時にnitterを発掘した。

982 :192.168.0.774:2023/10/24(火) 17:22:09.42 ID:ZAGhQ3u+0.net
衆議院議員が陰部ポロリXに.orgも.todayも役立たず

983 :192.168.0.774:2023/10/29(日) 22:21:48.35 ID:Ft9/6eOi0.net
todayのpixivアカウント消えたっぽいな

984 :192.168.0.774:2023/11/02(木) 00:41:26.94 ID:zMOd/xdd0.net
『どっとうpろだ』が 2023/11/30 を持ってサービス終了
サービス終了と同時に全データも削除とのこと

985 :192.168.0.774:2023/11/02(木) 00:47:19.52 ID:zMOd/xdd0.net
>>984
https://i.imgur.com/9XMxo3F.png

986 :192.168.0.774:2023/11/05(日) 19:40:01.13 ID:IXzGmb0O0.net
TVでた蔵(https://datazoo.jp/ )が重い 最近。

消失すると地味に困るかも。

987 :192.168.0.774:2023/11/05(日) 20:05:07.55 ID:k4gYNeRG0.net
※「価格com テレビ紹介情報」は株式会社ワイヤーアクションが提供するTV放送ログを掲載しています。
https://kakaku.com/tv/

まあ会社が飛んだら提供も止まるし削除だろうけどな

988 :984:2023/11/06(月) 15:39:04.93 ID:hjrGk5W/0.net
いや、でた蔵が重い要因や理由は何だろう?っていう話。


----

「電波ログテキストマイニング(録画バカ一代)」(http://dnptxt.com/)が、消えてしまった。

もうちょっと持つかと思ったがダメだったか。


こういうサービスや記録のサイトって、意外と需要が無く誰もサイト丸ごと保存やIAとかに公開しないんだろうか。


----

gooテレビ番組って関西の番組内容の抄録もあって、でた蔵より充実してたな…。これも誰も丸ごと保存してなさそうだし。

関西版でた蔵って無いんだろうか。

989 :192.168.0.774:2023/11/07(火) 05:21:16.35 ID:OLRw/jQk0.net
Way backだとツイート直リンクでアーカイブできなくなってるのか
白い画面しか表示されない、todayは大丈夫だけど

990 :192.168.0.774:2023/11/07(火) 06:19:38.23 ID:dk3XRua60.net
https://nudefusion.com/ja?referral=g7708g4w040va1i

991 :192.168.0.774:2023/11/07(火) 14:58:27.31 ID:2Phbl9ID0.net
>>989
ちょっと前から表示は出来なくなってる
ソースを見るとツイート内容の保存はされてるらしい

992 :192.168.0.774:2023/11/08(水) 20:24:56.72 ID:FYJKvk760.net
面倒だからtwitter直じゃなくてnitterリンクでwayback にプッシュした方がいいな
Todayはキャプチャまみれで大量に取りにくいんだよな

993 :192.168.0.774:2023/11/15(水) 07:02:27.68 ID:aRjHD32L0.net
亜種
https://ghostarchive.org/

994 :192.168.0.774:2023/11/15(水) 11:57:08.59 ID:Ip7omGo40.net
ghostはURLの最後に*付けて芋づる式検索が出来なかったり容量オーバー名目で記録拒否されたリする

995 :192.168.0.774:2023/11/15(水) 14:05:35.00 ID:FWXSB1gA0.net
>>993
Shift JISとか化けてない?

996 :192.168.0.774:2023/11/15(水) 14:06:33.20 ID:FWXSB1gA0.net
>>990
グロ

997 :192.168.0.774:2023/11/20(月) 17:59:00.89 ID:pAClgikJ0.net
もし自分が次スレを立てるなら、

次スレのスレタイは

【保存・記録】ウェブアーカイブ総合 page.02

という表記にしようかと思ってる。(これでもピリオドの部分も微妙な感じがするが。)

上記などに異議が無いなら上記で次スレを立ててるかも。(万が一、規制に巻き込まれてとかで次スレを立てられなかったらごめん。)



それで「いや自分が次スレ立てたい」という人がいるなら、任せた。

そもそも次スレの需要があるかどうか不明だが。

998 :192.168.0.774:2023/11/21(火) 02:15:29.47 ID:gtrkUTCl0.net
きっしょ

999 :192.168.0.774:2023/11/21(火) 07:25:03.07 ID:QN4SUfby0.net
表記なんか確認する必要ないだろ
【保存・記録】ウェブアーカイブ総合 Page.02
https://mevius.5ch.net/test/read.cgi/internet/1700519014/

1000 :192.168.0.774:2023/11/22(水) 10:46:01.18 ID:QZxCudHS0.net
>>999
じゃあ「Page.01」のそのピリオドは何の意味なんだ?
例えば「p.52 (52ページ)」というような略記法な使い方とも違うじゃん。

そんな表記だと、キャピタライゼーションルールとも違うわけだし、そんなんだったら「Page」は「page」になる方が好ましいだろうが。


>>998
この無知者め

1001 :192.168.0.774:2023/11/22(水) 11:16:03.00 ID:S5C4Okpm0.net
気持ち悪すぎる

1002 :192.168.0.774:2023/11/22(水) 11:24:01.44 ID:eA83YbWK0.net
無意味な煽り合いはやめてね

1003 :2ch.net投稿限界:Over 1000 Thread
2ch.netからのレス数が1000に到達しました。

総レス数 1003
271 KB
掲示板に戻る 全部 前100 次100 最新50
read.cgi ver.24052200