2ちゃんねる ■掲示板に戻る■ 全部 1- 最新50    

2ちゃん画像落としまくりスクリプト

1 :1:01/10/23 19:39.net
2ちゃんねるに貼ってある画像リンクを追い、
jpgをかき集めるスクリプトを作ってみました。

http://www.ninnin.net/

※perlとwgetが必要です。
※Windows,Macでは動きません。

2 :名無しさん@お腹いっぱい。:01/10/23 19:49.net
windows で perl も wget も動くはずだが。

3 :1:01/10/23 19:50.net
fork 使ってるからActive perlでは動かないのですよ。
cygwin上なら動くかも(ためしてないけど)

4 :1:01/10/23 19:53.net
追記:
MacOS Xなら動きますよ
(10.1ならwgetを入れなきゃだめだけど)

5 :名無しさん@お腹いっぱい。:01/10/23 19:56.net
グロ画像コワイヨ(;´д`)

6 :1:01/10/23 20:03.net
例えばモー娘板で
一回スクリプトを実行すると
約800枚の画像が収集できます。

7 :名無しさん@お腹いっぱい。:01/10/23 21:11.net
UNIX板的にはどうかと思うがサンクス1

8 :ソースコード読まずにカキコ:01/10/23 21:15.net
Σ(゚д゚lll)ガーン
アイドル画像板でやったら最初の画像が葉っぱ隊だった
しかも何かループしてて同じ画像だけ取ってるっぽい。
42枚しか収集できなかった。

9 :UNIX すごい。:01/10/23 21:21.net
MacOS X ですがやってみました。
こんなこともできるんですね。目からウロコです。
中にはとても重たいサーバーがあるので、可能であれば
タイムアウトのパラメータも追加されるとうれしいです。
(30秒以上反応が無かったらスキップして次、など)
perl スクリプトとか詳しくないのに勝手言っちゃってすいません。

10 :名無しさん@お腹いっぱい。:01/10/23 21:27.net
cygwinのperlでも動いた。

ただ $down デフォルトは、せめて2くらいに
しておいた方が良くないかい? もしくは固定とか。
サーバに申し訳なくて5は指定出来ん。

11 :名無しさん@お腹いっぱい。:01/10/23 21:34.net
mpegも落としたいが....
醤油みたけど直すのメンドイな

12 :名無しさん@お腹いっぱい。:01/10/23 22:19.net
こういうのは自分で書いた方が良さげ。

13 :1:01/10/23 23:39.net
1です。

>>8
アイドル版ならもっと集まるはず。取得スレ数リミットをもっとあげてみよう。

>>9
wgetのパラメータをいじればできます。現在の設定は2分です。
今後調整します。スクリプトの153行目をいじれば変更もできますよ。

>>10
その通りですね。次回のバージョンから少し下げます。

>>11
73,74,84行目の.jpgを.mpgに変更すればOKなはずです。

14 :名無しさん@お腹いっぱい。:01/10/23 23:44.net
ガ━━(゚Д゚;)━━ソ!
よろこびいさんで半角板いったらなんもなかった

15 :名無しさん@お腹いっぱい。:01/10/23 23:47.net
おおお、すごいね。ガンガン落とせるよ。でも鯖の負荷がすごそう
なのでsage進行の方が良いかな…。

ところで、これで落とした画像を閲覧するスクリプトとか、
どうやって作るんだろう? 手動でeeで見てるんだけど、再帰的に
.jpgファイルを見るスプリプト?とかありそうなんですが。

16 :名無しさん@XEmacs:01/10/24 01:00.net
やっぱ wget を fork して…ってのはみんな書くのね(笑)
ウチの環境だと wget は 2 個くらい fork するのが一番
効率が良かったかなぁ。
# fork しすぎると timeout して、
# まともに取れなかったりして…


>15
find ./ -name '*.jpg' -exec display \{\} \;
とか?
XEmacs の dired も、よく使いますけど。。。

17 :名無しさん@お腹いっぱい。:01/10/24 01:08.net
迷惑画像URLリストとか、どこかにないでしょうか。
フィルタリングしたいですよね。

18 :名無しさん@お腹いっぱい。:01/10/24 01:26.net
find ./ -name '*.jpg' |xargs ElectoricEyes

19 :名無しさん@お腹いっぱい。:01/10/24 01:36.net
半角板のDATってどこにあるす? つーか何もないのはおかしいよね。

20 :名無しさん@お腹いっぱい。:01/10/24 01:41.net
>>15
スクリプトじゃないけどgqviewとかpicviewとかじゃだめなん?

21 :124:01/10/24 03:03.net
こんなことができるのは常時接続の人たちですか?

22 :うひひ:01/10/24 09:28.net
>>21
情事切実な人だな。

23 :名無しさん@お腹いっぱい。:01/10/24 10:38.net
>>19
半角板だと
$ita = http://okazu.bbspink.com/ascii/
の設定でOKなはず

24 :名無しさん@お腹いっぱい。:01/10/24 13:07.net

http://とか
ttp://
みたいにあえてコピペ用になってる物も
落とせる?

25 :名無しさん@お腹いっぱい。:01/10/24 13:28.net
>>17
同意.

でも,迷惑画像っつーのは人によって異なるからね,一概には...
画像分析して妙に赤が多いのはハネるとかは欲しいかも.

26 :1:01/10/24 13:59.net
>>24
むろんOKです。
"ttp://"でひっかけてます。

27 :1:01/10/24 14:01.net
>>25
その機能はつけたいんですけどね・・・
でも赤くない死体画像もあるし・・・

こういう時に1chのレス評価システムは
使い勝手があるんだな、と感じます

28 :名無しさん@XEmacs:01/10/24 14:16.net
半角っていえば、天使とか鳥とかの半角用語?を含むURLをサポートしたスクリ
プト書いた人居る?漏れは諦めた(w
これ、できたら結構凄いよな…

29 :名無しさん@お腹いっぱい。:01/10/24 23:33.net
>>28
同意。ぜひ1にはがんばってもらいたい。

30 :名無しさん@Vi:01/10/25 01:42.net
たしかに画像フィルタは便利かもしれませんが、
個人的にはこのスクリプトは画像をダイジェストできることに
特化して欲しいです。

できれば追加して欲しい機能
1.URL は違うけどファイル名が同じ場合のファイル処理
2. キーワードを追加( tp:// とか http:// など)
3.スレッドのスキップ(先頭から50個目のスレッドから開始など)
4. いっそのこと MPEG ファイルも対象に。

スレッドのスキップはスクリプトに追加して作ってみました。
もし希望があれば送ります。>1

31 :名無しさん@お腹いっぱい。:01/10/25 01:59.net
スレをどこまで読んだか記憶して、次回はそれ以降だけを読むとか、
落としたファイルのアドレスを記録しておいてそのファイルは二度と落とさないとか
そういう機能がないと、毎日同じファイルをダウンしてきてしまうと思うのですが
どうよ?

32 :1:01/10/25 11:38.net
>>30
ご意見ありがとうございます。
検討して次期バージョンに反映します。

>>31
んーと現在の仕様では、同じファイルの画像が
ローカルにあればダウンしないようになっていますので、
毎日同じファイルをダウンしてしまうというのはないです。
ただ落としたファイルのアドレスを記憶とかしてたほうが、
2回目以降の効率は良いですね。

33 :名無しさん@お腹いっぱい。:01/10/26 00:26.net
コレ使うとスレの荒れ度がわかるね
荒れてるスレは死体画像多い。
あとなぜかペットの画像も多いNE!

34 :名無しさん@お腹いっぱい。:01/10/26 05:38.net
wgetでいいじゃん。

35 :名無しさん@お腹いっぱい。:01/10/26 11:16.net
>>34
そういう説もある。
ttp://追えないけどね

36 :名無しさん@お腹いっぱい。:01/10/26 16:55.net
OSXにwget入れるのに小1時間かかりました。
でも成功、すごいぞUNIX、ありがとう>1

37 :名無しさん@お腹いっぱい。:01/10/27 01:20.net
>32

そっか、俺は落としてきたファイルを
別ディレクトリに移動して整理していたんだが、
そうすると、また同じやつを落としてきてしまうんだな。
死体画像とかも残しておかないと、
また同じ死体画像を落としてきてしまうのだな。

38 :名無しさん@お腹いっぱい。:01/10/27 10:54.net
>>28 その辺の隠語は限られているから、単純置換じゃダメかな…

39 :1:01/10/27 17:44.net
>>37
死体画像は同じファイル名でダミーのファイルとかを
置くとかすると良いかも・・・

面倒なのでそのうちその辺もなんとかしたいですね

40 :名無しさん@XEmacs:01/10/27 20:34.net
>38
単純置換は無理っぽいですね。隠語はちょこちょこ増えてるみたいですし、
URLは省略されたりクイズで記述されたりもするので(w

41 :名無しさん@お腹いっぱい。:01/10/27 20:49.net
おいおいおいおいおい、2ch内とはいえ下手なスパイダー
動かすのはやめてくれ。転送量も鯖の負荷も増える。
やりたいやつは公開なんかしないで、自分で作ってひっそりと
やってくれ。

42 :名無しさん@お腹いっぱい。:01/10/29 19:56.net
>>41
すいてる時間帯でもダメ?

43 :名無しさん@ほっとぞぬ:01/10/29 23:13.net
>>42
まず、datファイルをgetして、それを元にすればよいかと思われ。

44 :名無しさん@お腹いっぱい。:01/10/29 23:57.net
MacOSXの人って結構いるんだなぁ。
そういう漏れも。

45 :名無しさん@お腹いっぱい。:01/10/30 00:12.net
>>44

俺もMacOS X
最近多いよね。

厨房UNIX使い気取りが増えてここの板の人は迷惑だろうけど・・

46 :名無しさん@お腹いっぱい。:01/10/30 00:27.net
>>44 >>45

コンソール使う頻度はどれくらいよ?
あんまり多いのも、それはそれで考えもんだけど。
一応Macだし。

47 :名無しさん@お腹いっぱい。:01/10/30 02:34.net
>>44-46
スレ違い。

48 :名無しさん@お腹いっぱい。:01/10/30 22:21.net
同名のファイルがあった場合、ファイルサイズを調べて一致しなかったら
後ろに_01とか付けて保存するのは出来ませんか?

49 :1:01/10/31 10:28.net
>>48
できます。
その方法も考えたのですが、結局やりませんでした。
いらないかな?と思って。
同じような要望が多ければ導入を検討します。

wgetのオプションの中にそんな機能があった気がしますので、
ご自分で改造してみてはいかがでしょう。
$optionsにオプションを突っ込んでwget実行サブルーチンを
呼んでるだけですので。

50 :名無しさん@お腹いっぱい。:01/10/31 13:46.net
試しにやってみたけどいい感じだぁよ、ありがとう。>1
要望とか考えると結局Iria先生みたくなるんだろうけど期待しちゃうよ。
なにってcronで動かしておけるから昼間だけの時限モノとか拾える可能性
あるってだけでピンコたんピキーンなれるし。

ただこの板でやるなら負荷、転送量減らしは最初に考慮する必要あるかと。
引っ越し間際のスレなんて生データで300kb以上になるのを毎回引っ張る
のはやはり問題だと思うので、ツモって来たdat fileはローカルに保存して
再利用する方向で進めてはどうか。

同名異URI処理は取り敢えず後にしないと、考え無し厨房が全開で走らせる
と思われ。

51 :名無しさん@お腹いっぱい。:01/11/01 19:49.net
ねぇねぇ、これからもいじる気ある?>1
マジでcronで走らせてグロ画像getterになろうと思うだけどいぢっていい?
perl なんてしばらくいじってないから思い出すとこからはじめるけど。

52 :名無しさん@お腹いっぱい。:01/11/03 08:14.net
途中で切れちゃう画像とかあるんですが、どこをいじればいいですか?
$limit = 3
$down = 2
で使ってますが。

53 :1:01/11/03 20:54.net
>>50
datのタイムスタンプをチェックして再利用するようにしようかなぁ
ご意見ありがとう。転送量軽減を目指します。

>>51
ぜひいぢってください

>>52
117行目のwgetのオプション設定で調整できると思います。
-t や -w の値を調整すると良いかも。参考ページはこちらあたりをどうぞ
http://seagull.cs.uec.ac.jp/~horiuc-m/wget.html

54 :名無しさん@お腹いっぱい。:01/11/03 21:44.net
自分でSocket開いてRange: bytesヘッダとか使ってくれ。
つーかこういうもんはまともになってから公開してくれ

55 :名無しさん@お腹いっぱい。:01/11/03 22:17.net
FreeBSDでこのソフト使いました。
jpg/以下にたくさんのファイルがきましたが、
この中から、最適なファイルを絞り込むのはむづかしいですね。

タグ情報等から、分類できないのかなあ?
もしくわ、winみたいに、一つ一つのファイルを簡単に表示
できたらまだいいかも。(サムネーム表示?)

今gimp使って、いっこいっこ開いてるけど、
もっと楽にファイル情報しらべれないかな?

56 :名無しさん@お腹いっぱい。:01/11/03 22:17.net
今のままじゃ、ファイル名による絞り込み
しかできないよ。

57 :名無しさん@お腹いっぱい。:01/11/03 22:23.net
・・・ここは本当にUNIX板なのか・・・鬱

58 :名無しさん@お腹いっぱい。:01/11/03 23:42.net
Gimp…… 絶句

59 :名無しさん@お腹いっぱい。:01/11/03 23:52.net
つーか誰かがこのスクリプトをcronで定期的に実行して
作成されたjpglistをどっかで公開すりゃいいんだよね

それを元にiriaなりwgetなりで落とせばいい
そうすりゃ負荷はかからんし

60 :名無しさん@XEmacs:01/11/04 00:35.net
>59
それおもろいね。

っつーか、 jpg をある程度の大きさごとにアーカイブしといてくれ(w
ってコレはアクセスが集中してダメかにゃ。

61 :XV:01/11/04 00:42.net
A.ディレクトリ毎にサムネイル表示

xv [-dir 画像があるディレクトリ]
^v
^n .xvpics
^u

B.一気にサムネイル作成

cd ベースのディレクトリ
find [こっちで書いてもいいし] -type d -exec mkdir {}/.xvpics \;
xv [そしたらこっちもか、やっぱやめ]
^v
^e

C.見ているファイルを消す

見る
^d
^d

D.ファイルを移動する

^v
フォーカス戻す
^v
好きなようにDnDする

E.マスク外す

適当に範囲選択
f
アローキーで位置変更
Shift+アローキーで範囲伸縮
拡大は Ctrl+マウス
Alt+j
Shift押しながらパス入力

62 :名無しさん@お腹いっぱい。:01/11/04 00:55.net
>>59
2chはそれでいいかもしれんが、リスト配布はヤメとけ。
厨房に凶器与えるのと一緒だ。

63 :55:01/11/04 14:10.net
>>58
さんに絶句されたんですが、
みなさんは、どうやって画像みてるのですか?
マジで教えてください。
厨房なんで、すみません。

64 :名無しさん@お腹いっぱい。:01/11/04 14:36.net
>>63
>>61

65 :55:01/11/04 14:52.net
すばらしい。感動した!有難う。

66 :名無しさん@お腹いっぱい。:01/11/04 16:27.net
グロ画像多すぎ。ホモ画像思わみてしまいかなりへこんだ。

67 :名無しさん@お腹いっぱい。:01/11/04 18:24.net
Listアップするためのサーバーでも借りましょうかね。

68 :名無しさん@Emacs:01/11/05 06:42.net
Navi2chで取得したdatを使うようにできたらうれしいな

69 :68:01/11/05 06:48.net
あ,Navi2chで m a m i して,awkで抜いて,wgetすればいいだけか…

70 :名無しさん@お腹いっぱい。:01/11/05 13:34.net
>>55
XV の Visual Schnauzer とか使うのが一般的なんじゃないの?もっとも最近
の Linux の distribution なんかには XV の入っていない例もあるようだけ
ど。ちなみにわたくしは xv 3.10a に各種 patch を当てて、FLMASK とかの復
元もできるようにしたのを使ってる。Linux でも *BSD でも特に問題なくコン
パイルできると思うけど?

71 :名無しさん@XEmacs:01/11/05 22:35.net
XV って未だに使い方よくわかんない…
メンドーなので、なんでもかんでも ImageMagick …

72 :名無しさん@Emacs:01/11/05 23:28.net
>>70
既出

73 :名無しさん@お腹いっぱい。:01/11/06 03:17.net
GQviewとか。

74 :名無しさん@お腹いっぱい。:01/11/06 03:33.net
キーボードマクロで+mamiするのをcronでまわしておくと、
便利というか迷惑というか。

75 :名無しさん@お腹いっぱい。:01/11/14 09:04.net
便利と思うがなんであがらないのかな?
ということで定期あげ。

76 :名無しさん@Emacs:01/11/15 02:08.net
ところで、画像集めた後の話だが、
同じ様な画像がたーくさんディスクの肥しになって
欝にならないか?

そんな時は、dupmerge
http://people.qualcomm.com/karn/code/dupmerge/
(QualcommのPhilip Karn作)

洩れは、
find . -name "*.[GgJj][IiPp][FfEeGg]*" -o -name "*.[Mm][Pp][EeGg]*" | dupmerge
みたいにして使ってるよ。

77 :名無しさん@お腹いっぱい。:01/11/15 02:20.net
>>76
sambaでwinにmountしているんだけれども、
この手のツールはwinのほうが充実していないでしょうか。

78 :名無しさん@Emacs:01/11/15 02:58.net
shell で書けるからね。

79 :名無しさん@Emacs:01/11/15 03:02.net
>> 76
どうせなら iname 使え

80 :名無しさん@Emacs:01/11/15 21:01.net
そりでは修正
find . -iname "*.[gjm][ip][feg]*" | dupmerge

81 :名無しさん@Emacs:01/11/16 17:46.net
>>77
最近のwindowsは、ハードリンク出来るの?
消すんじゃなくてハードリンクする所が
ミソなんだけど

82 :名無しさん@お腹いっぱい。:01/11/16 22:21.net
>>81
使えるわけないじゃん

83 :名無しさん@Emacs:01/11/18 13:04.net
>>82 >> 77
じゃ、充実してないじゃん

84 :名無しさん@Emacs:01/11/19 00:45.net
どうせ焼く時は使わない

85 :名無しさん@お腹いっぱい。:01/12/03 07:38.net
あげます、あげます

86 :名無しさん@お腹いっぱい。:01/12/08 08:12.net
お前ら、最近どうですか?

87 :名無しさん@お腹いっぱい。:01/12/08 09:57.net
どの板も、途中でDLが止まってしまうのだよ。なんでだ??

88 :名無しさん@お腹いっぱい。:01/12/08 16:50.net
>>81-82
Windowsでもハードリンク使えるみたい

CreateHardLink
これをMSDNかなんかでしらべれ

Unixと全く関係ないが、サゲたら忘れそうなのでアゲ

89 :名無しさん@お腹いっぱい。:01/12/08 17:22.net
FAT でどうやって hardlink 作るんだ?

90 :名無しさん@お腹いっぱい。:01/12/08 17:24.net
確か2000以降だっけかな、忘れた

91 :名無しさん@お腹いっぱい。:01/12/08 17:25.net
NTFSならhard linkもsymbolic linkもできるよ。
あんまり使われてないのはFATだと使えないからかも。

92 :名無しさん@お腹いっぱい。:01/12/08 20:07.net
symbolic linkをjunctionという、らしい。
ただこいつを使うと、WindowsのExplorerでさえ
摩訶不思議な挙動を示すことがあるというくらい、
ろくに使われてない機能。

93 :名無しさん@お腹いっぱい。:01/12/09 18:33.net
思いつきとしか思えない機能追加が多いからな。
だったら DOS のころから linkfile をサポートしといてほしい。

94 :名無しさん@お腹いっぱい。:01/12/09 20:30.net
DOSでFATでもハードリンク作れるYO!
ただし、chkdsk.exeにクロスリンクと言われてしまう、諸刃の剣。
素人にはお勧めできない。ってやつだ。

95 :名無しさん@お腹いっぱい。:01/12/14 22:52.net
こえーーー

96 :名無しさん@お腹いっぱい。:01/12/28 12:45.net
>>94
確かに間違いでは無いな(笑)

97 :名無しさん@お腹いっぱい。:02/01/03 22:48.net
age て みた

98 :名無しさん@お腹いっぱい。:02/01/16 18:24.net
やっぱり前回履歴に対応して欲しいなぁ。
毎日cronで走らせたいヨ。

99 :名無しさん@お腹いっぱい。:02/01/16 19:50.net
>>92
俺使ってる。でもあれってsymlinkというのは詐欺だろう。
join(DOS)とかFreeBSDのunion fs & mountみたいのと言った方が正確
かな。で、俺が見つけてる不具合は

1.Explorerやインストーラの空き容量計算がmountに対応できてないので、
 インストーラで(空きがあっても)「ねーよ」と弾かれたりする
2.MoveFile() APIがmountを考慮してないので、src/destが同じドライブ
 名だけど別ボリュームの場合、ファイル移動に失敗する(API直/cmd.exe
 Explorer全滅)

だな。
一応どっちも回避方法があるし、従来アプリは1.に対応できんというのは
仕方がない所でもあるんだが、2.はどう考えても(仕様変更への)追従ミス。

# 同一ボリューム内の移動の場合、ディレクトリエントリだけの書き換え
# で高速化してるんだが、同一ボリュームかどうかの判定にsrc/destの
# ドライブ文字しか見てないという。アホ。

100 :名無しさん@お腹いっぱい。:02/01/17 20:29.net
100



101 :名無しさん@お腹いっぱい。:02/01/17 20:52.net
ある板のある日の<a href="...">を一括表示してくれるようなサイトない?
つくろうかな…。


102 :名無しさん@お腹いっぱい。:02/01/17 21:41.net
>>101
作って!

103 :名無しさん@お腹いっぱい。:02/01/18 09:50.net
>102
つくりはじめた。rawmodeを使おうかとも思ったけど、index.htmlをtidyでXHTMLに
変換してからXSLTで加工(XHTML to XML)して、XMLで日別にサーバ側に蓄積して、
CGIでXML選んでXSLTかまして(XML to HTML4)出力、みたいな感じにすることにした。
なんとなく。

とりあえず最初のXSLTまで書けましたわ。


104 :名無しさん@お腹いっぱい。:02/01/21 06:03.net
age

105 :名無しさん@お腹いっぱい。:02/01/24 01:14.net
>103
すばらしいあげ

106 :101:02/01/24 01:24.net
>>105
ども。マ板でもちょっと書いたんだけど、できました。
2ちゃんねるの 技術系/ニュース系 板の、URL流し読みサイト。

これ http://moso.borogrammers.net/newlin/ なんだけどどうかしら?

表示例↓
http://moso.borogrammers.net/newlin/read.cgi?board=news&yyyy=2002&mm=01&dd=23


107 :名無しさん@お腹いっぱい。:02/01/28 19:58.net
祭り監視に良いNE >>106



108 :名無しさん@お腹いっぱい。:02/01/29 00:24.net
>>106
面白いね
ちょっと遊んでみるよ

でもsage

109 :名無しさん@お腹いっぱい。:02/02/05 14:13.net
スレがばらばらに表示されるので、日付順、スレ順などのソートがあると嬉しいです。

110 :109:02/02/05 14:29.net
あと、大量のリストを眺める作業になるので、スレタイトルは左揃えにしたほうが
視点の移動が少なくて良いんじゃないかと思います。

111 :名無しさん@お腹いっぱい。:02/02/13 16:26.net
.datの形式変わった?

112 :106:02/02/21 05:48.net
本業でヘロヘロになってました。109さんご意見どうも。

>スレがばらばらに表示されるので、日付順、スレ順などのソートがあると嬉しいです。
トップ画面に「発言日が最近のURLほど上に表示する」と「スレッド番号+発言番号
でソートして表示する」というラジオボタンをつけました。

>あと、大量のリストを眺める作業になるので、スレタイトルは左揃えにしたほうが
>視点の移動が少なくて良いんじゃないかと思います。
確かにそうですね。左揃えにしました。スレッドでソートした場合、かなり見易くなったの
ではないかと思います。

URLは相変わらず http://moso.borogrammers.net/newlin/ です。


113 :106:02/02/21 05:50.net
新しい表示例:
http://moso.borogrammers.net/newlin/read.cgi?board=newsplus&yyyy=2002&mm=02&dd=21&abone=on&exclude=on&exclude_text=2ch.net%2F&ext_text=swf&thr_sort=yes


114 :名無しさん@お腹いっぱい。:02/02/22 18:48.net
>>113のURLはなんか妙な表示になる気もするけど、良くなったと思います。
てーか誰か画面のデザインしてやれ。地味すぎるよ




115 :名無しさん@お腹いっぱい。:02/02/22 19:20.net
>>111
datは>>106のviewerには無関係と思われ


116 :名無しさん@お腹いっぱい。:02/02/28 00:07.net
>>1のスクリプトは、いまや改造しないとそのままでは使えないですね。

117 :名無しさん@お腹いっぱい。:02/03/01 20:10.net
>>116
改造キボンヌ


118 : :02/03/01 23:30.net
>>116,117
2ch のシステムはよく知らないんだけど現在では subject.txt と .dat
は直接見れないんだよね? read.cgi から raw モードで取得するのかな。
その辺りを書き換えればオッケー。

119 :名無しさん@お腹いっぱい。:02/03/02 11:08.net
monazilla ML 入るが吉。


120 :名無しさん@お腹いっぱい。:02/03/03 19:05.net
使えなくなってるね…

121 :116:02/03/04 00:04.net
>>117
118が書いてるように、今は $ita/subject.txt が見られないようだから、
まずオリジナルスクリプトの subject.txt は subback.html にでも
しないといけない。
また、subback.html を参照するようにしたら、データナンバーの取り出し方も
変えないといけないね。いろいろなやり方があるだろうが、例えば
http://love.2ch.net/morningcoffee/subback.html
だったら
<a href="1014421686/l50">6: 中澤裕子ファン倶楽部 96 (977)</a>
みたいなスレッドのリストが得られて、要はこの中の 1014421686 を
切り出したいわけだから、38行目と60行目
($data_no) = split /\<\>/ , $_;
は、
@data = split /\//;
$data_no = $data[0];
$data_no =~ s%\D%%g;
とでもすれば $data_no に 1014421686 が入って、
あと、40行目の $target は、conf.txt に
$host = 'http://love.2ch.net/';
$categ = '/morningcoffee/';
を追加しといて
$target = "$host"."test/read.cgi"."$categ"."$data_no";
として使っているが、もっとエレガントなやり方があったら誰か教えて著。

122 :名無しさん@お腹いっぱい。:02/03/06 22:47.net
>>1 のサイト、アクセスできなかったんですけど
件のスクリプトを落とせるところは他にありませんか


123 :名無しさん@お腹いっぱい。:02/04/12 23:09.net
  

124 :名無しさん@お腹いっぱい。:02/04/12 23:18.net
wgetでダウンロードしたファイルを
ダウンロードしたYYYYMMDDという形式で
保存するにはどうすればいいのでしょう。

同じ名前でファイルが毎週更新されるので
cronでそのままで回すのでは上書きされて
しまいます。

125 :名無しさん@Emacs:02/04/12 23:53.net
% wget http://xxx.xxx.xxx/???.jpg -P `date +%y%m%d`
ってのはダメ?
大量に引っこ抜くならこれでいいと思うけど。

126 :login:Penguin:02/04/13 00:12.net
-O --output-document=FILE FILE に文書を出力します。

127 :名無しさん@お腹いっぱい。:02/04/13 00:25.net
>>125
> ってのはダメ?

それでもかまわないのですがファイルは1つなので
ディレクトリは作らずYYYYMMDD.jpgというファイル名
で保存したいのですが。


128 :名無しさん@Emacs:02/04/13 01:00.net
>>128

% wget http://xxx.xxx.xxx/???.jpg -O `date +%Y%m%d`.jpg

(´-`).。oO(>>127 がすでに答えてくれているけど…なんでだろう?)

129 :名無しさん@お腹いっぱい。:02/04/13 08:00.net
>>128

> (´-`).。oO(>>127 がすでに答えてくれているけど…なんでだろう?)

あの書き込みはヒントだったのですね。
ドキュメントと書いてあったので他の事かと思っていました。
ありがとう。>>ALL


130 :名無しさん@お腹いっぱい。:02/04/20 06:10.net
ほしゅ

131 :名無しさん@お腹いっぱい。:02/04/23 23:12.net
捕手

132 :名無しさん@お腹いっぱい。:02/05/18 17:53.net
なんとなく

133 :名無しさん@お腹いっぱい。:02/06/07 18:24.net
ほしゅ

134 :名無しさん@お腹いっぱい。:02/06/28 02:33.net
どるどれい?

135 :名無しさん@お腹いっぱい。:02/08/04 21:09.net
sage

136 :名無しさん@お腹いっぱい。:02/08/20 04:23.net
おーい

137 :名無しさん@お腹いっぱい。:02/09/18 00:15.net
ある日付以降の書きこみに書かれているURLのみを
落としたいとかできるでしょうか?


138 :名無しさん@お腹いっぱい。:02/09/22 00:52.net
あげとこう


139 :名無しさん@お腹いっぱい。:02/09/22 01:29.net
さげとこう


140 :名無しさん@お腹いっぱい。:02/09/23 04:14.net
一個のディレクトリに画像ファイル1400個置いてますが
gimvでみるときに極端に速度が遅いです
数が多いとよくないんですね
どーにかなりませんか?

141 :名無しさん@お腹いっぱい。:02/09/23 04:40.net
何が悪いかをつきとめて、それを直す。

142 :名無しさん@お腹いっぱい。:02/09/24 19:52.net
>>140
UNIXのファイルシステムは
一つのディレクトリにファイルがいっぱいあると遅いと
聞いたことがあるな
(だからメールキューは複数のディレクトリに分かれてるらしい)

1400個くらいなら関係ないのかもしれんけどね
詳しい人フォローレスたのむ

143 :名無しさん@お腹いっぱい。:02/09/26 07:34.net
>142
(だから2chのスレッドは足切り制限があるらしい)
(1つの板に数千のスレがあった時代は重かったなぁ…)
脱線スマソ

144 :名無しさん@お腹いっぱい。:02/12/26 04:11.net
age

145 :名無しさん@お腹いっぱい。:02/12/29 07:42.net
うーん、誰も保守しようとか言う気はないの?



ないよね。


146 :名無しさん@お腹いっぱい。:02/12/29 13:31.net
>>142
ext2fsやオリジナルのufsは遅いが、たとえばufsでもUFS_DIRHASH入りものなら速い。
xfsあたりなら、なんもせんと速い。

結論: OSと、選んだファイルシステムによる。

147 :名無しさん@お腹いっぱい。:02/12/31 08:23.net
チョトおしえてください。
IEからなら
http://pc.2ch.net/test/read.cgi/unix/1003833552/
が見えるんですけど、wgetを使ってこのページをダウンロードしようとしても、
できないんです。どうやればいいんですか?


148 :名無しさん@お腹いっぱい。:02/12/31 12:33.net
wget http://pc.2ch.net/test/read.cgi/unix/1003833552/
でできるが…?

149 :名無しさん@お腹いっぱい。:03/01/01 12:43.net
て優香、wget使わなくても、httpget使えば便利じゃない?
と思って、httpget落とそうとしたけど、内部エラーで落とせない・・・
http://www.onicos.com/staff/iz/release/

150 :名無しさん@お腹いっぱい。:03/01/04 16:37.net
>>1さんが作ったやつをちと効率的に収集できるように改造したけど、
どっかにうpしようかな?


151 :名無しさん@お腹いっぱい。:03/01/05 05:23.net
どうせやるなら、以前にもちょっと話出てたけど、一人が落としたファイルをどっかの鯖に
キャッシュしといて他の人はそっちから落とせるようなの作ろうよ。そうすれば2ちゃんの
負荷も減るし、うpろだの負荷も減るし、ソッコーで消されたファイルもキャッシュに残って
るしで、うっはうはーじゃん。

152 :名無しさん@お腹いっぱい。:03/01/05 07:33.net
どうせなら落としたファイルがP2Pで共有されるようにするとか

153 :名無しさん@お腹いっぱい。:03/01/05 18:40.net
>>147
普通はdatファイルを直接落とそうとするのでは無いの?

>>151
それやろうかな...
今はdatファイルを貯めているんだけど。

154 :名無しさん@お腹いっぱい。:03/01/06 00:20.net
>>150

複数ファイル(.mpgとか.rmとかの動画)も同時に落せるヤシキモンヌ

155 :名無しさん@お腹いっぱい。:03/01/06 01:01.net
>>154
もちろんそういう仕様にしてあるよ。てかできたけど。
けどrm,ramはすっかりわすれてたというか、そんなのにちゃんで見たことないのだが。


156 :名無しさん@お腹いっぱい。:03/01/06 03:14.net
>>153
て優香、datファイルを落とせるならそうしたいんだけど、やりかた
教えてーな。
たしかどっかでdatファイルは落とせなくなったとか聞いたような気がしたんで、
htmlをそのまま落としてマッチングしてるんだけど・・・


157 :153:03/01/06 14:02.net
>>156
http://pc.2ch.net/test/read.cgi/unix/1003833552/
だったら
http://pc.2ch.net/unix/dat/1003833552.dat
でいけるのではないと?

>たしかどっかでdatファイルは落とせなくなったとか聞いたような気がしたんで、
>htmlをそのまま落としてマッチングしてるんだけど・・・
これは俺も聞いたことあるけど、閉鎖騒動の時あたりじゃないの?
俺はそれよりあとに2ch来たからよく知らないけど、
read.cgiにアクセスするより、datファイルに直接アクセスしたほうが、負荷は減るらしい、と聞いたこともある。


158 :153:03/01/06 14:51.net
>>156
とりあえず、俺の作ったdatファイルだけ落とすスクリプトも張っておこう。
粗末なシェルスクリプトだが...

#!/bin/sh

PATH=/usr/local/bin:/usr/bin:/bin:/usr/local/sbin:/usr/sbin:/sbin
DATE=`date +%Y%m%d_%H%M%S`

if [ "$1" ] && [ "$2" ] && [ "$3" ] && [ "$4" ] ;then
:
else
echo "useage: ./get.sh [dat|subject] [dir] [host] [ita] [waittime] [wget-flag]"
exit
fi

HOMEDIR=/home/hoge/documents/data
TARGET=$1
DIR=$2
HOST=$3
ITA=$4
LOGFILE=./wget_log.txt

if [ "$5" ];then
WAIT=$5
else
WAIT=3
fi


159 :153:03/01/06 14:52.net
# -c tuchuukara
# -N time stamp
WGETFLAG="-t 3 -a${LOGFILE} -P./dat -U "Hogella/1.0" -nd $6"

if ! [ -d ${HOMEDIR}/${DIR} ] ;then
echo ${HOMEDIR}/${DIR} no such directry\!
exit
fi
/bin/test -d ${HOMEDIR}/${DIR}/dat || mkdir ${HOMEDIR}/${DIR}/dat
/bin/test -d ${HOMEDIR}/${DIR}/old_dat || mkdir ${HOMEDIR}/${DIR}/old_dat
/bin/test -d ${HOMEDIR}/${DIR}/subject || mkdir ${HOMEDIR}/${DIR}/subject

cd ${HOMEDIR}/${DIR}
test -f ${LOGFILE} || touch ${LOGFILE}
printf "###\n###\n### DATE=${DATE} \n### args=$* \n###\n###\n" >> ${LOGFILE}


if [ ${TARGET} = subject ];then

rm -f subject.txt
wget -a${LOGFILE} -U "Hogella/1.0" http://${HOST}/${ITA}/subject.txt
cp subject.txt ./subject/subject.${DATE}.txt


160 :153:03/01/06 14:52.net
elif [ ${TARGET} = dat ];then
echo "---> DATE = ${DATE}"
mkdir old_dat/${DATE}

rm -f subject.txt
wget -a${LOGFILE} http://${HOST}/${ITA}/subject.txt
echo "---> got subject file"
sleep 1

echo -n "---> dat file... "
for DAT in `cat ./subject.txt | cut -f1 -d.` ;do
echo "--->TARGET is ${DAT}" >> ${LOGFILE}
echo -n "${DAT}"
wget ${WGETFLAG} http://${HOST}/${ITA}/dat/${DAT}.dat
if [ -f ./dat/${DAT}.dat.1 ];then
echo "---> file moved to old_dat dir" >> ${LOGFILE}
mv ./dat/${DAT}.dat ./old_dat/${DATE}
mv ./dat/${DAT}.dat.1 ./dat/${DAT}.dat
echo -n "_ "
elif [ -f ./dat/${DAT}.dat ];then
echo -n ". "
else
echo -n "X "
fi
sleep ${WAIT}
done
echo " "
echo "---> all done" >>${LOGFILE}
echo "---> all done"
fi

161 :153:03/01/06 14:55.net
HOMEDIR=/home/hoge/documents/data
を適当に書き換えて
mkdir $HOMEDIR/test-dir
./get.sh dat test-dir pc.2ch.net unix 3
で使えると思う(freebsd以外は不明)。
2度目からは
./get.sh dat test-dir pc.2ch.net unix 3 -c
で差分だけとってこれる。

162 :名無しさん@お腹いっぱい。:03/01/06 15:20.net
あらほんと。
で、にちゃんの鯖に負担かけないように、前回収得した所からの差分だけ
拾いたいんだけど、どうやるの?


163 :名無しさん@お腹いっぱい。:03/01/06 15:24.net
うーん、
cgiから差分だけ拾うのと、datを全部拾って差分を調べるのとではどっちがいいんだろ?
てか、dat拾う方がいいんだろうなぁ。作りなおしてみるか。


164 :153:03/01/06 15:42.net
>>162
wgetのオプションで俺が使えると思うのは。
-c       ファイルサイズを見て、増加分だけダウンロードする。
-N       タイムスタンプを見て、ファイルが更新されていたら、(ファイルすべて)をダウンロードする。
-nc       ファイルが存在したら、ダウンロードしない。(接続もしない)
-t 3       失敗したときの再トライ回数(デフォルトは20なので、3ぐらいに設定したほうがよいと思う)
-x       ディレクトリを作って、URLを再現する
         (例 http://pc.2ch.net/unix/dat/0000000.dat → ./pc.2ch.net/unix/dat/000000.dat )
-nd      -xの逆、ディレクトリを作らない。(-rは同時に-xが有効になるけど、-ndをつけるとディレクトリを作らない)
-i link.txt  ファイルからURLを読み込んでダウンロードする。     
-nv      ダウンロードメッセージをいくらか静かにする。
-A acclist,
--accept=acclist acclistで指定した拡張子(?)のみダウンロードする。,で区切る(?)
-U "Mozilla/4.0" ユーザーエージェントをちょろまかす。
-P PREFIX


--progress=dot ダウンロード中のメッセージスタイルを変更。
-o hoge.txt   ログファイル(上書きしてしまう)
-a hoge.txt   ログファイル(追加から書く)

-r        リンクをたどり、再起的に取る(ただし、別のホストはダウンロードしない)
-w 3      再起的にとる場合のダウンロードしたときの待ち時間
--no-parent  再起的にダウンロードする際、親ディレクトリから上はダウンロードしない。


-nd



165 :153:03/01/06 15:44.net
>>164
失敗。

wgetのオプションで俺が使えると思うのは。
-c       ファイルサイズを見て、増加分だけダウンロードする。
-N       タイムスタンプを見て、ファイルが更新されていたら、(ファイルすべて)をダウンロードする。
-nc       ファイルが存在したら、ダウンロードしない。(接続もしない)
-t 3       失敗したときの再トライ回数(デフォルトは20なので、3ぐらいに設定したほうがよいと思う)
-x       ディレクトリを作って、URLを再現する
         (例 http://pc.2ch.net/unix/dat/0000000.dat → ./pc.2ch.net/unix/dat/000000.dat )
-nd      -xの逆、ディレクトリを作らない。(-rは同時に-xが有効になるけど、-ndをつけるとディレクトリを作らない)
-i link.txt  ファイルからURLを読み込んでダウンロードする。     
-nv      ダウンロードメッセージをいくらか静かにする。
-A acclist,
--accept=acclist acclistで指定した拡張子(?)のみダウンロードする。,で区切る(?)
-U "Mozilla/4.0" ユーザーエージェントをちょろまかす。
-P PATH  PATHを基準にファイルを保存


--progress=dot ダウンロード中のメッセージスタイルを変更。
-o hoge.txt   ログファイル(上書きしてしまう)
-a hoge.txt   ログファイル(追加から書く)

-r        リンクをたどり、再起的に取る(ただし、別のホストはダウンロードしない)
-w 3      再起的にとる場合のダウンロードしたときの待ち時間
--no-parent  再起的にダウンロードする際、親ディレクトリから上はダウンロードしない。


166 :153:03/01/06 15:55.net
WINDOWSのiriaとか見たいに、帯域制限してダウンロードすることができないか、
は調べたことあるけど、方法が見つからなかった。wgetではできないのでは無いかと思う。
代わりには、-wで制限するか、スクリプトの中にsleepを入れる方法があると思う。

あと画像ファイルを落とすとき、-x と -nc を組み合わせて使ったら、同一のファイルをダウンロードする問題はなくなると思う。

>>158-160の欠点は、あぼーんでlogが詰まったら、不適切なところから、ダウンロードを開始してしまうため、
変なdatファイルを作ってしまう。これは-Nですべてをダウンロードしなおせばいいけど、負荷が増える。

>>163
うーん、-nc -x オプションで、すでにダウンロードしてあるファイルをダウンロードしないようにするか、
もしくはwgetで何バイト目からを指定して、別ファイルにダウンロードすることができるような、オプションがあるかも..


167 :153:03/01/06 15:59.net
>>162
wget -c で増加分をダウンロードできるらしいです。
これは、ダウンロード途中でコネクションが切れたりして、
あとからその続きからダウンロードしたい場合にも使えるようです。
遠くのftpサーバとかに使えます。

168 :名無しさん@お腹いっぱい。:03/01/06 16:45.net
>>167
さんくすこ。
スレログとらなくても、リンクさえ拾えれば大丈夫だからねぇ、
あぼーんされても大丈夫だと思う。
というわけで、増分だけ拾うようにしますわ。


169 :名無しさん@お腹いっぱい。:03/01/06 18:57.net
このスレでやるな。

170 :名無しさん@お腹いっぱい。:03/01/06 18:59.net
>>169
何を?なぜ?

171 :1:03/01/06 19:18.net
dat落ちするかとおもったけど
なんかまたあがってきてるんで
ひさびさにバージョンアップしようかな

というか、つかってる人(使う人)とかいるんでしょうか?

172 :名無しさん@お腹いっぱい。:03/01/06 21:10.net
つくった。
けど、htmlから拾ってるから効率悪いよ。
http://homepage3.nifty.com/wahya/


173 :名無しさん@お腹いっぱい。:03/01/06 21:15.net
>>172
君のPCの時計ずれてない?

174 :名無しさん@お腹いっぱい。:03/01/06 21:18.net
>>173
え?どこ?
さっき作ったばかりだからおかしいところあったら指摘して〜

>>171
>>1さんキタ━━━━━━(゚∀゚)━━━━━━━!!!!!


175 :名無しさん@お腹いっぱい。:03/01/06 21:19.net
>>171
つか、使うかどうかより、自分で作ってみるのも楽しいのかも。
1さんのも参考にしたいのでオネガイシマス。

176 :名無しさん@お腹いっぱい。:03/01/06 21:21.net
>>174
いやこんなんでたから。
ゴミレススマソ。
---
get2ch_v006/get2ch.pl
tar: get2ch_v006/get2ch.pl: time stamp Jan 7 21:00 2003 is 85213 s in the future
get2ch_v006/get2chrc.txt
tar: get2ch_v006/get2chrc.txt: time stamp Jan 7 21:00 2003 is 85213 s in the future
get2ch_v006/readme.txt
tar: get2ch_v006/readme.txt: time stamp Jan 7 21:00 2003 is 85213 s in the future
get2ch_v006/subback2subhash.pl
tar: get2ch_v006/subback2subhash.pl: time stamp Jan 7 21:00 2003 is 85213 s in the future

177 :名無しさん@お腹いっぱい。:03/01/06 21:24.net
>>176
・・・なんかちょうど1日ずれてるような。


178 :名無しさん@お腹いっぱい。:03/01/06 23:34.net
て優香、wget使わなければforkしなくていいからActivePerlでも使えるようになるし、
Irvineでも使えばwgetよりはるかに効率的に収集できるし。

あーあ、UNIX板で気付いちゃいけないことに気付いちゃったよ。


179 :名無しさん@お腹いっぱい。:03/01/07 10:03.net
萌え板を監視するスクリプトも( ゚д゚)ホスィ…

180 :名無しさん@お腹いっぱい。:03/01/07 11:41.net
>>179
萌え板を監視、って具体的に何できればいいんだ?
と優香、萌え板って何?ファイヤーウォールのこと?


181 :名無しさん@お腹いっぱい。:03/01/07 12:52.net
>>178
soretteCUI?

182 :179:03/01/07 13:06.net
説明不足でした。

こんな感じの掲示板です。
http://www9.xdsl.ne.jp/~w2web/moe/moelinks.html

萌々ぼ〜どって言うのかな?
ソノテの人の画像アップ掲示板として広く使われてるみたいです。

欲しいのは画像をいっきに落とす・・ですが
できたら全てのページをログも含めてHDに保存できるのが好ましいです。

183 :名無しさん@お腹いっぱい。:03/01/07 13:32.net
>>182
そうか、wgetの-rオプションだけでは画像アップローダーの
2ページ目以降のがとってこれないのか...
うーむ

184 :名無しさん@お腹いっぱい。:03/01/07 14:57.net
>>182
なるほど。理解した。
VBスクリプトなら、次のページをめくるボタンを押すスクリプトが簡単に書けるけど、
Perlとかだとどうやってやるんだろ?


185 :名無しさん@お腹いっぱい。:03/01/07 14:58.net
wgetでpostできるようにするパッチあるよ
ttp://pluto.im.uec.ac.jp/~sekita-n/prog/
CGIを激しく呼び出してアク禁喰らっても知らないけど

186 :名無しさん@お腹いっぱい。:03/01/07 15:03.net
>>184
cgiを読んだら、POSTを送ることでページをめくるようになってた。
perlだったら直接サーバと繋いで、POSTを直接送ればできるのでは?
またはhttp://hoghoge/moemoe.cgi?page=3でページを直接指定して(GETでも)ページを開けるらしい。

ところでwgetでPOSTを送ることってできないよね?(wget厨ですまそ)

187 :186:03/01/07 15:05.net
>>185
リロードしたらみました。
すまそ。試してみます。

wget以外でPOSTを簡単に送れるツールを以前どこかで見たことあったけど。。


188 :名無しさん@お腹いっぱい。:03/01/07 15:57.net
curl使え

189 :名無しさん@お腹いっぱい。:03/01/07 17:03.net
>>181
Irvineもコマンドラインから使えるけど。
irvine list.txt で、URLリストを入れられる。
cronで回すのでなければ、Win上でやったほうが簡単かも。


190 :名無しさん@お腹いっぱい。:03/01/07 19:44.net
⊂⌒~⊃。Д。)⊃

191 :名無しさん@お腹いっぱい。:03/01/07 21:57.net
その萌え萌えなんちゃらってやつな、moemoe.htmlと同じディレクトリにある
moemoe.logってのがログファイルだからそれ落とせ。画像のURLも載ってるから。
CGI叩くのやめれ。

192 :名無しさん@お腹いっぱい。:03/01/08 01:46.net
>>172
なんかデリられてるみたいなんで差異うpキボンヌ、クレクレ君でスマソ

193 :名無しさん@お腹いっぱい。:03/01/08 01:51.net
>>187 w3m

194 :名無しさん@お腹いっぱい。:03/01/08 09:32.net
>>192
ゴメソ。
cgiからゲトーしてるので下手するとアク禁になっちゃうから今消してる。
もうすぐ次バージョンうpするからまってて〜(;´Д`)


195 :名無しさん@お腹いっぱい。:03/01/08 14:37.net
>>193
それだ!

196 :名無しさん@お腹いっぱい。:03/01/08 21:35.net
>>192
うpしたよ〜
急いで書いたからちゃんと動くかわからないけど。


197 :名無しさん@お腹いっぱい。:03/01/08 21:49.net
>>196
さっきの動かなかったから、差し替えますた。


198 :名無しさん@お腹いっぱい。:03/01/08 22:46.net
>>197
まだ時計がずれてない?(w
勘違いだったらスマソ。

ちょっと読んで気になったのは、
スレッドの差分を取ってくるときのwgetのオプションで-cと-ncの両方を指定しているけど、
これって両方あったらまずくないの?>>165
あと、datファイルを連続してダウンロードしたら、2chの負荷が大きくなってまずいと思うけど..



199 :名無しさん@お腹いっぱい。:03/01/08 22:50.net
>>198
あらほんと。
-cと-nc一緒に書いちゃってるけど、一応動いてるし、ダウンロードの
速さからして差分だけ落としてるように思ふ。
て優香、汚いソースを丁寧に読んでくれてありがd
datは差分だけ落としてるから連続ダウソも大丈夫かと思ったが、
やっぱヤバイかね?間隔あけた方がいいかな?


200 :名無しさん@お腹いっぱい。:03/01/08 22:52.net
あと、wgetのダウンロード速度が遅くていらつくんだけど、なんか解決方法
ありませんか?

201 :名無しさん@お腹いっぱい。:03/01/08 23:02.net
>>199
いや、ちょっとmonazilla関係のスレをよんでたら、
いかにサーバの負荷を減らすかいろいろ考えられていて、
この、datファイルを総ざらいするのも極力避けた方がいいかと思ってきた。
やるとしても、負荷の低い時間帯にかなり間隔を開けて行った方が良いかと...

>ダウンロードの
>速さからして差分だけ落としてるように思ふ。
-ncはすでにファイルが存在したら、ダウンロードしないので、ダウンロードされていない可能性は?

202 :名無しさん@お腹いっぱい。:03/01/08 23:16.net
>>201
今 -nc消したやつをうpしたよ。
だけど、-nc消したらなんだか速度が遅くなったような・・・
あと、日時がバグってるのはアーカイバーがおかしいらしいことが分かったよ。
だからキニシナーイ

>datファイルを総ざらいするのも極力避けた方がいいかと思ってきた。
なるほど。一応スレのレス数見て更新されてるか確認してから各スレの差分をダウソ
するようにしてるけど。もっと負荷を減らす方法ないでつかね?
cronで回すなら、10秒おきに更新されてるスレを1スレずつ巡回みたいなことも考えられるけど。

>-ncはすでにファイルが存在したら、ダウンロードしないので、ダウンロードされていない可能性は?
一応ダウンロードされてるようだが・・・謎。
まぁ直したし。


203 :名無しさん@お腹いっぱい。:03/01/08 23:19.net
>>202
速度で判断するより、wgetのログをちゃんと見た方がはっきりするかと...

204 :名無しさん@お腹いっぱい。:03/01/08 23:27.net
>>203
-ncつけてるやつはログが消えちゃったけど、-nc消したやつのログみたら
全部落としてるみたい・・・鬱

205 :名無しさん@お腹いっぱい。:03/01/09 01:58.net

(´-`).。oO(画像掲示板から落とした方が簡単なのに、なんでだろう…)


206 :名無しさん@お腹いっぱい。:03/01/09 16:19.net
こんなのもあったり
http://j2ch.free-city.net/

207 :名無しさん@お腹いっぱい。:03/01/09 19:32.net
>>205
ソレダ━━━━━━(゚∀゚)━━━━━━━!!!!!
にちゃんねらがよく利用している画像掲示板を巡回すれば、良質なジェイペーグが
集まるよな。
>>206
同一のアドレスがたくさん・・・sortしてuniq通せよな〜、と。


208 :名無しさん@お腹いっぱい。:03/01/09 20:05.net
>>206
さらに1時間更新とか...
どんなシステムか気になる。

>>207
Windowsでは画像掲示板を巡回して画像をダウンロードするソフトを聞いたことあるけど、
人参収穫か大根収穫とか名前だったか...
まあ、crontabで自動で回してみたい

209 :名無しさん@お腹いっぱい。:03/01/09 21:08.net
>>208
これか?
人参自動収穫機
http://ninjinclub.tripod.co.jp/


210 :名無しさん@お腹いっぱい。:03/01/09 23:41.net
この画像掲示板はPOSTじゃないと見れないみたいなんですが、w3m等の
POSTがしゃべれるツールで画像をダウンロードする方法が分からないのですが、
分かる方いらっしゃいませんか?

ttp://sss.direct.ne.jp/nuke/bbs.cgi


211 :名無しさん@お腹いっぱい。:03/01/10 01:23.net
>>210
とりあえず>>191の様にログが保存されていないか探してみるとか?
imgboardはデフォルトではfile.dat、fileback.datって名前だったような...
ただ、ログファイル名変えてたり、アクセス権を切っている可能性があるので(俺もだけど)
このばあいは>>209を試してみるとか?
下手にperlでPOSTを送ったりするのはやめた方がいいと思う

212 :名無しさん@お腹いっぱい。:03/01/10 01:25.net
>>210
てか、右クリック→名前を付けて保存ではいけないのか?
もしくはman w3m

213 :名無しさん@お腹いっぱい。:03/01/10 02:00.net


214 :名無しさん@お腹いっぱい。:03/01/12 14:20.net
>>210
上のほうで出てるパッチを当てたwgetだとこんな感じ?

#!/bin/bash
url="http://hoge.com/hoge/imgboard.cgi??page="
img="/hoge/img-box/"
lastpage=10
i=0

while [ $i -lt $lastpage ]
do
i=`expr $i + 1`
echo $url$i >> list.txt
done

wget -r -w 1 -I $img -i list.txt -o wget.log
rm -f list.txt

215 :age2ch.pl 0.03.28:03/01/12 16:20.net
保守

216 :名無しさん@お腹いっぱい。:03/01/12 23:06.net
>>241
普通に
wget "http://hoge.com/hoge/imgboard.cgi?page=2"
でもいけない?

>>215
それはやめとけ。
下手したら悪禁になるかもしれないらしい

217 :山崎渉:03/01/15 12:59.net
(^^)

218 :名無しさん@お腹いっぱい。:03/01/24 15:59.net
java版を作ってみますた。

http://gobo.free-city.net/

※javaの実行環境が必要です。
※Windows、Macでも動くかも。

219 :あぼーん:あぼーん.net
あぼーん

220 :あぼーん:あぼーん.net
あぼーん

221 :名無しさん@お腹いっぱい。:03/01/25 17:42.net
>>218
ネタでつか?
鯖がみつかりませぬ・・・


222 :218:03/01/26 00:18.net
あれ?確かに見つかりませんね...。
って、鯖ごと落ちてる?

昨日まではアクセスできたのにな。今日話題になってるSQLPの影響かなぁ?


223 :名無しさん@お腹いっぱい。:03/01/26 00:43.net
>>222
ここでは話題になってないのかな・・

ttp://dailynews.yahoo.co.jp/fc/computer/internet/

224 :218:03/01/26 09:12.net
>>221
たった今、鯖が復帰していることを確認しますた。よろしくおながいします。
いちお、間借りしたところは、

The site gobo.free-city.net is running Apache/1.3.27 (Unix) on FreeBSD

なので今回の騒ぎで落ちちゃったわけではなさそうですが。

225 :名無しさん@お腹いっぱい。:03/01/31 10:59.net
どうやらUAをいじらないとdatファイルを直接getできなくなったらしいが

226 :山崎渉:03/04/17 12:33.net
(^^)

227 :あぼーん:あぼーん.net
あぼーん

228 :名無しさん@お腹いっぱい。:03/04/21 02:09.net
↑山崎、必死だな(笑

229 :名無しさん@お腹いっぱい。:03/04/28 15:53.net
UNIX コマンドだと標準で巡回コマンド付いてきますが、何か?

230 :名無しさん@お腹いっぱい。:03/05/06 16:55.net
Mac OS 10.2 のターミナルで実行しました
そしたら、
pl {-input <binary_file>} {-output <binary_file>}
Reads ASCII PL from stdin (or serialized file if -input specified)
and writes ASCII PL to stdout (or serialized file if -output)
なんて出ちゃって、もうわかりませぬ
どうかおしえてください。。。
おながいします。。。


231 :あぼーん:あぼーん.net
あぼーん

232 :名無しさん@お腹いっぱい。:03/06/08 23:39.net
おお!
このスレまだ存在してたのか。
息が長いな。
山崎先生のおかげですね。

233 :名無しさん@お腹いっぱい。:03/07/08 00:31.net
>>185 のページ見れないんですが、引越し先知ってる人います?

234 :名無しさん@お腹いっぱい。:03/07/13 19:27.net
>>233
とりあえずWayBack Machineで拾えた

235 :あぼーん:あぼーん.net
あぼーん

236 :名無しさん@お腹いっぱい。:03/08/10 04:45.net
age?

237 :あぼーん:あぼーん.net
あぼーん

238 :あぼーん:あぼーん.net
あぼーん

239 :あぼーん:03/11/13 20:55.net
あぼーん

240 :名無しさん@お腹いっぱい。:03/12/17 05:13.net
ホッシュ

241 :名無しさん@お腹いっぱい。:03/12/31 10:54.net
  

242 :名無しさん@お腹いっぱい。:04/01/08 02:45.net
あけました おめでとう

243 :名無しさん@お腹いっぱい。:04/01/09 20:08.net
このスクリプト使ってみたよ。
板一枚で 7500 くらい画像がとれた。終わるのに丸一日かかったけど…。


244 :名無しさん@お腹いっぱい。:04/01/10 03:55.net
濃淡分布や周波数分布なんか使って、グロ画像や
虹板に紛れ込んだ三次元画像(これもグロ画像か…)を取り除きたいなぁ。
グロ画像は「怖くてみられないグロ画像を鑑定するスレ」があったね、
それを学習データにして……

マンドクセ

245 :名無しさん@お腹いっぱい。:04/01/14 21:43.net
>>244
一度やってみたいな。グロ画像はともかく、3次元(or2次元)排除なら
フーリエ解析+自動学習 で割と精度がでるような気がするのだが。
例のベイジアンフィルタな感じで。さて…

246 :名無しさん@お腹いっぱい。:04/01/23 06:04.net
...

247 :名無しさん@お腹いっぱい。:04/02/13 19:29.net
  

248 :名無しさん@お腹いっぱい。:04/02/14 11:06.net
>>246 >>247 なんだよ保守か? 何か書けよ!

249 :名無しさん@お腹いっぱい。:04/03/28 18:33.net
保守。

>>244みたいな感じで2次元画像の属性分けできればいいな。
濃淡分布や周波数分布の勉強にいいホームページor本教えてください。

250 :名無しさん@お腹いっぱい。:04/04/16 21:20.net
保守

251 :名無しさん@お腹いっぱい。:04/07/02 22:30.net
http://akinafreak.zive.net/imageThumbnail/showGazoKanList.action
2ちゃんから集めた画像を会員制にして公開

おまいら、これってどうよ

252 :名無しさん@お腹いっぱい。:04/07/02 23:46.net
>>251
責任を負っかぶることをものともしない猛者。

253 :名無しさん@お腹いっぱい。:04/11/13 08:59:12.net
エロエロage

254 :pd34d81.tkyoac00.ap.so-net.ne.jp:04/12/16 11:13:43.net
(^^)

255 :名無しさん@お腹いっぱい。:04/12/16 11:25:24.net
何だ山崎渉か

256 :名無しさん@お腹いっぱい。:2005/04/05(火) 17:11:38 .net
umu

257 :login:root ◆GrsqjXpGxE :2005/04/17(日) 22:09:41 .net
>>1
とりあえず、使ってみる...
これはCGIか?ブラウザで実行しろと?

まぁ、Linuxしかインストールしていない漏れのPCにはありがたいがな。
鯖にうpしてみる。分からない事があると思うから、>>1教えてな!

258 :login:root ◆GrsqjXpGxE :2005/04/17(日) 22:15:48 .net
ウワーーーーーン
早速だが>>1よ。質問がある!
ディレクトリにある conf.txt は変更する必要があるのか?

$ita = 'http://choco.2ch.net/ainotane/';
$dir = './jpg';
$limit = 999;
$down = 2;

$ita は、2ちゃんの板のアドレスでおkなんだな?


259 :名無しさん@お腹いっぱい。:2005/04/17(日) 22:34:37 .net
>>258
1じゃないけど、おkだ

260 :名無しさん@通りすがり ◆.q7T9q3bHY :2005/04/18(月) 01:11:41 ? .net
クローラー&過剰リロード対策スレ2【新バーボン】
http://qb5.2ch.net/test/read.cgi/operate/1113647422/

delayと差分はちゃんとね。

261 :名無しさん@お腹いっぱい。:2005/07/09(土) 14:24:53 .net
test

262 :名無しさん@お腹いっぱい。:2005/07/09(土) 21:05:19 .net
このスレまだあったのか。。。
懐かしい

263 :名無しさん@お腹いっぱい。:2005/07/17(日) 01:12:01 .net
ああ、ずっとあるぜ

264 :名無しさん@お腹いっぱい。:2005/08/15(月) 02:33:24 .net
イメージサーチャーモナー?

ttp://www.abars.biz/search/

265 :名無しさん@お腹いっぱい。:2005/11/13(日) 22:53:23 .net
一度でもdownloadしたファイルをmd5sumしてsum値のリストどっかテキスト
に保存しといて、同じsum値のファイルを二度とdownloadしないように
してくれる重複避け機能を追加してください。

266 : ◆9Xm6zmxuk. :2006/11/06(月) 22:12:55 .net


267 :名無しさん@お腹いっぱい。:2007/11/13(火) 23:55:48 .net
vdvdvdv




nfdfdnfdn





fhffhh





jrtyjr





yteryery



yeryer




268 :名無しさん@お腹いっぱい。:2008/02/22(金) 11:12:57 .net
保守する必要ある?

269 :名無しさん@お腹いっぱい。:2009/08/01(土) 09:16:08 .net
何だこのスレw

270 :名無しさん@お腹いっぱい。:2010/11/18(木) 21:04:12 .net
よし!!

271 : 忍法帖【Lv=3,xxxP】 :2011/06/09(木) 22:47:57.83 .net
???

272 : 忍法帖【Lv=3,xxxP】 :2011/06/16(木) 00:56:59.34 .net
test

273 : 忍法帖【Lv=13,xxxPT】 :2011/07/02(土) 19:27:11.02 .net
test

274 : 忍法帖【Lv=4,xxxP】 :2011/07/06(水) 23:00:24.79 .net
test

275 : 忍法帖【Lv=13,xxxPT】 :2011/07/09(土) 15:57:54.67 .net
test

276 : 忍法帖【Lv=3,xxxP】 :2011/08/16(火) 17:34:25.85 .net
どどとどと

277 :名無しさん@お腹いっぱい。:2011/08/27(土) 20:43:51.62 .net
渋の画像ぶっこ抜きスクリプト、要る?

278 : 忍法帖【Lv=38,xxxPT】 :2011/08/28(日) 09:52:34.12 .net
test

279 :名無しさん@お腹いっぱい。:2011/09/09(金) 20:42:51.45 .net
てーすと

280 :名無しさん@お腹いっぱい。:2011/10/06(木) 00:30:03.20 .net
てst

281 :電脳プリオン 忍法帖【Lv=40,xxxPT】(3+0:8) 【28m】 :2013/02/11(月) 23:44:32.85 ?PLT(12080).net
10年以上更新してたのか

282 :名無しさん@お腹いっぱい。:2013/02/13(水) 15:50:37.06 .net
>>265
ソース公開されてるんだから自分でヤレ。
ってすげー前のレスだった・・・。

283 :名無しさん@お腹いっぱい。:2013/03/22(金) 21:42:30.18 .net
      _
      |O\
      |   \ キリキリ
    ∧|∧   \ キリキリ
ググゥ>(;⌒ヽ    \
    ∪  |     (~)
     ∪∪   γ´⌒`ヽ
     ) )    {i:i:i:i:i:i:i:i:}
     ( (    ( ´・ω・)、
           (O ⌒ )O
            ⊂_)∪

284 :名無しさん@お腹いっぱい。:2013/10/13(日) 00:05:36.16 .net
懐かしい

285 :名無しさん@お腹いっぱい。:2014/07/14(月) 17:55:10.21 .net
http://imgur.com/roeuS4F.jpg

286 :島本町で凄惨なイジメを受けて廃人になった方へ:2014/08/06(水) 20:02:47.91 .net
>大阪府三島郡島本町の小学校や中学校は、暴力イジメ学校や。
島本町の学校でいじめ・暴力・脅迫・恐喝などを受け続けて廃人になってしもうた僕が言うんやから、
まちがいないで。僕のほかにも、イジメが原因で精神病になったりひきこもりになったりした子が何人もおる。
教師も校長も、暴力やいじめがあっても見て見ぬフリ。イジメに加担する教師すらおった。
誰かがイジメを苦にして自殺しても、「本校にイジメはなかった」と言うて逃げるんやろうなあ。
島本町の学校の関係者は、僕を捜し出して口封じをするな

>島本町って町は、暴力といじめと口裏合わせと口封じの町なんだな

子供の時に受けた酷いイジメの体験は、一生癒えない深い傷になるなあ

「暴力とイジメと口裏合わせと口封じ」の町やそういう町に巣食うヤクザ・チンピラ・ゴロツキ・不良・
いじめっ子・ダニ・ノミ・シラミなどを監視して非難するのは暮らしやすい町を作るのに必要だ

287 :名無しさん@お腹いっぱい。:2017/12/29(金) 08:49:24.14 .net
誰でも簡単にパソコン1台で稼げる方法など
参考までに、
⇒ 『宮本のゴウリエセレレ』 というブログで見ることができるらしいです。

グーグル検索⇒『宮本のゴウリエセレレ』

26UOUCYMZ2

288 :名無しさん@お腹いっぱい。:2018/05/22(火) 05:12:44.99 .net
知り合いから教えてもらったパソコン一台でお金持ちになれるやり方
時間がある方はみてもいいかもしれません
グーグルで検索するといいかも『ネットで稼ぐ方法 モニアレフヌノ』

A4Y4N

289 :名無しさん@お腹いっぱい。:2023/09/28(木) 05:34:11.87 .net
今は別のスクリプトで5chが落ちまくりという

290 :名無しさん@お腹いっぱい。:2023/10/20(金) 11:11:11.81 .net
やっほー、これはうれしい驚きだ!

291 :名無しさん@お腹いっぱい。:2024/03/27(水) 20:38:37.01 .net
要するに太ったらダメな人間はいないと思ってないんだろうね
スケート靴込でもなるだろうし
詐欺に気を使ってるとかない?

292 :名無しさん@お腹いっぱい。:2024/03/27(水) 20:49:38.09 .net
双日って他のやつが世の中心は自由主義だよ
それ言い出したらどこも変わらんやろ...

293 :名無しさん@お腹いっぱい。:2024/03/27(水) 21:08:25.55 .net
>>112
若者は騙しやすい。
全員死んじまえよ構わないからモリカケと変わらんのに
ガーシー馬鹿だから

294 :名無しさん@お腹いっぱい。:2024/03/27(水) 21:31:40.23 .net
子供手当とか配偶者控除とか金持ちのほうが勝てる可能性が高そう

66 KB
新着レスの表示

掲示板に戻る 全部 前100 次100 最新50
名前: E-mail (省略可) :

read.cgi ver.24052200