2ちゃんねる スマホ用 ■掲示板に戻る■ 全部 1- 最新50    

Webスクレイピング(クローラ・スパイダー)

1 :Name_Not_Found:2016/04/17(日) 18:55:03.94 ID:???.net
やってる?

2 :Name_Not_Found:2016/04/18(月) 04:03:06.43 ID:???.net
やってる、やってる!

3 :Name_Not_Found:2016/04/18(月) 09:00:01.94 ID:???.net
phpでやってる

4 :Name_Not_Found:2016/04/18(月) 19:02:14.18 ID:???.net
エロ画像収集ロボを育てるのがライフワーク

5 :Name_Not_Found:2016/04/21(木) 21:04:19.13 ID:LeRQrWBl.net
対象のデータを解析して
狙ったデータだけ取ってくるのが難しい

一本釣りがしたいんだけど
投網で取って分けるしかない感じ

6 :Name_Not_Found:2016/04/21(木) 23:34:12.02 ID:???.net
どうしてもDOM構造に依存すーる

7 :Name_Not_Found:2016/04/24(日) 13:58:10.64 ID:???.net
>>3
phpQuery?

8 :Name_Not_Found:2016/05/04(水) 23:34:26.96 ID:WiR8LFTj.net
ウィキペディアのスクレイピングが難しそう
ページによって構造がバラバラっぽい

9 :Name_Not_Found:2016/05/30(月) 20:06:46.27 ID:tfxvhbfF.net
      【サヨク覚醒】  フクシマ虐殺の罪を、菅元首相に着せようとしても無駄だ、降伏して潔く死刑になれ。  【ゲスウヨ撲滅】



三菱商事の核ミサイル担当重役は安倍晋三の実兄、安倍寛信。これがフクイチで核弾頭ミサイルを製造していた疑惑がある。書けばツイッターで速攻削除されている。
https://twitter.com/toka iamada/status/664017453324726272
「致死量の放射能を放出しました」 2011年3月18日の会見で東電の小森常務は、こう発言したあと泣き崩れた
https://twitter.com/neko_aii/status/735089786575159297
「助けてください 南相馬市の女子高校生です まだ16なのに じわじわと死を感じてるんです」
https://twitter.com/butterfly_kouka/status/734722388852498432
「南相馬市の方で福島で頭が2つある子供が生まれている。TVでやならい真実を言う為に立候補したんです」。
http://www.youtube.com/watch?v=TId2blLTL3c&feature=player_embedded(演説動画)
2歳を過ぎたころ「放射能があるから砂は触れない」「葉っぱは触っちゃだめ」 / りうなちゃんは去年の暮れ、脳腫瘍のために亡くなった。
https://twitter.com/Tom oyaMorishita/status/648628684748816384

UFOや核エネルギーの放出を見ることはエーテル視力を持つ子供たちがどんどん生まれてくるにつれて次第に生じるでしょう。

マイト★レーヤは原発の閉鎖を助言されます。
マイト★レーヤによれば、放射能は自然界の要素を妨害し、飛行機など原子のパターンが妨害されると墜落します。
マイト★レーヤの唇からますます厳しい警告と重みが発せられることを覚悟しなさい。彼はいかなる人間よりもその危険をよくご存じです。

福島県民は発電所が閉鎖されれば1年か2年で戻って来られるでしょう。

日本の福島では多くの子どもたちが癌をもたらす量の放射能を内部被ばくしています。健康上のリスクは福島に近づくほど、高まります。
日本の近海から採れた食料を食べることは、それほど安全ではありません。汚染されたかもしれない食料品は廃棄すべきです。
日本もさらに多くの原子力発電所を作ろうとしています。多くの人々が核の汚染の影響で死んでいるのに、彼らは幻想の中に生きています。

10 :Name_Not_Found:2016/09/20(火) 20:33:09.73 ID:y5C8lcmT.net
無料で使えるスクレイピングツール「Octoparse」の使い方。コードを書くことなく自由度の高いデータ収集が可能。

http://nelog.jp/octoparse

11 :Name_Not_Found:2016/10/11(火) 08:08:45.73 ID:???.net
pipe終了したいまYQLのスレですかね?

12 :Name_Not_Found:2016/10/11(火) 08:09:10.46 ID:???.net
誤爆です、すみません

13 :Name_Not_Found:2017/10/10(火) 20:30:55.79 ID:???.net
pythonでやってる

14 :Name_Not_Found:2017/10/10(火) 23:33:58.66 ID:???.net
requestsとbeautifulsoupで超簡単だよね

15 :Name_Not_Found:2017/10/11(水) 00:48:58.65 ID:???.net
>>14
簡単。スクレイプに手を出す前は敷居高そうだなーって思ってたけどそんなことなかった。

16 :Name_Not_Found:2017/10/24(火) 01:18:04.81 ID:xNnmgAAP.net
このスレWebProg板向きの話題だな

クローラのプログラム自体は簡単だけど
収集したデータを実用に活かすのが難しい

17 :Name_Not_Found:2017/10/24(火) 11:24:06.54 ID:???.net
そうなんだよね。データを拾ってくるのはいいんだけどそれをどう活かすのかってのが思いつかない

18 :Name_Not_Found:2017/10/27(金) 02:10:23.23 ID:???.net
そんなもん毎晩のオカズに決まっておろーが

19 :Name_Not_Found:2017/12/12(火) 03:17:08.12 ID:MrUcGD8N.net
HPで友達が稼げるようになった情報とか

⇒ http://asaswq3wq.sblo.jp/article/181819223.html

興味がある人だけ見てください。

QGA4PR8OS3

20 :Name_Not_Found:2018/01/03(水) 20:16:52.01 ID:???.net
過疎

21 :Name_Not_Found:2018/05/01(火) 19:01:02.87 ID:l1wYHpV1.net
誰でもできる在宅ワーク儲かる方法
少しでも多くの方の役に立ちたいです
グーグルで検索するといいかも『金持ちになりたい 鎌野介メソッド』

LS2JZ

22 :Name_Not_Found:2018/10/04(木) 01:09:51.62 ID:???.net
import requests
from bs4 import BeautifulSoup

23 :Name_Not_Found:2019/01/28(月) 23:27:21.81 ID:???.net
5chスクレイピングしてみたらレスが増殖するんだけどなんで?

24 :Name_Not_Found:2019/02/01(金) 02:20:48.86 ID:???.net
意味不明

25 :Name_Not_Found:2019/02/01(金) 11:28:06.48 ID:???.net
環境はvbaなんだけど
例えばこのスレをスクレイピングしたら>>15のレスが2個に増える
このスレで言うと全体で26個のレスになる
他のスレで酷いところなんか400レスぐらいしかないのに取得レス数が1000レス超えたりする
どうなってんだ・・・

26 :Name_Not_Found:2019/02/21(木) 05:21:08.70 ID:???.net
どうなってんだろうねえ…

27 :Name_Not_Found:2019/02/22(金) 10:32:39.42 ID:???.net
価格コムの商品一覧↓
https://kakaku.com/specsearch/0010/
ここの下のページネーションをクリックする方法ってどうやればできますか?

28 :Name_Not_Found:2019/02/22(金) 18:39:26.28 ID:???.net
javascriptを読み解こう!

例えば3ページ目
<a href="javascript:void(0)" onclick="return page('3');">3</a>

page('3')って関数にバインドされてるね。で、page関数を検索すると

function page(page_number){
document.specForm.Page.value = page_number;
document.specForm.ButtonType.value = "D"
document.specForm.submit();
return false;
}

formにあるhidden属性 Page=3, ButtonType=D がセットされて検索ボタンが押されて(submit)、postされる。すると3ページ目が得られる。

29 :Name_Not_Found:2019/02/23(土) 03:20:06.94 ID:???.net
>>28
ありがとうございます、解説のおかげでできました!
vbaでもjavascriptつかえるのも発見でした!
page('3')が関数だなんて思いもしませんでした。
ずっと3をクリックするにはどうすればいいかがんばってましたw

30 :Name_Not_Found:2019/02/25(月) 16:27:20.50 ID:???.net
Dim ie As InternetExplorer
Set ie = CreateObject("InternetExplorer.Application")
ie.navigate ("https://kakaku.com/specsearch/0010/")
ie.Visible = True
Call wait(ie)
Application.wait (Now + TimeValue("0:00:01"))

Dim doc As HTMLDocument
Dim formel As HTMLFormElement
Dim sle As HTMLSelectElement

Set doc = ie.document
Set sle = doc.getElementsByName("OS").Item
Set formel = doc.getElementById("spec_search").all.Item(0)
sle.Value = 12
formel.submit

↑価格コムでパソコンをOSwin7で絞り込むコード
ここまで絞り込むのに10時間ぐらいかかってしまった・・・
formエレメントがspecFormで簡単に操作できれば楽勝だったんだけどそれができなくて四苦八苦しました。
教えていただいたjavascriptのコードにもspecForm.submit()でかかれてるから楽勝だと思ったのに。
なんか楽な方法無いですかね。。。これ使うと構文分析がらくだよって言うツールあったら教えてほしいです。

31 :Name_Not_Found:2019/03/08(金) 12:46:47.05 ID:???.net
webブラウザで調べたい要素の上にポインター置いて右クリックしたら
要素を調査とか検証とかみたいな項目があるだろう
それ使うのが一番手っ取り早いんじゃないかな

32 :Name_Not_Found:2019/03/09(土) 14:02:13.03 ID:???.net
最近のjavascriptやajax使いまくりのサイトのスクレイピングってselenium使う以外の方法ってある?

33 :Name_Not_Found:2019/03/21(木) 11:41:27.53 ID:???.net
定期的に更新されるJSONデータをScrapyでパースしてItemリストを作るような場合に、
以前のジョブですでに作成済みのItemはスキップするみたいなことは、どうやってやるのが良いんでしょう?

クロール済みのリンクを再度クロールしないようにするのとかは、JOBDIR指定すればうまいことスキップしてくれるんだけど、
https://docs.scrapy.org/en/latest/topics/jobs.html
クロールをスキップするんじゃなくて、生成済みItemの新規作成をスキップするスマートなやり方ってあるのかしら?

今のところ、Item PipelineでMongoDBにItemを格納するようにして、DBにItemをinsertする時にDuplicateKeyErrorでDropItemさせてるんだけど、ドロップさせないようにするとしたら、いちいちDBを読んで格納済みだったらItemを作成しないみたいにするしかないですか?

毎回DBを読みにいくのは重そうなので、とりあえず今はDBに入れる時点で重複エラーを起こさせてドロップしてるんだけど、なんかスマートじゃないですよね?

34 :Name_Not_Found:2019/04/28(日) 23:33:17.81 ID:???.net
あなたのワークシートがインターネットにつながる Excel VBAでクローリング&スクレイピング

って本を買おうと思ってパラパラって中身見てみたら、IE使うことになってんだよね
IEってもうオワコンなのに

35 :Name_Not_Found:2019/05/06(月) 07:36:47.06 ID:???.net
IEの更新がストップしたらEdgeが使えるようになるのかしら

36 :Name_Not_Found:2019/05/21(火) 15:34:35.63 ID:iTLTpi9z.net
このスレもっと活性化させたいね

37 :Name_Not_Found:2019/05/21(火) 15:36:33.02 ID:???.net
>>16 >>17
そんなんプログラミング自体は簡単だけど
うまく生かすのは難しいって何でも当てはまるじゃん

38 :Name_Not_Found:2019/06/16(日) 13:45:04.68 ID:???.net
phantom.jsも開発中止か
GUIなしでインストールできるヘッドレスブラウザはないもんか

39 :Name_Not_Found:2019/06/16(日) 14:56:57.90 ID:???.net
>>17
Pingaがなくなっちゃったからその代替はどう

40 :Name_Not_Found:2020/01/16(木) 08:39:46.91 ID:???.net
人少ないな

41 :Name_Not_Found:2020/01/20(月) 13:58:04.71 ID:???.net
GASでスクレイピングしてるんだけど、3秒に1回のアクセスでもまたに遮断される
1時間に1度動くようにトリガーセットしてるのはまずいのかねえ

42 :Name_Not_Found:2020/01/20(月) 17:00:25.54 ID:???.net
>>41
アクセス先によるとしか
きっちり3秒に1回にしてるなら、ランダムな間隔にしてみたら?

43 :Name_Not_Found:2020/04/06(月) 22:44:14.38 ID:2xTj4JsS.net
例えば5chで何らかの理由であぼーんされてレスが削除される事ってあるじゃん?
その対策で新しいレスがつくたびに自動で保存とかってできる?

44 :Name_Not_Found:2020/04/07(火) 18:04:32 ID:???.net
>>41
相手のサイトが、頻繁にアクセスしてくる、IP アドレスを拒絶する機能を設定してる

>>43
頻繁にアクセスすると、そのIP アドレスを拒絶してくるのでは?
ひょっとしたら、営業妨害で刑事告訴してくるかもw

5ch では契約者だけに、API を公開してる。
契約していないと使えない

45 :Name_Not_Found:2020/04/07(火) 20:50:39.70 ID:oYVeDqlc.net
1分間に何回もアクセスしてる人なんてザラにいると思うけどその辺はどう?

46 :Name_Not_Found:2020/04/09(木) 14:35:01 ID:???.net
各サイトは、robots.txt を置いて、
クローラーに対して、クロールする方法を宣言する

クローラーはそれに従わないと、業務妨害罪となる

実店舗と同じ。
お店は、その店の規則に従わない客を追い出せる。
それでも客が出ていかなければ、警察を呼んで逮捕できる

お店は、革ジャン・サングラス・ヘルメット・刺青の客などを追い出せる

47 :Name_Not_Found:2020/04/09(木) 15:16:09 ID:8doRssbZ.net
>>46
なるへそ

48 :Name_Not_Found:2020/04/09(木) 17:10:24 ID:???.net
>>46
よくそんなウソ堂々と書き込めるなw

49 :Name_Not_Found:2020/04/09(木) 23:49:51 ID:???.net
>>46
ネタかもだけど、robots.txtに従わないからといって罰せられる法律はないよ
librahackみたいな例もrobots.txtに違反したからではなくシステムへの負荷の問題(あれはそもそもシステム側の不備だけど)

50 :46:2020/04/10(金) 13:53:32 ID:???.net
大量の中国からのDos 攻撃なんか、国内からだと、確実に業務妨害で有罪になる

だから日本の司法権が及ばない、国外から実行する。
犯罪者が国外にいる場合、日本の裁判では有罪にできないから

ゴーンがそうw
裁判すら開けないw

51 :Name_Not_Found:2020/04/10(金) 20:09:06.41 ID:QalYELFz.net
星野ロミは特例?

52 :Name_Not_Found:2020/06/22(月) 16:38:03.17 ID:SB/JXgh9.net
>>51
星野ロミはそういう問題ではない
彼は漫画村というサイトで漫画を違法アップロードしていた

53 :Name_Not_Found:2020/07/17(金) 01:32:34.15 ID:???.net
>>32
puppeteer

54 :Name_Not_Found:2021/08/14(土) 03:44:37.40 ID:???.net
ガチな初心者がmacにbeautifulsoup4をインスコした後につまずいている
プログラマーの人ってオライリーの「PythonによるWebスクレイピング」読めば簡単にできちゃうもんなの?
Webの知識も必要だなこれ・・

55 :Name_Not_Found:2021/09/08(水) 08:48:32.02 ID:???.net
>>54
うん、簡単にできるよ
まあ、読まなくてもできるけど

56 :Name_Not_Found:2021/09/15(水) 19:06:35.49 ID:???.net
スクレイピングすると地獄へ落ちるって本当ですか?

57 :Name_Not_Found:2021/09/18(土) 03:39:06.98 ID:???.net
スクレイピングの勉強するのですが、下手するとF5アタックになるとかの法的リスクと回避法を重視している入門書ってありますか?
今の所やりたいことは、特定の市町村の5年分気温気象データを収集して自分用に加工
近所のコインランドリーの稼働データを集計して空いてる確率が高い時間帯を調べるの2つです
前者は膨大なデータを取得する必要があります
後者は10分から20分おきにアクセスすることになります

58 :Name_Not_Found:2021/10/17(日) 03:19:40.71 ID:Vc4BqCx6.net
5chって専ブラ目的以外のデータ収集でもスクレイピングあかんの?利用規約読むと専ブラはあかんよって感じに見えるけど他が分からん

59 :Name_Not_Found:2021/10/17(日) 05:36:13.37 ID:???.net
もう大手は全て対策済みの時代遅れな技術ですよ

60 :Name_Not_Found:2021/10/17(日) 06:48:09.22 ID:???.net
webで公開してる情報なら完全な対策は無理よ
どうしてもというなら公開しないことだねw

61 :Name_Not_Found:2021/10/17(日) 07:12:40.16 ID:???.net
この板で質問するレベルのやつには対策を越えられないので同じ事

62 :Name_Not_Found:2021/11/20(土) 20:21:27.93 ID:???.net
WebスクとかRPAとかUIAutomationとか、よくそんなもん思いついたよな。
デジタルなんだから、ウインドウ非表示でデータ取れるようにしろよって思うわ。

63 :Name_Not_Found:2024/01/10(水) 19:24:19.37 ID:+tmub6eC4
私利私欲のために莫大な温室効果カ゛スまき散らして氣候変動させて災害連発させて人殺して石油需給逼迫させて物価暴騰させて
社会に甚大な損害を与えながらスーダンだのイスラエルだのに行ってなにやら巻き込まれてるホ゛ケどもか゛クソ税金泥棒公務員利権の
ネタにされながら無関係な国民から強奪した税金使って送迎とか唖然とするよな
こいつらひとり1000万は徴収すべきだし今後は邦人出国税ひとり1000万は徴収しないとな
入管収容で税金泥棒100%クソ公務員の過失責任を税金て゛肩代わりするとかやってるカ゛イジン入国税も1000万は徴収するのか゛筋
クソ航空機は航空燃料税1KL1千萬円離発着税1回1億円上空通過税1кm100萬円さらにスティンカ゛一解禁して私有地からのクソ航空機撃墜合法化は
住民としての普遍的な権利だし憲法ガン無視で都心まで数珠つなぎでクソ航空機飛ばして私権侵害して私腹を肥やす強盗殺人の首魁
斉藤鉄夫ら世界最悪の殺人腐敗組織公明党を殲滅しないとお前らの生命と財産は奪われる一方た゛ぞ
(ref.) tTps://www.call4.jP/info.php?type=items&id=I0000062
ΤТps://haneda-projeсt.jimdofree.com/ , TTps://flight-rouΤe.com/
ttps://n-souonhigaisosyoudan.amebaownd.com/

17 KB
新着レスの表示

掲示板に戻る 全部 前100 次100 最新50
名前: E-mail (省略可) :

read.cgi ver 2014.07.20.01.SC 2014/07/20 D ★