Webスクレイピング(クローラ・スパイダー)
- 1 :Name_Not_Found:2016/04/17(日) 18:55:03.94 ID:???.net
- やってる?
- 14 :Name_Not_Found:2017/10/10(火) 23:33:58.66 ID:???.net
- requestsとbeautifulsoupで超簡単だよね
- 15 :Name_Not_Found:2017/10/11(水) 00:48:58.65 ID:???.net
- >>14
簡単。スクレイプに手を出す前は敷居高そうだなーって思ってたけどそんなことなかった。
- 16 :Name_Not_Found:2017/10/24(火) 01:18:04.81 ID:xNnmgAAP.net
- このスレWebProg板向きの話題だな
クローラのプログラム自体は簡単だけど
収集したデータを実用に活かすのが難しい
- 17 :Name_Not_Found:2017/10/24(火) 11:24:06.54 ID:???.net
- そうなんだよね。データを拾ってくるのはいいんだけどそれをどう活かすのかってのが思いつかない
- 18 :Name_Not_Found:2017/10/27(金) 02:10:23.23 ID:???.net
- そんなもん毎晩のオカズに決まっておろーが
- 19 :Name_Not_Found:2017/12/12(火) 03:17:08.12 ID:MrUcGD8N.net
- HPで友達が稼げるようになった情報とか
⇒ http://asaswq3wq.sblo.jp/article/181819223.html
興味がある人だけ見てください。
QGA4PR8OS3
- 20 :Name_Not_Found:2018/01/03(水) 20:16:52.01 ID:???.net
- 過疎
- 21 :Name_Not_Found:2018/05/01(火) 19:01:02.87 ID:l1wYHpV1.net
- 誰でもできる在宅ワーク儲かる方法
少しでも多くの方の役に立ちたいです
グーグルで検索するといいかも『金持ちになりたい 鎌野介メソッド』
LS2JZ
- 22 :Name_Not_Found:2018/10/04(木) 01:09:51.62 ID:???.net
- import requests
from bs4 import BeautifulSoup
- 23 :Name_Not_Found:2019/01/28(月) 23:27:21.81 ID:???.net
- 5chスクレイピングしてみたらレスが増殖するんだけどなんで?
- 24 :Name_Not_Found:2019/02/01(金) 02:20:48.86 ID:???.net
- 意味不明
- 25 :Name_Not_Found:2019/02/01(金) 11:28:06.48 ID:???.net
- 環境はvbaなんだけど
例えばこのスレをスクレイピングしたら>>15のレスが2個に増える
このスレで言うと全体で26個のレスになる
他のスレで酷いところなんか400レスぐらいしかないのに取得レス数が1000レス超えたりする
どうなってんだ・・・
- 26 :Name_Not_Found:2019/02/21(木) 05:21:08.70 ID:???.net
- どうなってんだろうねえ…
- 27 :Name_Not_Found:2019/02/22(金) 10:32:39.42 ID:???.net
- 価格コムの商品一覧↓
https://kakaku.com/specsearch/0010/
ここの下のページネーションをクリックする方法ってどうやればできますか?
- 28 :Name_Not_Found:2019/02/22(金) 18:39:26.28 ID:???.net
- javascriptを読み解こう!
例えば3ページ目
<a href="javascript:void(0)" onclick="return page('3');">3</a>
page('3')って関数にバインドされてるね。で、page関数を検索すると
function page(page_number){
document.specForm.Page.value = page_number;
document.specForm.ButtonType.value = "D"
document.specForm.submit();
return false;
}
formにあるhidden属性 Page=3, ButtonType=D がセットされて検索ボタンが押されて(submit)、postされる。すると3ページ目が得られる。
- 29 :Name_Not_Found:2019/02/23(土) 03:20:06.94 ID:???.net
- >>28
ありがとうございます、解説のおかげでできました!
vbaでもjavascriptつかえるのも発見でした!
page('3')が関数だなんて思いもしませんでした。
ずっと3をクリックするにはどうすればいいかがんばってましたw
- 30 :Name_Not_Found:2019/02/25(月) 16:27:20.50 ID:???.net
- Dim ie As InternetExplorer
Set ie = CreateObject("InternetExplorer.Application")
ie.navigate ("https://kakaku.com/specsearch/0010/")
ie.Visible = True
Call wait(ie)
Application.wait (Now + TimeValue("0:00:01"))
Dim doc As HTMLDocument
Dim formel As HTMLFormElement
Dim sle As HTMLSelectElement
Set doc = ie.document
Set sle = doc.getElementsByName("OS").Item
Set formel = doc.getElementById("spec_search").all.Item(0)
sle.Value = 12
formel.submit
↑価格コムでパソコンをOSwin7で絞り込むコード
ここまで絞り込むのに10時間ぐらいかかってしまった・・・
formエレメントがspecFormで簡単に操作できれば楽勝だったんだけどそれができなくて四苦八苦しました。
教えていただいたjavascriptのコードにもspecForm.submit()でかかれてるから楽勝だと思ったのに。
なんか楽な方法無いですかね。。。これ使うと構文分析がらくだよって言うツールあったら教えてほしいです。
- 31 :Name_Not_Found:2019/03/08(金) 12:46:47.05 ID:???.net
- webブラウザで調べたい要素の上にポインター置いて右クリックしたら
要素を調査とか検証とかみたいな項目があるだろう
それ使うのが一番手っ取り早いんじゃないかな
- 32 :Name_Not_Found:2019/03/09(土) 14:02:13.03 ID:???.net
- 最近のjavascriptやajax使いまくりのサイトのスクレイピングってselenium使う以外の方法ってある?
- 33 :Name_Not_Found:2019/03/21(木) 11:41:27.53 ID:???.net
- 定期的に更新されるJSONデータをScrapyでパースしてItemリストを作るような場合に、
以前のジョブですでに作成済みのItemはスキップするみたいなことは、どうやってやるのが良いんでしょう?
クロール済みのリンクを再度クロールしないようにするのとかは、JOBDIR指定すればうまいことスキップしてくれるんだけど、
https://docs.scrapy.org/en/latest/topics/jobs.html
クロールをスキップするんじゃなくて、生成済みItemの新規作成をスキップするスマートなやり方ってあるのかしら?
今のところ、Item PipelineでMongoDBにItemを格納するようにして、DBにItemをinsertする時にDuplicateKeyErrorでDropItemさせてるんだけど、ドロップさせないようにするとしたら、いちいちDBを読んで格納済みだったらItemを作成しないみたいにするしかないですか?
毎回DBを読みにいくのは重そうなので、とりあえず今はDBに入れる時点で重複エラーを起こさせてドロップしてるんだけど、なんかスマートじゃないですよね?
- 34 :Name_Not_Found:2019/04/28(日) 23:33:17.81 ID:???.net
- あなたのワークシートがインターネットにつながる Excel VBAでクローリング&スクレイピング
って本を買おうと思ってパラパラって中身見てみたら、IE使うことになってんだよね
IEってもうオワコンなのに
- 35 :Name_Not_Found:2019/05/06(月) 07:36:47.06 ID:???.net
- IEの更新がストップしたらEdgeが使えるようになるのかしら
- 36 :Name_Not_Found:2019/05/21(火) 15:34:35.63 ID:iTLTpi9z.net
- このスレもっと活性化させたいね
- 37 :Name_Not_Found:2019/05/21(火) 15:36:33.02 ID:???.net
- >>16 >>17
そんなんプログラミング自体は簡単だけど
うまく生かすのは難しいって何でも当てはまるじゃん
- 38 :Name_Not_Found:2019/06/16(日) 13:45:04.68 ID:???.net
- phantom.jsも開発中止か
GUIなしでインストールできるヘッドレスブラウザはないもんか
- 39 :Name_Not_Found:2019/06/16(日) 14:56:57.90 ID:???.net
- >>17
Pingaがなくなっちゃったからその代替はどう
- 40 :Name_Not_Found:2020/01/16(木) 08:39:46.91 ID:???.net
- 人少ないな
- 41 :Name_Not_Found:2020/01/20(月) 13:58:04.71 ID:???.net
- GASでスクレイピングしてるんだけど、3秒に1回のアクセスでもまたに遮断される
1時間に1度動くようにトリガーセットしてるのはまずいのかねえ
- 42 :Name_Not_Found:2020/01/20(月) 17:00:25.54 ID:???.net
- >>41
アクセス先によるとしか
きっちり3秒に1回にしてるなら、ランダムな間隔にしてみたら?
- 43 :Name_Not_Found:2020/04/06(月) 22:44:14.38 ID:2xTj4JsS.net
- 例えば5chで何らかの理由であぼーんされてレスが削除される事ってあるじゃん?
その対策で新しいレスがつくたびに自動で保存とかってできる?
- 44 :Name_Not_Found:2020/04/07(火) 18:04:32 ID:???.net
- >>41
相手のサイトが、頻繁にアクセスしてくる、IP アドレスを拒絶する機能を設定してる
>>43
頻繁にアクセスすると、そのIP アドレスを拒絶してくるのでは?
ひょっとしたら、営業妨害で刑事告訴してくるかもw
5ch では契約者だけに、API を公開してる。
契約していないと使えない
- 45 :Name_Not_Found:2020/04/07(火) 20:50:39.70 ID:oYVeDqlc.net
- 1分間に何回もアクセスしてる人なんてザラにいると思うけどその辺はどう?
- 46 :Name_Not_Found:2020/04/09(木) 14:35:01 ID:???.net
- 各サイトは、robots.txt を置いて、
クローラーに対して、クロールする方法を宣言する
クローラーはそれに従わないと、業務妨害罪となる
実店舗と同じ。
お店は、その店の規則に従わない客を追い出せる。
それでも客が出ていかなければ、警察を呼んで逮捕できる
お店は、革ジャン・サングラス・ヘルメット・刺青の客などを追い出せる
- 47 :Name_Not_Found:2020/04/09(木) 15:16:09 ID:8doRssbZ.net
- >>46
なるへそ
- 48 :Name_Not_Found:2020/04/09(木) 17:10:24 ID:???.net
- >>46
よくそんなウソ堂々と書き込めるなw
- 49 :Name_Not_Found:2020/04/09(木) 23:49:51 ID:???.net
- >>46
ネタかもだけど、robots.txtに従わないからといって罰せられる法律はないよ
librahackみたいな例もrobots.txtに違反したからではなくシステムへの負荷の問題(あれはそもそもシステム側の不備だけど)
- 50 :46:2020/04/10(金) 13:53:32 ID:???.net
- 大量の中国からのDos 攻撃なんか、国内からだと、確実に業務妨害で有罪になる
だから日本の司法権が及ばない、国外から実行する。
犯罪者が国外にいる場合、日本の裁判では有罪にできないから
ゴーンがそうw
裁判すら開けないw
- 51 :Name_Not_Found:2020/04/10(金) 20:09:06.41 ID:QalYELFz.net
- 星野ロミは特例?
- 52 :Name_Not_Found:2020/06/22(月) 16:38:03.17 ID:SB/JXgh9.net
- >>51
星野ロミはそういう問題ではない
彼は漫画村というサイトで漫画を違法アップロードしていた
- 53 :Name_Not_Found:2020/07/17(金) 01:32:34.15 ID:???.net
- >>32
puppeteer
- 54 :Name_Not_Found:2021/08/14(土) 03:44:37.40 ID:???.net
- ガチな初心者がmacにbeautifulsoup4をインスコした後につまずいている
プログラマーの人ってオライリーの「PythonによるWebスクレイピング」読めば簡単にできちゃうもんなの?
Webの知識も必要だなこれ・・
- 55 :Name_Not_Found:2021/09/08(水) 08:48:32.02 ID:???.net
- >>54
うん、簡単にできるよ
まあ、読まなくてもできるけど
- 56 :Name_Not_Found:2021/09/15(水) 19:06:35.49 ID:???.net
- スクレイピングすると地獄へ落ちるって本当ですか?
- 57 :Name_Not_Found:2021/09/18(土) 03:39:06.98 ID:???.net
- スクレイピングの勉強するのですが、下手するとF5アタックになるとかの法的リスクと回避法を重視している入門書ってありますか?
今の所やりたいことは、特定の市町村の5年分気温気象データを収集して自分用に加工
近所のコインランドリーの稼働データを集計して空いてる確率が高い時間帯を調べるの2つです
前者は膨大なデータを取得する必要があります
後者は10分から20分おきにアクセスすることになります
- 58 :Name_Not_Found:2021/10/17(日) 03:19:40.71 ID:Vc4BqCx6.net
- 5chって専ブラ目的以外のデータ収集でもスクレイピングあかんの?利用規約読むと専ブラはあかんよって感じに見えるけど他が分からん
- 59 :Name_Not_Found:2021/10/17(日) 05:36:13.37 ID:???.net
- もう大手は全て対策済みの時代遅れな技術ですよ
- 60 :Name_Not_Found:2021/10/17(日) 06:48:09.22 ID:???.net
- webで公開してる情報なら完全な対策は無理よ
どうしてもというなら公開しないことだねw
- 61 :Name_Not_Found:2021/10/17(日) 07:12:40.16 ID:???.net
- この板で質問するレベルのやつには対策を越えられないので同じ事
- 62 :Name_Not_Found:2021/11/20(土) 20:21:27.93 ID:???.net
- WebスクとかRPAとかUIAutomationとか、よくそんなもん思いついたよな。
デジタルなんだから、ウインドウ非表示でデータ取れるようにしろよって思うわ。
- 63 :Name_Not_Found:2024/01/10(水) 19:24:19.37 ID:+tmub6eC4
- 私利私欲のために莫大な温室効果カ゛スまき散らして氣候変動させて災害連発させて人殺して石油需給逼迫させて物価暴騰させて
社会に甚大な損害を与えながらスーダンだのイスラエルだのに行ってなにやら巻き込まれてるホ゛ケどもか゛クソ税金泥棒公務員利権の
ネタにされながら無関係な国民から強奪した税金使って送迎とか唖然とするよな
こいつらひとり1000万は徴収すべきだし今後は邦人出国税ひとり1000万は徴収しないとな
入管収容で税金泥棒100%クソ公務員の過失責任を税金て゛肩代わりするとかやってるカ゛イジン入国税も1000万は徴収するのか゛筋
クソ航空機は航空燃料税1KL1千萬円離発着税1回1億円上空通過税1кm100萬円さらにスティンカ゛一解禁して私有地からのクソ航空機撃墜合法化は
住民としての普遍的な権利だし憲法ガン無視で都心まで数珠つなぎでクソ航空機飛ばして私権侵害して私腹を肥やす強盗殺人の首魁
斉藤鉄夫ら世界最悪の殺人腐敗組織公明党を殲滅しないとお前らの生命と財産は奪われる一方た゛ぞ
(ref.) tTps://www.call4.jP/info.php?type=items&id=I0000062
ΤТps://haneda-projeсt.jimdofree.com/ , TTps://flight-rouΤe.com/
ttps://n-souonhigaisosyoudan.amebaownd.com/
17 KB
新着レスの表示
掲示板に戻る
全部
前100
次100
最新50
read.cgi ver 2014.07.20.01.SC 2014/07/20 D ★