【9:298】CSVファイルのスレ
- 1 名前:名無しさん@お腹いっぱい。 :03/07/02 17:58 ID:???.net
- おそらく一番簡単なデータベースと思われるCSVファイルについていろいろ語りましょう。
- 289 名前:NAME IS NULL :2022/09/08(木) 23:42:26.53 ID:???.net
- まさかcsvのソートができないなんて上から目線で言うやつがいるとは思わんかった。
- 290 名前:NAME IS NULL :2022/09/09(金) 10:39:32.97 ID:???.net
- ではイキリマンとは違う事を
正解を示すことで証明していただきたい
- 291 名前:NAME IS NULL :2022/09/09(金) 21:39:53.42 ID:???.net
- ふふふそうはいかない
お前に利は与えぬ
- 292 名前:NAME IS NULL :2022/09/09(金) 23:06:48.13 ID:ybJikvqo.net
- ふふふ
- 293 名前:NAME IS NULL :2022/09/11(日) 01:48:03.55 ID:Mo970C1D.net
- ソートするだけならマージソートでやれば良い
マージソートはレコードをシーケンシャルに読み書きしていくだけで良い CSVが100GBで、1レコードが1KBだと仮定するとレコード数は1億 log2(1億) = 26.5 27回はスプリットとマージを繰り返さないといけない 100GB * 27 * 2(読みと書き) = 5400GB ストレージの読み書き速度が500MB/sだとして3時間 性能要件的に3時間が是か非か SQLiteやPostgreSQLにデータを入れてSQLでソートするにしても DBではデータがノーマライズされるうえにインデックスも構築されるから なんだかんだで同じくらい時間がかかりそう RedshiftやBigQueryといった分散処理ができるDBを使えば速いだろうけど ネットワークの速度が100MB/sだと仮定するとデータを転送するだけで16分かかるから なんだかんだで20分前後かなあ ストレージのIOがボトルネックになるとしてそれを改善するには CSVを1回読んでレコードの(sortkey, offset, length)の組を抜き出してその組をソートして最後にレコードを抜き出すのが良い 1つの(sortkey, offset, length)が40バイトだとしてそれが1億あると4GB、PCのメモリが10GBならオンメモリでソートできそう RFC4180に従う汎用的なCSVを入力として受け付けるならoffset, lengthの計算がちと面倒かもね 入力の生データを保持してCSVをパースできるならレコードをパースして生データからoffset, lengthを計算すればよいけれども 対応してるライブラリがあるかはわからない、CSVのパーサを自作する必要があるかも
- 294 名前:NAME IS NULL :2022/09/11(日) 02:08:10.54 ID:Mo970C1D.net
- 10GBに収まるギリギリまでメモリ上でソートすればいいので27回も繰り返す必要はないのか
ストレージ上のデータがメモリ上では10倍になるとしてメモリ上でソートできるのは100万レコードくらいかな 100万レコードが100個できるとして log2(100) = 6.6 100GB * 7 * 2(読みと書き) = 1400GB ストレージの読み書き速度が500MB/sだとして47分 結構速いな
- 295 名前:NAME IS NULL :2023/05/24(水) 21:48:12.59 ID:???.net
- Excel365で開くと、最初は問題なく開けるのに、
しばらく使ってから開くと文字化けするのはなに? 文字化けするファイルもしないファイルも文字コードは同じ PC再起動すれば一時的に直るけど、またしばらく使ってると再発する
- 296 名前:NAME IS NULL :2023/06/03(土) 19:09:16.93 ID:WlpZXlkv.net
- BOMが消されてるんじゃない?
- 297 名前:NAME IS NULL :2024/03/27(水) 22:50:10.46 ID:FMPNQ0LGM
- 例えば.登録記号「JА119Υ」は「マッチポンプ集団東京消防庁0332122111」だが
クソ航空機に生活や仕事を妨害されたら…アプリ「ADS-B UnfilTered...」で登録記號を確認 ttps://jasearch.info/ ←ここで検索して使用者特定 ADS-B出してない日の丸ロコ゛機体は自閉隊か税金泥棒系業者だか゛、スクショも晒しつつ、ググって電話番号なども晒そう! ヘリタンク2000Lで10000kWh火力發電した際に発生するのと同等のCO2を排出するが、この氣候変動させて世界中の人々を死に追いやってる 正義の鉄槌によって処刑されるべきテロリストどもを徹底的に非難しよう! スマホのパケづまりが酷いのもWifiが遅いのもクソ航空無線の 広大な帯域汚染による電波不足か゛原因だし、国民の財産電波をタダで使ってカンコーた゛のと殺人を推進する有害放送で儲けて「―方的」 「自称」「思い込んで」だのプロパカ゛ンダ丸出しのテレビ放送廃止、さらに今と゛き深夜に騷音まき散らして近隣に多大な損害を与えながら 新聞配達させてる情弱知障も非難して人の住居上空を飛ぶ害虫を皆殺しにする気で報復しよう! (ref.) ttρs://www.call4.jp/info.php?type=items&id〓I0000062 Τtps://haneda-projеcT.jimdofrеe.com/ , ttps://flight-route.com/ Тtps://n-souonhigaisosyoudan.amebaownd.сom/
- 298 名前:NAME IS NULL :2024/10/07(月) 13:58:59.44 ID:rwrPYxTnh
- トー横に税金使ってアホな施設作って予期できて当然の猥褻犯罪とか小池百合子はやることなすこと100%ロクでもないな
居場所がない子なんて四六時中グ儿グル遊覧ヘリ飛ばして望遠カメラで女風呂のぞき見して騒音まき散らして暇すぎるし頼むからお前ら なんか犯罪おかせやと知能への嫉妬心丸出しで知的産業に威力業務妨害しながら莫大な温室効果ガスまき散らして気候変動させて海水温上昇 台風猛威化、土砂崩れ、洪水、暴風、熱中症にと無辜の住民を殺害してるだけの税金泥棒クソポリ公に少しは仕事させて親を遺棄罪で逮捕 懲役にして日当5千円で塀の中から子に送金させれば税金無駄にすることもなく居住環境も確保て゛きて解決する簡単な話だろ ひと昔前だとおっさんの家に転がり込んで寝泊まりとかあったようた゛が今そんなことあれは゛猥褻犯罪逮捕者だらけのクソの役にも立たない クソポリ税金泥棒が嫉妬心丸出しで襲いかかってくるわけでこれこそ子の居場所を失わせてる根源だわな 結婚年齢引上げとか親権強化とかアホな公務員による被害を気の毒に思うが頼るのではなくレジスタンスの方向て゛頑張ろう! (ref.) tТps://www.call4.jp/info.Php?Tyρe=items&id=I0000062 Ttps://haneda-project.jimdofree.com/ , тtΡs://flighT-route.com/ tтРs://n-souonhigaisosyoudan.amebaownd.com/
-
- 全部読む 最新50 1-100 板のトップ リロード
|