CSVファイルのスレ
- 1 :名無しさん@お腹いっぱい。:03/07/02 17:58 ID:???.net
- おそらく一番簡単なデータベースと思われるCSVファイルについていろいろ語りましょう。
- 248 :NAME IS NULL:2015/12/04(金) 20:13:19.71 ID:???.net
- コマンドラインでどうかな?
https://github.com/theodi/csvlint.rb
- 249 :NAME IS NULL:2015/12/06(日) 02:03:10.34 ID:???.net
- >>247
grepにかける
- 250 :NAME IS NULL:2015/12/12(土) 20:58:25.42 ID:X9wcWIIa.net
- >>247
Excelにインポートしてチェックする。
プログラム作ってチェックする。
- 251 :NAME IS NULL:2015/12/12(土) 20:59:30.78 ID:X9wcWIIa.net
- なんでCSVファイルのことがデータベース板にあるのか。
- 252 :NAME IS NULL:2015/12/22(火) 17:51:46.45 ID:M/D0CZ4+.net
- いろんな情報のデータベース板と思えばいい
- 253 :NAME IS NULL:2015/12/22(火) 18:01:46.29 ID:???.net
- それだと何でもありじゃないかw
- 254 :NAME IS NULL:2015/12/29(火) 00:36:21.26 ID:???.net
- >>253
なんにもないよりは良い
- 255 :NAME IS NULL:2016/02/04(木) 15:04:40.41 ID:vrajJNnU.net
- ExcelとしてはTSVファイルの方が相性がいいのに、なんでみんなCSVにこだわってるんだろうか。
- 256 :NAME IS NULL:2016/02/04(木) 15:19:15.50 ID:???.net
- TSVもCSVの一種として扱ってるのにわざわざ区別する奴はなんなんだろう
- 257 :NAME IS NULL:2016/02/04(木) 21:19:05.87 ID:vrajJNnU.net
- >>256
何を言ってるのか?
- 258 :NAME IS NULL:2016/02/14(日) 03:11:39.76 ID:???.net
- >>257
TSVもCSVのうちという話じゃないの?
- 259 :NAME IS NULL:2016/02/14(日) 05:31:30.67 ID:bY+ncSXr.net
- >>258
あほか。
- 260 :NAME IS NULL:2016/02/14(日) 13:59:35.82 ID:???.net
- 名称としてTSVなんて一般的じゃない
タブで区切ったCSVという呼び方のが通じるw
- 261 :NAME IS NULL:2016/02/14(日) 19:02:40.49 ID:bY+ncSXr.net
- >>260
馬鹿丸出し
- 262 :NAME IS NULL:2016/02/14(日) 22:32:59.76 ID:z/fFeDUz.net
- >>261
昔はメールと言ったら手紙のことだったが、
インターネットが普及するのにしたがってメールは電子メールのことを
表すようになった。つまり、タブ区切りこそが真のCSVである。それでいいな?
- 263 :NAME IS NULL:2016/02/15(月) 13:12:06.53 ID:fwBBCAc8.net
- マ イ ン ド コ ン ト ロ ー ル の手法
・沢山の人が、偏った意見を一貫して支持する
偏った意見でも、集団の中でその意見が信じられていれば、自分の考え方は間違っているのか、等と思わせる手法
・不利な質問をさせなくしたり、不利な質問には答えない、スルーする
誰にも質問や反論をさせないことにより、誰もが皆、疑いなど無いんだと信じ込ませる手法
偏った思想や考え方に染まっていたり、常識が通じない人間は、頭が悪いフリをしているカルト工作員の可能性が高い
靖 国 参 拝、皇 族、国 旗 国 歌、神 社 神 道を嫌う カ ル ト
10人に一人は カ ル ト か 外 国 人
「ガ ス ラ イ テ ィ ン グ」 で 検 索 を !
- 264 :NAME IS NULL:2016/02/20(土) 23:08:16.67 ID:???.net
- >>259
character separated values
で検索してみるといい
- 265 :NAME IS NULL:2016/02/25(木) 08:01:56.65 ID:???.net
- >>264
それ知ってるけど、そういうのも含めて、一回csvって絶滅しねーかな。
csvのうち、セパレータがタブのものはtsvっていうなら、セパレータがカンマのはなんて呼ぶんだ?
絶滅後に、もう一回仕様をきっちりしてほしいよ
- 266 :NAME IS NULL:2016/05/01(日) 23:24:56.86 ID:???.net
- >>265
すでに一回絶滅したよ
そしてRFCが出来た
- 267 :NAME IS NULL:2016/05/23(月) 12:53:53.53 ID:WNFQzXcv.net
- 初めて業務でcsvファイルを扱うことになり(ちょっとした雑務程度ですが)
open officeを今使っているのですが、
ある列(縦)のデータ(Aとします)と、
ある列のデータ(Bとします)の二つを抽出して、
そのデータを両方とも降順を昇順にして
Aのデータ(x1,x2,x3...)に、Bのデータ(y1,y2,y3...)を加えて
ABのデータ(x1,y1,x12,y2,x3,y3...)にして、
そのデータを他のデータに追加したいです。
事務作業をやったことがこれまでにないので、
どうか心優しい方教えて下さいましたらありがたいです。
- 268 :NAME IS NULL:2016/05/23(月) 12:54:42.48 ID:???.net
- >>267
教えてほしいのはやり方です。
宜しく御願いいたします。
- 269 :NAME IS NULL:2016/05/23(月) 13:33:25.16 ID:UP9ZYRKE.net
- 何を言ってるのがわからないうえに、Excelの操作ならExcelのスレッドで聞いた方がいい。
- 270 :NAME IS NULL:2016/07/10(日) 01:29:16.99 ID:???.net
- オッペンオフィスを使っているのか、
(会社がせこくて無料の)オッペンオフィスを使わされているのか。
- 271 :NAME IS NULL:2016/07/17(日) 20:38:00.70 ID:???.net
- Now, I am become Death, the destroyer of world
- 272 :NAME IS NULL:2017/12/29(金) 11:38:51.81 ID:dtNZwIie.net
- 誰でも簡単にパソコン1台で稼げる方法など
参考までに、
⇒ 『宮本のゴウリエセレレ』 というブログで見ることができるらしいです。
グーグル検索⇒『宮本のゴウリエセレレ』
L1WOEFDH6U
- 273 :NAME IS NULL:2019/08/18(日) 01:01:50.14 ID:???.net
- Cassava Editorっていまもまだ更新続いてるのか・・・
現在進行形で10年以上、更新が続いているってすごいな
作者尊敬するわ
- 274 :NAME IS NULL:2019/09/05(木) 20:35:26.00 ID:DlL3ZhYX.net
- >>273
あすかぜさんは神
あすかぜさん無しでは生きていけない
- 275 :NAME IS NULL:2019/09/13(金) 00:27:52.13 ID:JsZ81e/N.net
- Cassava Editorが存在することで日本の生産性が向上していることは間違いない
- 276 :NAME IS NULL:2020/05/13(水) 11:02:45.60 ID:???.net
- 幾度ものタピオカブームの浮き沈みも関係なく
cassava editorは進歩する
- 277 :NAME IS NULL:2020/05/14(木) 13:55:32.06 ID:???.net
- SUMとかAVERAGEとかの基本的な関数だけでも実装してくれたらなぁ。。
- 278 :NAME IS NULL:2020/07/04(土) 23:14:10.34 ID:pcZg9qmx.net
- 「Cassava Editor」https://www.asukaze.net/soft/cassava/ v2.2.0 (2020/07/04)
64 bit 版を追加。
マクロファイルの文字コードを Shift-JIS から UTF-8 に変更。
ただし、UTF-8 として読み込めない場合は Shift-JIS として解釈される。
これぞ最強・最速・最高性能
- 279 :NAME IS NULL:2020/07/09(木) 10:48:02.22 ID:IGkzCBkT.net
- >>278
あざーす!
- 280 :NAME IS NULL:2020/12/23(水) 01:22:06.12 ID:???.net
- CSVはRFCに従うよりエンマークでエスケープした方がLinuxで使いやすい
RFCとは別にPOSIXのCSVとしてエンマークエスケープのCSVが普及して欲しいと思う今日この頃
- 281 :NAME IS NULL:2021/10/08(金) 19:00:11.25 ID:???.net
- ASCIIセパレータのことも思い出してあげてください
- 282 :NAME IS NULL:2022/07/17(日) 23:11:42.70 ID:/HVWy/+u.net
- 制御文字は人間に優しくないのがつらいんよねー
システマチックに使うだけなら良いかも
- 283 :NAME IS NULL:2022/09/03(土) 22:15:45.24 ID:euVNIg62.net
- Twitterで100GBのCSVを10GBのメモリのPCでソートするにはどうすればよいかって話題になってた
どうやればよいのだろうね
- 284 :NAME IS NULL:2022/09/05(月) 13:23:03.79 ID:???.net
- 死ねばいいんじゃないんですかね
そういうシステムを作っちゃうやつは必ず同じ失敗を繰り返す
- 285 :NAME IS NULL:2022/09/05(月) 13:49:58.15 ID:Tc12+IoI.net
- システムの良し悪しじゃなくてDBに入れるとかそういう具体的なやり方の話をしたかった
- 286 :NAME IS NULL:2022/09/05(月) 22:33:25.90 ID:???.net
- CSVは基本可変長レコードだから、ファイルへのランダムアクセスでデータが取り出せない
それだけでソート行うのに不適ってわからない時点でもうダメ
データの入れ替えもとんでもなく困難
ファイルを固定長にするという発想があれば
ソートも入れ替えも比較的容易に出来るんですがねぇ…
あとはメモリ使用量の少ないソートアルゴリズムを選べばいい
- 287 :NAME IS NULL:2022/09/08(木) 13:59:49.98 ID:ZUZFeHFR.net
- だめだこりゃ
- 288 :NAME IS NULL:2022/09/08(木) 14:00:37.37 ID:ZUZFeHFR.net
- イキりマンがいるとダメだ
- 289 :NAME IS NULL:2022/09/08(木) 23:42:26.53 ID:???.net
- まさかcsvのソートができないなんて上から目線で言うやつがいるとは思わんかった。
- 290 :NAME IS NULL:2022/09/09(金) 10:39:32.97 ID:???.net
- ではイキリマンとは違う事を
正解を示すことで証明していただきたい
- 291 :NAME IS NULL:2022/09/09(金) 21:39:53.42 ID:???.net
- ふふふそうはいかない
お前に利は与えぬ
- 292 :NAME IS NULL:2022/09/09(金) 23:06:48.13 ID:ybJikvqo.net
- ふふふ
- 293 :NAME IS NULL:2022/09/11(日) 01:48:03.55 ID:Mo970C1D.net
- ソートするだけならマージソートでやれば良い
マージソートはレコードをシーケンシャルに読み書きしていくだけで良い
CSVが100GBで、1レコードが1KBだと仮定するとレコード数は1億
log2(1億) = 26.5
27回はスプリットとマージを繰り返さないといけない
100GB * 27 * 2(読みと書き) = 5400GB
ストレージの読み書き速度が500MB/sだとして3時間
性能要件的に3時間が是か非か
SQLiteやPostgreSQLにデータを入れてSQLでソートするにしても
DBではデータがノーマライズされるうえにインデックスも構築されるから
なんだかんだで同じくらい時間がかかりそう
RedshiftやBigQueryといった分散処理ができるDBを使えば速いだろうけど
ネットワークの速度が100MB/sだと仮定するとデータを転送するだけで16分かかるから
なんだかんだで20分前後かなあ
ストレージのIOがボトルネックになるとしてそれを改善するには
CSVを1回読んでレコードの(sortkey, offset, length)の組を抜き出してその組をソートして最後にレコードを抜き出すのが良い
1つの(sortkey, offset, length)が40バイトだとしてそれが1億あると4GB、PCのメモリが10GBならオンメモリでソートできそう
RFC4180に従う汎用的なCSVを入力として受け付けるならoffset, lengthの計算がちと面倒かもね
入力の生データを保持してCSVをパースできるならレコードをパースして生データからoffset, lengthを計算すればよいけれども
対応してるライブラリがあるかはわからない、CSVのパーサを自作する必要があるかも
- 294 :NAME IS NULL:2022/09/11(日) 02:08:10.54 ID:Mo970C1D.net
- 10GBに収まるギリギリまでメモリ上でソートすればいいので27回も繰り返す必要はないのか
ストレージ上のデータがメモリ上では10倍になるとしてメモリ上でソートできるのは100万レコードくらいかな
100万レコードが100個できるとして
log2(100) = 6.6
100GB * 7 * 2(読みと書き) = 1400GB
ストレージの読み書き速度が500MB/sだとして47分
結構速いな
- 295 :NAME IS NULL:2023/05/24(水) 21:48:12.59 ID:???.net
- Excel365で開くと、最初は問題なく開けるのに、
しばらく使ってから開くと文字化けするのはなに?
文字化けするファイルもしないファイルも文字コードは同じ
PC再起動すれば一時的に直るけど、またしばらく使ってると再発する
- 296 :NAME IS NULL:2023/06/03(土) 19:09:16.93 ID:WlpZXlkv.net
- BOMが消されてるんじゃない?
- 297 :NAME IS NULL:2024/03/27(水) 22:50:10.46 ID:FMPNQ0LGM
- 例えば.登録記号「JА119Υ」は「マッチポンプ集団東京消防庁0332122111」だが
クソ航空機に生活や仕事を妨害されたら…アプリ「ADS-B UnfilTered...」で登録記號を確認
ttps://jasearch.info/ ←ここで検索して使用者特定
ADS-B出してない日の丸ロコ゛機体は自閉隊か税金泥棒系業者だか゛、スクショも晒しつつ、ググって電話番号なども晒そう!
ヘリタンク2000Lで10000kWh火力發電した際に発生するのと同等のCO2を排出するが、この氣候変動させて世界中の人々を死に追いやってる
正義の鉄槌によって処刑されるべきテロリストどもを徹底的に非難しよう! スマホのパケづまりが酷いのもWifiが遅いのもクソ航空無線の
広大な帯域汚染による電波不足か゛原因だし、国民の財産電波をタダで使ってカンコーた゛のと殺人を推進する有害放送で儲けて「―方的」
「自称」「思い込んで」だのプロパカ゛ンダ丸出しのテレビ放送廃止、さらに今と゛き深夜に騷音まき散らして近隣に多大な損害を与えながら
新聞配達させてる情弱知障も非難して人の住居上空を飛ぶ害虫を皆殺しにする気で報復しよう!
(ref.) ttρs://www.call4.jp/info.php?type=items&id〓I0000062
Τtps://haneda-projеcT.jimdofrеe.com/ , ttps://flight-route.com/
Тtps://n-souonhigaisosyoudan.amebaownd.сom/
69 KB
新着レスの表示
掲示板に戻る
全部
前100
次100
最新50
read.cgi ver 2014.07.20.01.SC 2014/07/20 D ★