2ちゃんねる ■掲示板に戻る■ 全部 1- 最新50    

文字コード総合スレ part14

1 :デフォルトの名無しさん:2023/03/03(金) 15:46:58.08 ID:yKqwMGHT.net
Windows NTは初代からUnicodeがネイティブの文字コードです。cp932ではありません。
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
 (スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
 (隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
文字コード総合スレ Part10 http://mevius.2ch.net/test/read.cgi/tech/1444822140/
文字コード総合スレ Part11 https://mevius.5ch.net/test/read.cgi/tech/1516629503/
文字コード総合スレ Part12 https://mevius.5ch.net/test/read.cgi/tech/1544931495/
文字コード総合スレ part13
https://mevius.5ch.net/test/read.cgi/tech/1593777227/

274 :デフォルトの名無しさん:2023/05/19(金) 08:47:03.32 ID:rVwS6Z+x.net
>>272
あんまり知ったかぶりすんな
>「UTF-#」の#はバージョン番号じゃなくて
虚偽、UTF-1 とか UTF-2 はバージョン

> 基本的には16Bitで表現するUTF-16が一番楽
虚偽、(もしくは個人の感想)

> UTF-7はデータビット数を8⇒7に減らすことで少しでも通信速度を稼ごうと
虚偽

275 :デフォルトの名無しさん:2023/05/19(金) 12:13:32.86 ID:clAdGtGh.net
>>238
毛沢東文字やね
あれはスパイを発見し易くするために導入された

276 :デフォルトの名無しさん:2023/05/19(金) 12:33:17.95 ID:clAdGtGh.net
>>272
>サロゲートペア文字もそうでない文字も同じデータ長として管理するなら32Bit表現のUTF-32がよい

doubt

277 :デフォルトの名無しさん:2023/05/19(金) 13:28:13.37 ID:1PFium2f.net
64bit版g++は、規定のstd::wstringがUTF-32だよ

278 :デフォルトの名無しさん:2023/05/19(金) 13:29:18.88 ID:1PFium2f.net
規定じゃなくて既定だった

279 :デフォルトの名無しさん:2023/05/19(金) 15:02:22.21 ID:clAdGtGh.net
>同じデータ長

doubt

280 :デフォルトの名無しさん:2023/05/19(金) 16:15:02.50 ID:DhYPerzk.net
ネタとして楽しむためには正しい知識がいる、という

281 :デフォルトの名無しさん:2023/05/20(土) 00:06:13.39 ID:Wgabc+Na.net
文字コード奥深過ぎだなアニメ化して欲しい

282 :デフォルトの名無しさん:2023/05/20(土) 13:16:12.40 ID:QfLlK72x.net
IVSなめんな

283 :デフォルトの名無しさん:2023/05/20(土) 13:31:47.35 ID:XYoRKnAf.net
ペロッ...これは、0xE0100で修飾された異体字!!

284 :デフォルトの名無しさん:2023/05/20(土) 13:52:04.98 ID:HDVuLGIu.net
文字コードソムリエですね

285 :デフォルトの名無しさん:2023/05/21(日) 20:48:13.44 ID:5peOv9L3.net
\ソムリエ

286 :デフォルトの名無しさん:2023/05/23(火) 23:24:40.51 ID:R2ZlFyvy.net
漢字構成記述文字 IDSは何処かで有効活用されているのですか?

今の字体の見た目の直感と違うのですが
黒 →⿱里灬 ダメ?

https://kanji-database.sourceforge.net/ids/ids-analysis.html
>解字IDSデータは、UCS漢字を、字の成り立ちからIDS化する作業を行っています。

U+09ED1 黑 ⿱𡆧炎 會意 3840010
U+09ED2 黒 →黑
https://github.com/cjkvi/cjkvi-ids/blob/86b4d16159f0079437870408f0ca186e529015db/ids-analysis.txt#L18185

287 :デフォルトの名無しさん:2023/05/24(水) 23:52:15.53 ID:nx1OpmdE.net
見た目じゃなくて成り立ちだから歴史的経緯からIDS化してるんじゃね

288 :デフォルトの名無しさん:2023/05/27(土) 01:16:15.20 ID:JRhYMEVC.net
簡体字制定時にも過度の正規化に反対する良心的な人もいたみたいだけど…結果は文化継承お構い無しむしろ断絶こそ業績みたいな御用学者に押し切られた?わけで
一旦決まったからはあの面子の国、則天文字やルイセンコ学説宜しく滅ぶまで使い続けるんだろな
という訳で今すぐ滅びろ

289 :デフォルトの名無しさん:2023/05/27(土) 06:31:36.72 ID:EKOWOt22.net
二簡字ぐらいいくとかっこよくも見えてくる

290 :デフォルトの名無しさん:2023/05/27(土) 14:22:30.10 ID:Qh66ZSbX.net
utf-8が標準だと思ってたけど昨日Excel見たらutf-8じゃなくてビックリした

291 :デフォルトの名無しさん:2023/05/27(土) 15:25:11.32 ID:Iw6vgmTP.net
メモリ上の内部コードはしらんけど
xlsxはXMLだからUTF-8じゃない?

292 :デフォルトの名無しさん:2023/05/27(土) 19:18:50.92 ID:4YJ0U8GR.net
文語で「じゃない」を使うおじさん

293 :デフォルトの名無しさん:2023/05/27(土) 22:18:54.32 ID:Qh66ZSbX.net
お姉さんの可能性あるで
俺もお姉さんだし( ・`ω・´)

294 :デフォルトの名無しさん:2023/05/27(土) 22:19:28.39 ID:Qh66ZSbX.net
>>291
他の人のExcelも今度確認してみるわ

295 :デフォルトの名無しさん:2023/05/28(日) 11:38:12.73 ID:mveGBcKw.net
XML は BOMつき UTF-16 も許されてるんじゃなかったっけ?
BOM無しなら UTF-8 だったか

296 :デフォルトの名無しさん:2023/05/28(日) 21:52:09.12 ID:YNYjEu0w.net
excelは昔からさまざまな文字コードに対応してる
高い互換性を維持し続けてる
それがMSの強さ
こういうところはUnixとかLinuxとかOSSでは
太刀打ちできない

297 :デフォルトの名無しさん:2023/05/28(日) 22:53:12.34 ID:mveGBcKw.net
>>296
emacs だってexcel 以上に多種多様な文字コードに対応してるし、linux (glibc)の対応ロケールと文字コードの数は windows より多いぞ。
無知が擁護するとMSの格が下がるのでやめとけ。

298 :デフォルトの名無しさん:2023/05/28(日) 23:26:13.89 ID:ig5hb7tN.net
>>291
そうだね。実際には階層的になったXMLをzipにしてあるけど

んでXMLの中をよく見るとxlsxを作成したローカルのパスが書かれていたり。キモっ
おっと文字コード関係なかったw

299 :デフォルトの名無しさん:2023/05/29(月) 01:28:07.80 ID:0ytXwqTB.net
Microsoft が互換性重視とか最近のブラックユーモアは笑えないなぁ
ASCII との互換性を切捨てて UTF-16 にしようとして失敗したり
5年以上前のCPUは Windows 11 ではサポートしません、買い替えてくださいとか言い出したり
その頃 linux では33年前の CPU の 80486 の互換性はそろそろ切って良いのではという議論をしてた。

300 :デフォルトの名無しさん:2023/05/29(月) 12:46:50.20 ID:MCD4Vue8.net
2012年頃?
Windows10 が最後の Windows バージョンです(キリっ

301 :デフォルトの名無しさん:2023/05/29(月) 13:52:34.19 ID:M19znpYQ.net
MSはJIS X 0213:2012のIVSに
Wordが早く対応したりしてそれほど悪い印象はない
しかしパス名が未だにCP932系なのは何とかならんのか

302 :デフォルトの名無しさん:2023/05/29(月) 14:43:43.87 ID:0ytXwqTB.net
>>301
ロケール設定とアプリの問題じゃないの?

303 :デフォルトの名無しさん:2023/05/29(月) 15:27:55.29 ID:hGly4rru.net
近年のMSは、昔からの独自仕様での高い互換性よりも、オープンソース&標準準拠を進めているのは良い

304 :デフォルトの名無しさん:2023/05/29(月) 21:29:10.05 ID:NNOaBXNh.net
>>302
日本ロケールだとNTFSのパス名がShift JIS

305 :デフォルトの名無しさん:2023/05/29(月) 21:38:29.70 ID:mH3oOe43.net
ファイル名で使用される文字セット
https://learn.microsoft.com/ja-jp/windows/win32/intl/character-sets-used-in-file-names

> NTFS では、Unicode にファイル名が格納されます。

306 :デフォルトの名無しさん:2023/05/29(月) 21:41:41.73 ID:1bms2IW3.net
>>304
そういうのはコンソールやアプリ側のエンコーディング設定であってな...

307 :デフォルトの名無しさん:2023/05/29(月) 21:58:43.15 ID:0DJ9XOU5.net
UTF16はMBCSと共存しており切り捨てた訳ではない
windows11で64bit版だけになるまで16bitアプリも動かせてたわけで
そもそもソースレベルでしか互換性を保てないのがLinux
Linuxは当初はEUCだったと思うけど当時の日本語対応ソフトが今のUTF8で動くかい?

308 :デフォルトの名無しさん:2023/05/29(月) 23:12:48.07 ID:0ytXwqTB.net
>>307
あほ? EUC-JPアプリって何?
20年前にコンパイルされたアプリが一切の改変無く、EUC-JP でも、UTF-8 でも SJIS でも動くんだが?
ロケールの切り替えとか知ってる?

309 :デフォルトの名無しさん:2023/05/30(火) 07:55:17.64 ID:89IT6MB6.net
>>308
Linuxで20年前にコンパイルしたバイナリが今のLinuxで動く?
冗談はやめてほしい
百歩譲ってロケール切り替えで動くとして今のUTF8前提のアプリと共存出来ないでしょ
Windowsだったら20年前のMBCSのソフトもそのまま動くよ
当然Unicodeのソフトも動く
Ubuntuが32bitCPUのサポートカーをきったのは5年くらい前だっけ
Windows11より速いですね
あとマイクロソフトがMBCS切り捨ててUTF16一本にしようとしたってのは初耳ですが根拠を出してほしい

310 :デフォルトの名無しさん:2023/05/30(火) 08:50:00.67 ID:ZT3eEMEM.net
>>309
技術がないやつは、これだから。
お前の技術が足りないのをOSのせいにしてるだけだな
全部できるぞ。俺が実際使ってるし
Ubuntu で32ビットアプリも動いてるよ

311 :デフォルトの名無しさん:2023/05/30(火) 09:40:11.60 ID:ksZIMFia.net
コンパイルしたなら文字コード関係なくそりゃ動くわな。
スクリプト言語なら知らんが。

312 :デフォルトの名無しさん:2023/05/30(火) 10:48:25.25 ID:sLlAlpBn.net
スクリプト言語のが文字という概念があるから
ロケールみて外部入出力ちゃんと取り持ってくれそう
昔のプログラムはバイトストリームで処理してるから問題ないだけで
ロケールなんてgettextで文言変わるくらいにしか利用してない

313 :デフォルトの名無しさん:2023/05/30(火) 12:45:01.53 ID:+VlMdD+Q.net
>>309
冗談は辞めてほしい
君が何も知らないのはよく分かった

314 :デフォルトの名無しさん:2023/06/05(月) 02:33:56.51 ID:QCgpDYcxq
しっかし立憲は子供カ゛一だの尖閣カ゛ーた゛の.しかも党として自家撞着まて゛してるし,それとも両方予算倍増してこのクソ腐敗税金泥棒政府を
どんた゛け拡大させろと言いたいんた゛か,腐敗主義自民公明に乗っ取られたクソ政府に対して,國會でのクソの役にも立たなさには呆れ返るな
唯一原發ガ‐はマ├モだが.鉄道の3〇倍以上もの温室効果ガスまき散らして石油無駄に燃やしまくって気侯変動させて災害連発させて人を
殺しまくってるクソ航空機を根絶やしにすれば,原發全廃しても電気料金は下か゛るというソ─スくらい持ってきて合理的に主張しろ枝野幸男
クソ航空機のC〇2排出量が鉄道の6倍とか言ってるハ゛力か゛いるが、きっと在来線の倍ほと゛非効率な新幹線と比較して、クソ航空機は離着陸
で莫大なCO2出すわけだか゛長距離て゛排出量計算して,鉄道は乗車率25〇%て゛も運行可能た゛か゛、それすら無視した━方的な値なんだろうな
最も短い距離て゛運航してる航路て゛比較すへ゛きた゛し,東海道在来線なんて空き座席全然ないんだし,乗車率10〇%比とか現実乖離甚だしいわ
鉄道は再エネのみて゛の運行だって可能なんだから,それも考えればクソポリへリ含めてクソ航空機を飛ばす行為に破防法を適用するのが妥当

創価学會員は、何百萬人も殺傷して損害を与えて私腹を肥やし続けて逮捕者まで出てる世界最惡の殺人腐敗組織公明党を
池田センセ‐がロをきけて容認するとか本氣て゛思ってるとしたら侮辱にもほと゛か゛あるそ゛!
hΤТРs://i、imgur,сοm/hnli1ga.jpeg

315 :デフォルトの名無しさん:2023/06/07(水) 04:27:17.54 ID:0FN/+S+x.net
タイトルに付いていたらあ、クソだなと思うもの
異世界
チート
転生
のんびり
最強
スローライフ
無双
ギルド
追放
スキル
おっさん
勇者
魔王
賢者
魔術師
錬金術
聖女
奴隷
悪役令嬢
婚約破棄

316 :デフォルトの名無しさん:2023/06/07(水) 17:58:56.39 ID:Xm2S+dHf.net
遅くとも<title>までにはエンコードを確定できるワードが欲しいね

317 :デフォルトの名無しさん:2023/06/18(日) 09:23:53.16 ID:a4zjBeRN.net
どす恋!

318 :デフォルトの名無しさん:2023/06/22(木) 20:17:25.79 ID:u8IMi/jS.net
>>312
> 昔のプログラムはバイトストリームで処理してるから問題ないだけで
> ロケールなんてgettextで文言変わるくらいにしか利用してない

あっさり言ってくれちゃってますが
Ken Thompson大先生の大発明UTF-8以前は
みんな処理系から実行系まで
USC-2対応に書き換えるつもりだったんですよ?

凄く簡単なアイデアだけど着眼点がシャープ

それから商業UNIXのm17nは徹底的なもので
grepなんかも各言語、各文字コード対応だった

319 :デフォルトの名無しさん:2023/06/22(木) 20:30:09.06 ID:6hgABg1u.net
👁--------→

320 :デフォルトの名無しさん:2023/06/22(木) 23:18:43.47 ID:xBwPkaNz.net
昔のプログラムはバイトストリームで処理してるから問題ない?
そんなわけないだろ
正規表現の.とかUTF-8の一文字に対応させんといかんから
ほとんどのプログラムに修正が必要だぞ
今も修正できてないコマンドはいくらでもある

321 :デフォルトの名無しさん:2023/06/23(金) 00:24:16.74 ID:M8BBIM3e.net
相手が変なこといってるなと感じたら
じぶんが拾えてない情報がないか確認するよねふつう

322 :デフォルトの名無しさん:2023/06/23(金) 00:39:25.84 ID:31qk7hM1.net
ふわっとしてんな

323 :デフォルトの名無しさん:2023/06/23(金) 05:42:45.03 ID:G2V4SBFP.net
>>321
お前、もしかして相手が変なことを言っていると感じているのか?

324 :デフォルトの名無しさん:2023/06/23(金) 11:06:55.50 ID:wom6IAq0.net
>>318
みんな突っ込まないでくれているけど
USC-2 → UCS-2

325 :デフォルトの名無しさん:2023/06/23(金) 11:12:13.58 ID:yEQ18GoZ.net
>>324
タイポとか誤変換とかに突っ込んでたらきりがないのでわかってるぽいのはスルーで
無理に訂正する必要もないよ

326 :デフォルトの名無しさん:2023/06/23(金) 13:39:13.07 ID:fMNbteF1.net
なーんだ、てっきり南カリフォルニア大学ことかと思っちゃった

327 :デフォルトの名無しさん:2023/06/23(金) 13:40:28.91 ID:fMNbteF1.net
のw

328 :デフォルトの名無しさん:2023/06/23(金) 16:35:16.14 ID:RASP4hQI.net
このスレに来る人はICUを集中治療室とか国際基督教大学とは思わないから安心しろ

329 :デフォルトの名無しさん:2023/06/23(金) 16:49:42.58 ID:fJe7a8sc.net
UTF-8がASCII互換っていうのはASCII部分のみが互換っていう意味で
ASCIIだけを使ってるなら動くってことだよ
ASCII以外の漢字部分までASCII互換になるわけがない
そもそもASCIIに漢字なんて無いんだから
漢字は別途対応、もちろん漢字だけじゃなくて絵文字とかも含むからね

330 :デフォルトの名無しさん:2023/06/24(土) 15:50:27.65 ID:v2U7ONLO.net
これで気兼ねなくATMの話ができます!

331 :デフォルトの名無しさん:2023/06/24(土) 15:54:00.59 ID:xBNVjuxa.net
>>320
正規表現とか使ってなければ問題無いだろう
ほとんどのプログラムに修正が必要は大げさ

332 :デフォルトの名無しさん:2023/06/24(土) 16:15:39.62 ID:6718OB4j.net
昔のプログラムがバイトストリームで処理してると思っているあたりが素人くさい。
MS-DOSの話してるんだろうか?

333 :デフォルトの名無しさん:2023/06/24(土) 17:49:25.13 ID:mybFnLY5.net
>>331
ASCII以外の文字を扱う全てのプログラムに修正が必要

334 :デフォルトの名無しさん:2023/06/25(日) 09:29:11.85 ID:u4T7tXaY.net
>>332
昔も今もバイトストリームだろ
じゃなきゃバックスラッシュと円記号が同一視されるはずがない

335 :デフォルトの名無しさん:2023/06/25(日) 11:58:16.15 ID:0nHjw2pZ.net
>>334
小学生でもそんなこと言わんぞ
「文字コード」って聞いたことあるか?

336 :デフォルトの名無しさん:2023/06/25(日) 13:42:41.66 ID:gLBngrQA.net
多バイト文字の処理が念頭にあるんだろうけども
改行含めてASCIIの範囲でマッチできれば成立するプラグラムの方が大半な気がする
catやcpなんて文字コードなにそれだし

337 :デフォルトの名無しさん:2023/06/25(日) 17:28:04.26 ID:ySKqPmeW.net
うん。だからテキスト処理関係のフィルタコマンドだよ
grepとかsedとかawkとかtrとかcutとかsortとか
そこいらは全部修正が必要

338 :デフォルトの名無しさん:2023/06/25(日) 17:56:47.65 ID:0nHjw2pZ.net
>>337
お前どこのツール使ってるの?
オレの sort とかのツールはちゃんとロカール対応してるけど?

339 :デフォルトの名無しさん:2023/06/25(日) 19:33:55.93 ID:+QOmRgEX.net
>>330
それは回線にモデルとかISBNとか使ってた頃の遺物だろww

340 :デフォルトの名無しさん:2023/06/25(日) 19:53:24.27 ID:s5vVSYDk.net
ぼくは雑誌コード

341 :デフォルトの名無しさん:2023/06/25(日) 19:59:23.87 ID:ySKqPmeW.net
>>338
だからロケールに対応する修正が入ってるから今は動くようになってるんだろ
UTF-8がASCII互換だからって、何も修正しないで動くわけじゃないって話をしてる

342 :デフォルトの名無しさん:2023/06/25(日) 20:41:53.62 ID:0nHjw2pZ.net
>>341
Unix 系はunicodeとか発明される以前の昔からロカールあったろ? お前のは無かったの?
UTF-8 きても対応文字コードが増えた以上の変化はないぞ

343 :デフォルトの名無しさん:2023/06/25(日) 21:34:04.71 ID:nujrLvHq.net
>>337
ほとんどのプログラムって言っていたのが随分と対象が減ったな

344 :デフォルトの名無しさん:2023/06/25(日) 21:49:59.79 ID:ySKqPmeW.net
>>342
昔にロケールなんて概念ねーよw
あったとしてもASCIIしか考慮してないプログラムは
ロケールに対応してない

345 :デフォルトの名無しさん:2023/06/25(日) 21:54:46.00 ID:ySKqPmeW.net
どうせ今の話しか知らんくせに
やってみたら動いているみたいだから
昔から対応していたみたいの思ってるんだろうけど
これとか読んだら?

GNU Coreutils - Multibyte/unicode support
https://crashcourse.housegordon.org/coreutils-multibyte-support.html

346 :デフォルトの名無しさん:2023/06/25(日) 21:56:04.00 ID:ySKqPmeW.net
多くの人の努力によってようやくUTF-8に対応しつつあるというのに
ASCIIのままのプログラムでUTF-8でも動くとか

あーほみたいじゃなくて、あーほ

347 :デフォルトの名無しさん:2023/06/25(日) 22:09:28.31 ID:0nHjw2pZ.net
>>344
unicode や UTF-8 よりロカール機構の方が古いって本当に知らないの?
調べもしないの? 恥ずかしくない?

348 :デフォルトの名無しさん:2023/06/25(日) 22:10:52.26 ID:ySKqPmeW.net
>>347
古いって知ってるがそれがなにか?
古かったら、対応しなくても動くんですか(笑)

349 :デフォルトの名無しさん:2023/06/25(日) 22:18:03.54 ID:ySKqPmeW.net
だいたいASCIIにしか対応してないプログラムって言ってんだから
ロケールにも対応してないに決まってるだろ
頭悪そうじゃなくて、頭悪い。

350 :デフォルトの名無しさん:2023/06/25(日) 22:22:23.09 ID:0nHjw2pZ.net
>>346
gnu や linux は商用unixの後追いで互換ツール作ってたんだよ。商用unixは皆対応できてた。
こっちとら linux の黎明期に glibc や gnu tool の locale 実装手伝ってたりしたんだが、お前何やったの?

351 :デフォルトの名無しさん:2023/06/25(日) 22:24:10.92 ID:ySKqPmeW.net
>>350
話をすり替えんな
お前がやった仕事は大したことじゃないんだろ?w
だってASCIIに対応していれば、そのまんま動くんだからな!

352 :デフォルトの名無しさん:2023/06/25(日) 22:25:47.25 ID:ySKqPmeW.net
俺が何をやったかだって?
お前よりすごいことをしていたよ
守秘義務があるから言えないけどなwww

353 :デフォルトの名無しさん:2023/06/25(日) 22:25:52.06 ID:0nHjw2pZ.net
>>349
336の話してるんだが、どこで言ったの? 脳内? ASCII しか対応してないって何時の時代の話? お前何か参加したの?

354 :デフォルトの名無しさん:2023/06/25(日) 22:30:06.30 ID:ySKqPmeW.net
> ASCII しか対応してないって何時の時代の話?
まさか全アメリカ人がUTF-8に目覚めたとでも思ってるのか?w

355 :デフォルトの名無しさん:2023/06/25(日) 22:31:57.20 ID:ySKqPmeW.net
今もUnicode・UTF-8に非対応で、
本当は一文字なのに三文字とか間違える実装を知らんのだろうな

356 :デフォルトの名無しさん:2023/06/25(日) 22:34:23.36 ID:ySKqPmeW.net
漢字1文字が最大8バイト、Unicodeの「IVS」とは?
https://xtech.nikkei.com/it/article/COLUMN/20100126/343783/

357 :デフォルトの名無しさん:2023/06/25(日) 22:34:25.42 ID:0nHjw2pZ.net
UTF-8 が来た時には既に locale があった
locale に対応していたれば同じバイナリで UTF-8 も扱えたので、UTF-8 に対応するめの改修とかする必要なかった

358 :デフォルトの名無しさん:2023/06/25(日) 22:37:12.38 ID:0nHjw2pZ.net
個々のツールを改修する必要はなくて、OS側のライブラリを改修することで対応するという基本的な考え方が理解できてないんだろうな。

359 :デフォルトの名無しさん:2023/06/25(日) 22:40:53.01 ID:ySKqPmeW.net
どうやらASCIIしか考慮してないプログラムは
そのOS側のライブラリを使ってないということに
思い至らないようだw

それともなにか?printfをロケール対応に
仕様変更するきかね?www

360 :デフォルトの名無しさん:2023/06/25(日) 22:41:32.64 ID:9S6fsVfv.net
>>336
wc

361 :デフォルトの名無しさん:2023/06/25(日) 22:42:37.03 ID:ySKqPmeW.net
UTF-8 が来た時には既に locale があった
だがlocale に対応していないプログラムがたくさんあった

362 :デフォルトの名無しさん:2023/06/25(日) 23:21:26.81 ID:0nHjw2pZ.net
>>361
で336のうちどれの話?

363 :デフォルトの名無しさん:2023/06/26(月) 10:16:30.84 ID:lZKUXxOT.net
>>359
ISO/IEC 9899:1990/Amendment1:1995(C95)の7.9.6.1と7.9.6.3より
printfの仕様はロケール対応では?

%sの代わりに%lsでワイドキャラクタを扱える

364 :デフォルトの名無しさん:2023/06/26(月) 10:35:51.62 ID:wgwkla1B.net
>>359
商業UNIXはlibcレベルから各文字コード対応だったんだよ

365 :デフォルトの名無しさん:2023/06/26(月) 10:39:44.57 ID:lZKUXxOT.net
なんかCの仕様をわかっていない人がいるような

Cのプログラムをロケールを利用した国際化対応するには冒頭でsetlocale()を
呼ぶだけでなくて、文字をcharではなくwchar_tで扱い、fgetsの代わりにfgetwsを
使うなどワイドキャラクタ対応のw系関数で文字を処理するに変更するか、printfや
scanf系関数で%sの代わりに%lsで扱う

Cのユニコード関連の仕様はISO/IEC 9899:2011(C11)で導入され、6.4の\u,\U, u'',U''と
7.27のuchar.hで定義されたchar16_t, char32_tがユニコード関連
これらはロケールやwchar_tとは別概念なはず

366 :デフォルトの名無しさん:2023/06/26(月) 11:12:59.67 ID:15L3klhZ.net
>>365
順番とか歴史を理解してる?
国際化するのに locale という仕組みが提案さてて wchar_t が導入され、OS標準ツールは言語や文字コードを切り替えられるようになった
その後に多言語化のために unicode と UTF-8 が出てきて locale 対応しているプログラムは変更なく多言語化できるようになった
比較的最近になって、もう新しいプログラムは unicode だけ対応していれば 十分で locale 対応いらないんじゃね? という大雑把アメリカンな考えが出てきて char32_t みたいな仕組みが作られた
国ごとに仕組み違うし、言語ごとに文字の定義とか違うんだから unicode あっても locale 無くせないんだよ。というアメリカ以外からの当然の反発もあって
今は、真面目に国際化対応が必要なやつは locale, そんなん気にしなくて良いやつは生UTF-32, Windowsと互換性が最重要なら生UTF-16みたいな棲み分けになってる

367 :デフォルトの名無しさん:2023/06/26(月) 11:45:10.68 ID:OOvp3Qkm.net
utf-8になってもロケールは必要だよね
言語や地域ごとに処理を変えないといけないから
例えば同じ文字を使っていても辞書順が違うことがある
発音記号の取り扱いとか

それからwchar_t+Unicodeのみで処理する枠組みはうまくいかなかった
ASCII文字だけ扱いたい時
Unicode以前旧世界との互換性
を考えると
結局世界はMBCSと付き合わざるを得ない事に納得し
wchar_t+Unicodeは速いindexingが必要な内部表現だけで使うことになった

368 :デフォルトの名無しさん:2023/06/26(月) 11:51:20.62 ID:uBe3VRyC.net
localeに対応しているlessコマンドはsjisファイルも読めるん?

369 :デフォルトの名無しさん:2023/06/26(月) 12:04:29.17 ID:OOvp3Qkm.net
>>368
昔の商業UNIXにlessはなくてmoreだけど
ja_JP.sjis
に設定すれば

Solarisでは2byte目\問題もなかった
もちろん内部的にはMBCS stringとして扱ってる
euc-jpだってMBCSなのだから
ちなみにSolarisの場合はこの辺の処理は
ハードコーディングではなくテーブルドリブンだった

370 :デフォルトの名無しさん:2023/06/26(月) 12:07:04.06 ID:OOvp3Qkm.net
ただこの辺の努力は全て水泡に帰して
GNU Linux全盛期に入ったわけだ
つまり文字コード対応はutf-8をベースにして
各言語対応は車輪の再発明をしなければならなかったし
まだ当時に追いついてもいない

371 :デフォルトの名無しさん:2023/06/26(月) 12:44:13.00 ID:15L3klhZ.net
>>370
再発明とかはやってないぞ
普通に gnu tool も昔から locale 対応してるし、今もそう
ただ、まだマイナーなバグや使い難い仕様が一杯残ってるねってだけ。国際化でなくて、特に多言語化のまわりが熟れてない
ユーザーにも一部の開発者にも国際化と多言語化の違いとか、機構と文字コードの違いが良くわかってないやつがいて
本来は「多言語化に問題がある」というべきところを「UTF-8の処理に問題がある」という言い方をしがち

372 :デフォルトの名無しさん:2023/06/26(月) 12:54:23.97 ID:15L3klhZ.net
ここでも知らんやつもいるかもしれないので、一応書いておくと
国際化(i18n): 文字コードとか言語とかを切り替えて使えるようにする機構
多言語化(m17n): 一つのテキストの中に複数の言語の文章を含めることができるようにする機構

373 :デフォルトの名無しさん:2023/06/26(月) 13:12:12.62 ID:15L3klhZ.net
unicode という規格には
(A) 純粋に文字コードを定義している部分。どの文字にどのコードを割り当て、それをどのように符号化するか。UTF-8 は符号化の名前
(B) unicode を使ってどのように多言語化(m17n)を実現するかの部分。標準的な多言語化を提案する。IVSの対応とかはこっち
の2つが含まれてる。
今いろいろやってるのは (B) 側の話。UTF-8対応やってるんじゃなくて「多言語化」対応やってる

374 :デフォルトの名無しさん:2023/06/26(月) 16:20:01.13 ID:LAEwcUbv.net
多言語化は国際化に含まれますか?

272 KB
新着レスの表示

掲示板に戻る 全部 前100 次100 最新50
名前: E-mail (省略可) :

read.cgi ver.24052200