文字コード総合スレ part14
1 :デフォルトの名無しさん :2023/03/03(金) 15:46:58.08 ID:yKqwMGHT.net Windows NTは初代からUnicodeがネイティブの文字コードです。cp932ではありません。 プログラマーなら一度は煩わされたことのある文字コードについてのスレ。 UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、 合成文字、ソート、TRON、外字コード、その他について語り合いましょう。 各言語での文字列の扱いについての質問もOKです。 基本マッターリ、ささ、茶でもどうぞ。 ■過去スレ 文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/ 文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/ 文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/ 文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/ (スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/ (隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/ 文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/ 文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/ 文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/ 文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/ 文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/ 文字コード総合スレ Part10 http://mevius.2ch.net/test/read.cgi/tech/1444822140/ 文字コード総合スレ Part11 https://mevius.5ch.net/test/read.cgi/tech/1516629503/ 文字コード総合スレ Part12 https://mevius.5ch.net/test/read.cgi/tech/1544931495/ 文字コード総合スレ part13 https://mevius.5ch.net/test/read.cgi/tech/1593777227/
292 :デフォルトの名無しさん :2023/05/27(土) 19:18:50.92 ID:4YJ0U8GR.net 文語で「じゃない」を使うおじさん
293 :デフォルトの名無しさん :2023/05/27(土) 22:18:54.32 ID:Qh66ZSbX.net お姉さんの可能性あるで 俺もお姉さんだし( ・`ω・´)
294 :デフォルトの名無しさん :2023/05/27(土) 22:19:28.39 ID:Qh66ZSbX.net >>291 他の人のExcelも今度確認してみるわ
295 :デフォルトの名無しさん :2023/05/28(日) 11:38:12.73 ID:mveGBcKw.net XML は BOMつき UTF-16 も許されてるんじゃなかったっけ? BOM無しなら UTF-8 だったか
296 :デフォルトの名無しさん :2023/05/28(日) 21:52:09.12 ID:YNYjEu0w.net excelは昔からさまざまな文字コードに対応してる 高い互換性を維持し続けてる それがMSの強さ こういうところはUnixとかLinuxとかOSSでは 太刀打ちできない
297 :デフォルトの名無しさん :2023/05/28(日) 22:53:12.34 ID:mveGBcKw.net >>296 emacs だってexcel 以上に多種多様な文字コードに対応してるし、linux (glibc)の対応ロケールと文字コードの数は windows より多いぞ。 無知が擁護するとMSの格が下がるのでやめとけ。
298 :デフォルトの名無しさん :2023/05/28(日) 23:26:13.89 ID:ig5hb7tN.net >>291 そうだね。実際には階層的になったXMLをzipにしてあるけど んでXMLの中をよく見るとxlsxを作成したローカルのパスが書かれていたり。キモっ おっと文字コード関係なかったw
299 :デフォルトの名無しさん :2023/05/29(月) 01:28:07.80 ID:0ytXwqTB.net Microsoft が互換性重視とか最近のブラックユーモアは笑えないなぁ ASCII との互換性を切捨てて UTF-16 にしようとして失敗したり 5年以上前のCPUは Windows 11 ではサポートしません、買い替えてくださいとか言い出したり その頃 linux では33年前の CPU の 80486 の互換性はそろそろ切って良いのではという議論をしてた。
300 :デフォルトの名無しさん :2023/05/29(月) 12:46:50.20 ID:MCD4Vue8.net 2012年頃? Windows10 が最後の Windows バージョンです(キリっ
301 :デフォルトの名無しさん :2023/05/29(月) 13:52:34.19 ID:M19znpYQ.net MSはJIS X 0213:2012のIVSに Wordが早く対応したりしてそれほど悪い印象はない しかしパス名が未だにCP932系なのは何とかならんのか
302 :デフォルトの名無しさん :2023/05/29(月) 14:43:43.87 ID:0ytXwqTB.net >>301 ロケール設定とアプリの問題じゃないの?
303 :デフォルトの名無しさん :2023/05/29(月) 15:27:55.29 ID:hGly4rru.net 近年のMSは、昔からの独自仕様での高い互換性よりも、オープンソース&標準準拠を進めているのは良い
304 :デフォルトの名無しさん :2023/05/29(月) 21:29:10.05 ID:NNOaBXNh.net >>302 日本ロケールだとNTFSのパス名がShift JIS
305 :デフォルトの名無しさん :2023/05/29(月) 21:38:29.70 ID:mH3oOe43.net ファイル名で使用される文字セット https://learn.microsoft.com/ja-jp/windows/win32/intl/character-sets-used-in-file-names > NTFS では、Unicode にファイル名が格納されます。
306 :デフォルトの名無しさん :2023/05/29(月) 21:41:41.73 ID:1bms2IW3.net >>304 そういうのはコンソールやアプリ側のエンコーディング設定であってな...
307 :デフォルトの名無しさん :2023/05/29(月) 21:58:43.15 ID:0DJ9XOU5.net UTF16はMBCSと共存しており切り捨てた訳ではない windows11で64bit版だけになるまで16bitアプリも動かせてたわけで そもそもソースレベルでしか互換性を保てないのがLinux Linuxは当初はEUCだったと思うけど当時の日本語対応ソフトが今のUTF8で動くかい?
308 :デフォルトの名無しさん :2023/05/29(月) 23:12:48.07 ID:0ytXwqTB.net >>307 あほ? EUC-JPアプリって何? 20年前にコンパイルされたアプリが一切の改変無く、EUC-JP でも、UTF-8 でも SJIS でも動くんだが? ロケールの切り替えとか知ってる?
309 :デフォルトの名無しさん :2023/05/30(火) 07:55:17.64 ID:89IT6MB6.net >>308 Linuxで20年前にコンパイルしたバイナリが今のLinuxで動く? 冗談はやめてほしい 百歩譲ってロケール切り替えで動くとして今のUTF8前提のアプリと共存出来ないでしょ Windowsだったら20年前のMBCSのソフトもそのまま動くよ 当然Unicodeのソフトも動く Ubuntuが32bitCPUのサポートカーをきったのは5年くらい前だっけ Windows11より速いですね あとマイクロソフトがMBCS切り捨ててUTF16一本にしようとしたってのは初耳ですが根拠を出してほしい
310 :デフォルトの名無しさん :2023/05/30(火) 08:50:00.67 ID:ZT3eEMEM.net >>309 技術がないやつは、これだから。 お前の技術が足りないのをOSのせいにしてるだけだな 全部できるぞ。俺が実際使ってるし Ubuntu で32ビットアプリも動いてるよ
311 :デフォルトの名無しさん :2023/05/30(火) 09:40:11.60 ID:ksZIMFia.net コンパイルしたなら文字コード関係なくそりゃ動くわな。 スクリプト言語なら知らんが。
312 :デフォルトの名無しさん :2023/05/30(火) 10:48:25.25 ID:sLlAlpBn.net スクリプト言語のが文字という概念があるから ロケールみて外部入出力ちゃんと取り持ってくれそう 昔のプログラムはバイトストリームで処理してるから問題ないだけで ロケールなんてgettextで文言変わるくらいにしか利用してない
313 :デフォルトの名無しさん :2023/05/30(火) 12:45:01.53 ID:+VlMdD+Q.net >>309 冗談は辞めてほしい 君が何も知らないのはよく分かった
314 :デフォルトの名無しさん :2023/06/05(月) 02:33:56.51 ID:QCgpDYcxq しっかし立憲は子供カ゛一だの尖閣カ゛ーた゛の.しかも党として自家撞着まて゛してるし,それとも両方予算倍増してこのクソ腐敗税金泥棒政府を どんた゛け拡大させろと言いたいんた゛か,腐敗主義自民公明に乗っ取られたクソ政府に対して,國會でのクソの役にも立たなさには呆れ返るな 唯一原發ガ‐はマ├モだが.鉄道の3〇倍以上もの温室効果ガスまき散らして石油無駄に燃やしまくって気侯変動させて災害連発させて人を 殺しまくってるクソ航空機を根絶やしにすれば,原發全廃しても電気料金は下か゛るというソ─スくらい持ってきて合理的に主張しろ枝野幸男 クソ航空機のC〇2排出量が鉄道の6倍とか言ってるハ゛力か゛いるが、きっと在来線の倍ほと゛非効率な新幹線と比較して、クソ航空機は離着陸 で莫大なCO2出すわけだか゛長距離て゛排出量計算して,鉄道は乗車率25〇%て゛も運行可能た゛か゛、それすら無視した━方的な値なんだろうな 最も短い距離て゛運航してる航路て゛比較すへ゛きた゛し,東海道在来線なんて空き座席全然ないんだし,乗車率10〇%比とか現実乖離甚だしいわ 鉄道は再エネのみて゛の運行だって可能なんだから,それも考えればクソポリへリ含めてクソ航空機を飛ばす行為に破防法を適用するのが妥当 創価学會員は、何百萬人も殺傷して損害を与えて私腹を肥やし続けて逮捕者まで出てる世界最惡の殺人腐敗組織公明党を 池田センセ‐がロをきけて容認するとか本氣て゛思ってるとしたら侮辱にもほと゛か゛あるそ゛! hΤТРs://i、imgur,сοm/hnli1ga.jpeg
315 :デフォルトの名無しさん :2023/06/07(水) 04:27:17.54 ID:0FN/+S+x.net タイトルに付いていたらあ、クソだなと思うもの 異世界 チート 転生 のんびり 最強 スローライフ 無双 ギルド 追放 スキル おっさん 勇者 魔王 賢者 魔術師 錬金術 聖女 奴隷 悪役令嬢 婚約破棄
316 :デフォルトの名無しさん :2023/06/07(水) 17:58:56.39 ID:Xm2S+dHf.net 遅くとも<title>までにはエンコードを確定できるワードが欲しいね
317 :デフォルトの名無しさん :2023/06/18(日) 09:23:53.16 ID:a4zjBeRN.net どす恋!
318 :デフォルトの名無しさん :2023/06/22(木) 20:17:25.79 ID:u8IMi/jS.net >>312 > 昔のプログラムはバイトストリームで処理してるから問題ないだけで > ロケールなんてgettextで文言変わるくらいにしか利用してない あっさり言ってくれちゃってますが Ken Thompson大先生の大発明UTF-8以前は みんな処理系から実行系まで USC-2対応に書き換えるつもりだったんですよ? 凄く簡単なアイデアだけど着眼点がシャープ それから商業UNIXのm17nは徹底的なもので grepなんかも各言語、各文字コード対応だった
319 :デフォルトの名無しさん :2023/06/22(木) 20:30:09.06 ID:6hgABg1u.net 👁--------→
320 :デフォルトの名無しさん :2023/06/22(木) 23:18:43.47 ID:xBwPkaNz.net 昔のプログラムはバイトストリームで処理してるから問題ない? そんなわけないだろ 正規表現の.とかUTF-8の一文字に対応させんといかんから ほとんどのプログラムに修正が必要だぞ 今も修正できてないコマンドはいくらでもある
321 :デフォルトの名無しさん :2023/06/23(金) 00:24:16.74 ID:M8BBIM3e.net 相手が変なこといってるなと感じたら じぶんが拾えてない情報がないか確認するよねふつう
322 :デフォルトの名無しさん :2023/06/23(金) 00:39:25.84 ID:31qk7hM1.net ふわっとしてんな
323 :デフォルトの名無しさん :2023/06/23(金) 05:42:45.03 ID:G2V4SBFP.net >>321 お前、もしかして相手が変なことを言っていると感じているのか?
324 :デフォルトの名無しさん :2023/06/23(金) 11:06:55.50 ID:wom6IAq0.net >>318 みんな突っ込まないでくれているけど USC-2 → UCS-2
325 :デフォルトの名無しさん :2023/06/23(金) 11:12:13.58 ID:yEQ18GoZ.net >>324 タイポとか誤変換とかに突っ込んでたらきりがないのでわかってるぽいのはスルーで 無理に訂正する必要もないよ
326 :デフォルトの名無しさん :2023/06/23(金) 13:39:13.07 ID:fMNbteF1.net なーんだ、てっきり南カリフォルニア大学ことかと思っちゃった
327 :デフォルトの名無しさん :2023/06/23(金) 13:40:28.91 ID:fMNbteF1.net のw
328 :デフォルトの名無しさん :2023/06/23(金) 16:35:16.14 ID:RASP4hQI.net このスレに来る人はICUを集中治療室とか国際基督教大学とは思わないから安心しろ
329 :デフォルトの名無しさん :2023/06/23(金) 16:49:42.58 ID:fJe7a8sc.net UTF-8がASCII互換っていうのはASCII部分のみが互換っていう意味で ASCIIだけを使ってるなら動くってことだよ ASCII以外の漢字部分までASCII互換になるわけがない そもそもASCIIに漢字なんて無いんだから 漢字は別途対応、もちろん漢字だけじゃなくて絵文字とかも含むからね
330 :デフォルトの名無しさん :2023/06/24(土) 15:50:27.65 ID:v2U7ONLO.net これで気兼ねなくATMの話ができます!
331 :デフォルトの名無しさん :2023/06/24(土) 15:54:00.59 ID:xBNVjuxa.net >>320 正規表現とか使ってなければ問題無いだろう ほとんどのプログラムに修正が必要は大げさ
332 :デフォルトの名無しさん :2023/06/24(土) 16:15:39.62 ID:6718OB4j.net 昔のプログラムがバイトストリームで処理してると思っているあたりが素人くさい。 MS-DOSの話してるんだろうか?
333 :デフォルトの名無しさん :2023/06/24(土) 17:49:25.13 ID:mybFnLY5.net >>331 ASCII以外の文字を扱う全てのプログラムに修正が必要
334 :デフォルトの名無しさん :2023/06/25(日) 09:29:11.85 ID:u4T7tXaY.net >>332 昔も今もバイトストリームだろ じゃなきゃバックスラッシュと円記号が同一視されるはずがない
335 :デフォルトの名無しさん :2023/06/25(日) 11:58:16.15 ID:0nHjw2pZ.net >>334 小学生でもそんなこと言わんぞ 「文字コード」って聞いたことあるか?
336 :デフォルトの名無しさん :2023/06/25(日) 13:42:41.66 ID:gLBngrQA.net 多バイト文字の処理が念頭にあるんだろうけども 改行含めてASCIIの範囲でマッチできれば成立するプラグラムの方が大半な気がする catやcpなんて文字コードなにそれだし
337 :デフォルトの名無しさん :2023/06/25(日) 17:28:04.26 ID:ySKqPmeW.net うん。だからテキスト処理関係のフィルタコマンドだよ grepとかsedとかawkとかtrとかcutとかsortとか そこいらは全部修正が必要
338 :デフォルトの名無しさん :2023/06/25(日) 17:56:47.65 ID:0nHjw2pZ.net >>337 お前どこのツール使ってるの? オレの sort とかのツールはちゃんとロカール対応してるけど?
339 :デフォルトの名無しさん :2023/06/25(日) 19:33:55.93 ID:+QOmRgEX.net >>330 それは回線にモデルとかISBNとか使ってた頃の遺物だろww
340 :デフォルトの名無しさん :2023/06/25(日) 19:53:24.27 ID:s5vVSYDk.net ぼくは雑誌コード
341 :デフォルトの名無しさん :2023/06/25(日) 19:59:23.87 ID:ySKqPmeW.net >>338 だからロケールに対応する修正が入ってるから今は動くようになってるんだろ UTF-8がASCII互換だからって、何も修正しないで動くわけじゃないって話をしてる
342 :デフォルトの名無しさん :2023/06/25(日) 20:41:53.62 ID:0nHjw2pZ.net >>341 Unix 系はunicodeとか発明される以前の昔からロカールあったろ? お前のは無かったの? UTF-8 きても対応文字コードが増えた以上の変化はないぞ
343 :デフォルトの名無しさん :2023/06/25(日) 21:34:04.71 ID:nujrLvHq.net >>337 ほとんどのプログラムって言っていたのが随分と対象が減ったな
344 :デフォルトの名無しさん :2023/06/25(日) 21:49:59.79 ID:ySKqPmeW.net >>342 昔にロケールなんて概念ねーよw あったとしてもASCIIしか考慮してないプログラムは ロケールに対応してない
345 :デフォルトの名無しさん :2023/06/25(日) 21:54:46.00 ID:ySKqPmeW.net どうせ今の話しか知らんくせに やってみたら動いているみたいだから 昔から対応していたみたいの思ってるんだろうけど これとか読んだら? GNU Coreutils - Multibyte/unicode support https://crashcourse.housegordon.org/coreutils-multibyte-support.html
346 :デフォルトの名無しさん :2023/06/25(日) 21:56:04.00 ID:ySKqPmeW.net 多くの人の努力によってようやくUTF-8に対応しつつあるというのに ASCIIのままのプログラムでUTF-8でも動くとか あーほみたいじゃなくて、あーほ
347 :デフォルトの名無しさん :2023/06/25(日) 22:09:28.31 ID:0nHjw2pZ.net >>344 unicode や UTF-8 よりロカール機構の方が古いって本当に知らないの? 調べもしないの? 恥ずかしくない?
348 :デフォルトの名無しさん :2023/06/25(日) 22:10:52.26 ID:ySKqPmeW.net >>347 古いって知ってるがそれがなにか? 古かったら、対応しなくても動くんですか(笑)
349 :デフォルトの名無しさん :2023/06/25(日) 22:18:03.54 ID:ySKqPmeW.net だいたいASCIIにしか対応してないプログラムって言ってんだから ロケールにも対応してないに決まってるだろ 頭悪そうじゃなくて、頭悪い。
350 :デフォルトの名無しさん :2023/06/25(日) 22:22:23.09 ID:0nHjw2pZ.net >>346 gnu や linux は商用unixの後追いで互換ツール作ってたんだよ。商用unixは皆対応できてた。 こっちとら linux の黎明期に glibc や gnu tool の locale 実装手伝ってたりしたんだが、お前何やったの?
351 :デフォルトの名無しさん :2023/06/25(日) 22:24:10.92 ID:ySKqPmeW.net >>350 話をすり替えんな お前がやった仕事は大したことじゃないんだろ?w だってASCIIに対応していれば、そのまんま動くんだからな!
352 :デフォルトの名無しさん :2023/06/25(日) 22:25:47.25 ID:ySKqPmeW.net 俺が何をやったかだって? お前よりすごいことをしていたよ 守秘義務があるから言えないけどなwww
353 :デフォルトの名無しさん :2023/06/25(日) 22:25:52.06 ID:0nHjw2pZ.net >>349 336の話してるんだが、どこで言ったの? 脳内? ASCII しか対応してないって何時の時代の話? お前何か参加したの?
354 :デフォルトの名無しさん :2023/06/25(日) 22:30:06.30 ID:ySKqPmeW.net > ASCII しか対応してないって何時の時代の話? まさか全アメリカ人がUTF-8に目覚めたとでも思ってるのか?w
355 :デフォルトの名無しさん :2023/06/25(日) 22:31:57.20 ID:ySKqPmeW.net 今もUnicode・UTF-8に非対応で、 本当は一文字なのに三文字とか間違える実装を知らんのだろうな
356 :デフォルトの名無しさん :2023/06/25(日) 22:34:23.36 ID:ySKqPmeW.net 漢字1文字が最大8バイト、Unicodeの「IVS」とは? https://xtech.nikkei.com/it/article/COLUMN/20100126/343783/
357 :デフォルトの名無しさん :2023/06/25(日) 22:34:25.42 ID:0nHjw2pZ.net UTF-8 が来た時には既に locale があった locale に対応していたれば同じバイナリで UTF-8 も扱えたので、UTF-8 に対応するめの改修とかする必要なかった
358 :デフォルトの名無しさん :2023/06/25(日) 22:37:12.38 ID:0nHjw2pZ.net 個々のツールを改修する必要はなくて、OS側のライブラリを改修することで対応するという基本的な考え方が理解できてないんだろうな。
359 :デフォルトの名無しさん :2023/06/25(日) 22:40:53.01 ID:ySKqPmeW.net どうやらASCIIしか考慮してないプログラムは そのOS側のライブラリを使ってないということに 思い至らないようだw それともなにか?printfをロケール対応に 仕様変更するきかね?www
360 :デフォルトの名無しさん :2023/06/25(日) 22:41:32.64 ID:9S6fsVfv.net >>336 wc
361 :デフォルトの名無しさん :2023/06/25(日) 22:42:37.03 ID:ySKqPmeW.net UTF-8 が来た時には既に locale があった だがlocale に対応していないプログラムがたくさんあった
362 :デフォルトの名無しさん :2023/06/25(日) 23:21:26.81 ID:0nHjw2pZ.net >>361 で336のうちどれの話?
363 :デフォルトの名無しさん :2023/06/26(月) 10:16:30.84 ID:lZKUXxOT.net >>359 ISO/IEC 9899:1990/Amendment1:1995(C95)の7.9.6.1と7.9.6.3より printfの仕様はロケール対応では? %sの代わりに%lsでワイドキャラクタを扱える
364 :デフォルトの名無しさん :2023/06/26(月) 10:35:51.62 ID:wgwkla1B.net >>359 商業UNIXはlibcレベルから各文字コード対応だったんだよ
365 :デフォルトの名無しさん :2023/06/26(月) 10:39:44.57 ID:lZKUXxOT.net なんかCの仕様をわかっていない人がいるような Cのプログラムをロケールを利用した国際化対応するには冒頭でsetlocale()を 呼ぶだけでなくて、文字をcharではなくwchar_tで扱い、fgetsの代わりにfgetwsを 使うなどワイドキャラクタ対応のw系関数で文字を処理するに変更するか、printfや scanf系関数で%sの代わりに%lsで扱う Cのユニコード関連の仕様はISO/IEC 9899:2011(C11)で導入され、6.4の\u,\U, u'',U''と 7.27のuchar.hで定義されたchar16_t, char32_tがユニコード関連 これらはロケールやwchar_tとは別概念なはず
366 :デフォルトの名無しさん :2023/06/26(月) 11:12:59.67 ID:15L3klhZ.net >>365 順番とか歴史を理解してる? 国際化するのに locale という仕組みが提案さてて wchar_t が導入され、OS標準ツールは言語や文字コードを切り替えられるようになった その後に多言語化のために unicode と UTF-8 が出てきて locale 対応しているプログラムは変更なく多言語化できるようになった 比較的最近になって、もう新しいプログラムは unicode だけ対応していれば 十分で locale 対応いらないんじゃね? という大雑把アメリカンな考えが出てきて char32_t みたいな仕組みが作られた 国ごとに仕組み違うし、言語ごとに文字の定義とか違うんだから unicode あっても locale 無くせないんだよ。というアメリカ以外からの当然の反発もあって 今は、真面目に国際化対応が必要なやつは locale, そんなん気にしなくて良いやつは生UTF-32, Windowsと互換性が最重要なら生UTF-16みたいな棲み分けになってる
367 :デフォルトの名無しさん :2023/06/26(月) 11:45:10.68 ID:OOvp3Qkm.net utf-8になってもロケールは必要だよね 言語や地域ごとに処理を変えないといけないから 例えば同じ文字を使っていても辞書順が違うことがある 発音記号の取り扱いとか それからwchar_t+Unicodeのみで処理する枠組みはうまくいかなかった ASCII文字だけ扱いたい時 Unicode以前旧世界との互換性 を考えると 結局世界はMBCSと付き合わざるを得ない事に納得し wchar_t+Unicodeは速いindexingが必要な内部表現だけで使うことになった
368 :デフォルトの名無しさん :2023/06/26(月) 11:51:20.62 ID:uBe3VRyC.net localeに対応しているlessコマンドはsjisファイルも読めるん?
369 :デフォルトの名無しさん :2023/06/26(月) 12:04:29.17 ID:OOvp3Qkm.net >>368 昔の商業UNIXにlessはなくてmoreだけど ja_JP.sjis に設定すれば Solarisでは2byte目\問題もなかった もちろん内部的にはMBCS stringとして扱ってる euc-jpだってMBCSなのだから ちなみにSolarisの場合はこの辺の処理は ハードコーディングではなくテーブルドリブンだった
370 :デフォルトの名無しさん :2023/06/26(月) 12:07:04.06 ID:OOvp3Qkm.net ただこの辺の努力は全て水泡に帰して GNU Linux全盛期に入ったわけだ つまり文字コード対応はutf-8をベースにして 各言語対応は車輪の再発明をしなければならなかったし まだ当時に追いついてもいない
371 :デフォルトの名無しさん :2023/06/26(月) 12:44:13.00 ID:15L3klhZ.net >>370 再発明とかはやってないぞ 普通に gnu tool も昔から locale 対応してるし、今もそう ただ、まだマイナーなバグや使い難い仕様が一杯残ってるねってだけ。国際化でなくて、特に多言語化のまわりが熟れてない ユーザーにも一部の開発者にも国際化と多言語化の違いとか、機構と文字コードの違いが良くわかってないやつがいて 本来は「多言語化に問題がある」というべきところを「UTF-8の処理に問題がある」という言い方をしがち
372 :デフォルトの名無しさん :2023/06/26(月) 12:54:23.97 ID:15L3klhZ.net ここでも知らんやつもいるかもしれないので、一応書いておくと 国際化(i18n): 文字コードとか言語とかを切り替えて使えるようにする機構 多言語化(m17n): 一つのテキストの中に複数の言語の文章を含めることができるようにする機構
373 :デフォルトの名無しさん :2023/06/26(月) 13:12:12.62 ID:15L3klhZ.net unicode という規格には (A) 純粋に文字コードを定義している部分。どの文字にどのコードを割り当て、それをどのように符号化するか。UTF-8 は符号化の名前 (B) unicode を使ってどのように多言語化(m17n)を実現するかの部分。標準的な多言語化を提案する。IVSの対応とかはこっち の2つが含まれてる。 今いろいろやってるのは (B) 側の話。UTF-8対応やってるんじゃなくて「多言語化」対応やってる
374 :デフォルトの名無しさん :2023/06/26(月) 16:20:01.13 ID:LAEwcUbv.net 多言語化は国際化に含まれますか?
375 :デフォルトの名無しさん :2023/06/26(月) 17:50:33.08 ID:e5otmU9r.net >>373 それもちょっと違うね 「(A) 純粋に文字コードを定義している部分」にUTF8は全く関係ない そこでは各文字にコード割り当て定義されていてコードは一意に定まる 一方でUTF8やUTF16などはそのコードのエンコーディングの話であり文字コード割り当てとは独立した全く別の話になるね
376 :デフォルトの名無しさん :2023/06/26(月) 18:30:16.65 ID:15L3klhZ.net >>375 エンコードはコードじゃないという主張の人なの? 珍しいな
377 :デフォルトの名無しさん :2023/06/26(月) 19:03:46.54 ID:CwqPR/Mz.net >>376 そこは全く異なるのがユニコードの基本 例えば「あ」はコードポイントU+3042と一意に定められている これはエンコーディング方式に関係なく一意に定まる エンコーディング方式が増えたり廃止されたりしても影響を受けない 一方でこのコードポイントを扱う時に環境や状況に応じて様々なエンコーディング方式を取ることができる 例えばコードポイントは16bitに収まりきらないので32bitに入れるのがUTF32 「あ」はコードポイントU+3042なのでUTF32だと0x00003042となる UTF8は8bit前半をascii互換とし8bit後半の不定長列を非asciiに割り当てる 「あ」はコードポイントU+3042なのでUTF8だと0xE3 0x81 0x82となる このようにコードポイント割り当てとエンコーディングは全く独立した別の分野
378 :デフォルトの名無しさん :2023/06/26(月) 19:14:59.15 ID:b1vEmQDc.net >>377 それはISO-2022のフレームワークとさほど大差ない 特にShift JISも含めて考えた場合は
379 :デフォルトの名無しさん :2023/06/26(月) 19:27:42.67 ID:Wnoei0OS.net バイト表現と文字コード体系は別の概念
380 :デフォルトの名無しさん :2023/06/26(月) 22:19:22.18 ID:15L3klhZ.net >>377 世間では一般的に コードポイント(符号位置)+エンコード=文字コード という認識なんだけどね。言葉の定義の問題なので、ここで議論しても始まらないか
381 :デフォルトの名無しさん :2023/06/26(月) 23:14:57.66 ID:zFI2p9hF.net その感覚はないな \uXXXXや数値文字参照で指定する値という認識じゃね? コードポイントそのもの
382 :デフォルトの名無しさん :2023/06/27(火) 00:02:41.00 ID:fkxIsCCD.net >>381 世間一般はSJISもEUC-JPもUTF-8も文字コードという認識なんだよ。厳密な言い方とはいえないが、そういもの コードポイントだけを文字コードと呼ぶやつはかなり特殊、自覚しとけ
383 :デフォルトの名無しさん :2023/06/27(火) 00:31:42.23 ID:TcukIZUS.net character encoding system = encoding method + character set
384 :デフォルトの名無しさん :2023/06/27(火) 00:39:10.68 ID:0oaaTR6k.net 文字コードポイントとそのエンコーディングの区別ができてやつがいるな 例えばUTF8の0xE3 0x81 0x82を文字コードポイントとは言わない あくまでも文字コードポイントはU+3042であり0xE3 0x81 0x82はUTFでエンコーディングした時のバイト列にすぎない
385 :デフォルトの名無しさん :2023/06/27(火) 01:24:36.76 ID:fkxIsCCD.net >>383 + の後ろを coded character set 「符号化文字集合」とした方がより良いな
386 :デフォルトの名無しさん :2023/06/27(火) 07:10:50.09 ID:TcukIZUS.net >>385 codedじゃ誤解しそうな人が出るので numberedを付けるかどうか迷った
387 :デフォルトの名無しさん :2023/06/27(火) 09:02:31.09 ID:fkxIsCCD.net >>386 規格によって用語の意味が違うので難しいところだねインターネットのRFCとかだと正式用語は code character set + character encoding scheme それぞれCCSとCESと略されることもある 一般的な日本訳は「符号化文字集合」と「文字符号化方式」かな
388 :デフォルトの名無しさん :2023/06/27(火) 09:03:47.40 ID:fkxIsCCD.net >>387 dが抜けた。coded character set ね
389 :デフォルトの名無しさん :2023/06/30(金) 18:08:26.89 ID:9szWkPbV.net >>384 お前は文字コードとエンコードの区別はついているか?
390 :デフォルトの名無しさん :2023/07/01(土) 03:56:24.34 ID:LJyXb+JQ.net 数学の写像だと考えればいいのでは
391 :デフォルトの名無しさん :2023/07/11(火) 16:13:44.17 ID:heSsZz8c.net てすと🌀🌀
272 KB
新着レスの表示
掲示板に戻る
全部
前100
次100
最新50
read.cgi ver.24052200
本文 スレッドタイトル 投稿者