2ちゃんねる ■掲示板に戻る■ 全部 1- 最新50    

文字コード総合スレ part14

1 :デフォルトの名無しさん:2023/03/03(金) 15:46:58.08 ID:yKqwMGHT.net
Windows NTは初代からUnicodeがネイティブの文字コードです。cp932ではありません。
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
 (スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
 (隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
文字コード総合スレ Part10 http://mevius.2ch.net/test/read.cgi/tech/1444822140/
文字コード総合スレ Part11 https://mevius.5ch.net/test/read.cgi/tech/1516629503/
文字コード総合スレ Part12 https://mevius.5ch.net/test/read.cgi/tech/1544931495/
文字コード総合スレ part13
https://mevius.5ch.net/test/read.cgi/tech/1593777227/

371 :デフォルトの名無しさん:2023/06/26(月) 12:44:13.00 ID:15L3klhZ.net
>>370
再発明とかはやってないぞ
普通に gnu tool も昔から locale 対応してるし、今もそう
ただ、まだマイナーなバグや使い難い仕様が一杯残ってるねってだけ。国際化でなくて、特に多言語化のまわりが熟れてない
ユーザーにも一部の開発者にも国際化と多言語化の違いとか、機構と文字コードの違いが良くわかってないやつがいて
本来は「多言語化に問題がある」というべきところを「UTF-8の処理に問題がある」という言い方をしがち

372 :デフォルトの名無しさん:2023/06/26(月) 12:54:23.97 ID:15L3klhZ.net
ここでも知らんやつもいるかもしれないので、一応書いておくと
国際化(i18n): 文字コードとか言語とかを切り替えて使えるようにする機構
多言語化(m17n): 一つのテキストの中に複数の言語の文章を含めることができるようにする機構

373 :デフォルトの名無しさん:2023/06/26(月) 13:12:12.62 ID:15L3klhZ.net
unicode という規格には
(A) 純粋に文字コードを定義している部分。どの文字にどのコードを割り当て、それをどのように符号化するか。UTF-8 は符号化の名前
(B) unicode を使ってどのように多言語化(m17n)を実現するかの部分。標準的な多言語化を提案する。IVSの対応とかはこっち
の2つが含まれてる。
今いろいろやってるのは (B) 側の話。UTF-8対応やってるんじゃなくて「多言語化」対応やってる

374 :デフォルトの名無しさん:2023/06/26(月) 16:20:01.13 ID:LAEwcUbv.net
多言語化は国際化に含まれますか?

375 :デフォルトの名無しさん:2023/06/26(月) 17:50:33.08 ID:e5otmU9r.net
>>373
それもちょっと違うね
「(A) 純粋に文字コードを定義している部分」にUTF8は全く関係ない
そこでは各文字にコード割り当て定義されていてコードは一意に定まる
一方でUTF8やUTF16などはそのコードのエンコーディングの話であり文字コード割り当てとは独立した全く別の話になるね

376 :デフォルトの名無しさん:2023/06/26(月) 18:30:16.65 ID:15L3klhZ.net
>>375
エンコードはコードじゃないという主張の人なの? 珍しいな

377 :デフォルトの名無しさん:2023/06/26(月) 19:03:46.54 ID:CwqPR/Mz.net
>>376
そこは全く異なるのがユニコードの基本
例えば「あ」はコードポイントU+3042と一意に定められている
これはエンコーディング方式に関係なく一意に定まる
エンコーディング方式が増えたり廃止されたりしても影響を受けない

一方でこのコードポイントを扱う時に環境や状況に応じて様々なエンコーディング方式を取ることができる
例えばコードポイントは16bitに収まりきらないので32bitに入れるのがUTF32
「あ」はコードポイントU+3042なのでUTF32だと0x00003042となる
UTF8は8bit前半をascii互換とし8bit後半の不定長列を非asciiに割り当てる
「あ」はコードポイントU+3042なのでUTF8だと0xE3 0x81 0x82となる

このようにコードポイント割り当てとエンコーディングは全く独立した別の分野

378 :デフォルトの名無しさん:2023/06/26(月) 19:14:59.15 ID:b1vEmQDc.net
>>377
それはISO-2022のフレームワークとさほど大差ない
特にShift JISも含めて考えた場合は

379 :デフォルトの名無しさん:2023/06/26(月) 19:27:42.67 ID:Wnoei0OS.net
バイト表現と文字コード体系は別の概念

380 :デフォルトの名無しさん:2023/06/26(月) 22:19:22.18 ID:15L3klhZ.net
>>377
世間では一般的に
コードポイント(符号位置)+エンコード=文字コード
という認識なんだけどね。言葉の定義の問題なので、ここで議論しても始まらないか

381 :デフォルトの名無しさん:2023/06/26(月) 23:14:57.66 ID:zFI2p9hF.net
その感覚はないな
\uXXXXや数値文字参照で指定する値という認識じゃね?
コードポイントそのもの

382 :デフォルトの名無しさん:2023/06/27(火) 00:02:41.00 ID:fkxIsCCD.net
>>381
世間一般はSJISもEUC-JPもUTF-8も文字コードという認識なんだよ。厳密な言い方とはいえないが、そういもの
コードポイントだけを文字コードと呼ぶやつはかなり特殊、自覚しとけ

383 :デフォルトの名無しさん:2023/06/27(火) 00:31:42.23 ID:TcukIZUS.net
character encoding system = encoding method + character set

384 :デフォルトの名無しさん:2023/06/27(火) 00:39:10.68 ID:0oaaTR6k.net
文字コードポイントとそのエンコーディングの区別ができてやつがいるな
例えばUTF8の0xE3 0x81 0x82を文字コードポイントとは言わない
あくまでも文字コードポイントはU+3042であり0xE3 0x81 0x82はUTFでエンコーディングした時のバイト列にすぎない

385 :デフォルトの名無しさん:2023/06/27(火) 01:24:36.76 ID:fkxIsCCD.net
>>383
+ の後ろを coded character set 「符号化文字集合」とした方がより良いな

386 :デフォルトの名無しさん:2023/06/27(火) 07:10:50.09 ID:TcukIZUS.net
>>385
codedじゃ誤解しそうな人が出るので
numberedを付けるかどうか迷った

387 :デフォルトの名無しさん:2023/06/27(火) 09:02:31.09 ID:fkxIsCCD.net
>>386
規格によって用語の意味が違うので難しいところだねインターネットのRFCとかだと正式用語は
code character set + character encoding scheme
それぞれCCSとCESと略されることもある
一般的な日本訳は「符号化文字集合」と「文字符号化方式」かな

388 :デフォルトの名無しさん:2023/06/27(火) 09:03:47.40 ID:fkxIsCCD.net
>>387
dが抜けた。coded character set ね

389 :デフォルトの名無しさん:2023/06/30(金) 18:08:26.89 ID:9szWkPbV.net
>>384
お前は文字コードとエンコードの区別はついているか?

390 :デフォルトの名無しさん:2023/07/01(土) 03:56:24.34 ID:LJyXb+JQ.net
数学の写像だと考えればいいのでは

391 :デフォルトの名無しさん:2023/07/11(火) 16:13:44.17 ID:heSsZz8c.net
てすと🌀🌀

392 :デフォルトの名無しさん:2023/07/27(木) 22:11:05.51 ID:u2yUFzzA.net
𝕏

393 :デフォルトの名無しさん:2023/07/28(金) 00:23:42.06 ID:8p3s4hKM.net
フフフ

394 :デフォルトの名無しさん:2023/07/28(金) 00:51:45.87 ID:9nGZuQCT.net
文字コードって誰が作ってんの?

395 :デフォルトの名無しさん:2023/07/28(金) 02:16:49.64 ID:6UVKXpPK.net
>>394
誰が作っても良い。他人に使ってもらえるかは知らんが

396 :デフォルトの名無しさん:2023/07/28(金) 02:28:54.58 ID:9nGZuQCT.net
俺用の文字コードを作れば、漏洩して悪意ある他人が見ても文字化けで意味不明ってことか。

397 :デフォルトの名無しさん:2023/07/28(金) 19:41:58.97 ID:25x9IMWE.net
まず13文字ずらします

398 :デフォルトの名無しさん:2023/07/29(土) 08:13:24.61 ID:ej8Wm4VI.net
おおジュリアス・シーザー

399 :デフォルトの名無しさん:2023/07/29(土) 14:26:21.89 ID:fTZOzdc3.net
カエサル派にとっては意味不明ってことか。

400 :デフォルトの名無しさん:2023/08/04(金) 14:46:46.47 ID:XLfSEGlw.net
コードずらしただけだと出現頻度でばれるって話

401 :デフォルトの名無しさん:2023/08/04(金) 18:06:48.16 ID:v1ivVYRs.net
-・ ・・- ・-・・ ・-・・ ・--・ ---

402 :デフォルトの名無しさん:2023/08/18(金) 15:49:14.73 ID:s/AKDW6W.net
macOS上の話ですが、'が’という名前のフォルダを作ってその名前をシェルで見ると

% ls | iconv -f utf-8 -t utf-16le | od -x -A n
304b 3099 000a

% echo * | iconv -f utf-8 -t utf-16le | od -x -A n
304c 000a

あれ、もしかしてシェル (zsh) がUnicodeの合成をしている?

403 :デフォルトの名無しさん:2023/08/18(金) 23:53:14.80 ID:mQKTVMWd.net
bashでやると元のままでコマンドを外部コマンドにしても変わらないから
globがそういう動作なんやね

404 :デフォルトの名無しさん:2023/08/19(土) 00:16:00.94 ID:Af/nXbF+.net
正確に言うと MacOS の zsh のグロブだな。

405 :デフォルトの名無しさん:2023/08/19(土) 01:35:51.14 ID:5L917aO4.net
>>404
もしかしてmacOS上以外のzshだと挙動が違ったりします?

406 :デフォルトの名無しさん:2023/08/19(土) 02:04:07.40 ID:Af/nXbF+.net
>>405
違う

407 :デフォルトの名無しさん:2023/08/19(土) 10:09:35.79 ID:5L917aO4.net
>>406
確かに、zshのソースを見てみたらMac上だとファイル名を加工する処理が入ってました:
https://github.com/zsh-users/zsh/blob/master/Src/utils.c#L5169

408 :デフォルトの名無しさん:2023/08/19(土) 10:21:56.98 ID:5L917aO4.net
が、果たしてそれはいい事なんだろうか。小さな親切大きなお世話という気もしないでもない

皆さんご存知macOS上のFSはファイル名がUnicodeの分解形になっているのだが、
上記により、シェル内でワイルドカードを使うとファイル名が合成形で得られる
その後、そのファイル名を加工して別のファイルを作ると、合成形でファイルが作られること
になる(macOSのUNIXレイヤーではパス名を分解形にすることは強制ではない)

結果、分解形のファイル名と合成形のファイル名がコンタミするではないか、と

409 :デフォルトの名無しさん:2023/08/19(土) 10:44:11.66 ID:Af/nXbF+.net
>>408
macOS には HFS+ と APFS というのがあってだな。

410 :デフォルトの名無しさん:2023/09/18(月) 15:14:20.26 ID:lNC8R66h.net
awkが新しくなる!? 本家AwkがUnicode (UTF-8)とCSV対応に!
https://qiita.com/ko1nksm/items/1a3e711bbd925657f5fd

やっぱりUTF-8に対応するにはアプリ側を修正しなきゃいけないって事ね

411 :デフォルトの名無しさん:2023/09/18(月) 17:45:11.83 ID:xE50yd7v.net
>>410
そもそも、そういう用途は nawk じゃなくて gawk とか使ってるので今更 nawk が対応したと主張したところで意味無し
nawk は文字とバイトの区別すらついて無かった古典だし。POSIX?それ美味しいの?状態だったのがようやく今頃になって対応始めた感じ。まだ問題だらけなので文字コード区別必要な場面での使用は非推奨。

412 :デフォルトの名無しさん:2023/09/21(木) 17:13:01.39 ID:2fMT8T96.net
事故の予感しかしない

413 :デフォルトの名無しさん:2023/10/05(木) 21:37:01.18 ID:629OTK1e.net
全ての開発者が知っておくべきUnicodeについての最低限の知識
https://gigazine.net/news/20231005-unicode/

414 :デフォルトの名無しさん:2023/10/06(金) 02:09:53.00 ID:rMpfnI78.net
互換漢字のことを思い出してもいいですか

macOSのFinderで神というフォルダーを作ると神に変換される
Chrome上で神を検索すると神と神の両方にマッチする
Firefox上で神を検索すると神にはマッチしない
Firefox上で分解形の神︀で検索すると合成形の神にはマッチしない
Mozcで神︀を入力すると分解形がデフォ

みんなちがって、みんないい?

415 :デフォルトの名無しさん:2023/10/06(金) 09:13:41.28 ID:r0aKLQgw.net
おはよう
今起きたけど、UTF-8にBOMつけるか否か?結論は出た?

416 :デフォルトの名無しさん:2023/10/06(金) 09:59:40.01 ID:Zl0hPCVy.net
UTF-8にBOは存在しない

BOMなんて概念が不要

議論も何も無い

417 :デフォルトの名無しさん:2023/10/06(金) 11:34:57.64 ID:rMpfnI78.net
>>414
>macOSのFinderで神というフォルダーを作ると神に変換される

このあたり、Appleには素のNFDとは少し違う独自の正規化を使うこだわりが
あったのだと思っていたけど、今は違うのかな?

418 :デフォルトの名無しさん:2023/10/06(金) 14:17:35.44 ID:RyNaN3Hq.net
>>416
元来の用途で使う可能性が無いからこそ新しいより有用な目的を割り当てて使えるのですね

419 :デフォルトの名無しさん:2023/10/06(金) 17:44:51.54 ID:vOZibH++.net
>>416
お前が世間知らずなだけ
エディタでbomありutf8は普通にサポートされてる
当然これは需要があるから

420 :デフォルトの名無しさん:2023/10/06(金) 18:03:58.96 ID:vujaBc4z.net
Firefoxの検索は半角カナの同一視もしてくれないからなあ

421 :デフォルトの名無しさん:2023/10/06(金) 21:14:36.66 ID:VyRY/4o/.net
How can I get WideCharToMultiByte to convert strings encoded in UTF-16BE?
https://devblogs.microsoft.com/oldnewthing/20231005-00/?p=108854

UTB-16BEからShift_JISに変換したいとかいろんな要望があるものだな

422 :デフォルトの名無しさん:2023/10/06(金) 21:24:18.57 ID:cSD4ys+j.net
>>416
正確には「UTF-8にバイトオーダーの違いはない」だな。

423 :デフォルトの名無しさん:2023/10/06(金) 22:08:49.33 ID:g8qFATdI.net
JSONなどBOMを付与して送信してはいけないと明確に規定されていたり
BOMを取り扱わない規定やソフトウェアもあるため
UTF8ではBOMを付与しないほうが好ましい

424 :デフォルトの名無しさん:2023/10/06(金) 22:54:13.21 ID:cSD4ys+j.net
JSOINファイルに付けるなとは言ってないみたいよ

425 :デフォルトの名無しさん:2023/10/06(金) 23:20:11.94 ID:tE7CLicd.net
#!shebangの邪魔になるだろ

426 :デフォルトの名無しさん:2023/10/07(土) 09:59:00.66 ID:I3+2vFW6.net
>>425
BOMを認識するようシステムコールを改修すればいいだけ
それをしないのはOS開発者の怠慢

427 :デフォルトの名無しさん:2023/10/07(土) 10:25:02.17 ID:8Whhaa6B.net
>>414
macOS/iOSのSafariではひらがなとカタカナを同一視するという挙動があるようで
みんなちがって、みんないいw

428 :デフォルトの名無しさん:2023/10/07(土) 10:55:59.28 ID:dXS7C+xF.net
>>426
execve の引数解釈が locale に従うのであれば BOM を付けるべきではない状況に該当すると思う。

429 :デフォルトの名無しさん:2023/10/07(土) 19:44:18.39 ID:hE+46nhQ.net
BOMなしがいいってのはAsciiしか対応してないレガシーソフトウェアに通したいから?
UTF8を意識できてるならBOMのありなしの両対応は簡単だし

430 :デフォルトの名無しさん:2023/10/07(土) 20:50:45.55 ID:iX5KyQz4.net
>>429
ファイルの接続とか分割にゴミ処理とかしないですむ。自分がいまから出力するのが先頭かどうか不明とかでも問題は起きない
ファイルの先頭とかには別の識別子置きたいアプリもある。先頭BOMが優先して使えるとか思い上がり。
そして何より、世の中すべて UTF-8 で情報交換すべきで、他の文字コードは内部コード以外は認めない。滅べば良いと本気で信じてるので BOM に使いみちなんかない。
だいたい最近の欧米の主張はこんな感じ。

431 :デフォルトの名無しさん:2023/10/07(土) 21:50:44.31 ID:gQ4GHwFf.net
UTF8こそが不要で滅べば良い。I

432 :デフォルトの名無しさん:2023/10/08(日) 05:39:53.69 ID:c7bH/Jal.net
これからの時代は UTF-32

433 :デフォルトの名無しさん:2023/10/08(日) 05:43:54.93 ID:c7bH/Jal.net
なぁに。1バイトを32bitにしてしまえばエンディアンがどうのなどとつまらない事を考える必要もなくなる。BOMも不要。

434 :デフォルトの名無しさん:2023/10/08(日) 05:46:34.19 ID:c7bH/Jal.net
いいかげんチマチマと8bitづつ扱うようなケチな精神がいけない。
8bit CPU の事などもう忘れろ。

435 :デフォルトの名無しさん:2023/10/08(日) 12:38:49.49 ID:BgGDjECm.net
>>432
文字結合あるからUTF32でも解決しない
結局可変ならUTF8が合理的という考え方もある

436 :デフォルトの名無しさん:2023/10/08(日) 13:46:55.09 ID:VA0G2N7t.net
>>435
つまり UTF1024 が必要ということだな

437 :デフォルトの名無しさん:2023/10/09(月) 13:08:59.15 ID:anIJ/4nw.net
えっ

438 :414:2023/10/09(月) 14:11:34.76 ID:o3mTrHdx.net
ふーん

結局UTF-8にBOMつけるか否か?まだ結論は出てないんだな?
じゃあ、今からまた寝るから結論出たら教えて…おやすみ

439 :デフォルトの名無しさん:2023/10/10(火) 07:39:18.70 ID:dUGfQnTA.net
結論は出ない、永遠に寝てろ

440 :デフォルトの名無しさん:2023/10/10(火) 08:43:04.58 ID:5iCI9hbC.net
結論も何も最初から規格上は「つけないことを推奨」。規格を無視するやつらは勝手につけてるだけ。
これ以上何に結論を出せと?

441 :デフォルトの名無しさん:2023/10/10(火) 09:13:29.30 ID:aKJ84hs/.net
禁止はしてないな。いくつか使用すべきではない状況はあるがそれ以外必要に応じて使ってよい。
まあいずれEUCと同じように淘汰はされていくと思うが。

442 :デフォルトの名無しさん:2023/10/11(水) 14:25:41.16 ID:+taOca1a.net
拡大解釈を結論としちゃうとそりゃ永遠に終わらんよな

443 :デフォルトの名無しさん:2023/10/11(水) 16:29:14.72 ID:dsbLch4n.net
もう恥ずかしいからやめろよ

444 :デフォルトの名無しさん:2023/10/11(水) 16:32:12.66 ID:iAp1htgn.net
文字コードの自動判定でBOMが欲しいんでしょ
だったら日本人的には当面ありの方がいいんじゃないの

445 :デフォルトの名無しさん:2023/10/11(水) 17:54:36.20 ID:UpuL/ixe.net
まじで文字コード判定でBOM必要とするなんてExcel以外にしらんし
他にならって決め打ちか失敗前提で推測する実装にしとけばこんなことにはならなんだ

446 :デフォルトの名無しさん:2023/10/11(水) 23:59:31.72 ID:Bi4J/pND.net
>>444
今はネット通信もローカルもUTF8を使うのが普通だからBOMは要らない
HTTPやHTMLならそこで文字コード指定できるし

447 :デフォルトの名無しさん:2023/10/12(木) 21:40:02.12 ID:HDD8qAO3.net
UTF8を使うのが普通だったりエンコーディングを指定できる所ばかりじゃないんだからBOMがあるのは仕方ない

448 :デフォルトの名無しさん:2023/10/12(木) 22:03:04.02 ID:/ksYFMDD.net
>>445
まさにExcelのためにBOM付けてる

>>446
早くWindowsのシステムロケールが標準でUTF-8になれば良いな

449 :デフォルトの名無しさん:2023/10/12(木) 22:26:37.40 ID:dSlEv+Dk.net
visual studioもbom必要
設定でutf8指定したら不要だけど
外部のソースまでutf8前提になるので踏み切れない

450 :デフォルトの名無しさん:2023/10/12(木) 23:49:07.23 ID:vmLUU1Bo.net
いわゆるWindows PowerShell(5.x系)も、日本語を含むスクリプトの場合は BOM付きUTF-8 で保存する必要がある

文字コード、改行コード(何らかのデミリタ)に関わる問題は果てしなく続く
そして、文字数カウント問題も...

451 :デフォルトの名無しさん:2023/10/13(金) 08:42:04.37 ID:QFEuT346.net
>>448
Mac, iPhone も Linux, android も BOM なし UTF8 オンリーで、十分いけてることを考ええると、
UTF8にBOM必要とかいってるやつも、日本語 Windows の system locale が UTF8 なったら手のひら返すだろうね

452 :デフォルトの名無しさん:2023/10/13(金) 09:08:31.59 ID:Zvnb58M2.net
必要だから使っているだけで、必要なくなったら使わなくなるだけ。
手のひら返すって発想が出るのはこれをなにか派閥争いや宗教的対立ととらえているんだろうな。

453 :414:2023/10/13(金) 09:49:50.49 ID:e5Ke0Kb/.net
みんなうるさいなぁ…全然寝れないじゃん!
結論は出ない…という結論が出てるんだから
もうみんな静かにしといて欲しいわ

ホントの結論が出たら起こしてねw

454 :デフォルトの名無しさん:2023/10/13(金) 09:59:16.16 ID:an/6eWNJ.net
UTF-8にBOMは不要だがBOMを要求する出来の悪いアプリが存在するというだけの話
アプリを修正すればいいだけなのに出来の悪い子のためにBOM付きファイルを広めようとするから迷惑がられる

455 :デフォルトの名無しさん:2023/10/13(金) 20:19:14.08 ID:Zvnb58M2.net
こう、「出来の悪い」とか要らん煽りをちょいちょい挟んでくるのがな

456 :デフォルトの名無しさん:2023/10/13(金) 21:36:36.55 ID:UzC3xoYA.net
環境のCPのエンコーディングとUTF-8を両対応したくてBOMを導入した設計は偏狭
専用の閉じたデータなら勝手にどうぞだけどCSVファイルだよ
出来が悪いにもほどがある

457 :デフォルトの名無しさん:2023/10/13(金) 22:08:36.81 ID:Zvnb58M2.net
一応Unicode規格に定められた仕様なわけだがそれを正しく実装しても出来が悪い呼ばわりするわけだな

458 :デフォルトの名無しさん:2023/10/13(金) 23:15:47.89 ID:SKnf/8eA.net
CSVファイルの一般的書式 (RFC4180 日本語訳)
http://www.kasai.fm/wiki/rfc4180jp

CSVファイルにBOM付けるな、なんてどこに書いてあるんだよ

459 :デフォルトの名無しさん:2023/10/14(土) 00:20:16.97 ID:U0vUYMwi.net
>>458
ABNF表記

そのRFCはメジャーではないし従う必要もないけどね

460 :デフォルトの名無しさん:2023/10/14(土) 12:58:12.11 ID:x03gZ5vc.net
VC++はコンパイルオプションでBOM無し通るようになったから許す

461 :デフォルトの名無しさん:2023/10/14(土) 23:17:30.52 ID:BgrcFKKf.net
あ、そうか。UTF-8なのにBOM入りにする理由はコードの自動判別のためか。

462 :デフォルトの名無しさん:2023/10/15(日) 01:20:23.94 ID:QRU3KQek.net
>>461
Windows は文字コードの指定がないとシステムロカールに設定されている文字コード(日本語WiIndows11だとCP932=SJIS)という約束になっていて、これを変更せずに UTF−8 を使いたいがための苦肉の策だった(過去形)。
最近はマイクロソフトはこの約束を破棄して標準を UTF−8 にするよう要請してるし、将来システムロケールのデフォルトを UTF−8 に変更することは確実なので、単なる経過措置。

463 :デフォルトの名無しさん:2023/10/15(日) 01:39:21.51 ID:xER5snLk.net
メモ帳のデフォルトの文字コードは、BOM付きUTF-8

464 :デフォルトの名無しさん:2023/10/15(日) 02:16:16.57 ID:ZnCIGybA.net
>>463
もう今は BOM なしがデフォ
BOM 付にする場合は格納する時に明示的に選ぶ

465 :デフォルトの名無しさん:2023/10/15(日) 10:20:43.11 ID:qGVDb90a.net
「メモ帳」に多数の改善、BOMなしUTF-8がデフォルト保存形式に 〜「Windows 10 19H1」
https://forest.watch.impress.co.jp/docs/news/1157696.html

466 :デフォルトの名無しさん:2023/10/15(日) 11:24:00.22 ID:2RtZyNYP.net
「UTF8はBOMを付けない」
これでWindows以外は統一されている
WindowsでもBOMなしが標準になりつつある
大勢は決した

467 :デフォルトの名無しさん:2023/10/15(日) 12:36:43.97 ID:MbTcJx+r.net
ExcelがBOM無しCSV/TSVを文字化けせずに読み込んでくれたら解決しそうw
自慢?のcopilot使ってもいいからさっさと解決しろやーw

468 :デフォルトの名無しさん:2023/10/15(日) 13:03:46.10 ID:QRU3KQek.net
>>467
今でもシステムロカールを UTF8 に切り替ええると BOM なしで読める。システムのデフォルトを SJIS に設定しているから BOM なしを SJIS とみなしてるだけ。

469 :デフォルトの名無しさん:2023/10/15(日) 14:10:15.45 ID:nt2NScg7.net
>>468
今のExcelの挙動の方がOSの設定を反映してて行儀良いとも言える
WindowsがUTF-8で統一されるには、まずはWindowsのシステムロケールの規定値がUTF-8にならないことにはな

470 :デフォルトの名無しさん:2023/10/15(日) 15:48:50.38 ID:QRU3KQek.net
>>469
その通りなんだが、マイクロソフト自身がそこを翻して、今後は外部文字コードはシステム設定にかかわらず UTF8 にするようにプログラマー向けのガイドで推奨している。
時代は変わったというやつだな。

269 KB
新着レスの表示

掲示板に戻る 全部 前100 次100 最新50
名前: E-mail (省略可) :

read.cgi ver.24052200