2ちゃんねる スマホ用 ■掲示板に戻る■ 全部 1- 最新50    

■ このスレッドは過去ログ倉庫に格納されています

文字コード総合スレ part13

1 :デフォルトの名無しさん:2020/07/03(金) 20:53:47.08 ID:elbfDzqw.net
Windows NTは初代からUnicodeがネイティブの文字コードです。cp932ではありません。
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
 (スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
 (隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
文字コード総合スレ Part10 http://mevius.2ch.net/test/read.cgi/tech/1444822140/
文字コード総合スレ Part11 https://mevius.5ch.net/test/read.cgi/tech/1516629503/
文字コード総合スレ Part12 https://mevius.5ch.net/test/read.cgi/tech/1544931495/

2 :デフォルトの名無しさん:2020/07/03(金) 23:13:42.20 ID:uIgOlo/V.net
「コマンドプロンプトはcp932(SJIS)である」はウソ

Windows NTの標準の文字コードであるUnicode(UTF16-LE)の
テキストファイルを作り、chcp 932のままtypeコマンドで表示してみましょう
文字化けせずに表示されますね?
(フォントがない場合は表示されないがそれ以外は問題ない)

これは明らかにコマンドプロンプトがUnicodeで動作している証拠です。

コマンドプロンプトがUnicode動いているという証明はこれで十分だと思いますが、
もし仮に反論があるならその根拠を言ってくれれば説明を追加します。
(根拠なしにcp932にきまってるだろ!みたいなものは一言で潰しますのでよろしく)

3 :デフォルトの名無しさん:2020/07/03(金) 23:16:22.71 ID:3O02Rgol.net
誰か前スレのまとめを

4 :デフォルトの名無しさん:2020/07/03(金) 23:37:05.11 ID:8QUz9sdR.net
>>3
まだpart12を消費して無いので、part12を埋めて下さい。
文字コード総合スレ Part12
https://mevius.5ch.net/test/read.cgi/tech/1545032904/

5 :デフォルトの名無しさん:2020/07/03(金) 23:41:16.48 ID:ts7cS+ZF.net
まとめ要らないと思う
前後の文脈読まないと意味不明なの多いし

6 :デフォルトの名無しさん:2020/07/04(土) 00:02:52.75 ID:KYM6hePT.net
>>2
最近は元々入ってる「コマンド プロンプト」よりも
VSで一緒に入る「開発者コマンド プロンプト for VS 201X」
とか使ってる
同じじゃないかって言われるかも知れないけど違う

7 :デフォルトの名無しさん:2020/07/04(土) 00:15:30.02 ID:ve9MtcL4.net
>>6
環境変数が設定されてるだけ

8 :デフォルトの名無しさん:2020/07/04(土) 00:18:36.29 ID:KYM6hePT.net
うん同じなのは知ってる

昔のコマンドプロンプトは chcp 65001 してもバグってたけど
今のは chcp 65001 しなくても utf-8 で動くから快適

9 :デフォルトの名無しさん:2020/07/04(土) 00:26:20 ID:KYM6hePT.net
ああバグはあるわ
うっかりバイナリで変なパターン出力すると
コマンド プロンプト は落ちないのに Chrome が落ちたりするんだ
ホントは保護されてないといけないメモリを壊す観たい

10 :デフォルトの名無しさん:2020/07/04(土) 21:57:15.92 ID:0DTN05zS.net
「うわー、ID:uIgOlo/V 君て博識なんだね。私も試してみるね。
「コマンドプロンプトを開いて…と
「それで “漢字”と入力したファイル k を UTF16 LE で保存と…
「よし準備完了!

--
C:\>od -x k
0000000 feff 6f22 5b57 000d 000a
0000012

C:\>type k
漢字

C:\>copy k con
 ・"oW[
     1 個のファイルをコピーしました。

C:\>cat k
 ・"oW[

C:\>type k | od -t x1
0000000 8a bf 8e 9a 0d 0a
0000006

C:\>
--

「あれれ? ID:uIgOlo/V 君、なんかおかしいよ? どうして?
「“「コマンドプロンプトはcp932(SJIS)である」はウソ”なんだよね?

11 :デフォルトの名無しさん:2020/07/04(土) 22:24:59.27 ID:pCOzWn8m.net
>>10
いつの間にkの中身が書き換わってるの?
何やだ怖い君のPCおかしいよ

12 :デフォルトの名無しさん:2020/07/04(土) 23:32:05 ID:M3d71N9d.net
>>39
cmd /?
/A 内部コマンドの出力結果を ANSI でパイプまたはファイルに出力します。
/U 内部コマンドの出力結果を Unicode でパイプまたはファイルに出力します。 

13 :デフォルトの名無しさん:2020/07/05(日) 12:38:46.50 ID:NbYPgepr.net
デフォは /A なんだろ
そんで /A のときは
chcp の値に依存するんだろ
パイプで常に cp932 になると思ったら間違い

14 :デフォルトの名無しさん:2020/07/05(日) 12:39:54.58 ID:NbYPgepr.net
>>2 の結論は間違いだけど
>「コマンドプロンプトはcp932(SJIS)である」はウソ

ここだけは合ってる

15 :デフォルトの名無しさん:2020/07/05(日) 21:04:42.33 ID:M+BkbwUs.net
>>14

> >>2 の結論は間違いだけど

間違ってる「結論」とはどの部分?

16 :デフォルトの名無しさん:2020/07/05(日) 21:05:40.27 ID:M+BkbwUs.net
>>2の結論は一行目。つまりお前が合ってると言った部分だろう?

>「コマンドプロンプトはcp932(SJIS)である」はウソ

17 :デフォルトの名無しさん:2020/07/05(日) 21:10:40 ID:M+BkbwUs.net
>>13

> /A 内部コマンドの出力結果を ANSI でパイプまたはファイルに出力します。

では画面へは何コードで出力しているでしょうか?

答えはUincode。なぜならUnicode文字が文字化けせずに出力できているから

18 :デフォルトの名無しさん:2020/07/06(月) 01:17:06.10 ID:lyDtf+5h.net
ウイーンがしゃ

19 :デフォルトの名無しさん:2020/07/06(月) 10:52:37 ID:vjiPzzt6.net
普通に読んだら結論はこっち

>これは明らかにコマンドプロンプトがUnicodeで動作している証拠です。

圧倒的に国語力が無いか
論理思考が出来ない人なんだろう

20 :デフォルトの名無しさん:2020/07/06(月) 15:20:25.67 ID:9+hHOd2F.net
>>19
証拠があって、結論が出るんだろ?

大丈夫か?国語力の問題か?

21 :デフォルトの名無しさん:2020/07/06(月) 15:21:22.15 ID:9+hHOd2F.net
最初に結論を書くっていう有名な国語的テクニックを知らないのかな?

22 :デフォルトの名無しさん:2020/07/09(木) 06:07:26.69 ID:uQo6bqoB.net
「絵文字 知られざる舞台裏」
私たちがスマホなどで日常的に使っている絵文字。
この絵文字は、“世界共通言語”として管理されており、絵文字の新規採用をめぐり、様々な団体がロビー活動を行っている。

“共通言語”として世界的に規格が統一されている絵文字。
アメリカの大手IT企業などからなる団体が、新たな絵文字の採用を決定しており、認定を求めて様々な団体がロビー活動を行っている。
番組では、白ワインの絵文字採用を求める醸造家などのロビー活動を取材。
絵文字は、どのようなプロセスで決定されてゆくのか、その知られざる世界を描く。
原題:Backlight: Beyond Emoji (オランダ 2019年)
https://www.nhk.jp/p/wdoc/ts/88Z7X45XZY/episode/te/2QGK3QN6JJ/

23 :デフォルトの名無しさん:2020/07/09(木) 08:50:19 ID:TKLTGhB7.net
>>22
>“世界共通言語”
>アメリカの大手IT企業などからなる団体

NHK的な物言い、いいねw
でも、「言語」 って?

これ、カリフォルニアのワイナリーの話かな?
そこのMLに登録するとサブジェクトに絵文字の入ったメールを送ってくるとかなんとかw

24 :デフォルトの名無しさん:2020/07/09(木) 08:55:49.71 ID:ah/SMoHN.net
ドレスデン・コデックス
マドリー・コデックス
パリ・コデックス
グロリア・コデックス

25 :デフォルトの名無しさん:2020/07/09(木) 09:04:12 ID:vrNDocOm.net
本編観たけどつまらなさ過ぎて途中で寝てしまった
IBM Apple Microsoft Google Facebook あたりの名前はちゃんと言ってたと思う

26 :デフォルトの名無しさん:2020/07/09(木) 09:07:15.41 ID:vrNDocOm.net
一部思い出した
NHKらしくほとんど黒人とLGBTの話ばかりだったんだが

私の造ったEmojiが登録されたって自慢気に中国人研究者っぽいおばさんが出て来て
チベットの旗は候補に出たけど登録は見送られた
チベットの旗が登録されることは今後も無いでしょう
って笑いながらインタビューに答えてた

27 :デフォルトの名無しさん:2020/07/10(金) 17:30:08.40 ID:4InogVIm.net
チベットの旗は日本の旭日旗がデザインのベース。

28 :デフォルトの名無しさん:2020/07/11(土) 17:41:39.15 ID:fgTDqbZy.net
いろんなところでポリコレの話が出てきて嫌になる

29 :デフォルトの名無しさん:2020/07/11(土) 20:07:36.65 ID:LiyD05XT.net
Unicodeはもうだいぶ前からそういう世界です

30 :デフォルトの名無しさん:2020/07/12(日) 10:45:57 ID:NK7E+AG5.net
赤の▼が投稿禁止用語だとは知らなかったわ

31 :デフォルトの名無しさん:2020/07/12(日) 10:47:50.51 ID:NK7E+AG5.net
https://ja.wikipedia.org/wiki/%E3%83%8A%E3%83%81%E5%BC%B7%E5%88%B6%E5%8F%8E%E5%AE%B9%E6%89%80%E3%81%AE%E3%83%90%E3%83%83%E3%82%B8

32 :デフォルトの名無しさん:2020/07/12(日) 14:49:14 ID:6LAoyHzZ.net
↑「ナチ強制収容所のバッジ」というページ。他に人が見なくていいように。

33 :デフォルトの名無しさん:2020/07/17(金) 17:49:02.99 ID:zYg36R0O.net
世界絵文字Dayらしいぞ
知らんけど

34 :デフォルトの名無しさん:2020/07/17(金) 18:21:35.43 ID:p55TjBUs.net
そのうち絵文字が第2エスペラントになりそうな勢いだな

35 :デフォルトの名無しさん:2020/07/17(金) 20:11:36.87 ID:zXFMI6BU.net
言ってもThis is a pen.も表現できないぞ

36 :デフォルトの名無しさん:2020/07/18(土) 00:37:29.47 ID:wH8oKg8v.net
P(P.A.P)

37 :デフォルトの名無しさん:2020/07/18(土) 00:47:07.96 ID:/iWSRGfH.net
👇🖊
余裕だぜ

38 :デフォルトの名無しさん:2020/07/18(土) 03:09:52.25 ID:LPIx8Uu7.net
below pen

39 :デフォルトの名無しさん:2020/07/18(土) 10:40:45 ID:zDePOjuW.net
アイちゃんと会話できる絵文字ってそろってるのかな

40 :デフォルトの名無しさん:2020/07/18(土) 13:20:10.73 ID:uRU3MGLx.net
架空発注繰り返してもらえるくらい強力なコネが欲しい

41 :デフォルトの名無しさん:2020/07/18(土) 14:31:48.16 ID:usxmbyTV.net
Part12先に使え
https://mevius.5ch.net/test/read.cgi/tech/1545032904/l50

42 :デフォルトの名無しさん:2020/08/10(月) 17:37:29 ID:wInlBSoO.net
禁止文字なんか?
溢鎰螠塧縊謚搤

43 :デフォルトの名無しさん:2020/08/10(月) 18:36:25 ID:bk6is28U.net
>>42
(@?@ .:;)ノシ

44 :デフォルトの名無しさん:2020/08/11(火) 12:23:17.24 ID:2c8mpoZg.net
うざったてーも30歳か

45 :デフォルトの名無しさん:2021/05/13(木) 16:58:46.99 ID:0opMfQ+n.net
てすてすとと

46 :デフォルトの名無しさん:2021/05/13(木) 17:13:23.87 ID:bi8pzl4S.net
瓜皮帽を被った男
👲👲🏻👲🏼👲🏽👲🏾👲🏿👲

47 :デフォルトの名無しさん:2021/05/13(木) 21:29:00.08 ID:39tz2cvT.net
ID:0pD51twu
イキってるねえ〜

48 :デフォルトの名無しさん:2021/05/14(金) 08:07:05.15 ID:ERw3EzI8.net
>>31
日本語がURLでエンコードされると長いよなあ
日本語1文字がアスキー9文字って... 誰だよこんなの考えたの
あともう一つなんだけ、ぷよぷよみたいな名前の

49 :デフォルトの名無しさん:2021/05/14(金) 08:10:51.08 ID:+o3KrcS5.net
>>48
punyCode

50 :デフォルトの名無しさん:2021/05/14(金) 20:48:59.82 ID:G+x0luD+.net
ここがよみがえったのか

51 :デフォルトの名無しさん:2021/05/14(金) 22:48:47.46 ID:XJlzr4U7.net
次スレはここでいいのかな?

>>48
文字コードが決まってない(なかった)んだから仕方ないじゃない

52 :デフォルトの名無しさん:2021/05/15(土) 03:51:54.74 ID:t/FYGves.net
決まってないならパーセントを使えばいいじゃない

53 :デフォルトの名無しさん:2021/05/15(土) 11:08:47.44 ID:zmWSHBKO.net
もともと ascii のみ。ascii の中でも一部使えない文字があるので、それは %エンコードする。
だったのが国際化にはUTF-8を使えに拡張された。
文字コードが決まってなかったわけではない。
あとURLにSJISとかUTF-16送ってくるやつは滅びろ。今すぐ滅びろ。

54 :デフォルトの名無しさん:2021/05/15(土) 12:50:09.97 ID:eYtIld1h.net
URLにBOM導入してればよかったのにな

55 :デフォルトの名無しさん:2021/05/15(土) 12:52:59.23 ID:zmWSHBKO.net
>>54
滅びろ

56 ::2021/05/15(土) 16:27:48.48 ID:JZCPEXPS.net
>>55
WWW

57 :デフォルトの名無しさん:2021/05/24(月) 19:37:25.20 ID:RWCB+vU8.net
文字コードの勉強中です
Windowsで使われている文字コードはCP932(Shift-JISの拡張版)ということまで分かりました。 IMEパッドで理解を深めようとしているのですが、分からないことがあるのでご教示お願いします。
・IMEパッドの「シフトJIS」はCP932のことを指していると思っていいですか?
・IMEパッドの「JIS X 0208」はCP932の文字集合だと思っていいですか?
・だとすると「JIS X 0208」と「シフトJIS」は一対一で対応すると思いますが、「シフトJIS」にあって「JIS X 0208」に無い文字(@やTなど)があるのはなぜですか?

過疎っているようですがご回答いただけると幸いです

58 :デフォルトの名無しさん:2021/05/24(月) 22:17:38.35 ID:VrK5qnvr.net
勉強してるなら、理由も考えてみなよ
他人に丸投げするのは勉強とはいわない

59 :デフォルトの名無しさん:2021/05/24(月) 22:53:01.93 ID:ZP3SRefF.net
>>58
お前も他人さまから教えてもろたくせにw

60 :デフォルトの名無しさん:2021/05/25(火) 00:01:45.40 ID:qVwcwRoW.net
仮定に対して反例が確認できたんだから仮定が誤ってたということだよ

61 :デフォルトの名無しさん:2021/05/25(火) 08:37:04.98 ID:6TyV4LYI.net
>>57
すごく大まかな説明をすると、
Windowsで使われているShiftJISの文字コードはMicroSoft版方言に侵されてて純正のShiftJISではない
「CP932」という言い方では純正ShiftJISなのかそれともMicroSoft版・Mac版・IBM版その他の方言なのか分からない
(まあ一般にはCP932という言い方をするとMS版のことを指す
明示的にMS版のCP932だということを示す際には、MS932とかWindows31Jとかいう呼び方をする)

なので
1つ目は、その「CP932」が指すものによる、純正ShiftJISを想定しているなら厳密には違う
2つ目は・・・・これもごくごく大まかに言ってしまうと「JIS X 0208」はシフトさせてないおおもとのJIS漢字コードのこと
(なのでShiftJISとはコード体系が違う。計算でシフトさせることで簡単にJIS⇔ShiftJISが導出できるけど)
3つ目のは、違ってる箇所の具体例がまさに丸数字とかの特殊文字に該当してる

というかこれは歴史的経緯によるものだからなあ、後世からみたら理不尽の塊でしかないだろう
理由を考えてみろと言われて分かるわけがないよ

62 :デフォルトの名無しさん:2021/05/25(火) 09:29:36.84 ID:lUfYCE+Z.net
文字集合のはなしと、符号化方式のはなしと、符号化文字集合のはなしと、文字コードのはなしを混同している人が多いな。

63 :デフォルトの名無しさん:2021/05/25(火) 11:48:06.96 ID:rDgveWWs.net
JIS X 0208/JIS X 0213の表はJISが決めたやつ
シフト JISの表はMicrosoftが決めたやつ
この二つは歴史的経緯で色々違いがあります
くらいの理解でいいんじゃないか

64 :デフォルトの名無しさん:2021/05/25(火) 14:38:56.72 ID:ZdUybFI8.net
そういえば、昔の*nixで日本語環境整えるのに、
このあたりが理解できないとまともな日本語表示すら出来なかったような

65 :デフォルトの名無しさん:2021/05/27(木) 14:53:45.70 ID:U0nLnJgd.net
>>57
>「JIS X 0208」と「シフトJIS」は一対一で対応する

違う

66 :デフォルトの名無しさん:2021/05/27(木) 22:18:14.67 ID:ApJEbFpd.net
違わない

67 :デフォルトの名無しさん:2021/05/28(金) 02:11:41.16 ID:whTgKivm.net
違う
違わない

68 :デフォルトの名無しさん:2021/06/01(火) 14:48:43.50 ID:SuGQKf4C.net
行きつけのオシャレ美容院からのLINEの文末にいつも必ず絵文字の“うんち”が付いてて謎だったが、原因が判明したかもしれない「大事故じゃん…」 - Togetter
https://togetter.com/li/1721407

十年くらい前に同じ内容聞いた気がするけどまだ直ってないのかこれ

69 :デフォルトの名無しさん:2021/06/01(火) 17:01:55.60 ID:SY/ATIGy.net
どうなおしゃいいの

70 :デフォルトの名無しさん:2021/06/01(火) 19:28:50.99 ID:F3dBNOsH.net
いまだにどこかの段階でShiftJISでエンコードしてるの?

ってここ(5ch)も人のこと言えんけどw

71 :デフォルトの名無しさん:2021/06/01(火) 20:53:16.19 ID:4DGKxEbP.net
昔の〓〓〓のように外に出す絵文字〓全部〓に変換するのはどう〓〓

72 :デフォルトの名無しさん:2021/06/02(水) 10:55:13.97 ID:qtmfAhQ7.net
どうみても禿銀行が悪いのに
docomoの皆さん気を付けてくださいって
可笑しくないか?

どうみても武漢ウィルスなのに
世界中が迷惑受けてるのと同じ構図

73 :デフォルトの名無しさん:2021/06/02(水) 11:18:23.22 ID:BmjFsUtA.net
アポーが悪いんじゃないのか

74 :デフォルトの名無しさん:2021/06/03(木) 10:44:27.32 ID:9KAhsr64.net
💩
ほんとだ

75 :デフォルトの名無しさん:2021/06/05(土) 16:48:33.23 ID:z5K2FV3a.net
キャリアメールならそれぞれの絵文字に変換出来るだろうけど

76 :デフォルトの名無しさん:2021/06/05(土) 20:14:55.50 ID:cYmj+3h7.net
はい

77 :デフォルトの名無しさん:2021/06/07(月) 02:14:41.67 ID:aeSTySQn.net
はいじゃないが

78 :デフォルトの名無しさん:2021/06/07(月) 19:10:55.29 ID:u+Odt9Qf.net
..!

79 :デフォルトの名無しさん:2021/06/09(水) 22:58:16.69 ID:ke1p9j/w.net
UTN #43: Unihan Database Property “kStrange”
http://www.unicode.org/notes/tn43/

Ken先生の新作

80 :デフォルトの名無しさん:2021/06/09(水) 23:56:37.41 ID:LXY7VL2u.net
自由研究?

81 :デフォルトの名無しさん:2021/06/10(木) 00:02:47.99 ID:0lTREXCp.net
これは何の役に立ちますか

82 :デフォルトの名無しさん:2021/06/11(金) 07:01:28.32 ID:O0gX2lti.net
なんで小林?

83 :デフォルトの名無しさん:2021/06/24(木) 22:48:23.94 ID:6wlB1k9u.net
文字コードにうんこの絵文字とか入れた奴らはタヒんで詫びて

84 :デフォルトの名無しさん:2021/06/25(金) 03:57:48.28 ID:2bfr31Ii.net
うんこは大事だぞ?
人にもよるが多くの人が毎日これと付きあうことになる
うんこを出したことない人間はいないのだ
うんこは君の健康状態を教えてくれる大切な友達だ
そしてもし君がうんこを出すことを拒否したら、君は死ぬことになる

85 :デフォルトの名無しさん:2021/06/25(金) 10:15:49.88 ID:Wd+wOk9Z.net
うんこが分解されて植物や動物の栄養になって
また君らの口に入ってることを忘れてはならない

86 :デフォルトの名無しさん:2021/06/26(土) 14:07:44.37 ID:RjjpcdnV.net
分解というのは要するに菌などの微生物がその生物にとっての栄養を吸収し不要になったものを
捨てるというのが繰り返された結果であり、要するに菌のウンコである。この菌のウンコが人間に
とって問題ない場合、それは腐敗とは呼ばれず発酵と呼ばれる。納豆やヨーグルト、またアルコール
などがそれである。人間は直接摂取できないが植物にとっては栄養となる場合は肥料として使われる。

87 :デフォルトの名無しさん:2021/06/26(土) 15:25:02.96 ID:15vAhO8I.net
https://ja.wikipedia.org/wiki/%E4%BA%BA%E5%B7%A5%E8%82%9B%E9%96%80

コロストミーの場合、排泄方法は自然排便法と洗腸法がある。
自然排便法とは排泄口から自然に排泄される便をパウチで受けて処理する方法であり、
洗腸法とは一定量の微温水をストーマから注入し、強制的に排便を促進させる方法である。

自然排便法は、便意に従った排泄方法であり一般的に負担が少ないことが特長である。
パウチについては、不時の排泄に備えた常時装着が必要なためその使用量が増加し、
粘着剤によりストーマ周辺の皮膚にかぶれやただれを招き易い。

88 :デフォルトの名無しさん:2021/06/26(土) 16:42:38.06 ID:y4YsT4qE.net
クソスレになった

89 :デフォルトの名無しさん:2021/06/26(土) 17:04:46.78 ID:KFUgiKj4.net
マジ糞

90 :デフォルトの名無しさん:2021/06/26(土) 17:12:11.91 ID:+MI3rh96.net
イスラム教指導者、笑顔の絵文字に使用制限の宗教令 バングラデシュ:AFPBB News
https://www.afpbb.com/articles/-/3353309
2021年6月24日 19:03

91 :デフォルトの名無しさん:2021/06/26(土) 17:46:46.66 ID:KFUgiKj4.net
>>90
ハハッ ってどれだ

92 :デフォルトの名無しさん:2021/07/01(木) 01:41:01.03 ID:Rr2ioLtp.net
8bitバイトなんて使ってるの人間くらいのもんだよな
地球生物は全て6bit(64値)でエンコードしてるわけだし、スタンダードに倣うべき
古き良きPDP、DEC SIXBIT

93 :デフォルトの名無しさん:2021/07/01(木) 01:58:44.82 ID:374nFu/f.net
もしDNAストレージが実用化&普及したらな
数十年と数億年の資産相互運用性を秤にかけるかもしれない

94 :デフォルトの名無しさん:2021/07/02(金) 13:14:16.94 ID:fx2NJKSC.net
SFはほっといて、生化学なら遺伝子記法のAmbiScriptのフォントをユニコに入れて欲しい
とても可読性が高いけど、今のところ専用フォント入れなきゃならんのでつらい
https://en.m.wikipedia.org/wiki/Nucleic_acid_notation

95 :デフォルトの名無しさん:2021/07/02(金) 15:48:52.32 ID:W+ea7FJa.net
>>92
64値ってコドンのこと? ヌクレオチドが基本単位だと思えば4値...

96 :デフォルトの名無しさん:2021/07/02(金) 15:53:07.29 ID:fx2NJKSC.net
素子はATGCの4値で、最小アドレス単位が3塩基コドンで1ワード=64bit(情報量の単位としてのビット)
ということでは

97 :デフォルトの名無しさん:2021/07/02(金) 16:24:19.38 ID:xu7tv1xS.net


98 :デフォルトの名無しさん:2021/07/02(金) 16:26:27.71 ID:xu7tv1xS.net
>3塩基コドンで1ワード

正解
っていうか実質使えないものもあるんやろ?
武漢コロナには人工物である証拠がーって言ってるのもそのあたりの痕跡が見付かってるから

99 :デフォルトの名無しさん:2021/07/04(日) 11:53:43.14 ID:9HrdtXiZ.net
インストラクションコードとして等価なのを数えなければ実質20くらいだけど、大体独自の制御コード、開始、終了、スプライシング(コメントアウト)、プリプロセッサマクロ的な役割を持っててフルに使ってるよ

そろそろスレチ…

100 :デフォルトの名無しさん:2021/07/04(日) 17:25:18.33 ID:wF1+vdjn.net
はじめは6bitで足りると思ったんですよ…

101 :デフォルトの名無しさん:2021/07/04(日) 18:24:01.94 ID:yK4SOtsp.net
あやふやな事柄をブーリアン型で定義するとだいたい後悔する

102 :デフォルトの名無しさん:2021/07/05(月) 11:41:14.25 ID:c503ASju.net
未定義なのか未解明なのかはっきりさせてくれ

103 :デフォルトの名無しさん:2021/07/14(水) 22:17:27.13 ID:asWBFdS8.net
アップルの障害者絵文字に「知的障害者」がない理由
https://forbesjapan.com/articles/detail/33696

104 :デフォルトの名無しさん:2021/07/15(木) 13:41:16.83 ID:he0y84gJ.net
あうあうあー

105 :デフォルトの名無しさん:2021/07/15(木) 15:07:41.94 ID:ygp86UHP.net
>>103
鮮人で代用出来る罠

106 :デフォルトの名無しさん:2021/07/15(木) 17:01:48.57 ID:MIyHkZEB.net
精神障害者だけど精神障害者絵文字もないよね?
どういう図柄にすべきかと問われると困るけど

自治体からは
|+|
|♥|
みたいなキーホルダー貰ったけど誰も認知してないよねきっと

障害者用駐車場だけ空いてたりするけど停めていいか迷う、何故か必ず車椅子マークだし

107 :デフォルトの名無しさん:2021/07/31(土) 19:00:19.06 ID:EEJKP29r.net
ってかそのスイスみたいなの日本ローカルじゃないの

108 :デフォルトの名無しさん:2021/08/01(日) 18:12:48.32 ID:nJJHiJRu.net
入れて定着したら定着したで煽りに使われるだけになりそう

109 :デフォルトの名無しさん:2021/08/01(日) 19:02:37.23 ID:ABM/FRoD.net
サイケな柄でいいんじゃないの

110 :デフォルトの名無しさん:2021/08/01(日) 21:04:58.30 ID:X3xLRd5t.net
まあ虹色の旗も別に煽りに使われてる感じはないから杞憂かもしれん。

111 :デフォルトの名無しさん:2021/08/01(日) 21:24:22.96 ID:z9C0zhgf.net
>>107
山手線の優先席でそのマークを見せつけて席を譲らせようとした白人がいたな。

112 :デフォルトの名無しさん:2021/08/01(日) 23:07:28.11 ID:FQePzLIs.net
相手が懐から2枚出したら負けたりするのかな

113 :デフォルトの名無しさん:2021/08/03(火) 11:00:25.44 ID:Ljn/RAt1.net
水戸黄門か

114 :デフォルトの名無しさん:2021/08/03(火) 14:11:15.86 ID:LNzOPWsE.net
倒したプレイヤーのカードを獲得できるから強いほどどんどん増えていく

115 :デフォルトの名無しさん:2021/08/03(火) 15:37:40.00 ID:mGGHQh8s.net
WindowsでシフトJISを廃止する設定があるのだが
開発用PCではこれをオンにしたほうがいいな
シフトJIS廃止するだけで起動しなくなる日本製のアプリや読めなくなるReadmeが山ほどあることに気付ける

116 :デフォルトの名無しさん:2021/08/03(火) 17:10:11.74 ID:LNzOPWsE.net
将来デフォで有効になることはあるのだろうか

117 :デフォルトの名無しさん:2021/08/03(火) 23:38:26.66 ID:Ucc8C21f.net
ルミネエスト新宿の感染爆発ワロスω

118 :デフォルトの名無しさん:2021/08/04(水) 02:09:15.71 ID:bE85vB+i.net
Macでも似たようなのがあるな。.CFUserTextEncoding
もはやCarbonアプリはないけども、誰か使ってるのかな?

119 :デフォルトの名無しさん:2021/08/04(水) 02:31:24.89 ID:6D7fw8Ve.net
↑どうやって文字コードの話につなげればいいのだろう

120 :デフォルトの名無しさん:2021/08/04(水) 02:58:28.80 ID:bE85vB+i.net
Mac上の文字コード環境(歴史的経緯、API等)とか? 駄目すか? w

121 :デフォルトの名無しさん:2021/08/06(金) 19:59:22.96 ID:kQ2vjEwy.net
>>115
あんたが死んだあとの話になるだろう
マイクロソフトは言い出してから、早くても20年は実行に移さないから。

122 :デフォルトの名無しさん:2021/08/07(土) 00:11:41.11 ID:rXkekRAR.net
MACはCRがガン

123 :デフォルトの名無しさん:2021/08/07(土) 00:41:16.63 ID:ZpnneI4w.net
もはや存在しないキャリッジをリターンし続けるMac

124 :デフォルトの名無しさん:2021/09/04(土) 19:17:21.20 ID:7+pvijvQ.net
MacさんもいまはUnix手術でLFになったのでは?!

125 :デフォルトの名無しさん:2021/09/04(土) 22:29:19.24 ID:C+Ndk2Dw.net
もはや存在しないMac仕様を空想し続ける123

126 :デフォルトの名無しさん:2021/09/04(土) 23:13:26.59 ID:4PVPJ8G5.net
それで言うとMacさんが手術を受けたんではなく
別人の脳に「私はMacだ」という意識を移植したんだと思ってる

127 :デフォルトの名無しさん:2021/09/05(日) 02:39:03.31 ID:aU6Smc4z.net
Macの良心回路は移植されましたか?

128 :デフォルトの名無しさん:2021/09/05(日) 13:10:31.61 ID:oPu9Enx2.net
もともと存在しないものは移植できない

129 :デフォルトの名無しさん:2021/09/06(月) 18:33:02.60 ID:8n4wI4fH.net
良心回路って何?マックバイナリ?

130 :デフォルトの名無しさん:2021/09/06(月) 19:17:22.41 ID:+3H2JenP.net
ギルの笛に反応しちゃうやつ

131 :デフォルトの名無しさん:2021/09/10(金) 11:14:21.72 ID:EUHR/7at.net
このスレでいいいかはわかりませんが、教えてください
購入したDAPの再生順(ファイルの並び順)が、01-10-02-03-...09-11-21-12-22-13-23...というファイル名順になるのですが、
これはどういった文字コード順なのでしょうか
また、正しい順序で再生させるにはどうファイル名を付けるといいでしょうか
なおファイル転送順ではないようです

132 :デフォルトの名無しさん:2021/09/10(金) 11:27:58.08 ID:us9/OBHL.net
メーカーに聞きなよ
ファイル名順じゃなさそう

133 :デフォルトの名無しさん:2021/09/10(金) 11:35:19.75 ID:fLqCHdah.net
ファイルシステム(FAT32かexFAT?)のエントリー順だったりして

134 :デフォルトの名無しさん:2021/09/10(金) 14:35:19.70 ID:EUHR/7at.net
>>132
メーカーが中国でサポート窓口なさそうなので…
他のフォルダ内も同じ順番なので、ファイル名に関係してそうではあるんですが

>>133
そう思ってUMSSORTというソフトで昇順にしたんですが、それでも同じなんですよね

135 :デフォルトの名無しさん:2021/09/10(金) 14:38:02.56 ID:QyVGfDLG.net
そういうの困るよな

136 :デフォルトの名無しさん:2021/09/10(金) 15:09:19.40 ID:us9/OBHL.net
DAPに限らず、メディアプレーヤーって結構メタ情報見てるぜ?
トラック名とかトラック番号とか。

137 :デフォルトの名無しさん:2021/09/10(金) 15:19:50.85 ID:EUHR/7at.net
>>135
困るんですよ…
>>136
MP3Tagで曲順はちゃんと埋め込んでるんですよね
トラック名が何であろうと、別のアルバムでも同じ数字の順序なんです…

138 :デフォルトの名無しさん:2021/09/10(金) 15:20:52.85 ID:++MWMR1k.net
どうせ全角半角とか、特殊数字とか使ってるだけでは?
ファイル名の数字付け直してみては?

139 :デフォルトの名無しさん:2021/09/10(金) 15:41:18.97 ID:EUHR/7at.net
>>138
すべて半角数字です
同じMP3をfoobarやandroidのpowerampに送った場合は問題なく数字順に再生されるので、ファイル名に問題はないと思います
ダミーで数字だけふったファイルを入れても同じでした
文字コード云々ではなくなにかDAP側での仕様なのかもしれませんね
みなさんスレ違いな話題にお返事くださりありがとうございました

140 :デフォルトの名無しさん:2021/09/11(土) 02:58:23.87 ID:xBOfeQ/p.net
たぶん別メーカーのDAPだけど、先頭に00を付けたら回避できるって書かれてる気がするから試してみては
https://www.amazon.co.uk/review/R1DDVSAU2A2YWL/

141 :デフォルトの名無しさん:2021/09/13(月) 13:11:45.64 ID:8JnEfLqC.net
>>140
おお、わざわざありがとうございます 同じ症状ですね
しかし00と000追加も試しましたがだめでした

142 :デフォルトの名無しさん:2021/09/15(水) 08:05:37.54 ID:BhVzDKVU.net
Unicode 14.0.0
https://www.unicode.org/versions/Unicode14.0.0/

143 :デフォルトの名無しさん:2021/09/15(水) 16:54:13.89 ID:fAeisqPm.net
どんどんメジャー番号上がるなあ

144 :デフォルトの名無しさん:2021/09/16(木) 14:52:51.85 ID:AiSajF/c.net
「Unicode Emoji 14.0」リリース──敬礼する顔や妊娠する男性など
https://www.itmedia.co.jp/news/articles/2109/16/news074.html

145 :デフォルトの名無しさん:2021/09/16(木) 20:24:58.42 ID:qSJtKW3p.net
シティポップの野良のzipファイルを開くときに、韓国語のエンコーディングを選ぶと
日本語のファイル名が正しく展開された。その他のレガシーなエンコーディングでは
駄目。これってどうなってるのかな。
ちな韓国語の場合はEUCとMSのエンコーディングが基本的に同じ?

シティポップってやっぱ日本以外でも聴かれてるんだねーって、違うか。

146 :デフォルトの名無しさん:2021/09/16(木) 21:14:39.93 ID:R13c8C0T.net
gb2312なのに日本語で書かれたスパムを受け取ったこと無いかい?
ksx1001にも日本の文字は含まれている。

147 :デフォルトの名無しさん:2021/09/16(木) 22:55:21.33 ID:hrewid4q.net
あれってなんでなん?
何か使い道あったん?

使わないけど精々100文字程度だから入れとくかーぐらいのこと?

148 :デフォルトの名無しさん:2021/09/16(木) 23:46:44.00 ID:oYfgSqnP.net
韓国は日本に併合された状態が30年以上続いてたわけで、その間に日本の文字が広まったんだろ
ksx1001制定時にも使われてたから入れたんじゃないか?

149 :デフォルトの名無しさん:2021/09/17(金) 00:25:33.08 ID:Khs7lthH.net
入れた人、獄死してそうだね

150 :デフォルトの名無しさん:2021/09/17(金) 07:46:41.58 ID:MfIJx2+6.net
JISのキリル文字よりは意味ありそうだな。

151 :デフォルトの名無しさん:2021/09/17(金) 16:12:38.90 ID:XepSWu0d.net
平仮名と片仮名のワ行のウ、片仮名のヤ行のイ、片仮名のヤ行のエ(現代のエと区別する為に作られたイとエが合体したような字)
も追加されたんだな。

152 :デフォルトの名無しさん:2021/09/17(金) 16:48:38.12 ID:fVFeSRx6.net
そういう変な文字が増えていくのなんかうれしいわw

153 :デフォルトの名無しさん:2021/09/17(金) 17:19:21.38 ID:RINTXLOW.net
お願いします。

https://stat.ameba.jp/user_images/20110716/03/mokona1125/0e/c3/j/o0400124411352644828.jpg

154 :デフォルトの名無しさん:2021/09/17(金) 18:22:23.29 ID:H28x+XeE.net
表音文字ですからね…

155 :デフォルトの名無しさん:2021/09/17(金) 18:24:50.47 ID:EkFg3TOf.net
誰かぽげむたマーク申請して

156 :デフォルトの名無しさん:2021/09/17(金) 19:45:51.29 ID:dA6826ix.net
ぽげむたびげなみょ〜ん

157 :デフォルトの名無しさん:2021/09/17(金) 19:51:42.61 ID:RINTXLOW.net
がびんちょんぶー

158 :デフォルトの名無しさん:2021/09/17(金) 20:31:32.36 ID:inv44Tua.net
わ行は
ゐゑ
ヰヱ

や行のエ?
イとエの合体ってどんな字?

159 :デフォルトの名無しさん:2021/09/17(金) 20:59:29.69 ID:MfIJx2+6.net
これかな
https://www.unicode.org/charts/PDF/Unicode-14.0/U140-1B100.pdf

160 :デフォルトの名無しさん:2021/09/17(金) 21:25:09.08 ID:inv44Tua.net
ああ変態仮名か
thx

161 :デフォルトの名無しさん:2021/09/18(土) 03:29:09.72 ID:8cCB5H0x.net
いや変体仮名と同じKana Extended-Aに押し込まれただけであって変体仮名扱いではない
主流の文字と重複した仮名のことを変体仮名って言ってるわけだから
既登録のやつとかぶってないYI/YE/WUはただの仮名

162 :デフォルトの名無しさん:2021/09/18(土) 05:02:10.93 ID:IGDtXFiL.net
越後とか会津あたりの、いとえが混ざった奴を表す平仮名はないの?
鉛筆がインピツになったり駅がイキになったりするやつ

163 :デフォルトの名無しさん:2021/09/18(土) 06:03:15.06 ID:iNoegsL2.net
変態かな?

164 :デフォルトの名無しさん:2021/09/18(土) 08:20:39.84 ID:HKX409mh.net
WU は見たことあるけどカタカナの YE とか YI って実例があるんだろうか? どの漢字由来か見当がつかない。

165 :デフォルトの名無しさん:2021/09/18(土) 09:10:43.24 ID:KkDV+CVs.net
昔の文献

166 :デフォルトの名無しさん:2021/09/18(土) 09:48:46.78 ID:owvkbREO.net
Hentaiganaとはちゃんと区別されてHistoric Hiragana/Katakanaなんだな。

167 :デフォルトの名無しさん:2021/09/18(土) 11:27:32.09 ID:urB35OC7.net
Wikipediaによると片仮名のヤ行イは「以」に由来、ヤ行エは「延」に由来するらしい。
ヤ行エは現代のエと同じ、ア行の方が違う形でU+1B000の「衣」に由来する字としてた事もあるらしい。
平仮名のヤ行イは「以」を崩した字でU+1B006,HENTAIGANA LETTER I-1と統合っぽい。

168 :デフォルトの名無しさん:2021/09/18(土) 18:15:34.30 ID:7WQTbyfT.net
ARCHAICでは?

169 :デフォルトの名無しさん:2021/09/18(土) 18:18:20.29 ID:7WQTbyfT.net
歴史文脈以外での使い方を考えよう

ウェーイ → ヱーイ
みたいに
イエーイに使えるか?

170 :デフォルトの名無しさん:2021/09/18(土) 19:00:28.80 ID:9jLHXaUE.net
高島忠夫のはそっちかな

171 :デフォルトの名無しさん:2021/09/18(土) 20:03:19.72 ID:0hOLMEcn.net
誰か今のうちに使っといて

172 :デフォルトの名無しさん:2021/09/19(日) 13:02:22.99 ID:/yxUr6Cy.net
恵比寿

恵比須
蛭子


どれが由来だろう

173 :デフォルトの名無しさん:2021/09/20(月) 02:00:22.59 ID:9dkY59At.net
変体仮名が思うより変態で感心した。
私はくせ字だが日記を始め手書きも多く残すつもりだから、
遠い未来に自分のくせ字がひとつでも加わればこれ以上ない喜びだな。

174 :デフォルトの名無しさん:2021/09/20(月) 05:18:24.33 ID:N9cWHXdB.net
元字が同じただの癖字じゃ無理だろw

それより慶応を广K广Oと書くようなやつのほうがよっぽど収録しがいがある

175 :デフォルトの名無しさん:2021/09/20(月) 06:31:16.91 ID:cwn/oiro.net
广マ法とか?

176 :デフォルトの名無しさん:2021/09/20(月) 06:32:35.49 ID:onLWFfgA.net
W
x
Y

177 :デフォルトの名無しさん:2021/09/20(月) 10:07:43.39 ID:z7blcdQn.net
葬祭の下側がアルファベットになってて


死 タヌ
SO SAI

みたいなやつを見かけたことがあるんだけど
これもう文字じゃなくてロゴタイプじゃねと思った

178 :デフォルトの名無しさん:2021/09/20(月) 10:08:04.72 ID:rmuhdvcF.net
OK狭間

179 :デフォルトの名無しさん:2021/09/20(月) 16:33:01.86 ID:MIWZTagi.net
あ𛀙よろし
生𛁛𛂦゙

180 :デフォルトの名無しさん:2021/09/20(月) 17:25:19.97 ID:fWw3zdgc.net
びろーん🏴󠁪󠁰󠀱󠀴󠁿

181 :デフォルトの名無しさん:2021/09/20(月) 17:32:48.55 ID:WNFThOB/.net
??

182 :デフォルトの名無しさん:2021/09/20(月) 17:33:17.54 ID:WNFThOB/.net
😀

183 :デフォルトの名無しさん:2021/09/20(月) 17:40:06.38 ID:59l0WUiK.net
新しい絵文字出てもAndroidのバージョン古いと見れないのつらいわー
フォントだけなんだから絵文字だけ別枠で配信してくれないかしら

184 :デフォルトの名無しさん:2021/09/20(月) 18:04:52.52 ID:MIWZTagi.net
>>183
>フォントだけなんだから
そいつはどうかな

185 :デフォルトの名無しさん:2021/09/20(月) 18:13:01.74 ID:onLWFfgA.net
ふぉんとだよ

186 :デフォルトの名無しさん:2021/09/21(火) 01:32:25.68 ID:4TsmTrOH.net
うっそぴょん

187 :デフォルトの名無しさん:2021/09/21(火) 01:32:42.06 ID:uT0Ufo0J.net
そういやandroidはフォント入れ替えたり足したりできないのかな?

188 :デフォルトの名無しさん:2021/09/21(火) 15:56:07.39 ID:9G4WCotR.net
どう思う?

189 :デフォルトの名無しさん:2021/09/23(木) 14:38:45.46 ID:+1CY5Q9Y.net
おれのMeiryo UIを見てくれ
どう思う?

190 :デフォルトの名無しさん:2021/09/23(木) 17:05:48.69 ID:d3rXCYAz.net
時代はYu Gothic UIだろjk

191 :デフォルトの名無しさん:2021/09/23(木) 17:17:37.59 ID:s356ZNcw.net
字形なんて個人の好みに過ぎんよそでやれ( 文字コード原理主義)

192 :デフォルトの名無しさん:2021/09/23(木) 17:59:26.01 ID:cmFu96z6.net
そそ
僕らは直が線対称だったり刃が切れなそうだったり反がハーイしそうでも気にならんよな?

193 :デフォルトの名無しさん:2021/09/23(木) 18:01:40.49 ID:73nshz3+.net
さすがにそれは字体の違いじゃすまん

194 :ハノン :2021/09/23(木) 18:29:00.18 ID:HaJtCNmP.net
>>192
CJK 漢字統合の悪い後遺症なんですが、なんで CJK 漢字統合とかやってしまったの?

195 :デフォルトの名無しさん:2021/09/23(木) 20:01:43.64 ID:J2CwG+Vn.net
でも統合しなかったらしなかったで
「見た目同じだけど検索に引っかからない文字」
がOCRとか素人入力とかで大量に使われてそれはそれでアレだったんだろうなあ

196 :デフォルトの名無しさん:2021/09/23(木) 20:51:24.74 ID:8jxjFHXd.net
>>194
黄色い猿の使ってる文字の区別なんかできねーよ
ということだろう

197 :デフォルトの名無しさん:2021/09/23(木) 21:13:39.76 ID:c1RLqe4u.net
漢字をあいまい検索するなら同義文字のデータベースを別途用意するのが正しい
CJK漢字統合では中途半端
バイオリンとヴァイオリンのように漢字に限らない問題だし

198 :デフォルトの名無しさん:2021/09/23(木) 23:40:21.82 ID:aPMb+uTW.net
正しいのはわかるが未だに
サンプル
サンプル
みたいなのさえ余裕で同一視してくれないやつ多いしなあ
統合なしだと現状と同レベルの利便性は特別な投資をしないと享受できないものになってた気がするんだよな

199 :デフォルトの名無しさん:2021/09/23(木) 23:47:24.09 ID:8jxjFHXd.net
プとふ゜を同一視しろと言われてもなあ

200 :デフォルトの名無しさん:2021/09/24(金) 01:03:35.59 ID:VG+rYv0i.net
ジャパニーズ絵文字をユニコードに入れまくったのは性犯罪と言える。
反省せよ!

201 :デフォルトの名無しさん:2021/09/24(金) 02:32:55.61 ID:LQ0rd/n8.net
>>194
CJK別にすると16bitに収まらなかったから

けどそんなことはもう問題になってない
32bitで扱わないといけないのみんな知ってるし
外部表現はUTF-8だし

202 :デフォルトの名無しさん:2021/09/24(金) 02:35:08.29 ID:LQ0rd/n8.net
>>195
そういう目的のためにCJK統合されたわけじゃない
だから役には立たない
そもそも新字旧字さえ同一文字とみなさないCJK統合文字の同一視を嬉しい奴なんか居ない

203 :デフォルトの名無しさん:2021/09/24(金) 02:38:51.59 ID:LQ0rd/n8.net
>>200
世界統一基準のルールでやろうとすると実績ベースでやるしかない
Gmailの中の人が日本のキャリア携帯メールの絵文字対応する時に
Google独自の他社非互換の対応をするのではなくて標準に入れたのは英断
数千万人が使ってる文字の流通基盤作った

204 :デフォルトの名無しさん:2021/09/24(金) 04:12:12.52 ID:xJSRWXwX.net
ヴィトンとゔぃとんをあいまい検索で同キーワード扱いするにはMecabのような分かちライブラリが必要になる

205 :デフォルトの名無しさん:2021/09/24(金) 04:21:14.03 ID:xJSRWXwX.net
Mecab用の新語辞書mecab-ipadic-NEologdの更新が2020年9月で止まってる
https://github.com/neologd/mecab-ipadic-neologd

206 :デフォルトの名無しさん:2021/09/24(金) 07:16:32.42 ID:LQ0rd/n8.net
>>205
Twitterも止まってるな

207 :デフォルトの名無しさん:2021/09/24(金) 08:15:48.08 ID:QlX8c1rH.net
システムが英語設定のときに日本語を表示させると、中国語の字形で表示される
ことが多い気がする。Google先生に日本語の漢字を入力して検索しても、中国語の記事が
優先して出てくるような。
これはどういうことなんだ....

208 :デフォルトの名無しさん:2021/09/24(金) 09:53:35.98 ID:IHKg493W.net
前半について言えば、日本語環境以外では中文フォントが優先利用されるようになっているからだろう。

209 :デフォルトの名無しさん:2021/09/24(金) 11:31:16.82 ID:xJSRWXwX.net
中国人が天安門事件についてググりやすくするための配慮だろjk

210 :デフォルトの名無しさん:2021/10/01(金) 00:29:21.14 ID:hXpOAmOJ.net
中国語って言っても繁体字でしょ?
フォールバック先としては適切では?

211 :デフォルトの名無しさん:2021/10/01(金) 00:46:14.94 ID:x0Z9nVhd.net
「直」とかが明らかに日中で形が違うのに同じコードポイントなのが問題で、誤字にしか見えない
許容範囲は「今」くらいまで

212 :デフォルトの名無しさん:2021/10/01(金) 01:14:25.98 ID:C9iYF2oS.net
もはや「安」と「あ」を同じ文字だって言ってるレベルだもんな

213 :デフォルトの名無しさん:2021/10/01(金) 01:18:55.05 ID:KGbDCwUx.net
形の問題で論じるとaとかgとかのバリエーションと同列の「字形が違うだけ」になってしまうような

214 :デフォルトの名無しさん:2021/10/01(金) 01:50:49.08 ID:q6100VNR.net
>>210
簡体字だけど

215 :デフォルトの名無しさん:2021/10/01(金) 02:22:30.83 ID:Sv6vlKr2.net
泣いた

216 :デフォルトの名無しさん:2021/10/02(土) 00:21:19.15 ID:mWEaacyi.net
>>213
日本語において「令」の書き方が複数あるのは、どちらも使われていて同じものと認識されているから、字形が違うで済むし同じコードポイントで良い。aやgのバリエーションの違いに相当。
しかし中国語の「直」の字形は日本ではあまり一般的ではなく、同じものと認識できない可能性が高いから別にすべき。由来が同じでもすでに別物で、pとπのようなもの。

どこまでを同じものと認識するかは言語や文化が違えば当然異なるから、やはり統合漢字は無理がある。
もっと言えば、トルコ語アルファベットの大文字小文字の扱いや、全角半角の同一視の問題も根は同じ。
テキスト中に表を書くための罫線素片が全角と半角を統合とかアホとしか言いようがない。

217 :デフォルトの名無しさん:2021/10/02(土) 03:12:57.27 ID:AUpOKXgX.net
>書き方が複数あるのは、どちらも使われていて同じものと認識されているから、字形が違うで済む

それがね、「人の名前を正確に書かないなんて失礼でしょ!」って、包摂されてるレベルの異体字を正確に表現することを求める人、結構いるんです…。
同じものだと認識してる人の範囲、実は案外狭くて、板挟みになってるところにしわ寄せがいってるだけかもしれません…。

218 :デフォルトの名無しさん:2021/10/02(土) 15:31:50.03 ID:a5sjMDOS.net
>>217
お前の先祖が字をちゃんと覚えて無かっただけだろが
と言ってやりたい

219 :デフォルトの名無しさん:2021/10/02(土) 15:59:11.18 ID:Sj1tG4Pu.net
先祖が字をちゃんと書かなかったせい

220 :デフォルトの名無しさん:2021/10/02(土) 16:02:15.81 ID:lWVjrMOX.net
だいたいの人の先祖は読み書きできないと思うが

221 :デフォルトの名無しさん:2021/10/02(土) 16:28:43.87 ID:qz0ghb/n.net
>>216
CJK統合が困るならサロゲートペアを使いなさい

222 :デフォルトの名無しさん:2021/10/02(土) 16:30:41.53 ID:qz0ghb/n.net
>>216>>217
異体字が重要なら異体字セレクタを使いなさい
Winのメモ帳、Macのテキストエディット、Adobe Readerでさえ対応してるのだから

223 :デフォルトの名無しさん:2021/10/02(土) 16:36:36.22 ID:qz0ghb/n.net
>>216
どの文字を同じとみなすかは
JIS X 0208の段階でも問題になってきたし
ISO-8859-*でさえ問題だった
応用ごとに同値関係を定義するしかない
たとえば
 かちょう
 がちょう
は索引で横並びかどうかなど
これは国ごとに応用ごとに違う

この辺りの知識はUnicodeのお陰で劇的に広まった
失敗がなかったなんて極端な事は言わないが
文字処理におけるUnicodeの貢献は大きい
唯一のテストベッド

最近のレスの知識レベルは20年前に戻ったかのようだ

224 :デフォルトの名無しさん:2021/10/02(土) 16:40:36.25 ID:qz0ghb/n.net
>>217
しわ寄せなんてもないですよ
戸籍をデジタル化した時点で
後のUnicodeの文字集合採用ルールに従えば
異体字セレクタで全て扱えるべきですし
そうなっています
典拠がいまだ見つからない文字ですら扱えるべきなんです
どこかでもう使ってるかもしれないから

225 :デフォルトの名無しさん:2021/10/02(土) 17:54:38.90 ID:9xd0my2s.net
>>221
どゆこと?
サロゲートペアでCJKの字形の使い分けができるってこと?

226 :蟻人間 :2021/10/02(土) 18:15:27.71 ID:bUVac9NO.net
異体字セレクタ
https://ja.m.wikipedia.org/wiki/%E7%95%B0%E4%BD%93%E5%AD%97%E3%82%BB%E3%83%AC%E3%82%AF%E3%82%BF#:~:text=%E7%95%B0%E4%BD%93%E5%AD%97%E3%82%BB%E3%83%AC%E3%82%AF%E3%82%BF%20(%E8%8B%B1%3A%20Variation,(%E9%81%B8%E6%8A%9E%E5%AD%90)%20%E3%81%A7%E3%81%82%E3%82%8B%E3%80%82

227 :デフォルトの名無しさん:2021/10/02(土) 21:51:21.36 ID:0KUEFcg9.net
>>224
「かな漢字変換」ならぬ「漢字カナ変換」を開発ωして
年金情報ぶっ壊したのが厚生省ωω

228 :デフォルトの名無しさん:2021/10/03(日) 01:40:13.18 ID:7qrVNqxk.net
>>226
現状では言語によって異なる異体字 (図参照) のようなケースを異体字セレクタで区別することができない。

って書いてあるけど?

229 :デフォルトの名無しさん:2021/10/03(日) 01:55:19.75 ID:yBYg2wfE.net
IPAの発音記号あたり、中途半端に特定の文字だけ専用に用意するよりIPA専用記号として全部一式きれいに揃えたほうがわかりやすいんじゃないかって思うわ
どこまで普通のラテンを使っていいのか直感的じゃなさすぎてつらい

230 :デフォルトの名無しさん:2021/10/14(木) 22:08:20.62 ID:4U8G8uJ7.net
IJ

231 :デフォルトの名無しさん:2021/10/22(金) 23:13:01.81 ID:dHIUrNpa.net
IEコンポーネントブラウザだと絵文字は基本的に白黒で表示されるイメージだったけど、
一部の絵文字はフルカラーになるのね。何が違うんだろう?
なんとなく、追加時期が新しいものがフルカラーになってそうなイメージ。

Unicode 6 😂
Unicode 7 🙂
Unicode 8 🤗
Unicode 9 🤧
Unicode 10 🤮
Unicode 11 🥺
Unicode 12 🥱
Unicode 13 🥲

232 :デフォルトの名無しさん:2021/10/22(金) 23:14:04.66 ID:dHIUrNpa.net
>>231だと7まで白黒で8からフルカラーに見える

233 :デフォルトの名無しさん:2021/10/23(土) 00:04:46.92 ID:pYmoDx9D.net
8以降は別のフォントが読み込まれてるんじゃないの

234 :デフォルトの名無しさん:2021/10/23(土) 03:09:26.59 ID:3m3aWUug.net
>>231
こっちではこう表示されているよ。Windows10のPCでjaneStyleで見ている。
https://imgur.com/McdjAOh

235 :デフォルトの名無しさん:2021/10/23(土) 03:14:44.86 ID:3m3aWUug.net
Chrome ブラウザだと顔文字が出るな。フルカラー。スマホの Android の ChMate でも同じ。
但しPCの方は Unicode 13 が□で出ている。インストールされているフォントの問題かな。

236 :デフォルトの名無しさん:2021/10/23(土) 06:25:40.37 ID:fIXVDCqg.net
フォントとフォントのレンダリングライブラリ(含Unicodeの処理)的な

237 :デフォルトの名無しさん:2021/10/23(土) 07:17:11.28 ID:TpylJdXD.net
>>231
PC版Firefox 93、PaleMoonだとおk、
古いFirefox45だとコード番号のある□
PC版Chrome、Edge、絵文字プラグインを入れたJaneStyleだと、Unicode 13(一番下)は□

Edgeがダメとか、MS終わってるだろw

ちなみに、この文字はこれな
🥲 Smiling Face with Tear Emoji
https://emojipedia.org/smiling-face-with-tear/

238 :デフォルトの名無しさん:2021/10/23(土) 07:20:35.53 ID:TpylJdXD.net
>>237
全部Unicode 13(>>231 一番下)の文字の話ね

239 :デフォルトの名無しさん:2021/10/23(土) 07:39:19.42 ID:TpylJdXD.net
Firefox系では、TwemojiMozilla.ttf というフォントファイルで表示しているようだ
古いFirefoxにもこれをインストールしたら表示できたけど、その他は相変わらずダメだった
何か他の要因があるのか?

240 :デフォルトの名無しさん:2021/10/23(土) 16:38:57.04 ID:fIXVDCqg.net
>>236 および >>231 で表示できてる≒そのUnicodeバージョンに対応している
で説明できる感じ?

241 :デフォルトの名無しさん:2021/10/23(土) 18:50:50.60 ID:YfcjxJKz.net
昔はEmojiOneMozilla.ttfだったのに

242 :デフォルトの名無しさん:2021/10/23(土) 20:05:42.90 ID:Ur/BzH1F.net
IEってかTridentは今後どうなるんだろう
新絵文字対応は更新され続けるのかな

243 :デフォルトの名無しさん:2021/10/24(日) 10:33:30.12 ID:R+G/mjzT.net
>>237
フォント指定したらwin10 edgeでもちゃんと表示できてるぞ
文字コードスレなんだからそのくらい試そうぜ

244 :デフォルトの名無しさん:2021/10/24(日) 19:01:46.47 ID:ZXfUijH1.net
今は正しいフォントを指定してない場合にも表示可能なフォントがあれば自動で代替フォントで
表示するようになってるのが多いけどね。Win 10の特定のアプリ/APIでは違うということかな。

245 :デフォルトの名無しさん:2021/10/24(日) 19:26:38.50 ID:kICQ0wde.net
win10でもフォールバックするけど

246 :デフォルトの名無しさん:2021/10/24(日) 20:49:14.92 ID:ZnySbBud.net
絵文字系のフォントを指定すれば表示できたとしても
普通の文字はどうするんだ、ということになるな

247 :デフォルトの名無しさん:2021/10/24(日) 23:53:02.47 ID:W7UJj/SL.net
フォールバックするんやろ(適当

248 :デフォルトの名無しさん:2021/10/28(木) 01:13:38.65 ID:IGQz8dMU.net
Ken先生は8月付けでApple所属になったのか

249 :デフォルトの名無しさん:2021/10/28(木) 09:40:10.38 ID:fzg5+Gzi.net
ほんとだ、フォントデベロッパーって(別にシャレのつもりはない)

まあフォントのデザイナーではないだろうから、Notoみたいに各言語のグリフが統合されたような
フォントセットを作るぞーとかそんなノリ?

250 :デフォルトの名無しさん:2021/10/28(木) 12:07:23.11 ID:5qBTDTYf.net
Windows11 で(一部の)設定ファイル等が BOM無しUTF-8に変わったみたいな話が聞こえてきてるけど、文字コードまわりはどんな感じ?
お前のマシンは古すぎるので11は無理っていわれて試せないので誰か教えて。

251 :デフォルトの名無しさん:2021/10/28(木) 14:22:37.40 ID:nHrB5pfo.net
\rもなくしてホスィ…

252 :デフォルトの名無しさん:2021/10/28(木) 14:32:18.28 ID:cISpGEYl.net
\rはPowerShellの複数行コマンド履歴を履歴ファイルConsoleHost_history.txtに保持するために必要だよ
ConsoleHost_history.txtはWindows10でもBOM無しUTF-8だよ
Powershellを開いて explorer /select,(Get-PSReadLineOption).HistorySavePath で見つかるはず

253 :デフォルトの名無しさん:2021/10/28(木) 14:40:01.21 ID:cISpGEYl.net
厳密に言うと、(Get-PSReadLineOption).HistorySavePathでは普通の改行は\r\nで複数行にまたがる時に\nが使われている
\rがあればこそできる使い分け

254 :デフォルトの名無しさん:2021/10/28(木) 14:45:59.31 ID:nkWZEQ1o.net
ConsoleHost_history.txt は CRLF だったが
\r を無くせってのは単独の CR を無くせって意味か?

255 :デフォルトの名無しさん:2021/10/28(木) 18:48:48.50 ID:iKzNpht3.net
ネットワークプロトコルの世界ではCRLF(\r\n)だから、
改行コードが統一されることはないだろうな

256 :デフォルトの名無しさん:2021/10/29(金) 19:45:33.13 ID:NPFwBT43.net
>>254
単独のやつはいらんな

257 :デフォルトの名無しさん:2021/10/30(土) 01:27:33.12 ID:Bi05tLLs.net
モニいう組文字がすっかり今までと違う使われ方されるようになったンだわ

258 :デフォルトの名無しさん:2021/10/30(土) 10:06:13.76 ID:gRDEN/XN.net
K.駆け落ち
K.結婚

259 :デフォルトの名無しさん:2021/10/30(土) 16:30:56.75 ID:YeKnQdw3.net
糞フェミ
きめえ

260 :デフォルトの名無しさん:2021/10/31(日) 13:55:05.18 ID:sRnAlDBM.net
「ヒモを育てる」(紐育)と書いてニューヨークと読む

261 :デフォルトの名無しさん:2021/11/01(月) 02:13:53.02 ID:3svUgfPn.net
夜露死苦は夜の露は死ぬほど苦しいという意味

262 :デフォルトの名無しさん:2021/11/02(火) 00:54:58.45 ID:7U+acwnO.net
辛苦了

263 :デフォルトの名無しさん:2021/11/02(火) 20:43:57.92 ID:k6b2gzuo.net
ソースコードに脆弱性を潜ませられるUnicode悪用攻撃法「Trojan Source」を研究者が発表
https://www.itmedia.co.jp/news/articles/2111/02/news155.html

264 :デフォルトの名無しさん:2021/11/07(日) 14:55:37.70 ID:XJB+ymj6.net
test
[🏳‍🌈] F09F8FB3 EFB88F E2808D F09F8C88 (Rainbow Flag)
[🏳] F09F8FB3 (U+1F3F3 Flag)
[VS-16] EFB88F (U+FE0F Variation Selector)
[ZWJ] E2808D (U+200D ZERO Width Joiner)
[🌈] F09F8C88 (U+1F308 Rainbow)

265 :ハノン :2021/11/07(日) 15:09:59.30 ID:IVg5lqh1.net
>>263
winny や share で exe ファイルを踏ませるために共有するファイルのファイル名に小細工をするやり方として10年前には流行っていたやり方ですね
パクリ論文もいいところ、ケンブリッジも堕ちたものですねえ…

266 :デフォルトの名無しさん:2021/11/10(水) 09:56:00.72 ID:1JI+/RUQ.net
堕ちたのは査読者

267 :デフォルトの名無しさん:2021/11/10(水) 10:33:35.74 ID:53ZSdClf.net
具体的な手法が各言語にはどのように適用できて、どのエディターが是弱で、どのエディターが対策できてるか、とかはちゃんとした研究だと思うが?
ニュース記事とかはどこが新規なのか曖昧にして、注目を集めたりするので中身を追いかけないと。

268 :デフォルトの名無しさん:2021/11/10(水) 11:33:12.67 ID:W6E9JaGo.net
UTF7

269 :デフォルトの名無しさん:2021/11/22(月) 12:06:32.94 ID:axkd8Lua.net
初めて正しい情報に遭遇した気がする
https://onihusube.hatenaぶろぐ.com/entry/2020/04/03/211442

270 :デフォルトの名無しさん:2021/12/03(金) 02:21:47.01 ID:SD21SyVf.net
Mecab用の新語辞書mecab-ipadic-NEologdを使ってるンだが、mecabコマンドを-Oyomi オプションつきで呼ぶと、komuroが「コームロコーポレーション」に変換されて困るンだわ

271 :デフォルトの名無しさん:2021/12/03(金) 02:35:02.96 ID:SD21SyVf.net
komuroが以下のように解析されてしまうンだわ

ko 名詞,固有名詞,人名,一般,*,*,ko,コー,コー
muro 名詞,固有名詞,組織,*,*,*,ムロコーポレーション,ムロコーポレーション,ムロコーポレーション

272 :デフォルトの名無しさん:2021/12/05(日) 20:59:02.28 ID:0Vo7DxQV.net
Regional Indicator (国旗絵文字)
https://ufcpp.net/blog/2021/12/regional-indicator/

273 :デフォルトの名無しさん:2021/12/08(水) 09:58:49.76 ID:UtSp9Lmv.net
>>271
辞書を自分で編集したらいいんじゃないの?

274 :デフォルトの名無しさん:2021/12/09(木) 05:57:45.36 ID:FYdAx32Z.net
>>273
無論、英語力は話すまでもない
とっくにしてるンだわ
komuroのほかにもC++のキーワード「iostream」が「ioストリーム」と変換されたりとか色々厄介なンだわ

275 :デフォルトの名無しさん:2021/12/09(木) 17:55:46.28 ID:avLi8yHB.net
それって文字コード関係あるの?

276 :デフォルトの名無しさん:2021/12/13(月) 16:15:10.59 ID:7UKqmZkl.net
フォルダを意味する絵文字とファイルを意味する絵文字があれば味気ないlsコマンドが少しはにぎやかになると思うんだ

277 :デフォルトの名無しさん:2021/12/13(月) 17:26:54.96 ID:6Y8EqgkQ.net
>>276
コマンドラインの出力に emoji 使うのは迷惑極まるのでやめろ。そんなやつは素直にGUIでも使ってろ。

278 :デフォルトの名無しさん:2021/12/13(月) 19:51:50.85 ID:KrL9uSXh.net
最近は絵文字使うコマンドラインツールが増えてきた気がする。特にmac
確かに見やすいし仮に表示できなくても豆腐が見えるだけだし別にいいんじゃね
Net-Unicode規格?に従ってるかはよくわからん

279 :デフォルトの名無しさん:2021/12/13(月) 21:15:32.31 ID:2mlv93aV.net
📁
📂

280 :デフォルトの名無しさん:2021/12/13(月) 22:52:29.78 ID:RcHUWzLT.net
ふと気付いたが豆腐そのものの絵文字ってないんだな

グリフがない文字の通称、あるいはtofu on fireと、豆腐と文字コードは縁が深いのに

281 :デフォルトの名無しさん:2021/12/14(火) 02:29:21.85 ID:5jyEPH53.net
ANSI Colorによる強調を使わずに絵文字による強調を使うのが主流になっていきそうな気がするよ
例えば、ビルドログのエラーをパイプリダイレクト先でも強調したい時に気軽に使える
⛔ build failed

282 :デフォルトの名無しさん:2021/12/14(火) 02:46:27.66 ID:5jyEPH53.net
以下の文字は、とりあえず色付き絵文字で注目させたい時に使えそう
🔴 🔵 🔶 🔷 🔸 🔹 🟠 🟡 🟢 🟣 🟤 🟥 🟦 🟧 🟨 🟩 🟪 🟫

283 :デフォルトの名無しさん:2021/12/14(火) 08:38:06.25 ID:W8qbVS9S.net
>>280
notoは名前変えなきゃいけなくなるじゃん

284 :デフォルトの名無しさん:2021/12/14(火) 17:31:45.84 ID:7IekK3a9.net
📛 build failed

285 :デフォルトの名無しさん:2021/12/14(火) 17:35:31.31 ID:5jyEPH53.net
💮 Build Success

286 :デフォルトの名無しさん:2021/12/14(火) 17:46:34.82 ID:KXFToDiO.net
⛔天下一品

287 :デフォルトの名無しさん:2021/12/14(火) 19:25:55.56 ID:MF+S9/8A.net
一私企業が文字コードを独占利用するなんて横暴だ

🚅


288 :デフォルトの名無しさん:2021/12/14(火) 21:05:37.79 ID:zs5fbOjD.net
〄
↑これ永遠にこのまま変わらないのかね

289 :デフォルトの名無しさん:2021/12/14(火) 21:05:55.66 ID:zs5fbOjD.net

こうか

290 :デフォルトの名無しさん:2021/12/14(火) 21:25:02.47 ID:5jyEPH53.net
✅ Build Success
💯 Build Success
絵文字の意味よりも色が重要かも

291 :デフォルトの名無しさん:2021/12/16(木) 00:51:31.68 ID:vqWEXXXW.net
100があるなら0〜99もあるべきではないか

292 :デフォルトの名無しさん:2021/12/16(木) 03:24:30.66 ID:V72yjyE9.net
💮 WHITE FLOWER (U+1F4AE)は、macOSとiOSの場合「大変よくできました」って日本語が縦書きされてるんだよな

293 :デフォルトの名無しさん:2021/12/17(金) 02:09:05.04 ID:Q/0rEbWs.net
興味深い

294 :デフォルトの名無しさん:2021/12/17(金) 11:47:44.47 ID:gdvv6L1J.net
>>292
元の絵文字は「花丸」だった。赤ペンでぐるぐる丸を書く感じの。
Mac上でグリフがデザインされたとき、やや拡大解釈気味に「大変よくできました」の花の
スタンプになった。
その後他社はこれに引きずられたのか、赤線で花のイラストにした。結局Unicodeの名前も
White Flowerになってしまった。

これとおんなじかと https://youtu.be/8guQ43WGcjQ?t=268

295 :デフォルトの名無しさん:2021/12/18(土) 04:47:18.20 ID:RVV3wqFm.net
ゆうて鉄砲が水鉄砲になるみたいなのもあるからな
規格がどうだろうと大手がこぞって無視したらそうなってしまうのな

296 :デフォルトの名無しさん:2021/12/18(土) 05:18:07.09 ID:Q1tquPlV.net
読み手に色で注目を促したいだけならANSI Colorみたいに文字列そのものの色を変える必要ないんだよな
文字列の手前に色付き絵文字を配置するだけでも同じ効果があるので、例えば重要な情報がログが埋もれてしまうのを緩和できる

297 :デフォルトの名無しさん:2021/12/18(土) 17:09:34.24 ID:BM3dKYv8.net
https://emojipedia.org/white-flower/ の記述を信じると「大変よくできました」が
入っているデザインがMSも含めて半分ぐらいあるけど、自分のWin10で軽く試すと
花の真ん中はただの点々だなあ。

298 :デフォルトの名無しさん:2021/12/18(土) 18:10:37.82 ID:eF5qVI2/.net
>>296
今時のテキストエディタは絵文字ちゃんと表示できるし、その方向はいいなあ

299 :デフォルトの名無しさん:2021/12/18(土) 18:41:26.04 ID:BM3dKYv8.net
以前ログを何かのチャット経由で送ってもらったら、勝手に絵文字に変換するフィルターが
かかっていたようで、えらいことになってた
たとえばdebugという文字列が虫の絵になってたりして、面白くてログの内容が入ってこなかった

300 :デフォルトの名無しさん:2021/12/18(土) 21:46:25.14 ID:Dpp2XsIq.net
大昔ここでもそういうやつの話題見たことあるな
Webフォントで、絵文字に対応する英単語ごとに複数文字の合字として入ってるの
やっぱ弊害のほうが大きいよな

301 :デフォルトの名無しさん:2021/12/18(土) 22:36:51.82 ID:5kKSHJgu.net
勝手に置換するのが問題であって絵文字は関係ないがな

302 :デフォルトの名無しさん:2021/12/19(日) 01:29:19.44 ID:x/beSAiN.net
絵文字を使ったログというのはこういうやつかな
ttps://spin.atomicobject.com/2019/10/15/faster-debugging-emoji/

303 :デフォルトの名無しさん:2021/12/19(日) 08:18:21.32 ID:e8cWFHZf.net
端末の文字列を色付けする従来のANSI Colorだとパイプやリダイレクトや画面テキストコピペで情報が失われてしまうけど
絵文字だと情報が失われない利点がある

304 :デフォルトの名無しさん:2021/12/19(日) 08:46:52.31 ID:e8cWFHZf.net
Visual Studioでビルドしてると単色テキストでログが画面に出力されるんだけど、
コマンドプロンプトとかでmsbuild使ってビルドするとテキストが色分けされているのがわかる。
何が言いたいかというと、Visual Studioでさえログから色情報が捨てられて、もったいないことになっているよ、という話

305 :デフォルトの名無しさん:2021/12/19(日) 16:04:22.86 ID:4oJJoyOR.net
集計画面があるからでは?

306 :デフォルトの名無しさん:2021/12/19(日) 18:00:54.55 ID:x/beSAiN.net
絵文字か... めんどくさい。
文字コードが実質統一されたことで文字化けは減ったかも知れんが、絵文字を下手に触って
文字化け(絵化け?)する場合がありそう。

307 :デフォルトの名無しさん:2021/12/19(日) 20:08:53.97 ID:e8cWFHZf.net
>>306
絵文字は実害が出る前に国際化未対応の不具合を見つけるのに役立ってきたよ
ま、絵文字が化けることそれ自体が実害だというなら実害なのかもしれんが

🛠工事中
🛠工事中

308 :デフォルトの名無しさん:2021/12/20(月) 01:45:44.75 ID:dSzOWg9u.net
それはある

309 :デフォルトの名無しさん:2021/12/20(月) 02:33:20.46 ID:BLcgrP0l.net
なるほど。まあ国際化というか正しいUnicodeの扱い方? のような気もするが。
え、Unicodeを使うこと=国際化だって? あとはやたら中立を求めてくるやつ? 文化ガーとか
肌の色ガーとか性別ガーとか。

しかし、単に「工事中」と言っても含まれるメッセージには「工事中だから入ってくんな」とか
「工事中なので待っててね)」とかがあるような。
それは後者かな。IDEとかでありがちな。前者は日本由来の🚧はどうでしょう。

310 :デフォルトの名無しさん:2021/12/20(月) 02:44:04.59 ID:BLcgrP0l.net
ま確かに最近はいかにICUを正しく使うかみたいな感じはある... 自分の界隈では

311 :デフォルトの名無しさん:2021/12/20(月) 06:43:37.99 ID:TszysAyf.net
Windows10だとU+1F6E0とU+FE0Fの連続で以下画像と似た絵文字が表示されるはず
https://uc-emoji.azureedge.net/orig/18/83d86f5c30039ddf01bcb271f219a2.png
2chの挙動なんか怪しい、とりあえず
🛠 U+1F6E0(ハンマーとレンチ) U+FE0F(バリエーションセレクター16) の組み合わせでハンマーとレンチ絵文字を表示するテスト
🛠

312 :311:2021/12/20(月) 06:45:57.85 ID:TszysAyf.net
再現した
どうも5ch(2chじゃなかった)に投稿する時にU+FE0F(バリエーションセレクター16)が捨てられてしまうようだ

313 :311:2021/12/20(月) 06:58:14.29 ID:TszysAyf.net
以下サイトは、U+FE0F(バリエーションセレクター16が付随したハンマーとレンチの絵文字をクリップボードにコピーできる
https://emojigraph.org/ja/hammer-and-wrench/

ちなみにWindows10標準機能の「Win+.(ドット)」ショートカットキーで利用可能な絵文字パッドで選択できるハンマーとレンチは、なぜかU+FE0Fが捨てられた状態で取得される

314 :デフォルトの名無しさん:2021/12/20(月) 10:45:36.33 ID:BLcgrP0l.net
Macでテスト: 🛠

315 :デフォルトの名無しさん:2021/12/20(月) 11:37:43.26 ID:TszysAyf.net
>>314
macOSやiOSの場合は、U+FE0Fなしでも色付き絵文字として見かけ上まったく同じに表示されるので区別がつきにくいね

316 :デフォルトの名無しさん:2021/12/20(月) 16:28:50.79 ID:TszysAyf.net
AndroidもmacOS,iOSと同じく「バリエーションセレクター16」なしでも「ハンマーとレンチ」を色付き表示できている
「バリエーションセレクター16」の有無で「ハンマーとレンチ」の表示が異なることを確認できているのはWindows10のみ
他のOSは手元にないのでわからない

317 :デフォルトの名無しさん:2021/12/21(火) 03:44:56.69 ID:a63+2mhH.net
ううむこれはまた

318 :デフォルトの名無しさん:2021/12/21(火) 03:59:02.76 ID:tfb/wfWf.net
>>315
ちな逆にVS15(U+FE0E)でテキストスタイルにできるけど、これはならないな、俺環では。
これに関しては絵文字でしか持っていないということかな?
テキストスタイルで持ってるフォントをインストールしたら違うとか。

319 :デフォルトの名無しさん:2021/12/21(火) 04:09:54.96 ID:tfb/wfWf.net
>>280
豆腐のグリフはあるからいいんじゃないですか

320 :デフォルトの名無しさん:2021/12/21(火) 07:31:46.91 ID:QziEyx5H.net
色付き絵文字のデザインは各ベンダーが独自性にこだわってくれても構わないんだが、
色付き絵文字になるかどうかの規則性だけは統一してほしい

321 :デフォルトの名無しさん:2021/12/21(火) 07:40:59.61 ID:QziEyx5H.net
OSベンダーとは別にFireFoxなどWebブラウザベンダーも独自に絵文字対応しており、以下の文字列が国旗で表示される
🇦🇨 🇦🇩 🇦🇪 🇦🇫 🇦🇬 🇦🇮 🇦🇱 🇦🇲

322 :デフォルトの名無しさん:2021/12/22(水) 03:27:49.45 ID:ssMhNyhF.net
マイクロソフトはやってくれないの

323 :デフォルトの名無しさん:2021/12/23(木) 14:43:01.09 ID:hHuia8wK.net
Windowsシステムでの国旗の絵文字はアルファベットで示すのはなぜ?
https://www.emojiall.com/ja/blog/321

すべての「国」が国際的に承認されるわけではなく、地域の旗も公式と非公式に分ける場合があります。Microsoftは国際テック企業として、政治的な問題や紛争を避けるため、いっそそれらの旗の絵文字を地域インジケーターシンボルで表示すると決定しました。

324 :デフォルトの名無しさん:2021/12/23(木) 15:13:05.23 ID:PGj8Lcl5.net
>>304
vscodeに関しては知らんけど、コンソールへ出力吐いたりフィルタ的なプログラムは大体オプションで選べるようになってるはず
出力先がターミナルならスルーして、それ以外なら落とすのがデフォルト動作であることが多い

325 :デフォルトの名無しさん:2021/12/24(金) 04:25:34.61 ID:sUGzc1Je.net
なんか下位区分の地域コードってイギリスだけなん?
日本の都道府県も使えるようになれば神奈川県旗とかいろいろ使い勝手がよさそうだと思うんだけど

326 :デフォルトの名無しさん:2021/12/29(水) 14:33:10.51 ID:nFFRo7KU.net
誰こんな絵文字作ったの…


327 :デフォルトの名無しさん:2021/12/29(水) 16:06:37.53 ID:ucmXEhVe.net
安息香酸置いときますね
⌬-COOH

328 :デフォルトの名無しさん:2021/12/29(水) 18:33:37.38 ID:D9p/dpeZ.net
シクロヘキサノール置いときますね
⎔-OH
⬡-OH

329 :デフォルトの名無しさん:2021/12/30(木) 00:57:43.00 ID:0QdMAo+c.net
フラーレンもあったぞ⚽

330 :デフォルトの名無しさん:2021/12/30(木) 14:03:40.49 ID:pZn4aae2.net
フラーレンはトモダチ!

331 :デフォルトの名無しさん:2021/12/30(木) 21:33:42.26 ID:RXPH9Pdv.net
COOH-?-COOH
パラしか書けんな

332 :デフォルトの名無しさん:2021/12/30(木) 23:39:41.16 ID:n/a0R5aT.net
もう何も書けない

333 :デフォルトの名無しさん:2022/01/01(土) 01:18:33.10 ID:LVCCviz2.net
🎍あけましておめでとうございます🎍

意外と鏡餅の絵文字ってないのですね🤔

334 :デフォルトの名無しさん:2022/01/02(日) 13:07:53.96 ID:o9R7ffl7.net
お正月 絵文字
https://lets-emoji.com/newyear-emoji/

このページには凧が書いてないな(正月に限ったものではないが)。
U+1FA81 が凧ね。

鏡餅と独楽はUnicodeにないので欲しいところだ。

335 :デフォルトの名無しさん:2022/01/02(日) 23:04:36.47 ID:zjwkJfdF.net
めんこ入れて

336 :デフォルトの名無しさん:2022/01/06(木) 07:59:23.44 ID:+LKZGTi+.net
絵文字でやたら日本ぽいものは一番最初のときに入ったやつだろうなあ。
めんことか、ローカル文化的な絵文字を入れるのは今ってどうなんだろう。

そういえばベーゴマは形を変えベイブレードという名前になりアニメ化され
日本以外にも広まりつつあるので、いつか絵文字になる可能性が??

337 :デフォルトの名無しさん:2022/01/06(木) 10:27:59.82 ID:+LKZGTi+.net
でもまあ、文字もローカル文化といえばそうか

338 :デフォルトの名無しさん:2022/01/06(木) 10:35:57.05 ID:TQRXE+kb.net
何せUnicodeの絵文字の名前は日本語読みの emoji だもんな。英語圏ではちょっと誤解されてるようではあるが。
https://youpouch.com/2017/06/20/440108/

339 :デフォルトの名無しさん:2022/01/06(木) 11:54:37.73 ID:4VMA3TxB.net
オフィス系アプリでフィルタの意味で使われることが多い漏斗の絵文字があってもよさそうなのにないね、漏斗

340 :デフォルトの名無しさん:2022/01/07(金) 23:48:02.46 ID:o0IVo9UO.net
あれロートだったんか
なんやこれって思ってた

341 :デフォルトの名無しさん:2022/01/08(土) 05:10:39.79 ID:P7CWxZ67.net
💾を「保存」メニューで見ても意味不明のまま使っている人も多いんだろうなあ。
他にもあるだろうか。

342 :デフォルトの名無しさん:2022/01/08(土) 14:04:53.25 ID:Jg1QOMLR.net
漏斗もなんでフィルターの意味になるのか分からん

343 :デフォルトの名無しさん:2022/01/08(土) 14:55:13.39 ID:ubEZrNLu.net
漏斗の中にコーヒーフィルターみたいなやつ入れる

344 :デフォルトの名無しさん:2022/01/08(土) 18:15:51.46 ID:P7CWxZ67.net
インスタントコーヒーしか飲まない人にはわからない、と。

345 :デフォルトの名無しさん:2022/01/08(土) 19:23:00.43 ID:avCCFsXx.net
理科の実験でろ過やるでしょ
今どきのナウなヤングは、やらないの?

346 :デフォルトの名無しさん:2022/01/08(土) 20:50:34.15 ID:Xno0wVzc.net
>>341
ちょっと話それるけど小中学生ぐらいの頃ずっと
「ダイアログ」は「選択肢がある小さいウィンドウ」、
「ウィザード」は「順番に設定させる仕組み」を表す英語なんだと思ってたわ

347 :デフォルトの名無しさん:2022/01/09(日) 01:13:06.70 ID:NH/8fLHJ.net
もしかして日本ってもうIRGの会議に参加してない?
https://appsrv.cse.cuhk.edu.hk/~irg/irg/irg58/IRG58.htm
去年はActivity Report用に割り当てられた文書番号IRGN2455は結局使われずじまい
今年は番号割り当て自体がされていない状態

348 :デフォルトの名無しさん:2022/01/22(土) 23:28:02.81 ID:v0ELybsi.net
どういうこつなの

349 :デフォルトの名無しさん:2022/01/30(日) 21:50:00.84 ID:mir4lRxv.net
結論-------
UTF-8が最強

350 :デフォルトの名無しさん:2022/01/31(月) 00:20:06.51 ID:hD61wddE.net
でもutf8には冗長コードの問題があるから内部処理コードには向いてな

351 :デフォルトの名無しさん:2022/01/31(月) 00:20:17.62 ID:hD61wddE.net
かったりするよね

352 :デフォルトの名無しさん:2022/01/31(月) 00:29:24.37 ID:sMW2SYQR.net
UTF-16,32にも同じ問題はあるでしょ

353 :デフォルトの名無しさん:2022/01/31(月) 00:54:14.96 ID:I/sDGiBy.net
32にはないだろ

354 :デフォルトの名無しさん:2022/01/31(月) 12:44:12.35 ID:rgTNIYKD.net
互換漢字とか合成順序とかあるので重複コーディングがあるといえばある。規格を正しく運用すれば対応できる(例外あり)
一方でUTF8も規格が改定されて最短表現のみが正当とされることになったので、規格を正しく運用すれば対応できる。

355 :デフォルトの名無しさん:2022/01/31(月) 19:15:59.02 ID:yx3TsyxS.net
やがてストレージはPB単位が普通になりメインメモリはTBが当たり前になると、1文字が4バイトでも誰も気にしなくなる。
その時組み込み用の小さいマイコンはメモリがGB単位。SSDのストレージがTB単位。32TBで800円ぐらい。

356 :デフォルトの名無しさん:2022/01/31(月) 21:38:18.36 ID:Ux91EXU2.net
そういえばあの頃はまだ1文字32bitだったよね

357 :デフォルトの名無しさん:2022/01/31(月) 22:38:52.91 ID:sMW2SYQR.net
>>353
当分の間は問題化しないというだけであり、理論上は問題がある
time_t型が64bitになったことで桁あふれが起きる時期が先送りされたのと似た問題

358 :デフォルトの名無しさん:2022/02/01(火) 21:11:53.44 ID:jUZPBG7K.net
>>357
Unicodeコードポイントの最大値は未来永劫U+10FFFFであると定められているので
32bitで足りなくなることはあり得ない。

359 :デフォルトの名無しさん:2022/02/01(火) 21:16:16.71 ID:00qxkD7h.net
未来永劫ではなく現時点でしょ
未来なんて誰にもわからない
👽地球外生命体とコンタクトすれば全人類だけではなく地球外生命体の文字コードも網羅しなければならなくなる

360 :デフォルトの名無しさん:2022/02/01(火) 21:23:34.67 ID:jUZPBG7K.net
UTF-32の話をしているのにバカな事言わないで貰えますか?

361 :デフォルトの名無しさん:2022/02/01(火) 21:38:13.10 ID:00qxkD7h.net
コンソーシアムがとち狂って個人のポートレートや企業ロゴを文字コードに採用したらあっという間に枯渇できる

362 :デフォルトの名無しさん:2022/02/01(火) 22:55:38.79 ID:hFW6IvRL.net
>>361
多分絵文字で枯渇する気が…

363 :デフォルトの名無しさん:2022/02/01(火) 23:15:37.24 ID:00qxkD7h.net
過去・現在・未来の人類ひとりひとりに固有Unicode文字を割り当てたらあっという間に枯渇できるから安心してほしい
つまり歴代天皇や君も僕も人柱だ

364 :デフォルトの名無しさん:2022/02/01(火) 23:18:23.82 ID:7hMd5jZU.net
妄想はそれ位にしとけ
つまらないから

365 :デフォルトの名無しさん:2022/02/02(水) 01:38:55.00 ID:yCdABo8l.net
やがて emoji に埋め尽くされ32bitでは足りなくなる

366 :デフォルトの名無しさん:2022/02/02(水) 06:08:48.50 ID:Y6+HxZQE.net
すべての人がUTF文字コードとして記録されていくなんてすばらしいじゃないか
お墓いらずだ

367 :デフォルトの名無しさん:2022/02/02(水) 21:40:22.89 ID:6xMR6AP7.net
マイコちゃん

368 :デフォルトの名無しさん:2022/02/02(水) 23:56:56.99 ID:yCdABo8l.net
全ての人だけでなく全ての動物もやろうとして破綻

369 :デフォルトの名無しさん:2022/02/03(木) 00:02:44.44 ID:mIHwLL5k.net
Unicodeが共同墓地として利用される日が来ないと言い切れるか?

370 :デフォルトの名無しさん:2022/02/03(木) 08:37:22.23 ID:wMyMehRo.net
👱🏿‍♀
すでに32bitに収まってないやんけ
フルカラー&ゲーミング肌色も遠くないかもねー

371 :デフォルトの名無しさん:2022/02/04(金) 00:58:17.10 ID:ZnGIs6if.net
やはり1文字128bit必要か

372 :デフォルトの名無しさん:2022/02/04(金) 00:59:27.52 ID:lO1pHc5T.net
可変長に耐えられる仕様にしろ、がFAだよ

373 :デフォルトの名無しさん:2022/02/04(金) 01:00:35.02 ID:lO1pHc5T.net
あ、理論上無限な可変長って意味ね

374 :デフォルトの名無しさん:2022/02/05(土) 01:16:52.31 ID:HxVSTXLK.net
つらE

375 :デフォルトの名無しさん:2022/02/11(金) 16:39:52.03 ID:/9lD9ir1.net
vimにcocプラグイン入れて:CocUpdateコマンド使うと、
以下のような点字図形文字を使った待機アニメーションが出力されるね
⠇⠋⠙⠸⠴⠦

なるほど上手いなと思ったんだけど、既知?

376 :デフォルトの名無しさん:2022/02/11(金) 18:35:39.64 ID:27OdIczy.net
マルチプラットフォームなツールなのにMac版だけ点字クルクルアニメなのを見た気がする。何だったかな

377 :デフォルトの名無しさん:2022/02/11(金) 18:47:52.13 ID:27OdIczy.net
思い出した。flutterだ

378 :デフォルトの名無しさん:2022/02/11(金) 21:33:05.23 ID:/9lD9ir1.net
U+2572を使えばMSゴシックなどバックスラッシュが円マークで表示されるフォントでもそれらしく表示できるので以下のように待機アニメーションが可能
╲|/-

379 :デフォルトの名無しさん:2022/02/11(金) 21:36:04.16 ID:/9lD9ir1.net
あー思い出した、日本ファルコムの「ザナドゥ」って名前の昔のPCゲームで魔法Needleがまさに >>378 だった
魔法の描画が特殊な文字フォントとして表示される不思議なゲームだった

380 :デフォルトの名無しさん:2022/02/12(土) 01:38:51.31 ID:3nKCvFcm.net
ゲームは独自文字コードの話なんかがあるとわくわくしちゃう

381 :デフォルトの名無しさん:2022/02/12(土) 02:08:09.53 ID:MORw/gx6.net
TeraTerm でフォントを MSゴシックにして送受信UTF-8にして LANG=ja_JP.UTF-8 になっている Linux から

perl -e 'binmode STDOUT,":utf8";print "\x{2572}\n"'

をやったら "?" が出た。

TeraTerm いまいちだな。

382 :デフォルトの名無しさん:2022/02/12(土) 05:58:06.53 ID:6+IJgpfD.net
記憶補正されてたみたいなので修正。ニードルの描画はバーティカルバーとハイフンを使わない。
╲/のみ。以下が実際のゲーム画面
[PC-88] Dragon Slayer II - Xanadu (1985) (Nihon Falcom)
https://youtu.be/QcQpec98nCA?t=397

383 :デフォルトの名無しさん:2022/02/12(土) 15:46:35.31 ID:8ted8XK+.net
Tera Pad も、新し目の文字には対応していない

だから漏れは、サクラエディタに移行した

384 :デフォルトの名無しさん:2022/02/12(土) 21:10:02.53 ID:dKDTnJaa.net
ぼくはemEditorちゃん

385 :デフォルトの名無しさん:2022/02/13(日) 05:32:46.63 ID:4VAZuwGn.net
今日日Windows標準アプリのメモ帳(notepad.exe)でさえ╲を表示できるというのに

386 :デフォルトの名無しさん:2022/02/13(日) 16:46:47.29 ID:JPo1zqMd.net
デバッグ機能をもちいてnppを開くようにしているので、
メモ帳を見ることもない(できない)

387 :デフォルトの名無しさん:2022/02/16(水) 15:51:43.42 ID:1NX6gMDY.net
Oo ← オー
Οο ← オミクロン

388 :デフォルトの名無しさん:2022/02/16(水) 18:14:50.69 ID:iMFDoGAT.net
U+041Eが抜けてるからやり直し

389 :デフォルトの名無しさん:2022/02/16(水) 19:28:36.79 ID:FuaJKoOs.net
OOoを思い出した

390 :デフォルトの名無しさん:2022/02/16(水) 20:46:32.06 ID:iMFDoGAT.net
仮面ライダーOOOのことか

391 :デフォルトの名無しさん:2022/02/17(木) 02:53:07.08 ID:lXnVBwGN.net
○ ← 丸
◯ ← 大きな丸

392 :デフォルトの名無しさん:2022/02/18(金) 23:29:32.04 ID:EylFm52t.net
〇 ← 漢数字の0

393 :デフォルトの名無しさん:2022/02/18(金) 23:40:40.63 ID:eMdVCkJH.net
さほど大きくない

394 :デフォルトの名無しさん:2022/02/19(土) 21:56:34.84 ID:WK46JgnA.net
>>389
Oracleになって一瞬でオワコンになったねOOo。

395 :デフォルトの名無しさん:2022/02/20(日) 15:09:08.00 ID:esxKg1MC.net
(;´Д`)。oO(  )

396 :デフォルトの名無しさん:2022/03/26(土) 20:09:02.80 ID:O3+9n+yo.net
今日の某クイズ系YouTuberの問題。
俺らなら朝飯前だよな?

U+25CBは何の記号?

397 :デフォルトの名無しさん:2022/03/26(土) 22:37:56.00 ID:VQg+C9MX.net
(´-`).。oO(顔文字のなんでだろう.....その18
https://mevius.5ch.net/test/read.cgi/kao/1624068762/

398 :デフォルトの名無しさん:2022/04/01(金) 06:35:47.75 ID:GJOH32Yz.net
全銀の半角カナは未来永劫続くのかな

399 :デフォルトの名無しさん:2022/04/02(土) 19:11:52.31 ID:TBdum5+v.net
>>383
>Tera Pad も、新し目の文字には対応していない
あれは新しい文字とかの区分でなく表示の仕様上の理由で使えるフォントが制限されてるだけ
テキストエディタの使い勝手の思想そのものが古いツール

400 :デフォルトの名無しさん:2022/04/02(土) 20:03:45.33 ID:jZ5+/7uV.net
>>398
スーパーとかのレシートに書かれてる品目名もそういう後方互換性で半角になってるの?

401 :デフォルトの名無しさん:2022/04/02(土) 20:12:40.94 ID:ofyuLHc/.net
文字コードスレなのに半角とか言ってるのどうよ

402 :デフォルトの名無しさん:2022/04/02(土) 20:15:50.54 ID:JI80ciY+.net
半角カタカナって意味でしょ
>>401 は行間読めない人?

403 :デフォルトの名無しさん:2022/04/02(土) 20:26:44.01 ID:ofyuLHc/.net
行間じゃなくて規格読もうよ

404 :デフォルトの名無しさん:2022/04/02(土) 21:18:46.01 ID:BNfK/Mc6.net
HALFWIDTH KATAKANAって半角じゃないの

405 :デフォルトの名無しさん:2022/04/02(土) 22:30:54.56 ID:0QhQs7Ov.net
それ全銀とは別の、HALFWIDTHとFULLWIDTHの両方を含んでる規格の話じゃね?

406 :デフォルトの名無しさん:2022/04/02(土) 22:48:46.74 ID:BnrUb276.net
>>400
どうなんだろうね
幅が半分で長い名前を表示ときに便利ということで使われてるほうが多いんじゃないかな
数字も個々の商品の価格は半角、合計額は全角で表示してたり

407 :デフォルトの名無しさん:2022/04/02(土) 23:50:05.15 ID:qrUGLqMu.net
国際化意識してない日本語環境においては、
表示、印字された日本語を見て全角とか半角になってるとか言うのは特におかしいことはないよ
JIS規格(「日本語文書の組版方法」)上、正しい表現

408 :デフォルトの名無しさん:2022/04/03(日) 02:46:37.16 ID:/EMPaOUu.net
文字コードとフォントの違いがわかってないやつが多いな。

409 :デフォルトの名無しさん:2022/04/03(日) 07:38:29.92 ID:UTZR2EX5.net
>>408
例えば「小田急線に乗りたい」と息子が言ったとする。そしていざ、小田急線のホームにつくと「違う」と言い出し、乗ろうとしない。よくよく聞いてみると息子の希望は、「小田急3000型の急行小田原行きに、新宿から小田原まで乗りたい」ということだったりする。

わかるかぁ!と思ったのを思い出した

410 :デフォルトの名無しさん:2022/04/03(日) 11:41:24.29 ID:YOg/TQMm.net
>>403
規格にもhalfwidthあるじゃん
明らかに半角からとった名前だしそれを半角と呼ぶのはおかしくないだろ

411 :デフォルトの名無しさん:2022/04/03(日) 11:55:34.75 ID:Yvm2gL+J.net
じゃー聞くがそもそもその半角の角て何よ

412 :デフォルトの名無しさん:2022/04/03(日) 12:11:46.89 ID:NWvQ4doQ.net
半角二次元っていう板があるから
そこで聞いてくるといいよ

413 :デフォルトの名無しさん:2022/04/03(日) 13:00:55.07 ID:sHDa++yb.net
>>412
君、頭悪いってよく言われるでしょ?

414 :デフォルトの名無しさん:2022/04/03(日) 13:40:57.13 ID:hBoszYQw.net
>>406
近所のコンビニのレシートでは所在地に全角数字、電話番号に半角数字が使われ
ドラッグストアのレシートでは所在地に半角数字、電話番号に全角数字が使われてる

415 :デフォルトの名無しさん:2022/04/03(日) 13:54:58.39 ID:craTsUS2.net
>>411
半角という一つの言葉にhalf widthって訳語を当てたんだろ

416 :デフォルトの名無しさん:2022/04/03(日) 14:07:53.41 ID:CJTxuxUG.net
「半角」は元々は活字の半分の面積を意味する印刷業界用語だよ

417 :デフォルトの名無しさん:2022/04/03(日) 15:32:39.46 ID:8njkmZuA.net
そういやなんで「角」なんだろうね?

418 :デフォルトの名無しさん:2022/04/03(日) 15:51:29.35 ID:CJTxuxUG.net
活字における四角形の4つの角すべてを使用するから全角

419 :デフォルトの名無しさん:2022/04/03(日) 19:33:49.94 ID:FH+2XgVa.net
C勉強初心者なのだが文字コードの壁にぶち当たった
日本語使わなきゃいいだけなんだろうが例題は原文が日本語だし
それを英語に直して打ち込んで、出力結果の確認も英語でやるとかしんどすぎる

420 :デフォルトの名無しさん:2022/04/03(日) 19:48:22.38 ID:CXOzFyJC.net
英語が得意ではない
という意味?

421 :デフォルトの名無しさん:2022/04/03(日) 19:49:40.68 ID:CJTxuxUG.net
間違ってC++相談室スレに書き込んでしまったので改めて書き込む

半角全角使うな厨が絶滅しますように (AA略

422 :デフォルトの名無しさん:2022/04/03(日) 19:58:36.84 ID:FH+2XgVa.net
>>420
そうです。英語があまり得意ではありません。
日本語の入門書で学習しているのですが、その本が特に開発環境を指定しておらず、
自分が準備した開発環境(エディタがShift-JISらしいです)で例題を打ち込むと問題が起こります。
特定の文字に対処する方法はあるようなのですが、環境を変えて根本的な解決ができないか、と調べておりましたが、
そちらも色々ややこしそうで、結局全部英語でやらなきゃいけないのかなぁ、と。

423 :デフォルトの名無しさん:2022/04/03(日) 20:12:43.82 ID:a31az5g3.net
うむ。半角使うな厨はそろそろ世の中から退場して。

424 :デフォルトの名無しさん:2022/04/03(日) 20:28:35.14 ID:ay8H5C1D.net
半角カナ使う人に理由をきいてみたら、1バイトでもファイルサイズを減らすためと言われたのには色々驚いた
ちなみに文字コードはUTF-8

425 :デフォルトの名無しさん:2022/04/04(月) 00:40:27.15 ID:39SIV1sh.net
>>422
真っ当なエディタ使え
フリーでいいものがいくらでもあるぞ

426 :デフォルトの名無しさん:2022/04/04(月) 07:21:12.86 ID:aBZOo9DH.net
>>425
ありがとうございます。
もう少し調べて設定を変えてみたら、作成済のexeファイル起動したときコマンドプロンプトで文字化けが起こったので、今のままじゃ対応できなさそうな感じです。
世の中の全ソフトがUTFなら問題は起こらないんだろうなあ。

427 :デフォルトの名無しさん:2022/04/04(月) 12:19:56.00 ID:A2Pzpe07.net
CP932 とか、ファイルパスにUTF-16 ? とか使っているのは、Windows だけでしょ?
Linux は、UTF-8 で統一されている

全言語はLinux用

Windows用言語は、C# のみ。
特殊なのは、Windows用のネイティブアプリを作る場合だけ。

普通にウェブ開発する場合は、Linux。
サーバー・クラウド・Docker も、すべてLinuxだから

開発者がLinuxしかいない。
それでWindowsでも、WSL2 でLinuxが使えるようにした

428 :デフォルトの名無しさん:2022/04/04(月) 12:30:01.86 ID:aBZOo9DH.net
真面目にやりたいならwindowsしか持ってないってのはまずいってわけか
初心者向けの学習ならごまかしつつ進められるところはあるのかもしれないが

429 :デフォルトの名無しさん:2022/04/04(月) 12:53:56.30 ID:F+M9/rKi.net
>>400
レシートに印字できる文字数やレジに登録できる文字数に制限がある
全角で表示しきれればいいけどだいたい足りないので半角で登録する
店舗名や住所などは3行とか4行表示できたりするのでスペース文字とかで調整して印字させたりした
10年ぐらい前の話だけどな

430 :デフォルトの名無しさん:2022/04/04(月) 13:33:42.39 ID:0mSmJ0PC.net
Shift JISであればWindowsのコマンドプロンプトで文字化けはしない
全てが文字化けするのか"表"のように特定の文字だけ化けるのか
コンパイラは何を使っているのか等々もう少し詳しく書かないとわからん

431 :427:2022/04/04(月) 13:55:29.24 ID:A2Pzpe07.net
WSL2, Ubuntu 18.04 で、Ruby の1-liner なら、これで日本語文字列が表示される。
ファイルパスに日本語が含まれていても、WSL2 が変換して正常に処理される

/mnt/c は、Windows 側のCドライブ

chomp で末尾の改行を削除して、1行ずつ処理する。
:encoding "extenc:intenc" の形で、外部/内部エンコーディングを指定する

ファイルがUTF-8 の場合
ruby -e 'File.foreach( "/mnt/c/Users/Owner/Documents/ファイル.txt", chomp: true ) { |line| puts line; break }'

ファイルがCP932 の場合
ruby -e 'File.foreach( "/mnt/c/Users/Owner/Documents/ファイル.txt", encoding: "CP932:UTF-8", chomp: true ) { |line| puts line; break }'

432 :デフォルトの名無しさん:2022/04/04(月) 14:42:22.56 ID:aBZOo9DH.net
>>430
特定の文字だけアウトです
本格的なのは別にあるのは知ってますが勉強用なら見やすいのがいいかなと思ってEasyIDECで始めたのでコンパイラはTinyCかと思います
対策調べてたらShiftJISで書くのがそもそもの間違いみたいな話があり困っておりました

433 :デフォルトの名無しさん:2022/04/04(月) 15:48:39.38 ID:A2Pzpe07.net
Windows 専用の環境依存文字じゃないの?

@、丸で囲まれた1とか、
、はしご高とか

CP932 の文字かも。
たぶん、sjis に含まれていないのかも

Shift_JIS, CP932(Windows-31J)の違いを調べてみれば?

434 :デフォルトの名無しさん:2022/04/04(月) 19:24:33.26 ID:0mSmJ0PC.net
>>432
多分ダメ文字だね
ソ噂浬欺圭構蚕十申曾箪貼能表暴予禄兔喀媾彌拿杤歃濬畚秉綵臀藹觸軆鐔饅鷭
は2byte目が0x5cなのでエスケープ文字と誤認識して文字化けする
ダメ文字の後に半角¥を入れることで回避はできる
printf("表\示");
Borland C++のフリーの日本語版はもう手に入らないんだっけ

435 :デフォルトの名無しさん:2022/04/04(月) 19:35:35.38 ID:i8uhY1ge.net
開発環境はVisual Studio Community使えば良いのでは

436 :デフォルトの名無しさん:2022/04/04(月) 20:00:31.30 ID:0mSmJ0PC.net
あとはソースをUTF-8で編集してビルドしてコマンドプロンプトでchcp 65001としてUTF-8に切り替えてから実行するとか
コマンドプロンプトのフォントはMSゴシックとかにしておいた方がいいと思う

437 :デフォルトの名無しさん:2022/04/04(月) 22:38:46.29 ID:W9fOauET.net
>>427
どこのLinuxの話?

438 :デフォルトの名無しさん:2022/04/04(月) 23:02:35.76 ID:0ys4BNPk.net
ありがとうございます
色々考えた結果学習は>>434の方法で続けてみることにします

439 :デフォルトの名無しさん:2022/04/05(火) 00:45:07.42 ID:TsqsF2oT.net
>>434の方法でも同じエラーが発生する
Shift-JISがゴミであることが分かった
コマンドプロンプトからいじるの面倒だしPC買い直す余裕ないしプログラム学習おわり

440 :デフォルトの名無しさん:2022/04/05(火) 00:59:13.18 ID:TsqsF2oT.net
PC買い直す必要まではないのか
しかし先が思いやられるのでプログラム学習はやめにするよ
特に目標があったわけでもないし
ありがとう

441 :デフォルトの名無しさん:2022/04/05(火) 01:02:33.14 ID:iD4mxYU0.net
SJISのような日本ローカルのキャラクタセットを外国が意識してくれると思っている方がおかしい。

442 :デフォルトの名無しさん:2022/04/05(火) 01:07:26.62 ID:TsqsF2oT.net
それはそうなんだが英語力を専門書読めるレベルに上げるなんて今更無理
日本語を母語として20年生きてきた普通の人がプログラミングやるなんて無理なんじゃない?

443 :デフォルトの名無しさん:2022/04/05(火) 01:09:38.64 ID:TsqsF2oT.net
全てを英語で学習するのが最良なのは間違いなさそうだが
全ての日本人プログラマーがそうしてる訳ではないよな?
どこかに道はあるような気はするが…もうどうでもいいわ

444 :デフォルトの名無しさん:2022/04/05(火) 01:54:42.17 ID:lmURjE+L.net
UTFで統一すればうまく行くかもしれない

445 :デフォルトの名無しさん:2022/04/05(火) 02:09:00.43 ID:vcRNUjlt.net
>>444
8?16?32?

446 :デフォルトの名無しさん:2022/04/05(火) 02:12:52.85 ID:TsqsF2oT.net
OSがwindowsで設定言語が日本語なのでどこかで詰むのではないかと不安

447 :デフォルトの名無しさん:2022/04/05(火) 14:23:19.00 ID:6a13xz8Z.net
ダメ文字って、20〜30年前の話じゃないの?

sjis が鬼門だから、日本人開発者は皆、Mac を使う。
プログラミング学校もMac限定

Windows 10 Home 版で、
VSCode, WSL2, Linux, Docker Desktop などが出来たのは、ここ2〜3年

これでようやく、WindowsがMacと争えるようになった

Microsoft がLinux技術者を大量に採用して、WindowsからLinuxへ移行したから

448 :427:2022/04/05(火) 14:39:26.06 ID:6a13xz8Z.net
>>427
に書いたけど、全言語がBOM無しUTF-8 で、Linux 用

だから、これ以外の物がダメ。
つまり、Windows と、sjis がダメ

クラウドのすべての基幹技術が、Docker で、
AWS, Kubernetes, CircleCI などで使われている。

DockerはLinux の技術だから、
Microsoft も、Linux Foundation に入っている

Linuxを使わないと、インターネット・コンピューターが動かない

449 :デフォルトの名無しさん:2022/04/05(火) 14:51:52.85 ID:TsqsF2oT.net
・日本語でプログラミングの勉強しようと思ったら基本的にwindowsは使ってはいけない
・ここ数年はwindowsでもやれないことはない
ってこと?
とはいえ未だにコマンドプロンプトは良くなさそうだし学習ストップが無難か

450 :デフォルトの名無しさん:2022/04/05(火) 14:55:24.52 ID:TsqsF2oT.net
自分みたいな年寄りはともかく、家にwindowsしかない普通の家庭の子どもが何かのきっかけでプログラミングに興味を持ったとき、そこから先に進む可能性を閉ざしてしまうのが日本ってことになるな

451 :デフォルトの名無しさん:2022/04/05(火) 15:24:31.00 ID:tzt3NmkL.net
日本語で得られる範囲は対したことが無いので、将来への不安とか考えなくても良いよ

452 :デフォルトの名無しさん:2022/04/05(火) 15:28:13.39 ID:TsqsF2oT.net
プログラミングの勉強する前に英語の勉強しろってことだな
手遅れ感が否めないけど

453 :427:2022/04/05(火) 16:07:16.53 ID:6a13xz8Z.net
すべてのシステムは、インターネット・クラウドにあるから、
それを作っているのがLinux なので、全言語はLinux用に作ってある。
だから、全言語BOM無しUTF-8 を使っている

Windows(C#), iPhone(Swift), Android(Dart)など各端末用の言語は、特殊な部類

特にWindowsは、sjis 正確にはCP932 を使っていて、
こういうエンコードを知っている外人は、まずいない

だから、外人が作ったUTF-8, Linux用のコードを、
Windows用にコンパイルしても、日本語でバグる

だから、Ruby on Rails でも、Cloud 9 でクラウド開発するか、Mac を使う。
プログラミング学校もそう

YouTube のRailsの動画でも、
Windows 10, VSCode, WSL2, Linux, Docker Desktop などは、つい最近

454 :427:2022/04/05(火) 16:18:30.45 ID:6a13xz8Z.net
Microsoft(MS)のCEO・バルマーが「Linux はガン」と言って毛嫌いしていたけど、
すべてのシステムがクラウド・Linux へ移行して、世の中に取り残されてしまった

MSに残ったのは、Office だけ

それで、MSはLinux技術者を大量に雇い、
Linux Foundation にも入って、Linuxに貢献することにした

それと取り残されているのが、CP932。
世界はUTF-8になっている

455 :デフォルトの名無しさん:2022/04/05(火) 16:25:00.78 ID:TsqsF2oT.net
バルマーって昔壇上で叫んでた変なおっさんか

それはともかく
自分が英語できなさすぎるからかも知れんがMacのUI苦手でな…
もし学習するなら普段使い用とはPC自体分けたほうが良いのかもしれんな
そんな金はないが

456 :427:2022/04/05(火) 16:39:15.87 ID:6a13xz8Z.net
Ruby on Rails みたいなウェブ開発は、Linux だから、
Cloud 9 みたいなクラウド開発を勧められる

ローカルPC なら、Mac 上に、Virtual Box でLinuxを入れる。
どこのプログラミング学校でもそう

Windows 10 Home, VSCode, WSL2, Linux, Docker Desktop は、つい最近

ローカル開発では、Mac/Windows上に、Linuxを入れるから、
2つのOS が動くから、メモリ16GB 以上は欲しい。
32GBが推奨

初心者は必ず、Linux, Dockerを学ぶ

Windows(C#), iPhone(Swift), Android(Dart)など各端末用の言語・アプリは、特殊な部類

457 :デフォルトの名無しさん:2022/04/05(火) 16:42:48.29 ID:0cBctari.net
ちんちんシュッ!シュッ!シュッ!

458 :デフォルトの名無しさん:2022/04/05(火) 18:55:29.40 ID:lZ0ctM/K.net
1990年に補助漢字が制定されたときに
シフトJISを置き換えようとする動きは全く無かったのかな

459 :デフォルトの名無しさん:2022/04/05(火) 19:12:08.71 ID:E5ZUVyu6.net
>>458
当時は無かった。PCにもプリンターにも漢字ROMとか積んでたような時代なのでコストに合わないと思われたのかもしれん。
ちなみに DOS/V は補助漢字と同じ年、1990年の年末に登場。

460 :デフォルトの名無しさん:2022/04/05(火) 22:02:53.74 ID:tEc3t7ZA.net
>>439
同じエラーって具体的にどんなエラーが出てるの?
でダメ文字の所で出るのかね
上にも書いてる人がいるけどかなりの初心者っぽいのでVisualStudioCommunity使った方がいいんじゃない
あとC以外の言語から始めた方がいいと思う
あと変な人が力説してますがLinuxの方が敷居が高いですよ
いままでの書き込みみてもLinux入れてターミナルでソース編集してコンパイルまで到達できそうにない

cp932は互換性のために残ってるだけで内部はWindowsNTの時点でUnicodeです
コマンドプロンプトもUTF8に出来るしWindoesTerminalとか出てきてるしメモ帳すらUTF8対応してるというのに

461 :デフォルトの名無しさん:2022/04/05(火) 22:22:26.20 ID:TsqsF2oT.net
>>460
\を入れようが何しようが、ダメ文字入ってるプログラムはコンパイルできませんと言われますね

あとLinuxのターミナルの表示は学生時代に見たことがあって、
ああいうのに首突っ込むのは後でいいのかな、と思った
もっと分かりやすいところから始めようとした
それでEasyIDECなんぞ入れてしまったんですが…

VisualStudioCommunity、Windowsでは一般的らしいですね
全工程でShiftJISが介在しないようにするには色々いじらないといけないらしく
自分のPCで可能なのか問題が起こらないのか調べてみてます

462 :デフォルトの名無しさん:2022/04/05(火) 22:37:00.82 ID:WTnH7dBF.net
ずぶの素人は文字コードのことなんか忘れて素直にVisualStudio使う正道いけば何ら問題ないんだ

463 :デフォルトの名無しさん:2022/04/05(火) 22:57:36.93 ID:tEc3t7ZA.net
>>461
ダメ文字ごときでコンパイルできないってのも変な話だね
EazyIDECでざっと検索したけどコンパイラが日本語非対応かつ規格古いからお薦めしないみたいな回答がいくつも出てきたよ
まあVisualStudioがいいんじゃね
基本的に日本語版と銘打っている開発環境であれば文字化けは発生しません
あとプログラム言語の勉強をしたいんであればC言語はやめた方がいいと思う

464 :デフォルトの名無しさん:2022/04/05(火) 23:06:58.23 ID:ttF5Czbg.net
>>454
今のMSの稼ぎ頭はAzureだぞ
まぁ、AzureのVMの半数はLinuxが動いているらしいが

465 :デフォルトの名無しさん:2022/04/05(火) 23:30:48.81 ID:Nm1pCLcM.net
いまどき珍しいアンチMSがいますね

466 :デフォルトの名無しさん:2022/04/06(水) 00:39:28.57 ID:WyxjzJ2Q.net
>>463
VisualStudioを試してみた結果

問題のプログラムをShift-JISにしたプロジェクトとUTF-8にしたプロジェクトが、両方普通にデバッグ可能なので
VisualStudioの設定がどうなってるのか分からない
というかVisualStudioの各ウィンドウの表示や設定項目の意味が分からない
教科書を先に進めることは可能になりそうなのは良いが、上記問題をどこまで放置して良いのやら…

色々アドバイス頂きありがとうございます。

467 :デフォルトの名無しさん:2022/04/06(水) 15:12:06.40 ID:JYszPs8R.net
VisualStudio のマニュアルを読もうという気はないのか?

468 :デフォルトの名無しさん:2022/04/06(水) 15:56:14.27 ID:N8xSXOwY.net
文字コードスレでやる話じゃない
その程度の判断すら出来ないピーマンに
ドキュメントを読むなんて発想があったら
そっちの方がビックリしてしまう

469 :デフォルトの名無しさん:2022/04/06(水) 17:12:22.67 ID:aY4pnG+o.net
それな
ここはグリフの出来栄えを品評するスレだから

470 :デフォルトの名無しさん:2022/04/21(木) 01:22:16.61 ID:4dP6ZshN.net
絵文字の話をしましょう

471 :デフォルトの名無しさん:2022/04/30(土) 19:05:50 ID:Umyn0PED.net
皆さん5月ですよ。
カープストリーマーが多用される季節ですね

472 :デフォルトの名無しさん:2022/05/01(日) 00:03:14.50 ID:v8m9Jg9Q.net
kashiwamochiの絵文字は無いのですか

473 :デフォルトの名無しさん:2022/05/01(日) 01:05:28.24 ID:GLFip81w.net
     ______
    `=、;;;;;,,,,,,,:::,,,,,;;;;;,,,,`""''';;;;,, 、__
     ,.-'゙''''',='";;;;;;;;",-,,;;;;;;゙;;;;;;;;;l;;;;`,、
   /   `ー-...,;;;;;;;;;;;;,-‐/;;;;;;';;;;;;;;;;;;
  ./             `''''''""i;;;;;;;;ヽ
  l  ■  |,,,____/           |;;;;}  カシワモーチ!
  |     |.:::::/  ■        ノ;;;;}
  ヽ、   |:::/          _,/;;;'゛
    `ヽ、_ |/        _,,.,;‐';;;;゛゛
      "'''=ー;‐---‐‐'';';"-''"゛
          ~~~~ ̄´

   -、,,;;;、;;,、
   (・∀・ };;) カシワモーチ!

474 :デフォルトの名無しさん:2022/05/01(日) 09:47:27.40 ID:++MYoEcJ.net
     /\⌒ヽペタン
   /  /⌒)ノ ペタン
  ∧_∧ \ (( ∧_∧
 (; ´Д`))' ))(・∀・ ;)
 /  ⌒ノ ( ⌒ヽ⊂⌒ヽ
.(O   ノ ) ̄ ̄ ̄()__   )
 )_)_) (;;;;;;;;;;;;;;;;;;;)(_(

475 :デフォルトの名無しさん:2022/05/01(日) 13:06:53.14 ID:WHoMyRTL.net
かわいいな

476 :デフォルトの名無しさん:2022/05/18(水) 04:12:02.62 ID:6EUcjmyx.net
 
 __     __  ___ _____  _____     ___ ___    ___
 |   |    /  /  |  //       | /__  __/ [][] _| |_| |__ _| |_
 |   |.   /  /  /  / /   / ̄ ̄|. l    / /     |    _  | |_  レ'~ ̄|
 |   |  /  /  /  / /   /.  / /    |  |___      ̄|  | / / /   /| |
 |   |  /  /  /  / /    ̄ ̄ /     \__|     |  |  ̄ /_  /  | |_
 |   |. /  /  /  / /   / ̄ ̄ ̄                |_|     |__|   \/
 |   |/  /  /  /. /   /  
 |.     /  /  /  /   / 
 |    /. /   | ./   /  
  ̄ ̄ ̄   ̄ ̄ ̄.  ̄ ̄ 

477 :デフォルトの名無しさん:2022/05/18(水) 04:37:01.90 ID:gfXomVxl.net
これだから🤐は…

478 :デフォルトの名無しさん:2022/06/10(金) 23:51:02.52 ID:4zMtyRVG.net
顔文字という

479 :デフォルトの名無しさん:2022/06/29(水) 21:31:27.01 ID:iLZmMWcX.net
全角1文字の情報量は何バイト?
https://it.srad.jp/story/22/06/27/1532211/

480 :デフォルトの名無しさん:2022/06/29(水) 23:00:04 ID:ycG9kzJQ.net
今、一般的に利用できる技術で詰め込むとして
300dpi 10point くらいのサイズだとマイクロQRコードM4 つかって35バイト当たりが正解か。

481 :デフォルトの名無しさん:2022/07/01(金) 00:22:17.93 ID:6S5dpkxd.net
紙に詰め込もうとしてる?

482 :デフォルトの名無しさん:2022/07/01(金) 12:40:19.55 ID:U5ME1fTg.net
媒体は紙でも画面でも木簡だろうと。
一般人の購入・所持してるレベルの普通の技術で、普通の文字サイズの全角文字(縦横比1:1)に情報を入れるとして、どれくらいまで実用的だろうかという考察。

483 :デフォルトの名無しさん:2022/07/01(金) 20:16:53.35 ID:F6B+6IMD.net
上質な紙でないとにじむよな

484 :デフォルトの名無しさん:2022/07/02(土) 01:12:18.87 ID:cS0BsC4l.net
ハレーションてにじみ効果のことなのに、さもすごいことのように使うよね
破裂とハレーションがごっちゃになってるのかな

485 :デフォルトの名無しさん:2022/07/02(土) 13:10:58.28 ID:9/HrZ4Vl.net
今初めて出てきた気がする

486 :デフォルトの名無しさん:2022/07/04(月) 21:19:31 ID:SWl1SOpj.net
何の話なんだ

487 :デフォルトの名無しさん:2022/07/14(木) 16:04:28.04 ID:t8kzJx3G.net
https://gigazine.net/news/20220714-emoji-unicode-15/
生姜emojiが規格化されるのずっと心待ちにしてたんですよ

488 :デフォルトの名無しさん:2022/07/14(木) 22:20:28.37 ID:uPLvKqD7.net
ハートの色違いって必要?

489 :デフォルトの名無しさん:2022/07/14(木) 22:48:13.56 ID:i26mvtWu.net
そもそも文字コードに色とか必要?
HTMLとかのプレゼンテーション層でやるべきだろ。

490 :デフォルトの名無しさん:2022/07/14(木) 23:55:27.47 ID:dhZ0Z3m6.net
そもそも文字コードに絵文字は必要?

491 :デフォルトの名無しさん:2022/07/15(金) 00:59:26 ID:o79mkU7V.net
必要でしょ
中央アジアで使われていた紋章タムガもUnicode登録すべきだと思うよ
それなら貴族や大名の家紋も登録しろみたいな話になるかもしれんが、タムガは別

492 :デフォルトの名無しさん:2022/07/15(金) 01:46:43.92 ID:o79mkU7V.net
タムガは中国の漢字を元に考案されたという説がある
漢字からして絵文字のようなものだから、絵文字がダメなら漢字もダメだろう
さらに突き詰めれば、漢字を含む表意文字は広義の絵文字だから、表意文字も禁止しなければならなくなる

493 :デフォルトの名無しさん:2022/07/15(金) 04:09:44.38 ID:8pcZ5oZc.net
>>489
それは昔のauとjフォンに言ってあげて

494 :デフォルトの名無しさん:2022/07/15(金) 04:48:32.08 ID:o79mkU7V.net
色付き絵文字は、従来のANSI Colorのように色情報を捨てられる恐れがないという利点もある
わかりやすい例を挙げると、コピペすると色情報はあっさりと失われたりするけど、絵文字ならその心配がない

495 :デフォルトの名無しさん:2022/07/15(金) 06:51:07.79 ID:LI/vBnI5.net
絵文字は表意文字の発展形のようなものだと思えば
漢字は特定の物や概念を共通の文字で表現できる、この機能が進展したと

496 :デフォルトの名無しさん:2022/07/15(金) 20:43:12.57 ID:eDVqQDWt.net
漢字と違うのは、書体がまだ確立されてないところかなあ

00年代の絵文字入りメールを今見るとガラケーでの表示とは別物に見える
今から20年後も、今のiOSやAndroidの絵文字デザインとは別物になってるだろう
アイコンとかのUIパーツは5年ぐらいのスパンで流行が変わっていってるし

497 :デフォルトの名無しさん:2022/07/15(金) 20:52:16.46 ID:w1A0sfi2.net
漢字の成り立ちを考えたら、絵文字は大幅な退化な気がする

498 :デフォルトの名無しさん:2022/07/15(金) 22:17:10.66 ID:XzYs8QwT.net
そもそも、架空の文字は登録しないとか言ってたのに絵文字はどうなのよ

499 :デフォルトの名無しさん:2022/07/15(金) 22:47:55.23 ID:C1BojQ1G.net
妛とか袮は架空の文字じゃないんか

500 :デフォルトの名無しさん:2022/07/15(金) 22:52:27.74 ID:DtYLfgjh.net
その問いに答えるには「架空の文字」を明確に定義する必要がある

501 :デフォルトの名無しさん:2022/07/15(金) 23:09:06.29 ID:1VgG+0ON.net
ダンサーがオルガになったり汗が射精だったりして
あくまでも絵としか捉えられていないのが現実

502 :デフォルトの名無しさん:2022/07/15(金) 23:39:46 ID:uuTe8dv5.net
文字として使われていなかったものを、勝手に作って文字と強弁して登録した罪。
それが絵文字。
だったら俺もクリンゴン文字とか山田文字とか作って登録できるし、CJK分離漢字も登録できる。

503 :デフォルトの名無しさん:2022/07/15(金) 23:43:17 ID:DtYLfgjh.net
>>502
そうなんだ
登録できたら教えてね

504 :デフォルトの名無しさん:2022/07/16(土) 00:10:50.08 ID:V+kaf7mC.net
ソビエト連邦旗の☭「鎌と槌」U+262Dがとっくの昔に絵文字登録されているのだから、クリミア・ハン国旗のタムガも絵文字登録されてしかるべき
https://en.wikipedia.org/wiki/Crimean_Khanate

505 :デフォルトの名無しさん:2022/07/16(土) 01:11:36.46 ID:gUwlqT3Y.net
印籠の紋所はUnicodeに入らぬか?

506 :デフォルトの名無しさん:2022/07/16(土) 02:06:52.98 ID:V+kaf7mC.net
>>505
最強ロボ ダイオージャを知らない人にもわかるように書きなよ

507 :デフォルトの名無しさん:2022/07/16(土) 04:22:29.98 ID:6TWzUKaQ.net
その界隈の人はクスリとくるジョークなのだろうけど理解できないのがもどかしいな

508 :デフォルトの名無しさん:2022/07/16(土) 04:47:30 ID:V+kaf7mC.net
>>507
確かにそうかも
オデッサ作戦が始まる5日前、ブライトに塩の不足を訴え出たのはタムガではなくタムラだし

509 :デフォルトの名無しさん:2022/07/20(水) 00:36:57.71 ID:DKmMEeXx.net
UIのテキストで「情報」を意味する小文字のiに○を使いたいんだけど、
U+1F6C8というのがどうもそれらしい。けどBMPじゃないし文字化けとかするかな?

BMPだとU+24D8がほぼ同じ文字だけど、やっぱ意味的にはU+1F6C8を使うべきかな?
さらにU+2139も"Information Source"という名で、VSのU+FE0Fを付けると四角で囲った
やつになるようだけど、絵文字に頼るのもあれかなあ

510 :デフォルトの名無しさん:2022/07/20(水) 01:21:44.91 ID:CPw89lWI.net
Tcl/TkはBMP外つまりサロゲートペア領域に対応してないので移植時は要注意

511 :デフォルトの名無しさん:2022/07/20(水) 04:38:33.34 ID:8Wa3pAaM.net
絵文字はいいぞ

512 :デフォルトの名無しさん:2022/07/20(水) 06:29:59.86 ID:CPw89lWI.net
ランドセル背負ったゴリラを思い出す言い回しだな

513 :デフォルトの名無しさん:2022/07/20(水) 14:22:20.66 ID:tIQXO+Xm.net
よくわからんがランドセル絵文字ないんか

514 :509:2022/07/21(木) 08:12:01 ID:CyzMM+7q.net
>>509
UIは実はAlexaだったのですが、U+1F6C8を使ってみたら見事にトーフが。ちょっと意外
テキストエンジンは何なんだろう。グリフをあまり持ってないとか?
とりあえずU+24D8は化けないようなのでこれでしのぎます

515 :デフォルトの名無しさん:2022/07/21(木) 13:33:51.02 ID:zLG8F2Ab.net
Hey, Siri🍑

516 :デフォルトの名無しさん:2022/07/21(木) 14:40:53.86 ID:GvcP+xtO.net
アレクサ 「Echo Showシリーズは、これまで作られた中で最も信頼のおける
スマートスピーカーです。 ミスなどありえません。」

517 :デフォルトの名無しさん:2022/07/21(木) 21:31:31.72 ID:AssYeJ94.net
>>513
🎒 U+1F392

518 :デフォルトの名無しさん:2022/07/22(金) 01:43:04.94 ID:59B4zCZN.net
あるんか
これこそカラバリほしいわ

519 :デフォルトの名無しさん:2022/07/22(金) 18:38:09.68 ID:iW5ae+Pc.net
写真のようなリアリティ
https://unicode-table.com/jp/1F392/

520 :デフォルトの名無しさん:2022/07/22(金) 18:39:43.30 ID:iaUAG8EO.net
鮑文字欲しい

521 :デフォルトの名無しさん:2022/07/23(土) 00:32:48.08 ID:s/X/zNVK.net
鞄の話の次は鮑?

522 :デフォルトの名無しさん:2022/07/23(土) 11:19:33.99 ID:tvAp0xTn.net
泡置いとくね
🫧

523 :デフォルトの名無しさん:2022/07/23(土) 14:08:22.93 ID:F29cY8aJ.net
不審な豆腐が落ちている

524 :デフォルトの名無しさん:2022/07/23(土) 16:21:48.12 ID:Soya9ZMU.net
酢豆腐です

525 :デフォルトの名無しさん:2022/07/23(土) 20:27:31.80 ID:Mky4pirm.net
あぶったほうがおいしいかも📛

526 :デフォルトの名無しさん:2022/07/24(日) 17:37:33.60 ID:GMSYIMoG.net
牡蠣文字
https://emojipedia-us.s3.dualstack.us-west-1.amazonaws.com/thumbs/240/samsung/320/oyster_1f9aa.png

527 :デフォルトの名無しさん:2022/07/25(月) 00:19:28.22 ID:/vBy9ug7.net
シジミは?

528 :デフォルトの名無しさん:2022/07/26(火) 00:17:39 ID:ca5jRqNv.net
いつの間にか全板で絵文字(や他のUnicode文字)が書き込めるようになってたのね

529 :デフォルトの名無しさん:2022/07/26(火) 08:06:45.62 ID:7Tqe60a2.net
そもそも禁止してた理由って何だったの

530 :デフォルトの名無しさん:2022/07/26(火) 08:31:24 ID:s47lqlR6.net
文字コードがSJISなので文字化けしてたってだけで、禁止されていたわけではなかったような

531 :デフォルトの名無しさん:2022/07/26(火) 11:01:14.08 ID:SJaqZdjx.net
はまぐりは?

532 :デフォルトの名無しさん:2022/07/26(火) 21:24:04.84 ID:NQP/SI2g.net
>>530
SETTING.TXTでBBS_UNICODE=changeと指定されてる板はサーバが同じでも絵文字使えなかったんだよ
今はこの設定が無視されてるみたい

533 :デフォルトの名無しさん:2022/07/28(木) 01:01:11 ID:yk9J+ZKC.net
どの板でもスレタイに絵文字入れれるのかな
絵文字入ってるとかわいいよね

534 :デフォルトの名無しさん:2022/07/28(木) 12:28:31.82 ID:DCbd1n5j.net
文字コードスレなんだから文字コードだろ
文字コードU+1F9AA総合スレ

535 :デフォルトの名無しさん:2022/07/28(木) 12:37:51.66 ID:YUqPgEN5.net
それはコードポイント

536 :デフォルトの名無しさん:2022/07/28(木) 12:38:16.73 ID:rQVl/Liz.net
全文字、全単語に絵文字を作って割り当てるとどうなる
よく使われる単語ほどいい絵文字になるようにする

537 :デフォルトの名無しさん:2022/07/29(金) 10:39:19.93 ID:nIcw6oQb.net
スレタイに
森鷗外𠮟る
入れてみるか

538 :デフォルトの名無しさん:2022/07/30(土) 09:56:45.51 ID:Gq7vfC3O.net
👨‍👩‍👧‍👦とか未だに未対応?

539 :デフォルトの名無しさん:2022/07/30(土) 09:57:43.09 ID:Gq7vfC3O.net
普通にkakikometana!🇯🇵

540 :デフォルトの名無しさん:2022/07/30(土) 14:15:47.77 ID:qUEsvGfx.net
>>526
真珠貝のように見える

541 :デフォルトの名無しさん:2022/07/31(日) 02:20:53.15 ID:EDJ4BvE5.net
なぜかパールっぽいものが乗っかってるんだよね

542 :デフォルトの名無しさん:2022/07/31(日) 02:22:53.24 ID:EDJ4BvE5.net
古いiOSの巻き貝の絵文字
https://emojipedia-us.s3.dualstack.us-west-1.amazonaws.com/socialmedia/apple/125/spiral-shell_1f41a.png

543 :デフォルトの名無しさん:2022/07/31(日) 09:56:30.71 ID:gPPZPuim.net
カキの真珠
https://www.pref.okayama.jp/uploaded/attachment/136025.pdf

544 :デフォルトの名無しさん:2022/07/31(日) 12:49:19.36 ID:EDJ4BvE5.net
今まで牡蠣の殻開けを何千個もやったけど真珠を見たことはないなあ

545 :デフォルトの名無しさん:2022/07/31(日) 16:03:34.57 ID:7/NlTuud.net
・フリーランスに立ちはだかる「常駐」の壁。慣例を打ち壊し、
“テレワーク”案件3割→8割へと成長を遂げた「クラウドテック」の軌跡
・リモートワーク求人専門サイト「プロリモート」がリニューアルオープン、
 業務委託契約の求職者と企業をマッチング 
・1/3以上が採用につながる高マッチング率、リモートワーク×エンジニア・デザイナー専門の
 人材紹介サービス「ReworkerAgent」正式リリース場所からも時間からも自由な働き方を実現!
・『ReWorks(リワークス)』リモートワーク特化型転職サイトとして 3月5日 リニューアル
・副業・兼業マッチングサービス「クラウドリンクス」登録者数2万人突破
 中小企業で進む副業人材の採用、96%が継続採用を希望
・フリーランスが活用できる「最大1,000〜3,000万円・補助率50%〜75%」の
『ものづくり・商業・サービス補助金』とは?概要や条件を解説
・茨城県日立市、県外からの「テレワーク移住者」に最大151万円の助成金
・長野市、市内に移転・事業所設置し、移住することで最大550万円の支援金を支給

546 :デフォルトの名無しさん:2022/08/04(木) 17:09:44.85 ID:ilLzPs3K.net
パエリア食べたい

547 :デフォルトの名無しさん:2022/08/07(日) 02:26:54.79 ID:q1GUZ6Ie.net
>>536
ちょっとよくわからない

548 :デフォルトの名無しさん:2022/08/07(日) 06:58:57.67 ID:VW3DKuJ5.net
絵文字というのは象形文字への先祖返りみたいなものかもしれない

古代においては象形文字は書くのが大変で簡略化されて漢字になったが
その結果抽象的になりネイティブな言語利用者以外には理解しにくいものに
今なら絵文字のままの利用も可能で、ノンネイティブでも意味がわかるようなものに
なったり... しないか

549 :デフォルトの名無しさん:2022/08/07(日) 11:47:28.30 ID:DjsjW1Lz.net
視認性・可読性を無視してやたら細部に拘ってる辺り、象形文字未満だな
並べてみても中々違いが分からないような微妙なのが増えすぎ
子供が落書きを楽しんでる段階に見える

550 :デフォルトの名無しさん:2022/08/07(日) 17:15:40.76 ID:LA5dvhjU.net
まあ漢字でも柿落としみたいなのもあるしわからんもんはわからんよ

551 :デフォルトの名無しさん:2022/08/08(月) 08:46:52.76 ID:2vuqHINW.net
絵文字と象形文字は違うものだよ。
象形文字は本物の文字なので意味だけでなく音を兼ね備えてていて、言葉や文章を一意に表現できる。
絵文字は名前に文字って入ってるけど、本物の文字としては不十分で絵文字だけ文章を表現するのは困難。
絵文字は象形文字以前の状態といえる。

552 :デフォルトの名無しさん:2022/08/08(月) 18:38:56.20 ID:EJbQHD4d.net
音は必須ではないと思うが

553 :デフォルトの名無しさん:2022/08/08(月) 19:54:01.68 ID:2vuqHINW.net
少なくとも三大古代文字の漢字、楔形文字、ヒエログリフのいずれも、そして意味が解読できているその他の象形文字も音と意味の両方から作られていることが明らかになっている。

554 :デフォルトの名無しさん:2022/08/10(水) 01:56:45.84 ID:iD4Y1SYW.net
絵文字って漢字かななりアルファベットなりと組み合わせて使うわけだから単独で使えるかで評価する必要はなくない?

555 :デフォルトの名無しさん:2022/08/10(水) 23:31:45.45 ID:nFYY+AJe.net
>>553
数の概念を忘れていませんか?

556 :デフォルトの名無しさん:2022/08/10(水) 23:56:08.44 ID:YW3nD3Rk.net
ユニコードで文字コードを割り当てられるのは最大何文字で
現在割り当て済みなのは何文字で
どれくらいのペースで増え続けてるの?

557 :デフォルトの名無しさん:2022/08/11(木) 00:44:35.52 ID:BDQw7LGG.net
牡蠣コードがあるのに雲丹コードがないのはおかしい

558 :デフォルトの名無しさん:2022/08/11(木) 08:15:19.15 ID:dR8HgXjE.net
雲丹バーサル

559 :デフォルトの名無しさん:2022/08/11(木) 12:57:15.04 ID:dClyCDz9.net
Unicode - Wikipedia
https://ja.m.wikipedia.org/wiki/Unicode#%E5%90%84%E3%83%90%E3%83%BC%E3%82%B8%E3%83%A7%E3%83%B3%E3%81%A8%E3%81%9D%E3%81%AE%E7%89%B9%E5%BE%B4

Unicode14.0(2021.10) - 144,697/1,112,064文字 (登録済み:約13%)
年平均4584文字増えていて、面を考慮せず単純な文字数ベースで考える且つこのままのペースで増え続けると仮定した場合、210年後(2231年)に全領域が埋まる計算になる

560 :デフォルトの名無しさん:2022/08/11(木) 13:44:05.70 ID:MGah5dOT.net
未収録のマイナー文字体系が210年後まで続くかっていうとなさそう
絵文字とかもあと10年ぐらいしてめぼしいものが埋まると「もうさすがにいらんやろ」みたいな空気になって新設は細っていくんじゃね

561 :デフォルトの名無しさん:2022/08/11(木) 14:55:22.55 ID:E9I00ai5.net
ほとんどが漢字だからな

562 :デフォルトの名無しさん:2022/08/11(木) 15:09:43.16 ID:/k5aJ7yS.net
「こんだけ余裕がありゃあ大丈夫だろう」と思ってたものがあっという間に埋まってしまうことは良くある。歴史は繰り返す。

563 :デフォルトの名無しさん:2022/08/11(木) 20:13:56.60 ID:jpYwMtC+.net
というとどういうのだろうか

①②③④…を(1000000)とかまで登録するとか?

564 :デフォルトの名無しさん:[ここ壊れてます] .net
配色じゃないの
ハートはいろんな色あるけど他はまだ色ないし
あとは肌の色のバリエーションがもっと細かく定義されるようになるとか

565 :デフォルトの名無しさん:2022/08/12(金) 00:31:36.16 ID:ZCgi2ef+.net
>>562
UTF-8 がどのように拡張されるのか、それが楽しみですね
さて皆さんの予想は?

566 :デフォルトの名無しさん:2022/08/12(金) 01:25:52.90 ID:ijOecH2p.net
GB18030が国際標準になるだけでは?

567 :デフォルトの名無しさん:2022/08/14(日) 11:22:08.74 ID:VI2zLni0.net
UTF-8は可変長だからもう拡張する必要は無い

568 :デフォルトの名無しさん:2022/08/14(日) 13:15:35.13 ID:GttZqyyI.net
>>567
UTF-8 も、どこまでも可変長にできるわけではないですよ、

569 :デフォルトの名無しさん:[ここ壊れてます] .net
UTF-8 は同じ方式でバイト数増やすとしたら6バイトまでで、6バイトにした場合は31bitまでしかビット数がない。
(第一バイトが 1111110x、第二バイト以降が 10xxxxxx なので 1+6*5 = 31)
素直にそのままの値を使うとしたら U+7FFFFFFF が限界になる。

幾らなんでもこんだけありゃ大丈夫だろう。

という考えは甘い。

570 :デフォルトの名無しさん:2022/08/14(日) 21:21:55.32 ID:ckMtCfKX.net
もしものときにはShift_UTF-8みたいなのができるだろ

571 :デフォルトの名無しさん:2022/08/14(日) 21:48:08.99 ID:VaUKKWtN.net
今の21bitですら使いきれずに持て余しているからあんな糞絵文字ばっかり追加しているわけだろう。

572 :デフォルトの名無しさん:2022/08/14(日) 22:37:52.07 ID:KLzUuJOo.net
>>569
うっ
UTF-8 を展開した結果を32ビット長に格納しているが足りないのか、痛いところを突かれてしまった

573 :デフォルトの名無しさん:2022/08/14(日) 23:17:14.96 ID:bHYBRaL8.net
糞絵文字は1つしかないぞ

574 :デフォルトの名無しさん:2022/08/15(月) 03:40:04.80 ID:EupOFSdY.net
2007年当時の話だけど、毎年1000文字ずつエンコードしていっても
コードポイント使い切るまで800年以上かかるって
http://www.unicode.org/mail-arch/unicode-ml/y2007-m06/0034.html

これ書いた当時は年間944文字ペースで符号化していて文字数は減少傾向とも

575 :デフォルトの名無しさん:2022/08/15(月) 09:07:29.00 ID:5M5NpGCa.net
UTF8だけならUTF16のサロゲート領域がまるまる空きなのでそこを先導バイトに使えば4000倍以上にはできる。
あとはUTF16とUTF32は捨ててUTF64を導入で。

576 :デフォルトの名無しさん:2022/08/15(月) 09:27:51.58 ID:u2HIEupu.net
>>575
UTF64の導入か…現時点ではめんどくさくってしかたがないですねえ

577 :デフォルトの名無しさん:2022/08/15(月) 09:34:53.03 ID:5M5NpGCa.net
先頭のバイトで長さが判別できる特徴を残したいなら長くなるけど、先頭0xFEで12バイト、先頭0xFFで24バイト長とかにすれば、138ビットまで拡張できるな。

578 :デフォルトの名無しさん:2022/08/15(月) 09:47:13.51 ID:5M5NpGCa.net
>>576
心配するな現時点で今の21ビットが足りなくなる可能性は皆無。使用されている全部の文字を登録しても足りる。
絵文字増やしても個々の違いが判別できなくなるので文字として役に立たなくなるし、新たに創作文字を大量導入とか、単語に文字コード割当とか、アホなことしないと当面埋まることはない。
よし甲骨文字と金文と篆書と隷書の字体やその変化にも個別文字コード割当だとかやれば埋まりそうだが。

579 :デフォルトの名無しさん:2022/08/15(月) 11:16:15.31 ID:q8rBpYTm.net
U+1D400..U+1D7FFみたいなのが収録されてるんだから
なんか理屈をでっち上げれば、明朝とゴシックと丸ゴシックと教科書体それぞれ3ウェイトずつぐらいはいけるのでは?

580 :デフォルトの名無しさん:2022/08/16(火) 11:08:43.06 ID:2x3mrzZQ.net
地球外の惑星人の言語が見つかりだしたらあっという間に埋まるだろう

581 :デフォルトの名無しさん:2022/08/16(火) 16:32:26.25 ID:Yjigu+Lf.net
>>579
明朝体とゴシック体を丸ごと登録はありえないけど、甲骨文字、金文、篆書あたりの楷書より古い字体は古代文字扱いで丸ごと登録とか、可能性がゼロではないんだよな。
現在の漢字では失われて甲骨・金文にしかない文字とかもあるので。

582 :デフォルトの名無しさん:2022/08/17(水) 01:36:20.68 ID:0f27vmNE.net
音が出るコードが U+0007 以外にも沢山作られて・・・

583 :デフォルトの名無しさん:2022/08/17(水) 01:41:52.37 ID:9A/D6zoB.net
>>582
よし、パパ全ての音階を符号化しちゃうぞ。
といっても半音単位で人間の耳に聞こえる音と楽譜にある長さ全部登録しても余裕そうだが。楽器ごとに別の符号を準備するか?

584 :デフォルトの名無しさん:2022/08/17(水) 01:47:12.74 ID:afBzuANT.net
日本の変体仮名もマイナー過ぎるもの以外はあらかた登録されことを踏まえると、第三漢字面は甲骨文字等で埋まることになりそう(実際に登録された場合、今後数百年で最後の大規模登録になるはず)

585 :デフォルトの名無しさん:2022/08/17(水) 08:36:52.62 ID:SBuYxxsF.net
どれだけ文字が増えてもASCIIとの互換性は維持しなきゃいけないんだろうなぁ

586 :デフォルトの名無しさん:2022/08/17(水) 09:04:59.81 ID:9A/D6zoB.net
甲骨文字はまだ研究中できちんと体系化できてなくて、これとあれは同じ文字だと思っていたが実は別の文字だったとか、見た目全然違うけど同じ文字とか、いまだにやってるし、研究者によって意見が違ったりする。
登録するとなるとかなり先になりそう、もしくは見切り発車的に現状の字形の見た目だけで登録するか。

587 :デフォルトの名無しさん:[ここ壊れてます] .net
>>577
スマートやね

588 :デフォルトの名無しさん:2022/08/18(木) 20:52:25.67 ID:KZYn5ONA.net
任意多倍長文字コード…

589 :デフォルトの名無しさん:2022/08/20(土) 02:24:45.92 ID:73/TEJ+c.net
>>562
文字に関しては、時代が進めば解析できていない古代文字がわかるようになるわけではない。

宇宙人が現れないかぎりは、絵文字が増える程度。

590 :デフォルトの名無しさん:2022/08/20(土) 02:27:00.88 ID:73/TEJ+c.net
可能性としてはフォントごとに文字が登録されることになると収まらなくなるな。

591 :デフォルトの名無しさん:2022/08/20(土) 12:56:39.98 ID:2oOKxcfG.net
>>589
いや、古代文字の解析はちょっとづつでも進んでるよ。それで埋まったりしないだろうけど。
あとユニコードには意味不明のまま形だけで登録されている古代文字もあるので、解析されてなくても良いという。

592 :デフォルトの名無しさん:2022/08/20(土) 15:44:41.14 ID:l3DwVL0Z.net
こんなやつか
https://www.tanqfamily.com/post/suuji

593 :デフォルトの名無しさん:2022/08/21(日) 02:25:17.60 ID:03eMfefm.net
>>591
はっきり言ってわからないことはわからない。遠い過去のことを必死に解明しようとなんてしない。

594 :デフォルトの名無しさん:2022/08/21(日) 03:05:58.69 ID:K2NeJ/9W.net
歴史学否定派w

595 :デフォルトの名無しさん:2022/08/21(日) 10:03:23.55 ID:j3ukytx2.net
読めねぇ orz
鱼 U+9C7C
鱻 U+9C7B
䲜 U+4C9C
https://kanji.jitenon.jp/cat/bushu11001.html

596 :デフォルトの名無しさん:[ここ壊れてます] .net
🐟

597 :デフォルトの名無しさん:2022/08/22(月) 15:43:07.04 ID:HXe7WCQ8.net
>>595
森とか品とかは日常的に使ってるわけですし

598 :デフォルトの名無しさん:2022/08/22(月) 19:06:10.43 ID:HXe7WCQ8.net
鮮は鱻と羴の組み合わさった漢字、という説もあるようですね

599 :デフォルトの名無しさん:2022/08/22(月) 19:13:20.22 ID:x6NjRtAl.net
巧言令色鮮し仁
こうげんれいしょくすくなしじん
(「論語‐学而」にみえる孔子の説いたことば)
ことば巧みで表情をとりつくろっている人は、かえって仁の心が欠けているものだの意。

600 :デフォルトの名無しさん:2022/08/22(月) 19:20:47.37 ID:HXe7WCQ8.net
鱼は魚の簡体字のようだが、ソース分離のパティーンなのかな

601 :デフォルトの名無しさん:2022/08/22(月) 19:25:14.80 ID:HXe7WCQ8.net
あ簡体字繁体字はそっか

602 :デフォルトの名無しさん:2022/08/23(火) 00:11:38.72 ID:HsBE5KO1.net
澁→渋みたいに3つ並んでるやつの下2つを><で省略するのって日本ローカル?

603 :デフォルトの名無しさん:2022/08/23(火) 12:27:00.71 ID:IsFqNvj1.net
......🐟............

䲜䲜䲜䲜䲜䲜䲜䲜
䲜䲜䲜䲜䲜䲜䲜䲜

604 :デフォルトの名無しさん:2022/08/23(火) 12:27:52.24 ID:IsFqNvj1.net
..凹..凹..凹..凹..

..........凸......

605 :デフォルトの名無しさん:2022/08/23(火) 17:31:29.10 ID:xo++wuEw.net
0208で表現可能じゃないかw

606 :デフォルトの名無しさん:2022/08/24(水) 09:32:11.96 ID:8fOu5lGq.net
murataのCMかよ

607 :デフォルトの名無しさん:2022/08/25(木) 22:40:43.43 ID:de5K8FcC.net
だれかマヨビームして

608 :デフォルトの名無しさん:[ここ壊れてます] .net
うざったてー

609 :デフォルトの名無しさん:2022/09/14(水) 05:33:42.06 ID:wQIidQ/U.net
ここ人がいなくなるとばたっといなくなるな

610 :デフォルトの名無しさん:2022/09/16(金) 15:08:56.61 ID:z5XcLMe6.net
Unicodeバージョン 15.0リリース ―CJKの表意文字など4,489文字が追加
https://gihyo.jp/article/2022/09/unicode15

611 :デフォルトの名無しさん:[ここ壊れてます] .net
毎回絵文字で話題を呼ぶ戦略もそろそろネタ切れか

612 :デフォルトの名無しさん:2022/09/17(土) 06:46:26.46 ID:48becwit.net
絵文字の文字数はあまり増えてないけど、合成パターンが派手に増えて、面倒過ぎることに。

613 :デフォルトの名無しさん:2022/09/17(土) 12:44:09.49 ID:sxCWjXQc.net
次は動いたり光ったりする絵文字

614 :デフォルトの名無しさん:2022/09/17(土) 18:58:46.03 ID:w2OodHnN.net
それはガラケーが15年ぐらい前に通った道だ

615 :デフォルトの名無しさん:2022/09/17(土) 19:43:06.21 ID:ZRyqS070.net
次は飛び出す絵文字とお喋りする絵文字だよ

616 :デフォルトの名無しさん:2022/09/17(土) 22:02:20.28 ID:5IxZNZbc.net
絵文字はいいから
歩と香杏桂圭銀全金飛龍角馬王玉
の逆さ文字を登録してほしい

617 :デフォルトの名無しさん:[ここ壊れてます] .net
とりあえず一個作ったよ
つ王

618 :デフォルトの名無しさん:[ここ壊れてます] .net
肌色や性別より反転や回転が欲しい

619 :デフォルトの名無しさん:[ここ壊れてます] .net
>>616
つ異字体セレクタ

620 :デフォルトの名無しさん:2022/09/18(日) 00:02:30.98 ID:fKsdepJz.net
>>619
環境によって逆向きにされるかもしれないのはだめじゃない?
逆だと意味がひっくり返るんだから

621 :デフォルトの名無しさん:2022/09/18(日) 01:19:36.82 ID:H3LLIMIG.net
ちゃんと盤面が表示される保証がないといけないですよね

622 :デフォルトの名無しさん:2022/09/18(日) 01:21:24.86 ID:H4pPDpp4.net
>>617
王は逆向きに配置されることはありえません、無駄な仕事ご苦労なことです

623 :デフォルトの名無しさん:2022/09/18(日) 02:21:35.78 ID:6CSHq2xc.net
>>620
確かにそうなんだよね。。。ただ、年次のUnicode規格が社会に浸透していく過渡期には常に付きまとう問題であって異字体に限った話ではないように思える
それと同時に、異字体(少なくとも漢字の異字体)に意味の違いを含めてしまう(意味の違いを見出す運用を前提としてしまう)と問題が生じることのわかりやすいモデルケースでもあるとも思った

624 :デフォルトの名無しさん:2022/09/18(日) 02:24:07.74 ID:6CSHq2xc.net
>>622
古のドラクエで使われた「り」メソッドであって、実は何もしていないという

625 :デフォルトの名無しさん:2022/09/18(日) 02:33:42.02 ID:T2t4IoSB.net
>>624
んなことわかってんだよ、アホンダラ、死ね

626 :デフォルトの名無しさん:2022/09/18(日) 02:38:02.45 ID:T2t4IoSB.net
>>623
異議を唱えます
本来漢字に正字と異字という区別はなく、どの漢字も平等であるべきなんですよ
Unicode はすべての字(letter and character) を収録する、という建前である以上、異字体コレクターの存在自体が自己矛盾と考えます
CJK 漢字統合など、ダメリカ様の都合で決まった醜悪な存在、でも、結局 16 ビットに収まらなかったという体たらくになりましたよね…

627 :デフォルトの名無しさん:2022/09/18(日) 03:18:17.32 ID:fKsdepJz.net
同じ人相手でレスごとに態度豹変するの笑う

628 :デフォルトの名無しさん:2022/09/18(日) 03:19:36.25 ID:fKsdepJz.net
>>623
未対応で何も表示されないだけならいいのよ
未対応で逆のものが表示されるのは困るのよ

629 :デフォルトの名無しさん:2022/09/18(日) 09:50:27.91 ID:vR9F1V2O.net
異体字セレクターでも新コードポイントでもフォント作ってくれれば問題ないよ。
それより同じ漢字を複数箇所に登録するのをやめてくれ。基本漢字はあれだけ無理矢理ユニファイしたくせに、その後はチェック甘くて完全に同じ字形が新規登録されることがある。

630 :デフォルトの名無しさん:2022/09/18(日) 10:01:21.85 ID:GdLzv1yo.net
>>629
もし良ければ、近年の具体例を教えて欲しい

631 :デフォルトの名無しさん:2022/09/18(日) 11:28:41.95 ID:vR9F1V2O.net
閉て
>>630
どれくらい近年を求めてるのかは知らんが
私が気づいたのは U+3588 と U+439B の(老/口)とか。
これどう見ても同じ漢字を口部と老部に二重登録しただけやろ。
U+29FCE と U+29FD7 の(予鳥)の違いとかもわからん。

632 :デフォルトの名無しさん:2022/09/18(日) 13:19:58.23 ID:GdLzv1yo.net
>>631
20年以上前に追加された文字同士を例にとって「チェックが甘くて...新規登録されることが"ある"」と表現するのはどうかと思うよ(「あった」ならまだしも...)
当時と現在のチェック体制を事実上同一視した上で「やめてくれ」と懇願する姿勢も同様

633 :デフォルトの名無しさん:2022/09/18(日) 13:32:38.16 ID:vR9F1V2O.net
>>632
基本漢字とその後って言ってるのに、最近って言いかえるお前の定義ってどうなってるの?
問題は問題だろ、それともお前全チェックして、俺がたまたま気づいたこの2つ以外は問題がないと言い切れるの?

634 :デフォルトの名無しさん:2022/10/02(日) 09:38:14.71 ID:nwLm/7GS.net
Unicode をレンダリングするときは言語情報を渡しましょう
https://blog.8-p.info/ja/2022/09/30/unicode/

635 :デフォルトの名無しさん:2022/10/07(金) 06:10:39.92 ID:sxH3tiDQ.net
>>634
よくある言語の優先順位ってどういうときに役立つのかよく知らなかったりw

例えば 1.英語 2.日本語としていても、英語と日本語が混ざったドキュメントの場合に
日本語部分が中国フォントで処理されたり。この挙動には関係ない設定なのかな?

中国語のフォントもひらがなとか持ってるから、フォントのコードセットだけ見て
その中国語のフォントが日本語もおkとされて使われてたりする?
(たしかfontconfigとかそんな挙動だった記憶が)
日本語と認識してるが中国フォントで表示しているのか日本語と認識してもいないのか

636 :デフォルトの名無しさん:2022/10/07(金) 09:05:35.88 ID:GHAO4XK1.net
>>635
アプリが対応しているかとか、フォントが対応しているかとか色々ある。
最近のオープンタイプ形式のフォントとかだと同じ文字コードに複数の字形を持っていて、アプリが対応していれば言語設定に従って字体を自動的に切り替えてくれたりする。アプリが対応してなければデフォルトの字形が使われる。

637 :デフォルトの名無しさん:2022/10/08(土) 05:58:47.54 ID:pd+cWRBO.net
結局>>634に書いてあることのうち、ユーザー側の言語情報というのはあまり重要じゃ
なくてデータ側の言語情報というのがより大事なのかなと

ぶっちゃけコンピュータの利用というのは圧倒的に向こうからやってくるデータの
処理だし。ユーザの言語設定が日本語でも、中国語のテキストが来たらそれは
中国語のフォントで処理してほしい

638 :デフォルトの名無しさん:2022/10/08(土) 06:16:01.16 ID:qNYwj5bN.net
>>637
データ側に言語情報があったあら、レンダリングやレイアウトにその言語情報を使うのは基本中の基本で、当たり前過ぎて議論の対象にならんのでは。
データに言語情報がない場合にどのようにするかという問題。手抜きアプリだとフォントのデフォルトを使う。そしてフォントのデフォルトが中国字形になってるとか良くある。

639 :デフォルトの名無しさん:2022/10/08(土) 12:17:20.96 ID:pd+cWRBO.net
>>638
言語情報が付いてなかったら本当は言語推定とかした方がいいと思うけどね
文字コードで言語統合してしまった分、分離のコストを支払う必要があるということ
ユーザーの設定は推定できなかった場合の最後の手段かな
普通は言語推定とかいちいちしないからユーザー設定頼みのみと

640 :デフォルトの名無しさん:2022/10/08(土) 12:24:41.42 ID:qNYwj5bN.net
>>639
言語タグが英語で文章も英語でその中に漢字で「骨」の一文字だけ含まれてる場合はどの国の字体で表示すベき?
言語推定とか無意味、字体推定とかできれば別だが、そんなの論理的に不可能。

641 :デフォルトの名無しさん:2022/10/10(月) 20:05:36.45 ID:rCP6G7hl.net
>>635みたいに優先順位の設定がある場合は
一度英語と判定した文書中でも漢字が出てきたらそれに立ち返って参考にすべきかもしれない、
みたいな考え方はあり得るかも。

642 :デフォルトの名無しさん:2022/10/11(火) 07:48:39.31 ID:/cMVl5Xy.net
青空文庫がCP932しばり(Shift_JISではない)なのはなぜなんだぜ?

643 :デフォルトの名無しさん:[ここ壊れてます] .net
>>640
もちろん最後の手段に近い話だよ
Unicode自体は、マルチリンガルはあまり考えてないわけでしょ。事実上
一つのコードセットをいろんなモノリンガルで使うのが基本。だからUnicodeだけで
マルチリンガルがいけてなくても当た前
Unicodeの英語の中に一個だけ「骨」とかもうね、責めるならUnicodeの中の人をw
その上で、多少はどうにかするなら、という話

644 :デフォルトの名無しさん:2022/10/11(火) 09:09:02.40 ID:Wi4OH2RZ.net
今から unicode を何とかするのなら完全 IVS化かなあ。
IVS の登録を全面拡大して、漢字を書く際には著者が使用した字体のIVSをつける。
IVSのついていない漢字は「著者が字体にこだわりは無く読者の好み字体で表示することを指定した」というルールにする。
字体にこだわるとテキストのサイズが増えるけど今の環境なら特に問題にはならないだろ。

645 :デフォルトの名無しさん:2022/10/11(火) 20:10:00.97 ID:JrNqb+g1.net
1文字ずつつけるんじゃなくて新たに囲み用の言語指定マーク作ってもいいんでは?
既にLTR/RTL指定とか「ここからここまでルビ」みたいなマークがあるんだから。

どっちの方法でも実効性が現れるかどうかは「メジャーな環境が(入力ユーザーが気にしていなくても)デフォルトで付けるかどうか」次第だけど、
完全IVS化だと漢字圏のテキストがほぼ倍になる、そんなのをデフォルトにする判断を各社が果たしてするんだろうか?

646 :デフォルトの名無しさん:2022/10/11(火) 21:16:13.21 ID:Wi4OH2RZ.net
>>645
普通の人は字体にこだわらないから付けないだろうし、字体にこだわる著者はサイズが倍以上になってもつけるだろうし選択権が著者側にあるのが良いと思うんだよな。もはやテキストサイズとか誤差の範囲でけちる理由ないし。
日本語と中国語が混じった国際的な文章を書きたい場合とか、1文字単位で指定できるのが重要というか。

647 :デフォルトの名無しさん:2022/10/11(火) 21:31:15.03 ID:OJo3NOQw.net
>>644
たしかにそうすればCJK混在のテキストであっても、文字単位でそれぞれ正確に字体を表示できるね

ただし、そのままでは視覚的に「1. 完全IVS化仕様に基づいてIVSで修飾された漢字」と「2. 既存の個別コードポイントの漢字」の区別ができないが故に、テキスト作成時にIMEやエディタ側でその違いを視認できるような仕組みが必要になる気がする
それから、上記1,2双方の漢字を検索等で相互にマッチさせるにはUNICODE正規化仕様に手を入れればよいのだろうか?あまり詳しくないけど、その実現手段がない場合は色々とカオスな状況を招きそう

当たり前だけど、当該仕様を必要とする漢字圏のテキストサイズが倍近くなってしまう点もなかなかにキツい(それでも非漢字圏の言語に対する圧倒的な情報密度は揺るぎないが...)

648 :デフォルトの名無しさん:2022/10/11(火) 23:02:41.36 ID:Wi4OH2RZ.net
>>647
検索に関しては今の正規化検索が仕様通り実装されてれば、そのままでいけると思う。

649 :デフォルトの名無しさん:2022/10/11(火) 23:13:45.33 ID:OJo3NOQw.net
>>64
そのまま、とは?

650 :デフォルトの名無しさん:2022/10/11(火) 23:14:14.94 ID:OJo3NOQw.net
>>648
安価ミス

そのまま、とは?

651 :デフォルトの名無しさん:2022/10/12(水) 00:57:28.78 ID:cxB5MEih.net
>>650
異体字セレクタは正規化の対象外である一方で無視可能な結合クラス0の結合文字なので、表示/検索系での無視する/しない、個別に可視化する/しないのような制御の対象にできる。
規格本体には手を入れなくても、そのままでも大丈夫だろうという意味。もちろんアプリの対応はいるし、IVDの大幅拡張がいるのだけど。

652 :デフォルトの名無しさん:2022/10/12(水) 01:14:40.26 ID:dVrAKJBj.net
>>646
普通の人がつけなかったら今回の元の話の解決(緩和)にならないと思う。
日本語IMEで入力したらデフォで日本語書体指定になっている、というのが必要かと。

653 :デフォルトの名無しさん:2022/10/12(水) 01:15:05.77 ID:dVrAKJBj.net
書体よりも字形のほうがいいか

654 :デフォルトの名無しさん:2022/10/12(水) 10:12:03.10 ID:cxB5MEih.net
>>652
元の話で言えば、利用者はレンダリングの際に言語情報ではなく、好みの字形情報を渡すようにしようということになるだけだよ。
著者が特定の字形を指定している場合はその字形で表示される。著者が字形を指定しない場合は読者の好みの字形で表示される。
字形情報と言語情報は別ベクトルなので一緒くたに扱うのはやめようとい話。
もしこの方法が普及したら字形にこだわりの強い日本人は、緩やかに差異のある漢字全てにIVSをつけるように移行して行くと思う。(サイズが小さいメリットより字形の指定が出来るメリットが上回ると考える人が多くなりそうという予想)

655 :デフォルトの名無しさん:2022/10/12(水) 13:50:34.84 ID:BtGOdvhN.net
たどればわかるが元の話は海外産ゲームの日本語とかの話題だよ

656 :デフォルトの名無しさん:2022/10/12(水) 14:15:20.45 ID:cxB5MEih.net
>>655
ゲームがユーザ情報の好みの字体を使用するようになれば良いのにねという意味だけど。何か矛盾してる?

657 :デフォルトの名無しさん:2022/10/12(水) 17:59:58.38 ID:jX8nchty.net
>>654>>656
「ユーザ情報」ってのがわからんがその枠組みだとユーザーじゃなくてゲーム製作(日本語版製作)側がIVS付けるかどうかにかかってくるんじゃないの?
で、ユーザーの声を聴いてIVS付けてくれるような体制のとこは現時点でも日本語フォント指定ぐらいできるんでIVSの出る幕はないような。

658 :デフォルトの名無しさん:2022/10/12(水) 18:06:05.49 ID:jX8nchty.net
字形と言語は固定の関係ではない、という思想が根っこにあるのは理解したけど、20世紀後半以降の各国の漢字政策を経て固まった今現在の現実に即した思想かどうかは正直疑問。
増殖してしまった異体字について「本来は同じもの」と言ったところでどうしようもないのと似た理想論な感じがする。

659 :デフォルトの名無しさん:2022/10/12(水) 18:34:29.78 ID:cxB5MEih.net
>>658
でもな、日本国内でも古い本や文献を引用したり、人名地名とかだと台湾と同じ字体が出てきたりするんだよ。これに中国繁体字のタグ付けるのは間違ってると思わないか?

660 :デフォルトの名無しさん:2022/10/12(水) 18:53:53.43 ID:7A0U4gRF.net
そういうのはIVSつければいいんじゃね?

661 :デフォルトの名無しさん:2022/10/13(木) 00:52:39.79 ID:bGOejmD/.net
>>660
だから、そういう話だよ。いまのところ IVD が不十分なので役に立たないけど。

662 :デフォルトの名無しさん:2022/12/01(木) 05:16:11.16 ID:Df9C+tST.net
今どきのEメールのエンコーディングって何が標準ですか?
gmailで試したら、MIMEでUTF-8 + Base64になりましたけど(かつテキストの属性の有無で
htmlかplainのマルチパートになる)、これって「標準」?
ISO-2022-JPとかあまり使わない感じ?

663 :デフォルトの名無しさん:2022/12/01(木) 08:59:44.12 ID:kV+28pNv.net
GmailもThunderbirdもUTF-8だけになってしまいましたね。デファクトスタンダードなのかな?

664 :デフォルトの名無しさん:2022/12/01(木) 18:25:26.50 ID:GbXAC3uj.net
まあ、絵文字使いたいよね

665 :デフォルトの名無しさん:2022/12/02(金) 08:15:06.11 ID:PSw8yx+p.net
孫は歴史的偉人

666 :デフォルトの名無しさん:2022/12/02(金) 09:35:18.27 ID:q48B2P2f.net
今でも7ビットの制約とかあるんだっけ
いずれにせよMIMEのエンコードをするから別にISO-2022-JPじゃなくてもいいと

667 :デフォルトの名無しさん:2022/12/02(金) 11:55:24.27 ID:u/9H+2Gz.net
実は7bit制約もインターネットの場合は存在しない。
昔ながらの個別メール網とメール交換する際の互換性のために7bitが必要だっただけだが、そういうのは滅びたかゲートウェイで7−8変換するようになったので。
そういう意味で生UTF8で十分。

668 :デフォルトの名無しさん:2022/12/02(金) 17:25:39.59 ID:q48B2P2f.net
えっと、RFC(現在は何番かな... 5322でおk?)に書いてあるUS-ASCII、というのは
生きてるわけですよね?
その上でMIMEを使えと

669 :デフォルトの名無しさん:2022/12/02(金) 18:40:42.32 ID:u/9H+2Gz.net
>>668
そうだよ。US-ASCII 以外の文字コードを使用する場合は原則MIMEヘッダーで本文の文字コードを指定しなければならない。

原則というのは
・送信者と受信者の間で暗黙もしくは明示の合意がある場合は例外。
・多くのメール・クライアントは文字コードを自動推定をする機能があるのでMIMEヘッダーを省略してもたいてい機能する。
・その後に、RFC6531 で SMTPUTF8 が導入され、RFC6532でメールヘッダーもUTF8対応に拡張されている。

要はデフォルトを US-ASCII から UTF8 に置き換える方向で進んでいる。
インターネットは一気に全体が更新されるわけではないので従来的なやり方が安全といえるけど、ユーザーがメールクライアントを更新したら裏で勝手にUTF8になっている可能性がある。

670 :デフォルトの名無しさん:2022/12/03(土) 18:46:41.61 ID:FpUu83Sy.net
ぼくはquoted-printableちゃん

671 :デフォルトの名無しさん:2022/12/04(日) 08:41:14.63 ID:lnrwP0JB.net
>>670
ASCIIに関しては便利なやつね。それ以外は効率が落ちるという
まるでUTF-8のようなw
基本的な日本語が2バイトで収まるエンコーディングは無理かのう... ってUTF-16かw
いえ、UTF-8とUTF-16のいいとこ取りはできないかなあと

672 :デフォルトの名無しさん:2022/12/04(日) 10:24:48.68 ID:mks6KinJ.net
>>671
みんな大好きシフトJISなんてどうですか

673 :デフォルトの名無しさん:2022/12/04(日) 10:55:56.31 ID:5yzeU/In.net
絵文字のない文字コードなんて今更

674 :デフォルトの名無しさん:2022/12/04(日) 11:12:22.45 ID:XVXofR3d.net
>>671
まあ ISO-2022-JP

675 :デフォルトの名無しさん:2022/12/04(日) 17:49:01.09 ID:+sGd2msW.net
>>673
ドコモかauかソフバンの拡張を正式採用したらいくらかは入ったことにできる

676 :デフォルトの名無しさん:2022/12/11(日) 17:16:35.20 ID:uBZHdTYF.net
文字コードの、それもパーセントエンコードに詳しい方教えてください。

たとえば、π(pi)をパーセントエンコードすると、%CF%80ですが、このCF、80を生成するプログラムが本に掲載されていたので
解読しています。

πに対応するコードである、960を64で割った商15をさらに、15 Or 192で論理和を求めると207となって、
207を16進数で表すと、CFを求められるとする過程はわかったのですが、
最後の論理和を求めるところで、なぜ論理和が使われるのかということと、相手に192という値が選ばれているのかが
皆目わかりません。

論理和と論理積を解説するサイトを見ても、True と False のペアを評価するのみで
この手の応用について解説されるサイトは無さそうでした。

コードはNo.128 〜 No.2047 (0080〜07FF)の範囲でお願いします。

677 :デフォルトの名無しさん:2022/12/11(日) 18:25:00.06 ID:g5mEJWYI.net
>>676
UTF8 で検索してみ

678 :デフォルトの名無しさん:2022/12/11(日) 19:07:45.94 ID:PbQUrDfd.net
>>676
パーセントエンコードの仕様はよく分からんけど、対象のコードポイントをUTF8で符号化した値そのまんまっぽい気がする
UTF8のバイト表現は可変長なので、各バイト毎に「桁」を示すbitパターンがある

679 :デフォルトの名無しさん:2022/12/11(日) 19:55:31.82 ID:uBZHdTYF.net
>>678
ありがとうございます。
各バイト毎に「桁」を示すbitパターンが、110X XXXX と 10XX XXXX のことだと思いますが、
論理和、論理積を 適用すると、前者の場合、X XXXX がどんなビットが来ようとも
110X XXXX が損なわれずに出てくる感じですかね?
まだ全容がわかったわけではないですが、上記イメージで捉えるようにしてみます。

680 :デフォルトの名無しさん:2022/12/11(日) 20:52:21.59 ID:GglWfKZ4.net
Wikipedia のUTF-8 の所に、ビットパターンの規則が書いてある

1バイト目について、
先頭ビットが0なら、1バイト文字
110なら、2バイト文字
1110なら、3バイト文字
1111なら、4バイト文字

2バイト目以降は、先頭ビットが10で始まる

681 :デフォルトの名無しさん:2022/12/14(水) 21:33:02.33 ID:XhtdH9iq.net
エイリアスも造れてしまうま

682 :デフォルトの名無しさん:2022/12/16(金) 23:16:00.71 ID:iTKBT5gs.net
ぃぇぃ

683 :デフォルトの名無しさん:2023/01/01(日) 02:08:29.39 ID:2MmdlFyQ.net
🎍あけましておめでとう🎍

684 :デフォルトの名無しさん:2023/01/03(火) 15:41:42.10 ID:oAfmTpf4.net
🐇🐰

685 :デフォルトの名無しさん:2023/01/03(火) 16:08:11.22 ID:qWO3SNRU.net
全身verと顔verがある動物と無い動物があるのはどういうわけなんだぜ🦖🦕?

686 :デフォルトの名無しさん:2023/01/04(水) 14:20:36.08 ID:s5vEki4C.net
履歴書にバストアップ写真貼付
っていうの観て豊胸写真貼るくらいおばかなレス

687 :デフォルトの名無しさん:2023/01/04(水) 20:35:29.99 ID:tq9Pt7xT.net
何それ

688 :デフォルトの名無しさん:2023/01/13(金) 18:24:55.37 ID:9+YKLz7e9
公務員というテ□リス├税金泥棒とその癒着害蟲の贅沢≡昧な生活を支えるために
お前らは地球破壊して災害連発させてまで日夜無駄に必死に無様に働かされてるのか゛現実な
要するに,公務員を根絶やしにするたったそれだけの簡単なことで、
JАLた゛のANAだのクソアヰ又ドゥた゛のクサイマ─クだのゴキブリフライヤ―だのハ゛カチョンヱア―だのテ囗リストによる
温室効果ガスまき散らし氣候変動,土砂崩れ、洪水.暴風、猛暑、大雪にと住民の生命と財産か゛破壞される殺人テ口は激減するし,
コ口ナまき散らされて医療崩壊されて白々しいナ丿マシン入りワクチンもどき打ち込まれて数々の副作用て゛殺されることもなくなるし、
騷音によって知的産業が根絶やしにされてシステ厶障害まみれのポンコツ後進国からすら脱却て゛きるわけた゛か゛,最低て゛も
税金泥棒公務員と資本家階級の贅沢三昧な生活を支える行為を放棄する『働いたら負け』は正義だという正しい理解をしないとな

創価学會員は,何百万人も殺傷して損害を与えて私腹を肥やし続けて逮捕者まて゛出てる世界最悪の殺人腐敗組織公明党を
池田センセ一がロをきけて容認するとか本気て゛思ってるとしたら侮辱にもほと゛があるぞ!
hTТps://i.imgur、com/hnli1ga.jpeg

689 :デフォルトの名無しさん:2023/02/08(水) 21:44:37.67 ID:SRtB9YNx.net
au PAYプリペイドカードで取引履歴が表示されない不具合 中、朝、住、今、荻、塚などが含まれる加盟店で
https://www.itmedia.co.jp/news/articles/2302/08/news159.html

これはどういう原理?

690 :デフォルトの名無しさん:2023/02/09(木) 01:12:33.38 ID:CT5MmAYO.net
>>689
完全に推測だけど、UTF16 にCP1292用とかの特殊処理をしたとか?
そのせいで 0x92 や 0x94 などを含む一部の文字が使えなくなった。

691 :デフォルトの名無しさん:2023/02/09(木) 01:16:30.66 ID:CT5MmAYO.net
>>690
訂正、UTF16じゃなくてSJIS/CP932だな。

692 :デフォルトの名無しさん:2023/02/09(木) 01:22:16.09 ID:CT5MmAYO.net
>>690
もいっこミス、CP1292はCP1252のタイポ。英語Windowsで使われるやつのつもり。

693 :デフォルトの名無しさん:2023/02/09(木) 05:00:43.74 ID:UWV0mqex.net
うーん不思議だな

694 :デフォルトの名無しさん:2023/02/11(土) 01:16:35.62 ID:jExU8kfL.net
マスターカード側(?)ってのがよくわからんね

695 :デフォルトの名無しさん:2023/02/11(土) 04:28:29.30 ID:QY9lSOJI.net
だからSJISを英語版Windows用のライブラリかフレームワークで処理しちゃったんだろ。
例に上がってるのがどれも該当文字。

696 :デフォルトの名無しさん:2023/02/11(土) 19:52:44.79 ID:eerDWvKt.net
なるほろ

697 :デフォルトの名無しさん:2023/02/11(土) 21:12:31.28 ID:a+HD9nM9.net
Windows, CP932, UTF16 を使っているシステムは、ヤバイ

その点、Linux はUTF8 だけ

698 :デフォルトの名無しさん:2023/02/11(土) 21:17:49.94 ID:FZgft1te.net
LinuxもUnicode文字のパースにはUTF32使ってるでしょ。じゃないと基本多言語面以外の文字を正しく使えないから。

699 :デフォルトの名無しさん:2023/02/12(日) 02:18:07.45 ID:UD1CAstg.net
パースパースってここは西オーストラリア州かよ🐨🇦🇺🏴󠁡󠁵󠁷󠁡󠁿🦘

700 :デフォルトの名無しさん:2023/02/12(日) 12:22:59.98 ID:2oU17ty6.net
Linux は内部的には、UTF32 も使っているけど、外には出ない。
外部とはUTF8 で統一されている

Windows のCP 何々みたいなものは地獄。
他国語のCPを誰も知らない

例えば日本人だと、CP932 しか知らない。
逆に外人は、誰もCP932を知らない

つまり、外人同士が意思疎通できないシステム

ただし、Linuxでも、iconv を使うけど、
Ruby では非推奨になって、NKF を使う

今では、CP932とか日本語を扱えるのは、Rubyだけだろ。
外人は誰も、CP932など知らない

701 :デフォルトの名無しさん:2023/02/13(月) 13:42:49.90 ID:B5eUc1df.net
中 9286 ← 判る
朝 92a9 ← 判る
住 8f5a ← 判らん
今 8da1 ← 判らん
荻 89ac ← 判らん
塚 92cb ← 判る

702 :デフォルトの名無しさん:2023/02/13(月) 16:52:17.70 ID:JDbZ3Ijk.net
荻は 948b では?
cp1252 の 0x81 0x8d 0x8f 0x90 0x9d の5文字は未定義文字なので、ライブラリによってはエラーになる。
0x92 と 0x94 はクォートで特殊処理される可能性がある。

703 :デフォルトの名無しさん:2023/02/14(火) 01:45:05.11 ID:8zO3UUTI.net
互換性を簡単に切り捨てられたLinuxと、互換性を維持しなくてはならないMS-DOSとWindowsを比べるのはただの阿呆。

704 :デフォルトの名無しさん:2023/02/14(火) 08:08:42.98 ID:XLVypbdR.net
当時ISO2022 という規格があったのに
CP932 などというふざけた規格を作ったのが悪い

705 :デフォルトの名無しさん:2023/02/14(火) 15:06:25.61 ID:5oc02QiB.net
別にふざけてたわけじゃない
当時の日本のPCはJIS X 0201との互換性のほうが重要だったってだけ

706 :デフォルトの名無しさん:2023/02/14(火) 18:56:57.73 ID:XLVypbdR.net
えっと、JISX0201 は ISO2022 に従ってますよ
CP932 なんていらんかったんや

707 :デフォルトの名無しさん:2023/02/14(火) 19:37:48.59 ID:vjcTtMHg.net
シフトJISの主目的はバイト数の節約なので、ISO2022系は許容できなかったんだよ。
当時のPCとしては1バイトでさえ貴重な資源だった。
メモリの容量が100万倍になった現在から見たら笑い話だけど。

708 :デフォルトの名無しさん:2023/02/15(水) 03:33:04.77 ID:kNXNSVol.net
結局CP1252説はまだ正しいのかわからんのね

709 :デフォルトの名無しさん:2023/02/15(水) 22:31:23.74 ID:rksMQLqK.net
>>706
マイクロソフトは悪くいうのに、IBMは悪くいわないのか?

710 :デフォルトの名無しさん:2023/02/15(水) 22:32:45.87 ID:rksMQLqK.net
>>706
日本語がマルチバイトの先駆けだったので、中国は何もかも楽だった。

711 :デフォルトの名無しさん:2023/02/16(木) 04:27:13.71 ID:yMbItoR2.net
>>710
中国語とかのコードって普通に片仮名平仮名入ってるよね

712 :デフォルトの名無しさん:2023/02/16(木) 08:17:07.88 ID:j+jLrvev.net
>>709
EBCDICのこと?だってその頃はISO2022ないじゃん
でも、System 360 は素晴らしいと思うよ

713 :デフォルトの名無しさん:2023/02/16(木) 21:02:08.08 ID:DNC5A3Ty.net
EBCDICなんでアルファベットのコードの真ん中に穴を開けたのか?

714 :デフォルトの名無しさん:2023/02/16(木) 23:08:48.64 ID:8O9Ip5X1.net
>>713
パンチカードがBCDだったから。16進数でいう A~F が使えなかった。

715 :デフォルトの名無しさん:2023/02/17(金) 22:53:38.58 ID:ZaUKSTn6.net
>>712
IBM932は問題ないのか?

SJISは拡張部分の定義がバラバラ。

JISはもっとひどかったから、まだいいんだが、UTF-8とUTF-16の混在という問題はまだ解決していない。

マイクロソフトのSJISは日本語キャラクタセットの統一という成功を収めたが、UTF-8とSJISの相性が悪いのはどうにもならない。

日本人が日本語のキャラクタセットを決められない状況では、中国人が決める日本語キャラクタセットに日本人は従うしかない。

716 :デフォルトの名無しさん:2023/02/17(金) 23:31:54.88 ID:kr6q/udY.net
SJIS は時代遅れ。結論が出てるんだから捨てれば良い。
何が統一なんだか。一瞬足りとも統一されたことなんて無かった。

717 :デフォルトの名無しさん:2023/02/18(土) 00:27:33.20 ID:g6xF0Ha1.net
>>716
SJISで統一して成功したシステムは多い。
UNIXとWindowsの組み合わせではSJISでの統一が正解だった。

718 :デフォルトの名無しさん:2023/02/18(土) 03:18:28.78 ID:PB2jCVVO.net
>>717
妄想乙

719 :デフォルトの名無しさん:2023/02/18(土) 05:11:11.00 ID:Dm16ZxoG.net
これは興味深いなり

720 :デフォルトの名無しさん:2023/02/18(土) 06:39:14.59 ID:1+BLOhrf.net
>>715
時系列が無茶苦茶
CP932が作られたかIBM932が生まれた
何故わざわざ空けてあるC1領域を使ってしまったのか

721 :デフォルトの名無しさん:2023/02/18(土) 12:24:41.58 ID:ExpzrYMf.net
>>717
UTF-8以前の話なら
UNIXとWindows混在ならEUCが正解

722 :デフォルトの名無しさん:2023/02/18(土) 12:26:20.12 ID:ExpzrYMf.net
>>720
IBMは昔からわざとちょっと変な仕様追加するのが好きで
M$と不仲になってさらにその傾向が増長したのでは

723 :デフォルトの名無しさん:2023/02/18(土) 13:59:14.80 ID:g6xF0Ha1.net
>>721
それは逆だ。Windowsを使っていると無意識にSJISになるので、UNIX側をSJISにすればポンコツがいても問題は発生しにくい。

724 :デフォルトの名無しさん:2023/02/18(土) 16:21:02.46 ID:PB2jCVVO.net
UTF8出来てから30年、RFCになってから20年にもなるのに未だにSJISとかアホか
お前らもう20世紀に帰れ。今の時代に不要な人材

725 :デフォルトの名無しさん:2023/02/19(日) 00:00:17.41 ID:13adp8Nx.net
この話の流れはともかくとして、SJIS人材は、必要。

726 :デフォルトの名無しさん:2023/02/19(日) 13:36:16.30 ID:F5EkyCpB.net
そう言えば eucjp-open と Unicode にはあるのに windows--31j に無い文字って結構沢山あるのな。

727 :デフォルトの名無しさん:2023/02/19(日) 13:38:43.70 ID:F5EkyCpB.net
Windows では環境依存文字扱いになってメモ帳に入力できるが UTF-8 にしないと保存出来ない。

728 :デフォルトの名無しさん:2023/02/19(日) 15:08:09.17 ID:mdwW7xFX.net
>>724
Windowsは表面がSJIS、内部がUTF-16だ。

これをUTF-8にすべて置き換えるには、あと数十年はかかる。

729 :デフォルトの名無しさん:2023/02/19(日) 15:10:04.88 ID:mdwW7xFX.net
>>727
メモ帳を進化させて、環境依存文字がないようにUTF-8の文字を使うようにしたから、自動的にUTF-8になる。

730 :デフォルトの名無しさん:2023/02/20(月) 14:20:15.29 ID:gWCCmRg9.net
これから先Windows上でテキストファイル作る時には
文字コード何にするのが一番いいの?BOM無しUTF-8?

731 :デフォルトの名無しさん:2023/02/20(月) 14:31:01.70 ID:ssy6UqTn.net
今のところSJISかBOM付きUTF8のどっちかだと思う

732 :デフォルトの名無しさん:2023/02/20(月) 14:38:38.30 ID:yWl6H2Py.net
これから先って言うならBOM無しUTF-8だろうな
メモ帳も前はUTF-8にするとBOMを強制的に付けてきたけど、今はBOM無しUTF-8が標準になったし

733 :デフォルトの名無しさん:2023/02/20(月) 14:42:08.01 ID:yWl6H2Py.net
SJISが生き残ってるうちはBOM付きの方が自動判別が確実で便利だけど

734 :デフォルトの名無しさん:2023/02/20(月) 15:57:49.57 ID:iLGtEctg.net
SJISでしか動かないツールをメインに使ってるんじゃなければUTF-8に全面移行するのが正解。
当然BOMとかも不要。

735 :デフォルトの名無しさん:2023/02/20(月) 18:35:55.10 ID:ssy6UqTn.net
Windows環境でBOMを付けて困ることなんてないんだから、付けられるなら付けておいた方がいいでしょ
むしろBOMなしのメリットが思いつかない
ExcelとかBOMつけないとcsvが文字化けしたりするし

736 :デフォルトの名無しさん:2023/02/20(月) 19:00:28.39 ID:OG9zY4WL.net
UTF-8 にBOMとか最悪だな

737 :デフォルトの名無しさん:2023/02/20(月) 19:42:17.34 ID:XGJQq71T.net
令和になってもう5年になるのにいまだにsjisなんてありえない
あとbomつきutfも2010年代ならともかくWin81もIE11も死に絶えてる現代で許されるわけがない

結論:BOMなしUTF8以外の選択肢はありえない

738 :デフォルトの名無しさん:2023/02/20(月) 19:44:40.63 ID:XGJQq71T.net
UTF16も内部処理コードとしての賞味期限は切れてるしな
2030年位には世の中すべてUTF8で統一されるだろう

739 :デフォルトの名無しさん:2023/02/20(月) 20:07:00.66 ID:HgTGLFxo.net
>>737
日本語や中国語はUTF-8だと処理が面倒なんだよな

UTF-8は将来、UTF-32に置き換わるだろう。

740 :デフォルトの名無しさん:2023/02/20(月) 21:29:57.22 ID:iLGtEctg.net
日本語とか中国語が特にめんどうという話は聞いたことがない。どういうこと?

741 :デフォルトの名無しさん:2023/02/20(月) 22:49:24.50 ID:eS5XTp7S.net
UTF-16が持て囃されたのももはや4半世紀以上前なんだが

日本語も中国語もUTF-16の範疇で何ら問題なく処理できるはずなのに
どんな処理系でいまだに扱いが面倒なのか教えてほしいな
まあ具体例を聞いたら「そんなゴミとっとと廃棄処分しろ」という乾燥にしかならない気もするけど

742 :デフォルトの名無しさん:2023/02/20(月) 23:56:20.10 ID:ssy6UqTn.net
UTF32にはUTF16同様にエンディアンの問題があるから入出力形式には向かない
まぁ、UTF8にはUTF8で冗長コードの問題があるわけだが……UTF8をコードポイント単位で読み込んで処理するのが一番確実と思う

743 :デフォルトの名無しさん:2023/02/21(火) 19:33:57.30 ID:VTx8hARX.net
>>740
UTF-8は文字によって1バイトで済むなら1バイトで表現する。

これはアルファベットを使用している欧米人には都合がいいが、漢字を使っている日本人、中国人などでは、その漢字は何バイトなのか常に意識しなくてはならなくなる。

近い将来、4バイトで統一した方が楽という話になる。
特に中国が世界の中心になると、中華人民共和国が推奨しているキャラクタセット GB2312は2バイトで一文字をあらわすキャラクタセット。

日本語のように1~2バイトで表現するから、UTF-8のように1バイト文字、2バイト文字、3バイト文字、4バイト文字、5バイト文字と何バイト使うのかわからないキャラクタセットは嫌う。

中国語EUCとUTF-8は相性が悪い。

744 :デフォルトの名無しさん:2023/02/21(火) 19:35:15.90 ID:VTx8hARX.net
GB2312をUTF-8に置き換えようとしても、面倒くせえだけだと思うは中華人民共和国も同じ。

745 :730:2023/02/21(火) 20:03:36.31 ID:bx2YVvOk.net
みんな言うことバラバラw 結局なにが良いんだよう?

746 :デフォルトの名無しさん:2023/02/21(火) 20:04:41.27 ID:NFhPk2T2.net
>>743
寝ぼけるな。
欧米でもアクセント付きの文字やちゃんとしたクォートとか使えばバイト数増える。
さらに合成アクセント、合成文字、異体字セレクタ、絵文字合成、国旗とかもろもろあって固定長にはならない。UTF32使っても可変長。

747 :デフォルトの名無しさん:2023/02/21(火) 20:09:54.26 ID:gmc1mmvr.net
文字をいろいろ表そうとリガチャ導入したのは失敗だと思う

748 :デフォルトの名無しさん:2023/02/21(火) 20:11:40.47 ID:KCRD8vTD.net
>>746
UTF-32は一文字が32ビットで、4バイト単位で文字を表現するから、漢字一文字を4バイトで表現している中国のキャラクタセットと相性がいい。

UTF-8は一文字が何バイトなのかわからないから困るんだぞ?

日本語や中国語は、UTF-8だと2バイト文字というものがほぼ存在しない。

1バイト文字か3~4バイト文字の混合だったから、UTF-8よりUTF-32の方がシンプルになる。

さすがに32ビットではなく、64ビットにしようというのは、かなり未来の話だろう。

749 :デフォルトの名無しさん:2023/02/21(火) 20:13:32.50 ID:KCRD8vTD.net
>>746
話が矛盾しているぞ。UTF-8もUTF-32も同じ批判ができるなら、UTF-32の方がシンプルだろ?

750 :デフォルトの名無しさん:2023/02/21(火) 20:59:48.85 ID:6Lh94JJt.net
うわあ「GB2312」ときたかあ
2000年以前の知識からアップデートできてないゴミ以下の化石の認識なら、
まあ>743みたいなことを言い出すのも納得だわ
当の中国政府すら「GB2312までしか対応できないようなソフトウェア製品は流通禁止」なんて言い出してから
すでに15年以上経過してるのにいったいお前はどれだけぼーっと生きてきたんだ?

>>745 繰り返すけどBOMなしUTF8以外もはやありえない

751 :デフォルトの名無しさん:2023/02/21(火) 22:10:48.02 ID:6Lh94JJt.net
おそらくだけど>743は知識が古すぎて
>>746が挙げてる用語がそれぞれどういう意味を持ってるのか何一つ理解できていないだろう
これでは会話が成立しない
もしくは知識があるうえで>748や>749みたいなことを言い出してる可能性もないわけではないが
仮にそうであったとすれば頭が悪すぎてなおのこと会話が成立しないと思われる

752 :デフォルトの名無しさん:2023/02/22(水) 07:57:15.15 ID:NZkCD/9S.net
正直、UTF-8にBOMつけるんなら
ISO2022 でいいやんと思う

753 :730:2023/02/22(水) 09:59:50.26 ID:xbNdqyen.net
>>750
わかった、あなたとマイクロソフトのメモ帳を信じることにするw

754 :デフォルトの名無しさん:2023/02/22(水) 20:25:50.37 ID:yP74xxqg.net
BOMはほしい

755 :デフォルトの名無しさん:2023/02/22(水) 21:44:23.38 ID:Z5Yb2D9Z.net
>>754
そのこころは?

756 :デフォルトの名無しさん:2023/02/23(木) 02:06:56.75 ID:CN6TeDKs.net
あって損はない

757 :デフォルトの名無しさん:2023/02/23(木) 03:19:42.48 ID:sj7+9G1y.net
これからは UTF−8 に統一されるんだから BOM は不要
過去の遺物になることが確定してるんだがら、可能な限り早く BOM 無しに移行せよ

758 :デフォルトの名無しさん:2023/02/23(木) 08:50:00.45 ID:2/POnIZR.net
>>757
わかった、俺もあなたとマイクロソフトのメモ帳を信じることにするw

759 :デフォルトの名無しさん:2023/02/23(木) 10:27:37.47 ID:4H8fy78d.net
UTF-8にBOMは要らんし付けてはいけない
未だにBOM言うてるのは老害ゴミ
異体字セレクタとか観たら卒倒して死んじゃうんじゃないか

760 :デフォルトの名無しさん:2023/02/23(木) 10:39:46.94 ID:A0wb20Dk.net
いまだにBOM言ってるのはたしかに老害だな。signatureって言え。

761 :デフォルトの名無しさん:2023/02/23(木) 11:04:10.21 ID:9YiKsc0f.net
Excelにutf8食わすときに必要だし、Windows Searchもutf-8はBOM付き前提で、この状況は未だにかわってない
BOMなし教の人はWindow使ってないんじゃないの?w

762 :デフォルトの名無しさん:2023/02/23(木) 12:50:39.71 ID:WqT6xFqM.net
最終的にはBOM無しUTF-8に統一されるべきだと思うけど
移行期の今はまだBOM付きの方が現実的で無難
まずはWindowsやOffice等主要ツールがBOM無しUTF-8前提になってくれないと

763 :デフォルトの名無しさん:2023/02/23(木) 13:56:15.28 ID:QgGws+lN.net
>>762
天下のMicrosoft様がメモ帳の初期値をBOM無しUTF-8になさっておられる
ExcelとかWindows Searchとかもいずれ追随するんじゃねーの?

764 :デフォルトの名無しさん:2023/02/23(木) 14:40:49.03 ID:9YiKsc0f.net
>>763
世の中から既存のものを含めた全てのSJISテキストファイルが消えてなくなればBOMなし対応になるだろうが、果たして何年かかるかな

765 :デフォルトの名無しさん:2023/02/23(木) 14:42:16.10 ID:TD+FtAmO.net
レジストリスクリプトなど、windowsのユニコードが未だutf16leという現状で
utf8w/obomに統一とか時期尚早でしょ

766 :デフォルトの名無しさん:2023/02/23(木) 16:34:16.53 ID:GQ/uFi0l.net
BOMはSJISと関係なく作られたとおもうが?

767 :デフォルトの名無しさん:2023/02/23(木) 17:00:14.57 ID:sj7+9G1y.net
Windows のシステムロケールをUTF8に設定すればExcellとかOffice系もBOM無しでいけるんじゃないの?

768 :デフォルトの名無しさん:2023/02/23(木) 17:55:58.87 ID:PPu7W9/5.net
Excel の先頭BOMとかいう愚かな仕様も早く無くなってほしい
テキスト開くときにエンコーディングを指定できればいいだけだよね

769 :デフォルトの名無しさん:2023/02/23(木) 19:31:24.94 ID:sj7+9G1y.net
>>768
だからシステム・ロケール UTF8 に変更すれば BOM いらない。
お前らがシステム・ローケルをSJISに設定してSJIS優先にしてるから、それに従ってBOM無しをSJISとみなしてるだけ。
単に設定の問題。エクセルは悪くない

770 :デフォルトの名無しさん:2023/02/23(木) 22:06:54.24 ID:lGgWFFZW.net
BOMがあって困った経験はJavaしかないなあ
BOM付きを標準していいくらいじゃないかな

771 :デフォルトの名無しさん:2023/02/23(木) 22:09:58.66 ID:lGgWFFZW.net
Windowsの古い資源と共存するためにもUTF-8/16/32はBOM付きを必須にしたほうがいい
BOMを廃止して良いことなど何もないのが現実。今どきにBOMに対応してないほうがおかしい

772 :デフォルトの名無しさん:2023/02/23(木) 22:30:34.98 ID:sj7+9G1y.net
そもそもネットの通信でも、MacでもLinuxでもUTF-8にBOMつけたりしない。
UTF-8にBOMつけたのは過去のWindowsだけって時点でゴミなのわかるだろ。そのWindowsだってデフォルトでは付けない方向に舵を切った。
今時BOM必要って言ってるのは時代の変化についてこれなくて、過去の環境に生き続けたいロートルだけ。

773 :デフォルトの名無しさん:2023/02/23(木) 22:59:31.84 ID:lGgWFFZW.net
>>772
BOMがついているファイルを扱えないと機会損失にしかならない。
これは純粋なビジネス上の問題。LinuxとMacが少数派であることの理由のひとつにもなってる

774 :デフォルトの名無しさん:2023/02/23(木) 23:04:51.37 ID:SB4P+kzn.net
>>772
UTF-8なんて使っているのが過去の環境に生き続けたい(ASCIIが素通しになる)ロートルだけだろ。

775 :デフォルトの名無しさん:2023/02/23(木) 23:09:41.34 ID:lGgWFFZW.net
エンジン開発での競争に敗れた国がこぞってEV化を推進しようとするのと似た構図。
シェアを持っているWindowsには業務アプリケーション遺産に対する責任がある。負け組のLinuxとMacにはそれがない。

776 :デフォルトの名無しさん:2023/02/23(木) 23:55:53.12 ID:DZ2N6cRC.net
うわあ頭がおかしいのが複数湧いてる(ひょっとして同一人物の別IDだったりして)
意図的に間違ったことをあえて逆張りで言ってるのか本気で信じてるのかどっちなんだろう

UTF8を使うのがロートルって、こいつの言ってる「過去」ってまさかWindows以前のMS-DOSの時代のことか

あとUTF-16やUTF-32のテキストファイルなんて
規格上定義されてることは知ってるけど現物にお目にかかったことなんかないし
そもそもUTF-16やUTF-32なんて元々BOM必須だろうよ
過去の負の遺産がある以上アプリケーションとしてはBOMありファイルの読み込みには対応しなきゃダメだろうけどさ
今後作成するファイルでUTF-16/32を選ぶのは論外だし、UTF-8で保存するならBOMをつける必要などどこにもないだろうよ

777 :デフォルトの名無しさん:2023/02/24(金) 00:16:53.98 ID:/JDec9CR.net
>>700
Windowsは内部的にはUTF16で統一されてるよ
そこはLinuxよりも優れた設計

778 :デフォルトの名無しさん:2023/02/24(金) 00:17:46.23 ID:/JDec9CR.net
> UTF-8で保存するならBOMをつける必要などどこにもないだろうよ
BOMをつけないと他の文字コードとの区別ができなくて
文字化けしてしまう

779 :デフォルトの名無しさん:2023/02/24(金) 00:19:03.22 ID:/JDec9CR.net
だいたいUTF-8のBOMはUnicodeの正式な仕様なのだから
対応してないほうが悪い

780 :デフォルトの名無しさん:2023/02/24(金) 00:22:30.88 ID:/JDec9CR.net
LinuxとかmacOSとかUnixはUnicodeの対応が遅れていて
LANG=C.UTF-8でさえPOSIXで標準化されていない
Unicodeを正しく扱えないコマンドがある

781 :デフォルトの名無しさん:2023/02/24(金) 00:50:08.17 ID:rqUoHIRk.net
>>780
いったいいつの時代の話をしてるんだ
具体的なコマンド名とディストリビューションを挙げてみろや

782 :デフォルトの名無しさん:2023/02/24(金) 01:46:20.35 ID:MU0HtYsa.net
>>768 >>769
Mac上のExcelは、どうするのが正解?
以前「CSVで日本語が化けるぞ」と言われて、よくわからなかったからググったら「UTF-16なら
大丈夫」とあったので、そうしたら文句を言われなくなったのでよかったらしいw
Excel以外でCSVを使うとき、例えばpandasとかUTF-16でも大丈夫なんだっけ?

783 :デフォルトの名無しさん:2023/02/24(金) 03:29:22.76 ID:zsYMclLz.net
今後はファイルや外部通信はUTF-8がデフォルトになる
逆にいうとBOMついてないのは全てUTF-8とみなされる
よってUTF-8にBOMは不要
この単純なロジックが理解できないやつはかわいそう

784 :デフォルトの名無しさん:2023/02/24(金) 06:23:20.57 ID:BmT/WJ86.net
>>783
> 今後はファイルや外部通信はUTF-8がデフォルトになる

ならないよ。
誤った認識を前提に議論するのは意味がない。
スレのレベルが低下して無駄な書き込みが増えるだけなので、この話題はもうやめてくれ。

785 :デフォルトの名無しさん:2023/02/24(金) 08:06:25.11 ID:liuYehNm.net
文字コードを自動判別するためにBOMを使うってのがダメだな
BOMと思ったコードが違うエンコーディングの可能性があるんだから
Windows だけで閉じておいてほしいから、通信回線には流さないで

786 :デフォルトの名無しさん:2023/02/24(金) 08:34:34.48 ID:b+y25Gbd.net
>>777
> Windowsは内部的にはUTF16で統一されてるよ
ワイドキャラクタがUTF-16で統一されているという意味なら
Linuxも20年以上前のglibc-2.0からUTF-32で統一されているよ

ワイドキャラクタ以外アプリ等が独自に他の符号化方式を
採用している場合があるのも同じ

787 :デフォルトの名無しさん:2023/02/24(金) 08:58:55.21 ID:BmT/WJ86.net
>>785
そもそも誰も自動判別の正確性を担保できないからBOMがあるんだろ
Windowsを除外したビジネスで成り立つならそれでいいが、現実はそうじゃない。
他人が対応するのを待つのは無能な人のすることだよ。

788 :デフォルトの名無しさん:2023/02/24(金) 09:04:15.26 ID:BmT/WJ86.net
過去にプログラミングやったことない人が急にスマホ開発に配属されて、自分が対応するのではなく他人が対応するのを待ってるあたりに頭悪いのが伝わってくる。
プログラミングの才能ないし、むいてないからプログラミングから離れたほうがいいと思う。

789 :デフォルトの名無しさん:2023/02/24(金) 12:43:37.42 ID:8I4EMiY9.net
逆だね。BOMなんかじゃ判別できない
だって,FEってソーンのコードだもの

790 :デフォルトの名無しさん:2023/02/24(金) 12:49:37.23 ID:8I4EMiY9.net
Windows プログラマってほんとどうしてこんなに喧嘩を売るの?
世の中の文字コードがCP932 とUTF-16しかないと思っているよね

791 :デフォルトの名無しさん:2023/02/24(金) 13:06:47.37 ID:8I4EMiY9.net
もう少し正確にいうと,テキストファイルから
文字のエンコーディングを推測することはほとんど不可能
文字のエンコーディングはアウトオブバンドで送る必要がある
ISO2022 はエスケープシーケンスというアウトオブバンド転送を定義していた
ちゃんと定義するなら,UTF-8も Byte order mark ではなく
エンコーディングを指定するアウトオブバンドシーケンスを定義すべきという話
なんか議論が噛み合ってなかったので

792 :デフォルトの名無しさん:2023/02/24(金) 13:10:51.59 ID:8I4EMiY9.net
それで,Windows は先頭にBOM を入れるというのをアウトオブバンドで決めてる訳
だから,Windows で勝手にしてね。Windows 以外には送らないでって話

793 :デフォルトの名無しさん:2023/02/24(金) 13:23:55.49 ID:BmT/WJ86.net
「べき」論はよそでやってくれ。

794 :デフォルトの名無しさん:2023/02/24(金) 13:24:26.82 ID:5Y5XlszR.net
もうさ、結論出ないからこうしたら?

今後新たに作成するテキストファイルはBOM無しUTF-8で書く
今後のソフトはBOM有りBOM無し両方のUTF-8を読めるように作る

795 :デフォルトの名無しさん:2023/02/24(金) 13:53:37.06 ID:BmT/WJ86.net
急にスレのレベルが下がった感じ。同じ人がID変えて書き込んでるんだろうか。
このスレに独り善がりな理想論を書き込む人は、プログラマ適性がないから転職しなさい。

796 :デフォルトの名無しさん:2023/02/24(金) 13:59:12.56 ID:zsYMclLz.net
>>792
Windowsではとか言ってる時点で国際化とか文字コードのこと全く知らない無知だろ。単に「日本語Windows」で使われてたCP932がUTF-8のBOMとかぶってなかっただけ。
英語Windowsで使われてたCP1252とかは EF BB BF にもそれぞれ文字が割当れらてるのでBOMとかあっても区別できばない。他の多くの文字コードもそうだし、CP932/SJIS なんかより断然現有の資産も多い。
おま国事情でたまたまうまくいってるだけなんて、一般化や標準化されるわけないだろ

797 :デフォルトの名無しさん:2023/02/24(金) 14:02:43.91 ID:zsYMclLz.net
>>796
792の返信にしたけど、792を批判したいわけではなくて、WindowsではBOMが便利という一般論を否定したかっただけ。
それは単なる日本しか知らない蛙仕草。

798 :デフォルトの名無しさん:2023/02/24(金) 14:02:58.25 ID:BmT/WJ86.net
「ぼくのかんがえたさいきょうの文字コード処理パッチ適用」を自腹で開発して、自腹ですべての顧客のデバイスに入れればいいだけ。
すべてはカネ次第。カネを出す人が仕様を決めればいい。それだけ。

799 :デフォルトの名無しさん:2023/02/24(金) 14:42:29.80 ID:dKpgt1DZ.net
海外ではこうとか、本来こうあるべきとか、どうでも良いんだよ
日本語のテキストファイルを読み込むプログラムの仕様としてSJIS/UTF8自動判別にした場合、
確実に文字化けしないのはBOM付きUTF-8だけという事実は考慮すべき

800 :デフォルトの名無しさん:2023/02/24(金) 15:02:03.28 ID:xSIwGcb9.net
>>796
CP1252でEF BB BFって文字はあっても意味を成さない謎の文字列だし、極稀なパターン
完璧ではなくとも、実用上ほぼ問題ない精度で判別出来るでしょ
とうのWindowsがそういう風に利用してるのだし

801 :デフォルトの名無しさん:2023/02/24(金) 15:30:37.37 ID:BmT/WJ86.net
ïÿ¿を有意な先頭文字列とする利点と欠点を考えて決断すればいいだけのこと

802 :デフォルトの名無しさん:2023/02/24(金) 16:49:11.30 ID:3Zj7Ci+m.net
WindowsやエクセルとBOMは関係ないとおもうんだが
とくにマイクロソフトが開発したり、始めたわけではなく
採用前からBOMありのユニコードがあってたまたまBOMありフォーマットを使っただけでは?
ちがうのか?

803 :デフォルトの名無しさん:2023/02/24(金) 18:05:09.63 ID:zsYMclLz.net
>>799
そもそも自動判別は悪という流れになってることすら知らないんだな。
セキュリティホールやバグの温床になるので文字コードの自動判別はなくすのが世界の流れ。特に確実性のない自動判別は害悪でしかない。

804 :デフォルトの名無しさん:2023/02/24(金) 18:22:32.64 ID:BmT/WJ86.net
BOMを信じた時点でもはや自動判別ではないだろ。

805 :デフォルトの名無しさん:2023/02/24(金) 19:12:21.37 ID:/JDec9CR.net
>>786
> Linuxも20年以上前のglibc-2.0からUTF-32で統一されているよ
それでマウントとったつもりだろうが
Windows NTがUnicodeに対応したのは30年前だ

806 :デフォルトの名無しさん:2023/02/24(金) 19:13:09.21 ID:/JDec9CR.net
>>804
世界には多数の文字コードがあるわけで
完全な自動判別は不可能だって知らないの?

807 :デフォルトの名無しさん:2023/02/24(金) 19:20:45.75 ID:/JDec9CR.net
>>783
> 逆にいうとBOMついてないのは全てUTF-8とみなされる
> よってUTF-8にBOMは不要
あのー、Unicode以外の全ての文字コードにはBOMがついてないんですけど?

808 :デフォルトの名無しさん:2023/02/24(金) 19:22:18.48 ID:/JDec9CR.net
>>781
> 具体的なコマンド名とディストリビューションを挙げてみろや

echo あいうえお | mawk '{ print length($0) }'
15

809 :デフォルトの名無しさん:2023/02/24(金) 19:23:31.95 ID:vCNNlHyw.net
まだunicode以外の文字コードを使う気かよ
化石なん?

810 :デフォルトの名無しさん:2023/02/24(金) 19:23:32.40 ID:/JDec9CR.net
>>781
echo あいうえお | dash -c 'read line; echo ${#line}'
15

811 :デフォルトの名無しさん:2023/02/24(金) 19:24:26.90 ID:/JDec9CR.net
>>809
今すぐこれまでの資産をUnicodeに変換してみせろよw

812 :デフォルトの名無しさん:2023/02/24(金) 19:28:28.37 ID:3Zj7Ci+m.net
UTF-8はPlan 9かららしい

Linuxに勝てなかったPlan 9 2009/02/09
「Plan 9」はUNIXが生まれたベル研究所で、次世代UNIXとして開発されていた分散OSだ。
UNIXやC言語を生み出したケン・トンプソン、デニス・リッチー、ロブ・パイクらのチームが、当時UNIXが抱えていた限界を打ち破るために、ネットワークやGUIを最初からUNIXの設計思想に基づいて取り入れた先進的なOSだった。

UNIXの大きな特徴として、デバイスをファイルにマッピングして抽象化するというものがある。ところが、こうした初期設計時の抽象化から漏れるAPIが増えた。
そうして漏れつつあった各種リソースを、再びUNIX的なファイルシステムのツリーにマップし、抽象度と統一性の高いインターフェイスを用意したのがPlan 9だった。

ファイルとして扱えるのは一般に想像するようなハードウェアデバイスだけではなく、あらゆるリソースが対象となった。
TCP/IPなどのネットワーク関連の操作も「/net」というディレクトリを使って行うなど徹底していた。

Plan 9はなぜ失敗したのか?
マーケティングに熱心でなかったからとか、さまざまな理由付けが可能だが、Plan 9が普及しなかった理由は結局のところ、旧来のUNIXを置き換えるほどには先進的ではなかったからだ、というのがレイモンド氏の答えだ。
Plan 9に比べれば、確かにUNIXはきしみ音が聞こえてガタピシいうし、明らかにさび付いたところもあるのだが、そのポジションを維持するために必要な仕事はちゃんとこなせていた、という。

LinuxやBSD系UNIXには、Plan 9由来の機能がいくつか取り込まれている。
稼働中のプロセスをモニタしたり操作するための「/proc」と呼ばれるファイルシステムは、Plan 9のものだし、
Linuxでスレッドを生成するシステムコール「clone」は、レイモンド氏によればPlan 9の「rfork」をモデルにしているという。
すべてをファイルのように扱うという意味でいえば、LinuxのFUSEもPlan 9の影響下にある。
現在、FUSEを使ったファイルシステムには、ftpfsはもちろん、flickrfsやBloggerFS、TracFSなどさまざまな実装がある。
今やOSばかりかインターネット全体にも利用範囲を広げた感があるUTF-8も、Plan 9のために考案されたエンコーディングだという。
https://atmarkit.itmedia.co.jp/news/analysis/200902/09/future.html

813 :デフォルトの名無しさん:2023/02/24(金) 19:28:34.50 ID:/JDec9CR.net
>>781
echo あいうえお | cut -b 4-
いうえお

814 :デフォルトの名無しさん:2023/02/24(金) 19:30:00.43 ID:/JDec9CR.net
間違えた

echo あいうえお | cut -c 4-
いうえお

815 :デフォルトの名無しさん:2023/02/24(金) 19:36:38.85 ID:EbaJyZ/f.net
業界人ですら認識ちがいのある文字コード。素人に説明するの超絶に面倒。

816 :デフォルトの名無しさん:2023/02/24(金) 19:46:01.57 ID:liuYehNm.net
エンコーディングの話をしているのに Unicode とは?

817 :デフォルトの名無しさん:2023/02/24(金) 21:08:47.90 ID:Ww2YDdfR.net
誰も>>794はスルーするんだな?w

818 :デフォルトの名無しさん:2023/02/24(金) 21:53:46.51 ID:h0ZFyNU2.net
流れからしてピントのずれたレスに反応するほどのことでもないかなって

819 :デフォルトの名無しさん:2023/02/24(金) 22:24:35.19 ID:zsYMclLz.net
>>814
そもそも -c オプションは現在 -b (バイト指定)と同じ動きというのが仕様なので文字コードもくそもない。
マニュアル嫁。

820 :デフォルトの名無しさん:2023/02/24(金) 22:30:50.23 ID:zsYMclLz.net
>>815
いや、このスレは素人が跋扈してるだけに過ぎないと思うが。
文字コードやネット・プロトコルの専門家で、「今後は外部は UTF-8 がデフォルト」って以外の意見は聞いたことがない。

821 :デフォルトの名無しさん:2023/02/24(金) 23:16:35.23 ID:/JDec9CR.net
>>817
スルーしてないだろ
ちゃんと読めよ
わざとか?

822 :デフォルトの名無しさん:2023/02/24(金) 23:18:05.18 ID:/JDec9CR.net
>>819
どこにも同じ動きとは書いていない

https://pubs.opengroup.org/onlinepubs/9699919799/utilities/cut.html

-b list
Cut based on a list of bytes. Each selected byte shall be output unless the -n option is also specified.
It shall not be an error to select bytes not present in the input line.

-c list
Cut based on a list of characters. Each selected character shall be output.
It shall not be an error to select characters not present in the input line.

823 :デフォルトの名無しさん:2023/02/24(金) 23:31:32.12 ID:zsYMclLz.net
>>822
linux なら linux のマニュアル嫁。

824 :デフォルトの名無しさん:2023/02/25(土) 00:00:07.97 ID:dveJDxzx.net
>>823
お前か誰かしらんが、どのディストリでUnicodeに
対応してないって聞かれたから
Linuxは全て対応してないと答えたんだが?

Linuxは対応してないといった俺の指摘に対して
Linuxは対応してないのが仕様だと答えるアホ

macOSのcutはちゃんとUnicodeに対応してる
対応してないディストリを聞かれたから答えただけだ

825 :デフォルトの名無しさん:2023/02/25(土) 00:01:38.57 ID:dveJDxzx.net
それにmawkやdashが対応してないという話からも逃げてるな
Unicodeに完全対応してねーんだよ

826 :デフォルトの名無しさん:2023/02/25(土) 01:08:13.97 ID:IGzyIaR2.net
>>825
話の流れを見る限り、お前が内部コードと外部コードの区別がついてないんじゃないか?

827 :デフォルトの名無しさん:2023/02/25(土) 01:34:53.03 ID:pcyV0/Fb.net
macOSはUNIXといってるからawkもちゃんとロケール対応してるべき? SUSのバージョンにもよる?
gawkは対応してるみたいね

828 :デフォルトの名無しさん:2023/02/25(土) 06:59:37.00 ID:dveJDxzx.net
>>826
付いているし、そんな質問されても意味がない

829 :デフォルトの名無しさん:2023/02/25(土) 08:46:26.36 ID:Rl2aLkT8.net
>>821
現実的で一番良い結論だと思うw

830 :デフォルトの名無しさん:2023/02/25(土) 08:48:27.98 ID:dveJDxzx.net
現実的っていうのはEUC-JPで書かれた
ウェブサイトが見れなくなるってこと?

831 :デフォルトの名無しさん:2023/02/25(土) 10:28:54.79 ID:+wSAdwQP.net
文字のエンコーディングは通信相手同士で取り決めろということ
相手がEUC-JPで送ってくるならこっちもEUC-JPで受け取れば良いこと

832 :デフォルトの名無しさん:2023/02/25(土) 10:44:41.98 ID:IGzyIaR2.net
今後はファイルや外部通信はUTF-8がデフォルトになる
デフォルトの意味が理解できないド素人がいるみたいなので書いておくと
「アプリは特に文字コードの指定が無かった場合はUTF-8で出力するべき、指定が無かった場合はUTF-8として読み込むべきである」ということ

つまりBOMが無くてもUTF-8とみなすべきなので、UTF-8にBOMは不要

833 :デフォルトの名無しさん:2023/02/25(土) 12:47:05.63 ID:PU7vc6R3.net
>>832
お前が気まぐれに「不要」と宣言したら、他人は良きように計らってくれるとでも思っているのか?
BOM付き文字列が送り込まれた時にどのように処理するかを決めないことには、なにも進まないぞ

834 :デフォルトの名無しさん:2023/02/25(土) 14:33:50.87 ID:mpikKEOw.net
通信はともかく、問題は過去に作成された膨大な数のUTF-8以外のファイルだ
とりあえず開いてみて、文字化けしたらエンコードを指定して開き直してみろ?
そんな対応じゃクレームが大量に来るし、PC苦手な人じゃ教わっても対応出来ないだろ

835 :デフォルトの名無しさん:2023/02/25(土) 15:16:11.43 ID:k0PvGKB9.net
ロバストネス原則(ポステルの法則)
https://makitani.net/shimauma/robustness-principle

ロバストネス原則(robustness principle)とは、「あなたがすることは厳密に、あなたが他人から受けることには寛容に (be conservative in what you do, be liberal in what you accept from others.)」というシステムやソフトウェアの開発における考え方、開発指針のこと。「送信は厳密に、受信は寛容に」とも言い換えられる。「堅牢性原則」。

他のシステムとの間で通信を行う際、処理をして送信する側は厳格なデータの仕様に準拠するべきだが、利用するユーザー側には入力データの多様性を許容して使い勝手を損なわないようにするべきである、というものである。

アメリカのコンピューター科学者でインターネットの創始者の1人であるジョン・ポステル(Jonathan Bruce Postel)が初期のTCPを規定したRFC 793において示した一節であり、それが一般化され知られるようになったものである。ジョン・ポステルにちなんで「ポステルの法則 (Postel’s law)」とも呼ばれる。

836 :デフォルトの名無しさん:2023/02/25(土) 15:34:51.75 ID:+JwPKi/T.net
禿丸最強でFA

837 :デフォルトの名無しさん:2023/02/25(土) 16:51:45.73 ID:dveJDxzx.net
>>831
だからUTF-8を前提にできないってことだろ

838 :デフォルトの名無しさん:2023/02/25(土) 16:52:21.29 ID:dveJDxzx.net
>>832
> 今後はファイルや外部通信はUTF-8がデフォルトになる

だーかーら、既存のHTMLとかでEUC-JPとかが使われてるから
UTF-8以外を切り捨てられないっての

839 :デフォルトの名無しさん:2023/02/25(土) 18:25:42.81 ID:p5DpNAy5.net
アップデートされずEUC-JPのまま捨て置かれたドキュメントの価値などもはや「歴史的な」価値しかない
Webブラウザで閲覧できれば十分、新しく作るシステムでいまさら対応する必要性など皆無

2000年前後の知識しか持ち合わせていない老害がいくらギャーギャー騒ごうとも
時代遅れなエンコーディングに対応するような愚を犯してはならない
毅然としてUTF-8以外を切り捨てるべし

840 :デフォルトの名無しさん:2023/02/25(土) 19:05:12.59 ID:PU7vc6R3.net
>>839みたいに「切り捨てる」とか強い表現を使う人は、既得権からあぶれた失うものがない負け組が好んで使う言葉。
ネットでは威勢が良く見えても現実世界では切り捨てる側ではなく切り捨てられる側。ルサンチマンを抱えている。

841 :デフォルトの名無しさん:2023/02/25(土) 19:12:22.66 ID:PU7vc6R3.net
「~べき」とか語っていいのはカネを出す側であって、「~べき」はカネで雇われる側にすぎない技術者が使っていい表現ではない。

842 :デフォルトの名無しさん:2023/02/25(土) 19:43:50.59 ID:pcyV0/Fb.net
>>835
そういう歴史的なコンテクストでいうならRFC 793じゃなくて761を引用すべきでしょ

843 :デフォルトの名無しさん:2023/02/25(土) 21:32:29.38 ID:bBUOoOco.net
よりによってShift_JISの5chでイキってて笑っちゃうんすよね

844 :デフォルトの名無しさん:2023/02/25(土) 21:46:01.53 ID:vjs83zv7.net
🤔

845 :デフォルトの名無しさん:2023/02/25(土) 22:09:35.17 ID:SbO0y0c6.net
ユニコード規格 Unicode Standard にも UTF-8 の BOM は付けても良い(may)けど、非推奨(not recommended)って明記されてるのに、どうしても付けさせたいや奴がいるのはわかった

846 :デフォルトの名無しさん:2023/02/25(土) 22:43:56.85 ID:dveJDxzx.net
>>839
だから歴史的な価値が高いものをお前は捨てるのかって言ってるんだよ

847 :デフォルトの名無しさん:2023/02/25(土) 22:44:39.12 ID:dveJDxzx.net
>>845
非推奨だけど付けて良いわけで何の問題もないだろ

848 :デフォルトの名無しさん:2023/02/25(土) 22:52:11.76 ID:IGzyIaR2.net
>>847
だから、お前が一人でつける分には勝手にしろ
つけるべきか聞かれたら、「非推奨なのでつけるな」が正解。

849 :デフォルトの名無しさん:2023/02/25(土) 23:48:54.66 ID:m4LfFP+9.net
つけたいじゃなくて、対応できないと困ると言ってるだけでしょう

850 :デフォルトの名無しさん:2023/02/26(日) 01:34:30.84 ID:cEWS884H.net
つまり入力をどするかは置いといて、出力にがBOMはつけるなでFA?

851 :デフォルトの名無しさん:2023/02/26(日) 05:45:33.47 ID:6avgaEJx.net
>>843
逆にShift_JISでも文字参照さえ使えれば問題ないという

それに言語タグみたいのもあると便利だし、もうプレーンテキストを廃止して
マークアップ系で情報のやり取りをすればいいとか

852 :デフォルトの名無しさん:2023/02/26(日) 06:00:29.38 ID:5w3etrkl.net
ドレスコードを守らない客を門前払いするかを判断するのは雇われコックではない。経営者や管理人だ。

853 :デフォルトの名無しさん:2023/02/26(日) 06:40:37.52 ID:O/DM2Am7.net
UTF-8にBOMは付けるなでFA
付いてるやつ受け取ったらドンマイ

854 :デフォルトの名無しさん:2023/02/26(日) 15:37:46.70 ID:iPWFNko4.net
付けるなと規定されているところなら付けないし
付けろと規定されているところならつける
指定が無ければ俺は付ける

855 :デフォルトの名無しさん:2023/02/26(日) 16:12:00.59 ID:5w3etrkl.net
コロナ禍でマスクするのは世間体のためばかりとは限らない。
マスクしてないと入店拒否されかねないからね。
マスクしている人を入店拒否するのは反ワクチンかな。

856 :デフォルトの名無しさん:2023/02/26(日) 16:23:35.39 ID:5w3etrkl.net
>>853みたいにクライアントとサーバーの切り分けできてない人、頭悪そうに見えてしまうから良く考えてから書き込んだほうがいい
BOMのせいで挙動がおかしくなることはないので、みなBOMをつけるようになる。それが現実。

857 :デフォルトの名無しさん:2023/02/26(日) 19:04:25.66 ID:cEWS884H.net
>>856
ねえよ。規格で非推奨ってなってるの出力して誤動作したら出力した方の責任。業務プログラムなら非推奨を理由に改修要求や損害賠償請求できる。規格の非推奨にはそれだけの効力がある。
趣味でやる分に好きにすれば良いけど、実務にはかかわるな。

858 :デフォルトの名無しさん:2023/02/26(日) 19:13:28.86 ID:CWs9xgaU.net
まさか禁止と非推奨の違いを知らないのか?

859 :デフォルトの名無しさん:2023/02/26(日) 20:41:34.15 ID:BRhyzl+u.net
>>856
>>BOMのせいで挙動がおかしくなることはないので
少なくとも linux のシェルスクリプト、perl, python スクリプト等は BOM つけるとエラーになって起動できない。

860 :デフォルトの名無しさん:2023/02/26(日) 22:10:02.37 ID:5w3etrkl.net
Windows環境はどんどんBOMつきが当たり前になっていくから、サービス提供者はBOM対応が事実上必須になる
非推奨だからとかつけるなとか、およそ現実を見てないね

861 :デフォルトの名無しさん:2023/02/26(日) 22:12:16.04 ID:cEWS884H.net
>>860
そのマイクロソフトがBOM無しをデフォに変更したんだがな。
妄想と現実の区別がついてないんじゃないか?

862 :デフォルトの名無しさん:2023/02/26(日) 22:18:29.81 ID:5w3etrkl.net
>>861
許容するようになっただけで、規定ではない。規定はあくまでシステムコードページ。
技術板だから嘘つくのは慎め

863 :デフォルトの名無しさん:2023/02/26(日) 23:13:02.63 ID:cEWS884H.net
>>862
じゃあメモ帳のデフォルトがBOM無しに変更された理由は何?
妄想くんには説明できんだろw

864 :デフォルトの名無しさん:2023/02/26(日) 23:31:02.55 ID:K7TElpTY.net
>>863
Windows Subsystem for Linuxのためじゃないかな?
上にもあるとおりunix系のアプリの中にはutf8のBOM未対応のまま(というか今更いじれない?)の状態になっているからな
良くも悪しくも歴史的にメモ帳は機能がしょぼすぎてその他の一般業務向けでの影響力はほとんどない状態だから、
Excelとかに比べれば変更しやすいという後ろ向きな理由もあるだろう

865 :デフォルトの名無しさん:2023/02/26(日) 23:35:43.20 ID:GmFx8zoR.net
https://blogs.windows.com/windows-insider/2018/12/10/announcing-windows-10-insider-preview-build-18298/
マイクロソフトはそんなこと言ってないけどなあ

866 :デフォルトの名無しさん:2023/02/26(日) 23:40:56.18 ID:K7TElpTY.net
ていうかあれか、パイプを使ったテキストのやりとり等とBOMの相性が悪そうだから、コンソール系のアプリでBOM対応は面倒だわな

867 :デフォルトの名無しさん:2023/02/26(日) 23:42:12.69 ID:K7TElpTY.net
>>865
いや、webの標準はunix系のコンソールアプリでしょ?

868 :デフォルトの名無しさん:2023/02/27(月) 00:05:34.15 ID:Y3EgytEI.net
リンク貼った人がいるので正解は
Microsoft の主張は「WEBの標準はASCIIと互換性のある BOM 無しの UTF-8 だから、それに合わせるため変更した。これは重要な改善である。後方互換性のためにBOMつきも可能にしといた」

BOMなしは改善、BOMつき後方互換性って明言してる。

869 :デフォルトの名無しさん:2023/02/27(月) 00:50:48.43 ID:gqYK4M5Z.net
ASCIIのような化石との互換性は要らない。UTF16以上を推奨し、UTF8はASCII文字出現率が
99.5%以上のファイルに限り許容するのが良い。

870 :デフォルトの名無しさん:2023/02/27(月) 01:16:54.16 ID:ILzwYPjj.net
Windows10では、デバッグ機能で別のエディタを起動してるから
メモ帳を使ったことないというか、どんなだったかも思い出せない

871 :デフォルトの名無しさん:2023/02/27(月) 01:28:41.06 ID:JGGw5pJY.net
MSはデフォルトを変更しただけで
BOMにも対応している
つまり完璧にUnicodeに対応している

872 :デフォルトの名無しさん:2023/02/27(月) 02:25:37.58 ID:mqhAvYzW.net
大正義じゃないか

873 :デフォルトの名無しさん:2023/02/27(月) 02:59:07.83 ID:BI+QMK6X.net
もうUTF−16にはWindowsの内部コード以外の役割はないんだ
文字コード戦争はとっくにUTF-8の勝利で終結したんだ ネットの普及が決め手だった
残念ながら負け犬がどんだけ吠えても現実は変わらないんだ
ほら、どんどん吠えて、(愉悦

874 :デフォルトの名無しさん:2023/02/27(月) 03:10:49.85 ID:WKLLShCH.net
恥ずかしい無知野郎だなぁw
JavaもJavaScriptも内部コードはUTF-16だってーのに

875 :デフォルトの名無しさん:2023/02/27(月) 05:48:11.01 ID:FhIHw4p1.net
>>873
UTF-16でどうやって絵文字処理してるのか不思議なんだよなあ
サロゲート処理必要なのに 🪟🍎🐧

876 :デフォルトの名無しさん:2023/02/27(月) 06:23:41.06 ID:WKLLShCH.net
無知二匹目w

877 :デフォルトの名無しさん:2023/02/27(月) 06:45:46.85 ID:FhIHw4p1.net
>>868
>これは重要な改善である。

甘いなあ
文字コードの自動判定を入れた、ということは、今後はUTF-8と認識できない可能性が生じる事を意味する
皮肉な話だが、文字コード自動判定のせいで事実上、BOM必須になる

878 :デフォルトの名無しさん:2023/02/27(月) 06:46:52.69 ID:jlyK/+pC.net
JavaのStringとか、もう開き直っちゃってる感じで「文字とはUTF-16のバイトのことでーす」
って感じじゃん。ただの16ビットの配列と何が違うんだっけあれ
まともな文字列処理をするには別途ライブラリが確実にいる。面倒じゃのう

879 :デフォルトの名無しさん:2023/02/27(月) 06:48:51.24 ID:FhIHw4p1.net
BOMは文字コード自動判定をスキップする顔パスのようなもの。BOMを無くしたいという意向とは裏腹に、今後BOMは益々増える。
それが現実。

880 :デフォルトの名無しさん:2023/02/27(月) 06:51:35.24 ID:FhIHw4p1.net
関所を沢山作ったせいで、ますます関所破りのバッドノウハウが普及する

881 :デフォルトの名無しさん:2023/02/27(月) 08:02:36.27 ID:71jbPN3e.net
>>874
通りすがりだが、お前は論外
ググってトップに「Java/Javascriptは内部コードでUTF-16が使われています」と書かれていたのを読んだのだろうが、BOMつけるか論争をしている人達割り込むツッコミ方じゃねぇw
他人を煽る前に自身の読解力と理解力を見直して出直してこいw

882 :デフォルトの名無しさん:2023/02/27(月) 10:24:39.27 ID:Y3EgytEI.net
外部コードは自動認識うんぬんより ASCII との互換性が重要なのだ
Linux だの Mac だのの Unix 系は ASCII との互換性が必須なので BOM 無し UTF-8 以外に選択肢がないし
RFC とかネットの標準もそれに引きずられて るし
Windows 外部コードの unicode 化はこれから本番だけど、今まで CP932, CP1252 みたいにASCII互換は大前提で来たので互換維持した方がトータルのコストは低い
結局ASCIIと互換性のないBOM付きのUTF-8だの、UTF-16だのが外部コードとして主流になる世界は来ないのだよ

883 :デフォルトの名無しさん:2023/02/27(月) 15:06:03.61 ID:ILzwYPjj.net
UTF-8を使い始めたのは、
Fedora 1でデフォルトのシステム・ロケールになったときだから、
もう19年か、早いもんだ
RedHatの頃のEUC-JPに戻す誘惑にも負けずに苦労したことを思い出す

884 :デフォルトの名無しさん:2023/02/27(月) 17:19:48.75 ID:WKLLShCH.net
>>881
> ググってトップに「Java/Javascriptは内部コードでUTF-16が使われています」と書かれていたのを読んだのだろうが、

それはお前だろw
JavaやJavaScriptがUTF-16を使っていることなんか
ちょっと昔のことを知ってりゃ誰だってわかることなんだよ
そりゃそうだろUTF-8ができたのが、JavaやJavaScriptが出来るよりも後なんだから

885 :デフォルトの名無しさん:2023/02/27(月) 17:50:44.38 ID:XtLZSXQF.net
そもそもUnicodeといえばUTF-16のことで、いまでもUTF-16のことをUnicodeと呼ぶことが多い。

Windows、JavaなどはUTF-16を先進的だと思って取り入れたから、UTF-8への対応が難しい。

UTF-8も一長一短があって、容量とマシンスペックの問題がなんとかなってきたから、UTF-8に向かっているが、この面倒くさいキャラクタセットは、1バイト文字がどのキャラクタセットなのかわからないというデメリットがある。

2バイト以上使う文字では、何のメリットもなく、言葉を表現するには明らかに退化している。

886 :デフォルトの名無しさん:2023/02/27(月) 17:55:19.17 ID:WKLLShCH.net
> Windows、JavaなどはUTF-16を先進的だと思って取り入れたから、UTF-8への対応が難しい。
いや難しくはないぞw
Windowsは現にUTF-8に対応している

887 :デフォルトの名無しさん:2023/02/27(月) 18:08:52.64 ID:Y3EgytEI.net
>>885
>1バイト文字がどのキャラクタセットなのかわからないというデメリットがある。
>2バイト以上使う文字では、何のメリットもなく、言葉を表現するには明らかに退化している。

全く意味がわからない。誰か理解できる人いる?

888 :デフォルトの名無しさん:2023/02/27(月) 18:13:02.85 ID:WKLLShCH.net
理解できるぞw

889 :デフォルトの名無しさん:2023/02/27(月) 18:20:09.01 ID:hsotX699.net
配列の添え字での文字編集はUTF32でもだめな場合があるから諦めるべき
可変長なコードとして扱うようにしないどこかで破綻するよ
まぁ、そういう文字列操作のライブラリでこれ使えみたいのはたぶんないから、自前で用意する必要があると思うが

890 :デフォルトの名無しさん:2023/02/27(月) 18:39:55.97 ID:Y3EgytEI.net
>>888
でも、どうせちゃんとした説明できないんでしょ。規格の用語使って技術的に正確に言える?
文字集合(chatacter set)と符号化(encoding)の違い理解してる?

891 :デフォルトの名無しさん:2023/02/27(月) 19:07:19.57 ID:miAOVMfk.net
ちょっと前まで文字コード総合スレは名ばかりの実質絵文字スレだったのに
今は文字コード総合スレは名ばかりの実質BOMスレになったのか

892 :デフォルトの名無しさん:2023/02/27(月) 19:12:40.37 ID:hpJa9B57.net
>>884
> そりゃそうだろUTF-8ができたのが、JavaやJavaScriptが出来るよりも後なんだから
UTF-8は1992年9月にFSS-UTFとして提案されたのが初出
JavaとJavaScriptはどちらも1995年がファーストリリース

893 :デフォルトの名無しさん:2023/02/27(月) 20:54:01.76 ID:jlyK/+pC.net
>>889
>自前で用意する必要があると思うが
無理ゲーでしょ

894 :デフォルトの名無しさん:2023/02/27(月) 21:08:05.40 ID:FhIHw4p1.net
単純なUTF-32配列だとEMOJI MODIFIERなどに対処できない。すでにUTF-32でも可変長に対応必須が前提になってる。

895 :デフォルトの名無しさん:2023/02/27(月) 22:08:49.50 ID:Ms3I5yW6.net
>>891
BOMでUTF-8とCP932を区別したい人が暴れてるだけでしょ
BOMにそんな機能ないのに

896 :デフォルトの名無しさん:2023/02/27(月) 22:45:37.52 ID:WKLLShCH.net
>>892
その提案が採用された日付を見てみ

897 :デフォルトの名無しさん:2023/02/27(月) 22:46:26.63 ID:WKLLShCH.net
>>895
Unicode signatureとしてそのような用途として使ってよいと書いてある

898 :デフォルトの名無しさん:2023/02/27(月) 22:52:06.63 ID:WKLLShCH.net
>>890
だから理解してるって言ってるだろw
お前が今知ったばかりだからってwww

899 :デフォルトの名無しさん:2023/02/27(月) 22:54:22.19 ID:DVrHyfiD.net
>>895
バイトオーダーの無いUTF-8のBOMにそれ以外に何の意味が

900 :デフォルトの名無しさん:2023/02/27(月) 22:57:56.43 ID:+0iiKFkK.net
utf8-bomで保存するソフトもutf8-bomを受け付けないソフトもそういう仕様だと謳えばどっちもありだろう。
自分の主義主張と合わないのは許せないという奴が困ったちゃんなだけで。

901 :デフォルトの名無しさん:2023/02/27(月) 22:59:30.26 ID:Y3EgytEI.net
>>897
規格はちゃんと読もう。
・UTF-8 のBOMは必要でもなければ推奨でもない。
・それにもかかわらず、UTF-16などからの変換やsignature として、BOMに遭遇するかもしれない
の2点だよ。CP932なんて眼中にないし、「使って良い(may use)」ではなく、「遭遇するかも(may encounter)」だよ

902 :デフォルトの名無しさん:2023/02/27(月) 23:03:56.05 ID:hpJa9B57.net
>>896
UTF-8がUnicodeに入ったのはUTF-16と同じ1996年だけど
UTF-8がJavaやJavaScriptより前から存在していたことに
変わりはないぞ

903 :デフォルトの名無しさん:2023/02/27(月) 23:08:26.08 ID:hpJa9B57.net
規格に入ったことを基準にするならShiftJISは1997年に
生まれたことになるんだけど、それでいいの?

904 :デフォルトの名無しさん:2023/02/27(月) 23:08:41.53 ID:WKLLShCH.net
>>901
>・UTF-8 のBOMは必要でもなければ推奨でもない。
禁止されてなくて許可されてるのだから
UTF-8 のBOMは仕様として正しいということだね


やれやれw
UTF-16の前身のUCS-2のことも知らないようだ

> UTF-8がJavaやJavaScriptより前から存在していたことに
Unicode団体と関係ないところが考えて
まだ標準化されてないものに対応するわけ無いやろw

905 :デフォルトの名無しさん:2023/02/27(月) 23:09:42.74 ID:Y3EgytEI.net
>>901
英語苦手なやつのために解説しとくと may encounter の may は「許可」ではなく、「可能性」の may だからな。
これを根拠に使って良いとはならないからな。単に過去の経緯や不出来なシステムの可能性に注意喚起してる項目。

906 :デフォルトの名無しさん:2023/02/27(月) 23:10:15.34 ID:WKLLShCH.net
>>903
ShiftJISならそうだろうな
それ以前は別の名前だったってだけだが

907 :デフォルトの名無しさん:2023/02/27(月) 23:11:07.15 ID:WKLLShCH.net
>>905
使って良いになるだろw
可能性があるんだから

908 :デフォルトの名無しさん:2023/02/27(月) 23:12:14.77 ID:WKLLShCH.net
https://youneedaken.hate
nablog.com/entry/2022/10/11/104904

MAY
MAY (してもよい) は、選択的な要件を表す場合に使います。
OPTIONAL (選択してもよい) も同じ使い方をします。

909 :デフォルトの名無しさん:2023/02/27(月) 23:17:27.33 ID:Y3EgytEI.net
>>907
お前は、赤信号横断するやつに遭遇する可能性があるって書いてあったら、赤信号で渡って良いって考える?

910 :デフォルトの名無しさん:2023/02/27(月) 23:23:20.91 ID:o85fWYlD.net
マジで英語読めずに単語拾ってる状態やん

911 :デフォルトの名無しさん:2023/02/27(月) 23:35:24.56 ID:+0iiKFkK.net
>>909
赤信号は横断しちゃダメと決められているけどBOMは禁止されてる?

912 :デフォルトの名無しさん:2023/02/27(月) 23:52:22.36 ID:0XbN/TTN.net
先に英語の勉強した方がいいんじゃない?
いや日本語の読解力を鍛える方が先か

913 :デフォルトの名無しさん:2023/02/27(月) 23:54:30.47 ID:hpJa9B57.net
>>904
> まだ標準化されてないものに対応するわけ無いやろw
ShiftJISは1980年代に各ベンダーが勝手に実装していて、
微妙に差異があったから1997年にJISで規格化した

UTF-8も1992年にPlan9で提案実装したものを1996年に
Unicodeで規格化した

どっちも実装が先

914 :デフォルトの名無しさん:2023/02/28(火) 00:05:34.32 ID:RiXy5X63.net
そろそろ議論を終わろう。テンプレに
Q. UTF-8 に BOM は必要ですか?
A. 不要です。規格書にそう明記されています。
とか入れとけば良いやろ。ここまでなら確定事実なので。

915 :デフォルトの名無しさん:2023/02/28(火) 00:10:17.26 ID:arzeasWt.net
どの規格書かも明記しておいて。

916 :デフォルトの名無しさん:2023/02/28(火) 03:25:44.83 ID:TvT0Tpcw.net
>>909
> お前は、赤信号横断するやつに遭遇する可能性があるって書いてあったら、赤信号で渡って良いって考える?

何言ってるんだ? 「赤信号は渡っていけない」って書いてあるだろ
赤信号のどこにMAYが出てくるんだよ?

917 :デフォルトの名無しさん:2023/02/28(火) 03:26:52.16 ID:TvT0Tpcw.net
>>913
勝手に実装しているものはShiftJISではない
名前が違う

918 :デフォルトの名無しさん:2023/02/28(火) 18:09:24.12 ID:iD64SDKM.net
>>916
日本語読めない人かな?
日本語勉強中の外国人かもしれないので丁寧に説明すると、日本語の
「AだったらBですか?」という文はAという仮定のもとでBが成り立つかの論理を問う構文だよ。Aは仮定なんだから真偽とかは誰も問題にしてない。日本人なら小学校低学年の国語で習うよ。
今回のは「Xに遭遇する可能性がある」という命題から「Xしても良い」という結論が導けるかが問われている。Xは任意の変数(BOMでも赤信号横断でも、自己矛盾してなければ何でも可)
あと日本語苦手なら条件反射で書き込む前にさかのぼって話の流れを確認した方がいいね。がんばれ

919 :デフォルトの名無しさん:2023/02/28(火) 21:07:59.09 ID:Tc4CBiEC.net
>>856
なわけない

920 :デフォルトの名無しさん:2023/02/28(火) 22:51:31.47 ID:arzeasWt.net
>>918
つまり、UTF-8にBOMを付けてはならないと規格に明記されているなら付けるべきじゃないってことだろ。

921 :デフォルトの名無しさん:2023/02/28(火) 23:38:31.89 ID:blbEyEwW.net
長文君と論破将軍

922 :デフォルトの名無しさん:2023/03/01(水) 00:21:41.81 ID:OaPBPWBe.net
>>918

お前のいう喩えはおかしい

× 赤信号横断するやつ(UTF-8 BOM)に遭遇する可能性がある
○ 赤信号で横断しても良い(UTF-8 BOMを使っても良い)が非推奨

赤信号で横断しても良いが非推奨なんてどこにも書いてないのだから
UTF-8 BOMのたと終えになってない

頭悪いならレスバ仕掛けてくるなよw

923 :デフォルトの名無しさん:2023/03/01(水) 01:31:29.23 ID:XRlhYtl4.net
>>922
規格には「BOM使って良い」とは書かれないぞ。
規格に書かれてるのは「不要かつ非推奨だがBOMに遭遇するかもしれない」だけだぞ。

924 :デフォルトの名無しさん:2023/03/01(水) 04:49:48.76 ID:OaPBPWBe.net
https://www.unicode.org/versions/Unicode15.0.0/UnicodeStandard-15.0.pdf

ここの40ページにBOMが許可されてるって書いてある

Table 2-4. The Seven Unicode Encoding Schemes
Encoding Scheme: UTF-8
Endian Order: N/A
BOM Allowed?: yes

925 :デフォルトの名無しさん:2023/03/01(水) 07:32:03.44 ID:ewnrwQ6k.net
その仕様書の130ページ
UTF-8 encoding scheme に
While there is obviously no need for a byte order signature when using UTF-8,
の項目を読んでみたら?

926 :デフォルトの名無しさん:2023/03/01(水) 07:51:50.58 ID:OaPBPWBe.net
>>925
許可(BOM Allowed)は書いてありますが、禁止とは書かれてませんね。
非推奨は禁止という意味ではないですね

927 :デフォルトの名無しさん:2023/03/01(水) 07:56:52.79 ID:OaPBPWBe.net
翻訳しときますよ

While there is obviously no need for a byte order signature when using UTF-8,
there are occasions when processes convert UTF-16 or UTF-32 data containing a byte order mark into UTF-8.

UTF-8を使用する場合、バイトオーダー署名は明らかに不要(訳注 禁止ではない)であるが、
プロセスがバイトオーダーマークを含むUTF-16やUTF-32のデータをUTF-8に変換する場合がある。
(訳注 つまり UTF-8 に BOM が含まれることがある)

Its usage at the beginning of a UTF-8 data stream is neither required nor recommended by the Unicode Standard,
but its presence does not affect conformance to the UTF-8 encoding scheme.

UTF-8データストリームの冒頭で使用することは UTF-8データストリームの先頭での使用は、
Unicode Standardでは必須でも推奨でもありませんが、その存在はUTF-8エンコーディングスキームへ
の適合性に影響を与えず、UTF-8エンコーディングスキームへの適合性に影響を与えません。
(訳注 ここからも必須でも推奨でもないだけで、適合性に影響を与えないと書いてある)

Identification of the <EF BB BF> byte sequence at the beginning of a data stream can, however,
be taken as a near-certain indication that the data stream is using the UTF-8 encoding scheme.

データストリームの先頭の<EF BB BF>バイト列の識別は、そのデータストリームがUTF-8エンコーディング方式を
使用していることをほぼ確実に示すものと見なすことができる。
(訳注 UTF-8を使用していると確実に示すという意味だから使っていいということ)

928 :デフォルトの名無しさん:2023/03/01(水) 09:10:35.41 ID:XRlhYtl4.net
結局
禁止とも使えとも明記されてない
書かれているには「不要で非推奨」だな。

929 :デフォルトの名無しさん:2023/03/01(水) 09:12:03.02 ID:GQlAPTkO.net
Unicodeの仕様としてはBOMは合法
もし禁止してるとしたらそれはそのアプリやサービスの独自仕様

930 :デフォルトの名無しさん:2023/03/01(水) 09:17:42.66 ID:XRlhYtl4.net
>>929
合法とはまた変な表現を出して来たな。規格の準拠性に影響を与えないと言いたいのならそれは正しい。
でも「不要で非推奨」な。つまり「利用者や通信相手の許可無く使うこうとは

931 :デフォルトの名無しさん:2023/03/01(水) 10:03:24.48 ID:68s28u+f.net
>>923
+1

932 :デフォルトの名無しさん:2023/03/01(水) 10:07:23.21 ID:68s28u+f.net
>>927
>プロセスがバイトオーダーマークを含むUTF-16やUTF-32のデータをUTF-8に変換する場合がある。
>(訳注 つまり UTF-8 に BOM が含まれることがある)

訳注を善意的に解釈すると
間抜けな変換ツールによる変換時にそのまま先頭のBOMが残ることはあるかも知れないが
新たなプレーンテキストにはBOMは入れないでくれって読めるな

933 :デフォルトの名無しさん:2023/03/01(水) 10:10:47.18 ID:68s28u+f.net
>>627
>Unicode Standardでは必須でも推奨でもありませんが、その存在はUTF-8エンコーディングスキームへ
>の適合性に影響を与えず、UTF-8エンコーディングスキームへの適合性に影響を与えません。
>(訳注 ここからも必須でも推奨でもないだけで、適合性に影響を与えないと書いてある)

漏れは改行コードは LF だけ派なんだけど
君は CR+LF 必須だと思ってる?

934 :デフォルトの名無しさん:2023/03/01(水) 10:11:39.61 ID:68s28u+f.net
安価ミスすまそ

935 :デフォルトの名無しさん:2023/03/01(水) 11:54:30.89 ID:VYfkavGa.net
読み手がBOM付きデータをどう扱うかは、経営の話であって技術の話ではない。
サービスサポートするファイル形式を減らすことで生じる機会損失の軽重を判断するのは経営の領分であって技術の領分ではないから。

936 :デフォルトの名無しさん:2023/03/01(水) 12:40:14.45 ID:XRlhYtl4.net
>>935
規格書の話してるのに経営とか言い出すアホ。規格書に「BOMは不要」って書かれてたのがよっぽど悔しいのかね。
規格は法律じゃないんだから、お前は経営判断wで無視してもいいよ。利用者や通信相手が納得してるのなら規格なんて読まなくて良い。オレオレ実装でOK。
ただし技術の話しないんならスレチ、よそでやれ。

937 :デフォルトの名無しさん:2023/03/01(水) 14:20:00.05 ID:VYfkavGa.net
>>936
逆だよ。
「BOMをつけるな」は経営の話。
BOMつきにうまく対処することは技術の話。

938 :デフォルトの名無しさん:2023/03/01(水) 15:32:04.65 ID:lE31oeIj.net
技術的に対応できるのであれば、
それに対応するのに割くリソースというかコストをどう考えるかが問題になるもんな
BOMなしで統一しているところにBOM付きが紛れ込めば、
必然的にそれに対応しなければならない
その対応分のリソースを他に振り分けることが有用であるから、
「BOMをつけるな」というのはコストの話ではある

939 :デフォルトの名無しさん:2023/03/01(水) 15:47:34.03 ID:VYfkavGa.net
切符を買わずに乗ってきた客がいた場合、切符を売ることなく摘まみだすかどうかは鉄道会社や車掌が決めることであって、技術者である機関士の領分じゃないんだよ

940 :デフォルトの名無しさん:2023/03/01(水) 18:23:02.55 ID:68s28u+f.net
鐵ヲタさんいらっしゃい

941 :デフォルトの名無しさん:2023/03/01(水) 18:30:00.14 ID:XRlhYtl4.net
>>937
技術者「BOMは不要かつ非推奨」

942 :デフォルトの名無しさん:2023/03/01(水) 19:22:22.84 ID:VBsu1zb7.net
「非推奨のものを他人に勧めるな。隠れてこっそり使う分には誰も困らないので、こっそりやれ、ここに書き込むな」
ここまでの結論。

943 :デフォルトの名無しさん:2023/03/01(水) 20:40:41.27 ID:UJmHFiTt.net
>>932
解釈する余地はない
許可されてるって書いてあるんだから

https://www.unicode.org/versions/Unicode15.0.0/UnicodeStandard-15.0.pdf

ここの40ページにBOMが許可されてるって書いてある

Table 2-4. The Seven Unicode Encoding Schemes
Encoding Scheme: UTF-8
Endian Order: N/A
BOM Allowed?: yes

944 :デフォルトの名無しさん:2023/03/01(水) 21:06:32.67 ID:Ia8UybxF.net
うわー、まだやってんのか?
とっくに結論は出ただろうに、、、

945 :デフォルトの名無しさん:2023/03/01(水) 21:25:20.33 ID:GQlAPTkO.net
お互いが自分の意見こそ結論だって言いあってるからね

946 :デフォルトの名無しさん:2023/03/02(木) 00:13:31.42 ID:l6zpHt6k.net
結論はBOM Allowed?: yesとでてるのに
それを認めたくないのでしょう

947 :デフォルトの名無しさん:2023/03/02(木) 01:19:24.89 ID:SYo8L+Nt.net
もともと BOM をつけろというやつと BOM は不要というやつがいて、規格に BOM は不要で非推奨と書かれていることが判明した。
BOM をつけろと言ってた側が互換性のために BOM を付けても規格準拠というのを理由に土俵際でねばってる。
どうやっても BOM は不要という結論にしかならないのに。

948 :デフォルトの名無しさん:2023/03/02(木) 01:26:38.91 ID:w/H+Tpf4.net
つけろ派と不要派じゃなくて
つけてもいい派とつけるな派の争いに見えるんだけど

949 :デフォルトの名無しさん:2023/03/02(木) 01:39:10.27 ID:SYo8L+Nt.net
>>948
つけろ派は押されてトーンダウンした。
勝手につける分には一人も反対していない。
人に推奨して良いかどうかが今の境界線

950 :デフォルトの名無しさん:2023/03/02(木) 01:48:43.41 ID:s9PRV0S9.net
すでに原理主義の突き合わせでしかないだろ

951 :デフォルトの名無しさん:2023/03/02(木) 02:12:10.89 ID:SYo8L+Nt.net
>>950
技術的に何が正しいか議論してるのに、話を逸して誤魔化そうとしてるやつがいるだけ。技術的には
「規格では不要、ついでに非推奨。非推奨のものを他人に勧めるな。勝手に使う分には好きにしろ」
で合意が取れるはずなんだが。

952 :デフォルトの名無しさん:2023/03/02(木) 03:43:37.41 ID:l6zpHt6k.net
>>947
> 規格に BOM は不要で非推奨と書かれていることが判明した。
ちゃんと基礎知識を身につけろ

BOMはバイトオーダーマークの略で、UTF-16などのために作られた仕様
互換性のためじゃねーよ。Unicodeで必要だからBOMが作られたんだろ

でUTF-8は1バイト単位の可変長だから、BOMはいらないはずだって主張するやつが出てきた
ところがどっこいBOMにははUnicode Signatureの意味があることが判明した
(知っている人にとっては常識)

そしてUTF-8でBOMは仕様違反だとか禁止とか言ってるやつのトーン下がって
「非推奨だから付けたらだめ」みたいな屁理屈を言い始めたが
PDFにBOM Allowed?: yesという文言が見つかって、ゲームオーバーっていうのが
これまでの流れだ

953 :デフォルトの名無しさん:2023/03/02(木) 03:44:43.31 ID:l6zpHt6k.net
>>951
ちゃんと「規格で許可されている」って書こうね
これは事実なんだから
それができないから、嘲笑されてる

954 :デフォルトの名無しさん:2023/03/02(木) 04:24:23.36 ID:0lgr0WAt.net
お前ら何もわかってないな
各サービスに複雑な文字コード自動判定処理が追加されたことで、
UTF-8/16/32であることをオレオレ自己申告して複雑な文字コード自動判定をスキップするBOMの存在価値はかえって高まったのだ

955 :デフォルトの名無しさん:2023/03/02(木) 09:28:49.86 ID:eRjCsfKd.net
>>952
脳内で歪んだか?
過去レス見直しても「規格に禁止と書いてある」と主張してるやつは一人もいないぞ
「規格に不要かつ非推奨って書いてある」と主張してるやつは多数いる

956 :デフォルトの名無しさん:2023/03/02(木) 09:31:59.48 ID:eRjCsfKd.net
>>953
だから勝手につける分にはつけていいだろ。
「許可、不要、非推奨」なのは認めるんだな? 復唱してみろ。

957 :デフォルトの名無しさん:2023/03/02(木) 09:35:25.95 ID:l6zpHt6k.net
>>955
だからなんで「規格で許可されている」を消すんだよ?
「規格で許可されているが、必須ではなく推奨もしていないと書いてある」だろうが

Its usage at the beginning of a UTF-8 data stream is neither required nor recommended by the Unicode Standard,
but its presence does not affect conformance to the UTF-8 encoding scheme.

UTF-8データストリームの冒頭で使用することは UTF-8データストリームの先頭での使用は、
Unicode Standardでは必須でも推奨でもありませんが、その存在はUTF-8エンコーディングスキームへ
の適合性に影響を与えず、UTF-8エンコーディングスキームへの適合性に影響を与えません。


neither required nor recommended
→ neither 必須 nor 推奨
→ 必須ではなく、推奨でもない

不要は unnecessary だ
訳ぐらい間違えんな

958 :デフォルトの名無しさん:2023/03/02(木) 09:36:34.26 ID:l6zpHt6k.net
>>956
「許可されている。必須ではない。推奨されていない。」と認めるわけだぞ。

BOM Allowed?: yes
neither required nor recommended

書いてあるとおりだ。

959 :デフォルトの名無しさん:2023/03/02(木) 09:51:49.99 ID:rYHGX+R7.net
>>946
付けろとは描いてないだろ
それがすべてだ

960 :デフォルトの名無しさん:2023/03/02(木) 09:53:53.57 ID:SYo8L+Nt.net
>>958
それでいいよ。技術的には不要でも必須でもないでも同じ意味だ。
必須でなくて非推奨なものの他人につけろっていったり、対応を要求したりしなければOK。

961 :デフォルトの名無しさん:2023/03/02(木) 09:54:35.67 ID:rYHGX+R7.net
>>948
つけてもいいということはつけなくてもいいということだ
要らないものをつけるためには理由が必要
その理由があまりにもくらだんから全部却下されてるのが今の流れ

962 :デフォルトの名無しさん:2023/03/02(木) 10:17:01.49 ID:l6zpHt6k.net
> 要らないものをつけるためには理由が必要

だから何度もUnicode Signatureって
書いてあるって話をしてるんだがな

963 :デフォルトの名無しさん:2023/03/02(木) 10:50:40.57 ID:/D1s32sE.net
文字コードが統一されているシステムなら(意味が無いから)BOMは付けない
他の文字コードも扱うシステムなら(識別子として)BOMを付けるか検討する
で良いじゃん

964 :デフォルトの名無しさん:2023/03/02(木) 11:50:12.21 ID:p0hvnhfU.net
https://ascii.jp/elem/000/004/058/4058837/2/
https://ths.ashigeki.net/2008/01/utf-8bom.php

965 :963:2023/03/02(木) 12:05:55.59 ID:/D1s32sE.net
書き忘れた
他の文字コードも扱うシステムでも、文字列以外から文字コードが分かるならそちらを使い、BOMは付けない

BOMが欲しくなるのはSJISとUTF-8等が混在するWindowsのファイル
ファイルのメタデータとして文字コードが設定出来れば良いのに

966 :デフォルトの名無しさん:2023/03/02(木) 12:53:49.69 ID:dC3Ayx4m.net
windowsなら
hoge.utf8.txt
hoge.sjis.txt
で解決
しらんけど

967 :デフォルトの名無しさん:2023/03/02(木) 13:07:13.28 ID:XGv9oiQm.net
ファイルの拡張属性にでも,TextEncoding を加えておけば良いんでは?

968 :デフォルトの名無しさん:2023/03/02(木) 13:08:38.21 ID:i0CU6OJ9.net
いや、そこまでしてBOMを避ける理由がわからん
BOMでなければなんでもいいのかよw

969 :デフォルトの名無しさん:2023/03/02(木) 13:36:36.77 ID:SYo8L+Nt.net
>>968
好きな理由1つ選んで
・UTF-8の最大の特徴はASCIIと上位互換、BOMをつけたら台無しになる
・今はUTF-8 はBOM無しが主流
・将来の外部コードはUTF-8のBOM無しになることがほぼ確定している
・移行期だけのために余計なものをつけたくない
・BOMつきだと動かないシステムがある
・文字コードの自動判定はバグやセキュリホールの温床になるので削除したい
・SJISとか時代遅れのものはもう使用してない
・BOMの曖昧さはセキュリティホールになる可能性がある
・ZWNBS との曖昧さがいやらしい
・規格で非推奨のものは避けたい
・ファイルの接続とか分割やファイル名操作などに曖昧さがあるのはいや
・不要なものを付ける理由が思いつかない
・とにかく嫌い
他にも理由はあるだろうけど、人それぞれ

970 :デフォルトの名無しさん:2023/03/02(木) 13:36:59.98 ID:QpnfRCZF.net
BOMを付けておくと都合がいいケースがたまたまあっただけ

971 :デフォルトの名無しさん:2023/03/02(木) 15:35:38.23 ID:j9aKoD1k.net
・移行期だからこそBOMで他のエンコーディングと区別できるようにしておきたい場合がある
・BOMなしだと動かないシステムがある
・文字コードの自動判定はバグやセキュリホールの温床になるのでBOMを付けておきたい
・SJISはJIS X 0208で標準化されている現役の規格
・今のUnicodeの規格ではZWNBSP(U+FEFF)ではなくWORD JOINER(U+2060)の使用が強く推奨されているのでBOMとの曖昧性は起きない
・規格で許可されてるものを無理に避ける必要はない
・許可されているものを避ける理由が思いつかない

972 :デフォルトの名無しさん:2023/03/02(木) 15:58:33.33 ID:0lgr0WAt.net
すべてはカネ次第。カネを出す人が決めればいいだけ。つまり経営マターってこと。

973 :デフォルトの名無しさん:2023/03/02(木) 16:21:08.46 ID:H1OYjGZw.net
> ・文字コードの自動判定はバグやセキュリホールの温床になるのでBOMを付けておきたい

BOM付けてリスク変わる?

974 :デフォルトの名無しさん:2023/03/02(木) 17:03:17.28 ID:i0CU6OJ9.net
そりゃ変わるだろ、BOMが付いてれば判定ミスがなくなる

975 :デフォルトの名無しさん:2023/03/02(木) 17:19:23.19 ID:H1OYjGZw.net
BOM見てUTF-8だってのは自動判定の一要素でしかないしBOMなし対応いらなくなるわけじゃないから変わらないと思うんだけどな
ユーザー視点の話なら一つ前のと同じこと言ってるわけだし

976 :デフォルトの名無しさん:2023/03/02(木) 17:51:26.36 ID:0lgr0WAt.net
>>975
ゴールポストを動かすように自動判定の定義を動かすのはみっともないからやめとけ

977 :デフォルトの名無しさん:2023/03/02(木) 18:28:28.35 ID:l6zpHt6k.net
>>975
BOMは99.999%正しく判定できる自動判定だよ
実質完全に判定できるといっても過言じゃない。

978 :デフォルトの名無しさん:2023/03/02(木) 18:43:46.01 ID:SYo8L+Nt.net
>>977
自動判定のセキュリティ・リスクはそういうところじゃないよ。認識率100%でも起こる、むしろそっちが攻撃に使い易い。セキュリティまわりは勉強したことない素人が思いつくほど単純じゃない。

979 :デフォルトの名無しさん:2023/03/02(木) 19:12:41.37 ID:/D1s32sE.net
>>978
BOMによる自動判定だけなら先頭の数バイトの固定パターンを見るだけの単純なものだから
バグの入り込む余地はかなり小さくなるだろ

980 :デフォルトの名無しさん:2023/03/02(木) 19:16:14.91 ID:l6zpHt6k.net
>>978
つまり世の中のテキストエディタからEUC-JP対応を削除しろって話をしてるの?

981 :デフォルトの名無しさん:2023/03/02(木) 19:30:13.68 ID:H1OYjGZw.net
仕様で文字コードが固定されていようがBOMで判断しようが
不正データを読んで変なことにならないようにすることと全く関係ないだろ
もしかして「文字コードの自動判定」という機能単体の話でBOMチェックだけならば堅牢だって趣旨だったのか

982 :デフォルトの名無しさん:2023/03/02(木) 20:53:06.62 ID:YeVHKr55.net
「文字コードの自動判定にはセキュリティリスクがある」

BOMによる判定も自動判定だ

だからBOMにセキュリティリスクがある

なにこの三段論法w

983 :デフォルトの名無しさん:2023/03/02(木) 21:03:19.85 ID:4xkEbAJQ.net
そんなこと言ってんのお前だけやで

984 :デフォルトの名無しさん:2023/03/02(木) 21:44:42.19 ID:H1OYjGZw.net
BOMがあればデータチェックをスキップしていいと考えるやつがいることを想定するなら確かに心理的セキュリティリスクが存在することにはなる
でもそんな話はしていないんだよなあ
俺の起点は>>971に対するものでこれは>>969を受けてのものだから最初からBOMによる自動判定の話だし

985 :蟻人間 :2023/03/02(木) 21:56:36.58 ID:ymadH6pR.net
https://github.com/reactos/reactos/blob/6d57c6c91cdf2854b73b9696cd45f41322449368/base/applications/notepad/text.c#L40
ちなみにReactOSのメモ帳の文字セット判定はこうなっている。

986 :デフォルトの名無しさん:2023/03/03(金) 00:03:50.07 ID:GXuOSZhF.net
>>984
すげー単純な例だとバイナリファイルの先頭に UTF-8 BOM つけてテキストに偽装、ファイアウォールやウィルスチェックをすり抜ける。うかつなソフトが自動判別してBOMを外して次段に渡してマルウェア発動。
アホみたいだがこんなんで実際に被害が出てるんだぜ。実際はこんな単純じゃなくてもっと複雑で発見され難い攻撃ができる。

987 :デフォルトの名無しさん:2023/03/03(金) 01:54:41.66 ID:BY62yhT8.net
>>971
ZWNBS についてだが uniccode standard には
「BOMが不要な場合には先頭の U+FEFF は後方互換性のために ZWNBS と解釈される」という規定がある。
これと「UTF-8 に BOM は不要」という規定を合わせると...入力処理系の実装はどうなる? 曖昧さがあるだろ。

988 :デフォルトの名無しさん:2023/03/03(金) 02:53:30.47 ID:NQKxEL/3.net
>>986
BOMをなくすとバイナリとして扱うのか?
それともテキストして扱うのか?

989 :デフォルトの名無しさん:2023/03/03(金) 02:55:06.26 ID:NQKxEL/3.net
>>987
まずお前の言う「入力処理系」が何なのか説明しろ
「あれが困る」みたいな曖昧な言い方をするな

990 :デフォルトの名無しさん:2023/03/03(金) 05:11:52.34 ID:Utd2ywhQ.net
バイナリとして扱ったとしてもデータとして使うのか?
それとも実行可能ファイルとして使うのか?
後者はもう BOMの使い方を大きく離脱しているな

991 :デフォルトの名無しさん:2023/03/03(金) 09:15:08.54 ID:oC7cFOXy.net
I hate Windows.

992 :デフォルトの名無しさん:2023/03/03(金) 09:18:38.82 ID:oC7cFOXy.net
https://answers.microsoft.com/en-us/windows/forum/all/i-hate-windows-11-so-incredibly-much-i-wish-i/877bb2ef-1784-4c8d-a341-53733ef4c1ea

993 :デフォルトの名無しさん:2023/03/03(金) 09:24:55.04 ID:oC7cFOXy.net
>>980
ついでにSJIS対応もISO2022JP対応も削除で

994 :デフォルトの名無しさん:2023/03/03(金) 09:26:04.28 ID:oC7cFOXy.net
>>982 が稀に観る白雉

総レス数 994
244 KB
掲示板に戻る 全部 前100 次100 最新50
read.cgi ver 2014.07.20.01.SC 2014/07/20 D ★