文字コード総合スレ part14
- 795 :デフォルトの名無しさん:2024/05/05(日) 14:18:12.85 ID:ufyV/oQQ.net
- >>788 の自称宇宙人の👤が
「Cr単独で改行アリエナイ∴Cr無視」とか言ってますが
ヘンですね。
というか、'xxxxx␍yyyyy'は、ポクの
メモ帳で開いたら
xxxxx
yyyyy
でちゃんと改行されて表示ですよ。
改行がCr単独なんてアリエナイ なんて
勝手な前提しちゃいけません。レッテル論法禁止🚫🈲🙅
by 🤡
👤 give up てか今日はバィバィ。さよならーーー
- 796 :デフォルトの名無しさん:2024/05/05(日) 20:09:04.88 ID:DTqCPhPD.net
- GUIでCR,LF,HT,BS,DEL以外の制御文字を
ソースコードなどに手動で入力して使う事がほとんど無いのは
キーボードに専用のキーが無いからなのかね?
CUIではCtrlとアルファベットキーの組み合わせで入力できたけど
GUIではショートカットキーとして使われていて制御文字は入力できないし
C1制御文字に至ってはさらに馴染みがない。
制御文字をもっと活用すればエスケープ文字が図形文字のために
その文字を表示するために特別な入力をする必要も無くなるのに。
- 797 :デフォルトの名無しさん:2024/05/05(日) 21:28:31.49 ID:GQlpZ+4B.net
- >>796
制御文字のほとんどが機種依存だから。
- 798 :デフォルトの名無しさん:2024/05/06(月) 04:24:56.29 ID:w6EM8fRb.net
- >>795
CR 単独は、古いMac だけ
- 799 :デフォルトの名無しさん:2024/05/06(月) 09:46:14.51 ID:endGOe+7.net
- >>798
OS9, AppleII, commodore
- 800 :デフォルトの名無しさん:2024/06/01(土) 00:05:13.54 ID:7lxL4C6A.net
- IPAmj明朝のIVSって、2017年ので止まってるの?
- 801 :デフォルトの名無しさん:2024/06/01(土) 11:39:25.67 ID:7lxL4C6A.net
- あたらしめのIVSを使おうと思ったらグリフがないくさいので
- 802 :デフォルトの名無しさん:2024/06/02(日) 01:04:43.33 ID:rO+GNz4V.net
- >>800 は正解くさいので違うフォントを使うことにした。
- 803 :デフォルトの名無しさん:2024/06/02(日) 11:08:06.07 ID:EnNBM925.net
- 「IPAmj明朝は、IVD 2017-12-12 Moji_Johoコレクションに準拠してIVSを実装してあります」と説明されているとおりで、他のIVSに対応する目的のものではないから、更新が止まってるとかではないような
- 804 :デフォルトの名無しさん:2024/06/03(月) 14:37:57.00 ID:UCbPeCZM.net
- >>803
Moji_Johoコレクションは数年おきにアップデートされている
「IVD 2017-12-12 Moji_Johoコレクションに準拠」という説明は、同時に「2017-12-12版以降
には対応しない」という意味でもあるのかなと思っている
- 805 :デフォルトの名無しさん:2024/06/03(月) 15:58:23.74 ID:YdsWYYn6.net
- PowerPointでShift+Enterを押すと垂直タブを入力できるようだけど
他のソフトでも垂直タブがShift+TabやShift+Enterで入力できるのが標準になっていたら
垂直タブはもっと広く普及していただろうか
- 806 :デフォルトの名無しさん:2024/06/04(火) 15:13:07.31 ID:uznUZQwV.net
- CSVとTSVを比べるとTSVの方がテキストエディターで開いたときに見やすいから便利だと思うんだけどCSVにはどんな利点がある?
- 807 :デフォルトの名無しさん:2024/06/04(火) 16:24:20.35 ID:QS4SGGEb.net
- 文字コードの話じゃねーじゃん
- 808 :デフォルトの名無しさん:2024/06/04(火) 17:03:57.21 ID:8TlGJtZv.net
- >>807
いちおうTABもSpaceもcommaもCRもLFも個々に「文字コード」ではある。いわゆる文字符号化手法とか符号化文字集合ではないが。
文字コードは曖昧で意味広すぎ
- 809 :デフォルトの名無しさん:2024/06/04(火) 17:15:26.05 ID:8TlGJtZv.net
- >>806
CSV の利点は制御文字(cc)ではなく表示文字を使っている点。TAB はccなので表示系によっては見た目で区別できない場合がある。典型的にはスペースと見間違える(1文字TABはスペースと同じアキになる可能性
常にTABとスペースが正確に区別できる環境ならTSVの方がだんぜん便利だと思うが TAB は普通の文字じゃないことも文字コード設計として念頭においておくべき
あと unicode にはスペース類似文字もカンマに似た文字も多過ぎるので、どのみち見た目で区別は駄目という話はある、酷い話だ。
- 810 :デフォルトの名無しさん:2024/06/04(火) 17:46:25.88 ID:1kTV4q2T.net
- すげーな
職場でもあんま話通じない人なのかな
- 811 :デフォルトの名無しさん:2024/06/04(火) 22:21:43.51 ID:GNPHSdGp.net
- 「慶応」も「コンクリート」も漢字1文字で 〜Unicode標準に新しいブロックが提案中
手書きでしばしば用いられる「部首+カナ」スタイルの略式漢字
https://forest.watch.impress.co.jp/docs/serial/yajiuma/1597030.html
- 812 :デフォルトの名無しさん:2024/06/04(火) 23:02:09.29 ID:k5yNkVnV.net
- >>811
そういうのは合字といって昔からある
- 813 :デフォルトの名無しさん:2024/06/04(火) 23:04:13.30 ID:k5yNkVnV.net
- UTF-8は日本語だと明確に指示していないと、漢字が中国の漢字が入り込んでしまう。
- 814 :デフォルトの名無しさん:2024/06/04(火) 23:06:31.80 ID:k5yNkVnV.net
- UTF-8で記号がたくさん追加定義されて、MS-IMEがめちゃくちゃだから、変な記号を使う日本人が激増した。
- 815 :デフォルトの名無しさん:2024/06/04(火) 23:12:43.53 ID:A0JJZg9T.net
- 変体仮名で限界
用例を見たが、それ以上の歴史的重要資料が大量にあって
デジタル化の必要性があるとは到底思えない
英字アルファベットも代表的なカリグラフィーを収めて終了
unicode標準は局所的な特定小集団のおもちゃじゃない
- 816 :デフォルトの名無しさん:2024/06/05(水) 07:49:52.75 ID:Ex4xeIUM.net
- >>811
従来の漢字、特に中国の簡体字等、読みの同じ部首やつくりで置き換えて文字を
作ったりとかはあるので、発想としては近いものを感じる
- 817 :デフォルトの名無しさん:2024/06/05(水) 09:34:19.11 ID:TjOdfiQ/.net
- UnicodeData.txtをあたらないと何を表してるのかさっぱり分からん絵文字よりは
まだその手の略字のほうが有意義な気はする
- 818 :デフォルトの名無しさん:2024/06/05(水) 10:21:36.77 ID:xv3Pbp+3.net
- >>809
Firefoxだと表示できない文字は□の中に16進コードが書かれた文字が表示されるから
同じようにテキストエディターでも制御文字と空白に見える文字は空白を表示する代わりに
16進のコードが表示されれば分かりやすくなるね
- 819 :デフォルトの名無しさん:2024/06/05(水) 13:38:49.33 ID:XaSaDlvd.net
- >>811
標準に滑り込ませて既成事実化するよりも、
草の根で外字フォントを配るのが良いと思う
- 820 :デフォルトの名無しさん:2024/06/05(水) 15:08:16.04 ID:lcx/EjsX.net
- >>819
草の根で外字フォントを配ってなんとかなることだったらわざわざ標準化する必要なくね?
外字フォントを配るぐらいにとどめておいた方がいい以上の根拠なし意見でしかないぞ。それ。
- 821 :デフォルトの名無しさん:2024/06/06(木) 09:50:50.05 ID:GV7aCOF9.net
- >>819
それを全国の市町村の役所でやって既成事実化できずただただ氾濫して手に負えなくなったんよ
- 822 :デフォルトの名無しさん:2024/06/06(木) 10:38:50.99 ID:qz5pj6nB.net
- 役所は文系ばかりなのでとんでもないことを平気でやらかす
- 823 :デフォルトの名無しさん:2024/06/06(木) 10:46:53.59 ID:qz5pj6nB.net
- >>794
98に限らず
hjklで←↓↑→替わりにしてる環境は割とある
- 824 :デフォルトの名無しさん:2024/06/06(木) 16:26:25.10 ID:nRDHkFIj.net
- unicodeだと同じ文字に見えても違うコードポイントの文字が多いから
テキストエディタにもコードポイントを表示する機能と
バイナリではどう記録されているのか表示する機能が欲しい
バイナリエディタでは折り返しが16バイト毎の固定で文章入力しにくいから
折り返しを16バイト毎ではなく0x0D0Aにできるバイナリエディタのような感じかな
- 825 :デフォルトの名無しさん:2024/06/07(金) 00:30:00.98 ID:KQ6L7vRD.net
- 絵文字とか異体字セレクタとかもあるし、とりえあえず文字(グラフィームってやつ?)の
境界を見つけるのが面倒だよね
文字境界を探すライブラリとか、今ってそこら辺もちゃんと動く感じ?
- 826 :デフォルトの名無しさん:2024/06/07(金) 02:08:04.46 ID:4C4NoraV.net
- >>824
サクラエディタにそんな機能があるな
- 827 :デフォルトの名無しさん:2024/06/07(金) 20:02:28.27 ID:f1gRwXGz.net
- Ruby では、
https://qiita.com/QUANON/items/2539feed89cee2290664
couple = '👨👩'
p couple.length #=> 3
# \X Unicode 結合文字シーケンス (eXtended grapheme cluster) (?>\P{M}\p{M}*)
p couple.scan(/\X/).length #=> 1
# \u{0308} はウムラウト
p euml = "e\u{0308}" # "ë"。"〜"で囲む
p /\X/.match(euml) #=> #<MatchData "ë"> ウムラウト有り
p $&.codepoints #=> [101, 776]
# \w 単語構成文字 [a-zA-Z0-9_]
# \W 非単語構成文字 [^a-zA-Z0-9_]
p /\w/.match(euml) #=> #<MatchData "e"> ウムラウト無し
p $&.codepoints #=> [101]
p couple.chars #=> ["👨", "", "👩"]
p couple.grapheme_clusters #=> ["👨👩"] 書記素クラスタ
# U+200D は、Zero Width Joiner (ZWJ: ゼロ幅接合子)
couple.each_char { |chr| puts(format('U+%04X', chr.ord)) }
# U+1F468, U+200D, U+1F469
(euml + couple).each_grapheme_cluster { |chr| puts(format('U+%04X', chr.ord)) }
# U+0065, U+1F468
# つまり先頭文字である、'e👨' だけになる
- 828 :デフォルトの名無しさん:2024/06/07(金) 21:53:54.62 ID:8MnTJRoZ.net
- Macなんて日本語でも英語のUTF-8と決めつけるから、SJISですらうまく打てない。
- 829 :デフォルトの名無しさん:2024/06/07(金) 22:04:15.54 ID:8MnTJRoZ.net
- >>811
その記事は時代に逆行している変な人間の記事だな
手書き文字を登録しろと言い出すと無限に定義するはめになり、見た目の区別もつかなくなる。
- 830 :デフォルトの名無しさん:2024/06/07(金) 22:06:42.14 ID:NZ6fOaVt.net
- JavaScriptの識別子に中黒が使えるようになった
https://nanto.asablo.jp/blog/2024/06/07/9690975
JavaScriptの識別子(変数名、関数名、プロパティ名など)の2文字目以降に中黒「・」(U+30FB KATAKANA MIDDLE DOT)が使えるようになりました。以下のコードはChrome 124では構文エラーになりますが、Chrome 125では問題なく実行できます。
const シン・ゴジラ = 2016;
中黒が使えるようになったのは、JavaScript(ECMAScript)の仕様が変わったからではありません。変わったのはUnicodeの仕様のほうです。Unicode 15.1.0(2023年9月)においてOther_ID_Continueプロパティ(を持つ文字の集まり)に中黒が追加されました。
- 831 :デフォルトの名無しさん:2024/06/07(金) 22:34:26.74 ID:8MnTJRoZ.net
- >>830
表記の揺れの原因になりやすい記号
- 832 :デフォルトの名無しさん:2024/06/07(金) 23:59:44.50 ID:2VgcMGPt.net
- >>829
異体字はこんな風に生まれたんだろうけど
と高みたいに両方ともUnicodeで基底文字として扱われてる文字と
異体字として扱われる文字の違いは何なんだろうな
- 833 :デフォルトの名無しさん:2024/06/08(土) 01:05:00.06 ID:mxKAN8QR.net
- >>832
中国人/台湾人の辞書や文字コード表に記載されているかどうか。はしご高は台湾漢字由来だったか
日本の異字体はIVS使うことにしたので最近は登録申請すらほとんどしてないけど、中華人民共和国は今もがんがん本体に追加要請してる
- 834 :デフォルトの名無しさん:2024/06/08(土) 01:39:00.68 ID:h1Q0ar53.net
- >>833
「異体字」を「異字体」と間違っている時点で説得力なしw
- 835 :デフォルトの名無しさん:2024/06/08(土) 10:12:44.74 ID:mxKAN8QR.net
- >>834
この場合は「異−字体」であってるんだよ。「異体−字」は個々の文字を指す。
- 836 :デフォルトの名無しさん:2024/06/08(土) 13:27:19.23 ID:QJis2zSF.net
- そういえば、斉藤なんかの「さい」の異体字はすごい数あるな
もともと難しい字で、戸籍登録の際の書き間違いが原因らしいけど
- 837 :デフォルトの名無しさん:2024/06/08(土) 21:42:22.14 ID:b6OQAhB4.net
- 異体字と異字体
https://www.ytv.co.jp/announce/kotoba/back/2001-2100/2036.html#:~:text=%E3%81%AE%E8%A9%B12038%E3%80%8C-,%E7%95%B0%E4%BD%93%E5%AD%97%E3%81%A8%E7%95%B0%E5%AD%97%E4%BD%93,-%E3%80%8D%0A%0A%E6%96%B0%E8%81%9E%E7%94%A8%E8%AA%9E
- 838 :デフォルトの名無しさん:2024/06/15(土) 21:59:47.39 ID:1hp9WHhR.net
- すげーのを引っ張りだしたなw
- 839 :デフォルトの名無しさん:2024/06/17(月) 09:21:34.95 ID:TtAe0wMx.net
- CJK統合漢字拡張もいつの間にかI(アイ)まで来てるのかあ
どこまで行くんでしょう
- 840 :デフォルトの名無しさん:2024/06/17(月) 18:15:03.85 ID:BtZF1kb5.net
- >>839
中国さんが飽きるまで
とはいえ中国さんは、日式異体字とか辞書に載せて、辞書に載ってるから申請とか、留まるところを知らない
- 841 :デフォルトの名無しさん:2024/06/17(月) 23:07:05.19 ID:4L+665Jw.net
- >>835
それさ、同じ漢字と、字体違いの漢字を同一だと思っているでしょ?
同じ意味の漢字と、見た目違いの同じ意味の漢字は別物だよ
- 842 :デフォルトの名無しさん:2024/06/18(火) 00:34:22.90 ID:4d4deoVm.net
- >>841
異体字≡異体文字
異字体≡異体
この2つは当然べつもの
- 843 :デフォルトの名無しさん:2024/06/18(火) 02:46:10.52 ID:7l1MdKKx.net
- >>842
漢字の話をしているだぞ?
漢字は意味が違ったけど同じになったもの、新しい漢字を作るときに位置が違ったもの、わざと創作した存在しない漢字などがあり、字体違いだけでなく書体違いもあり、あなたのこだわりは漢字そのものをわかっていない。
- 844 :デフォルトの名無しさん:2024/06/18(火) 02:47:11.32 ID:7l1MdKKx.net
- >>842
「異字体」というのは中国語
- 845 :デフォルトの名無しさん:2024/06/18(火) 03:01:03.27 ID:4d4deoVm.net
- 「漢字Aと漢字Bは〇〇の関係にある」
この〇〇には異体や異字体は入るが、異体字や異体文字は入らない。異体字は字体の関係性ではなく個々の文字を指す用語。
「異なる字体」と言いたい場合は「異体/異字体」を使用する。
「字体」とは文字の骨格となる構成を言う。「字形」や「書体」とは違う概念
- 846 :デフォルトの名無しさん:2024/06/18(火) 05:09:10.23 ID:7l1MdKKx.net
- ○
〇
- 847 :デフォルトの名無しさん:2024/06/18(火) 05:09:59.04 ID:7l1MdKKx.net
- >>845
漢数字のゼロを丸印だと思っている方に言われたくない
- 848 :デフォルトの名無しさん:2024/06/18(火) 07:20:08.45 ID:4d4deoVm.net
- >>847
すまん。アンドロイドで「まるまる」で変換しただけで思ってるとか無関係。
- 849 :デフォルトの名無しさん:2024/06/18(火) 07:55:46.38 ID:7l1MdKKx.net
- Google日本語入力を使った方がいい
- 850 :デフォルトの名無しさん:2024/06/18(火) 09:14:05.74 ID:4d4deoVm.net
- >>849
俺の使ってる google 日本語入力だと「まるまる」の候補は〇〇、丸々、丸丸、円円 (カナやローマ字以外だと)4つだけだな。
この謎の漢数字の〇〇って「ひとふたまるまる」とかの軍隊時間呼称とか用なんだろうか? でも「人蓋〇〇」とかになるな
- 851 :デフォルトの名無しさん:2024/06/18(火) 10:39:53.14 ID:7l1MdKKx.net
- 中国が日本語を担当しているせいで、日本人が「まる」と入力したときに零だと勘違いしているだけだ。
大日本帝国の末期の用語みたいになっている。
- 852 :デフォルトの名無しさん:2024/06/18(火) 10:41:16.55 ID:7l1MdKKx.net
- 変換候補に出てくる文字の説明がちゃんと出てくるものを使わないと
- 853 :デフォルトの名無しさん:2024/06/18(火) 15:04:55.87 ID:J2T1cvE/.net
- 梵
- 854 :デフォルトの名無しさん:2024/06/18(火) 16:01:02.14 ID:xFwnxcwf.net
- 悩
- 855 :デフォルトの名無しさん:2024/06/23(日) 18:00:29.64 ID:AwO4Mznw.net
- 異体字セレクタって、無闇に使うと問題あったりしますか?
例えば対応してないシステムやアプリ上で使うと何か問題が発生するとか
- 856 :デフォルトの名無しさん:2024/06/23(日) 19:08:28.54 ID:E6KcLbxg.net
- 検索する時にはまりそう
- 857 :デフォルトの名無しさん:2024/06/23(日) 19:53:42.52 ID:kgoIYSsb.net
- >>856
規格にちゃんと従っていれば検索時には無視してくれるので大丈夫
現時点で規格をちゃんと実装してないやつの方が多いってのは棚に上げておく
272 KB
新着レスの表示
掲示板に戻る
全部
前100
次100
最新50
read.cgi ver.24052200