文字コード総合スレ part14
1 :デフォルトの名無しさん :2023/03/03(金) 15:46:58.08 ID:yKqwMGHT.net Windows NTは初代からUnicodeがネイティブの文字コードです。cp932ではありません。 プログラマーなら一度は煩わされたことのある文字コードについてのスレ。 UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、 合成文字、ソート、TRON、外字コード、その他について語り合いましょう。 各言語での文字列の扱いについての質問もOKです。 基本マッターリ、ささ、茶でもどうぞ。 ■過去スレ 文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/ 文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/ 文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/ 文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/ (スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/ (隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/ 文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/ 文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/ 文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/ 文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/ 文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/ 文字コード総合スレ Part10 http://mevius.2ch.net/test/read.cgi/tech/1444822140/ 文字コード総合スレ Part11 https://mevius.5ch.net/test/read.cgi/tech/1516629503/ 文字コード総合スレ Part12 https://mevius.5ch.net/test/read.cgi/tech/1544931495/ 文字コード総合スレ part13 https://mevius.5ch.net/test/read.cgi/tech/1593777227/
200 :デフォルトの名無しさん :2023/04/15(土) 11:49:15.28 ID:nVVXe4ml.net ノーパソ
201 :デフォルトの名無しさん :2023/04/15(土) 12:43:38.13 ID:j+1WZq2H.net XAMPP は、MSYS2 なのか? Windows のsjis(CP932), MySQL, PHP を使っているのかも Ruby on Rails では、日本語のバグを避けるため、 Linux, UTF-8, PostgreSQL しか使わない
202 :201 :2023/04/15(土) 12:55:47.99 ID:j+1WZq2H.net >>193 アイディアファクトリー(コンパイルハート)のゲーム開発の求人には、 C/C++, C#, Windows, Unity と書いてある
203 :デフォルトの名無しさん :2023/04/16(日) 08:38:15.57 ID:3UxBQXGl.net Unityの文字化けを解消する! https://qiita.com/kumi0708/items/2f8dd2fc2ccb673ff12b UnityからC#のスクリプトファイルを作成するとUTF-8(BOM無し)になりますが、 VisualStudioはUTF-8(BOM付き)じゃないとコードページを解釈できずにShift-JISになってしまうようです。
204 :デフォルトの名無しさん :2023/04/16(日) 11:48:59.76 ID:SPigkToS.net WindowsがUTF-16だと知らないのは不思議だな
205 :デフォルトの名無しさん :2023/04/16(日) 12:01:24.12 ID:kKWUTzzz.net SwitchとWindowsでBOMなしテキスト使ってると、結構困ったことになるんだよね char:Switch=utf8 Win32=sjis wchar_t:Switch=utf32 Win32=utf16 char16_t/char32_t:対応しているライブラリが少ない
206 :デフォルトの名無しさん :2023/04/16(日) 12:09:09.12 ID:zYleX6N8.net ターゲット固定なのにそんなのある? ネットとか客先とか何くるかわからん状況じゃないんだし
207 :201 :2023/04/17(月) 12:35:43.54 ID:4hNaPs7t.net Windows はUTF-16 か。 確か、Ubuntu はUTF-32 とか? たとえLinux 内部で、4バイト文字を使っていたとしても、 Ruby などのウェブ系言語では、UTF-8 前提でモジュールを作るでしょ? CP932 の「表・ソ」などのダメ文字は、数十年前の話
208 :デフォルトの名無しさん :2023/04/18(火) 00:06:47.73 ID:FLdY4aX1.net 一方ビックカメラは令和でもSJISを使った
209 :デフォルトの名無しさん :2023/04/18(火) 04:27:16.75 ID:ClilpHUV.net >>208 5ch…
210 :デフォルトの名無しさん :2023/04/18(火) 05:51:45.47 ID:GSSywy5h.net 〄🆗
211 :デフォルトの名無しさん :2023/04/18(火) 10:05:55.09 ID:sxhvE7iU.net 森鷗外る 森鷗外𠮟る
212 :デフォルトの名無しさん :2023/04/18(火) 18:44:09.21 ID:zZ3gNzrS.net 森鴎外(´・ω・`)ショボ-ン
213 :デフォルトの名無しさん :2023/04/18(火) 20:00:26.71 ID:+ox+01C9.net &#xHHHHH; で5桁以上指定出来ないのは HTML のバグ?
214 :デフォルトの名無しさん :2023/04/18(火) 21:28:06.50 ID:5DETvPNY.net “𠮟る” と “叱る” https://hydrocul.github.io/wiki/blog/2014/1201-shikaru.html
215 :デフォルトの名無しさん :2023/04/19(水) 00:17:26.51 ID:OlbpA5HH.net >>213 え?
216 :デフォルトの名無しさん :2023/04/19(水) 01:44:50.59 ID:rDAf/S/P.net 痛い痔
217 :デフォルトの名無しさん :2023/04/19(水) 17:00:21.07 ID:ZJsXKDj1.net 字にはヒラギノール
218 :デフォルトの名無しさん :2023/04/25(火) 07:46:57.89 ID:oL7xmfo9.net Macで古いmp3を取り込んだらID3タグが文字化けしまくり 昔はコード変換のユーティリティとか持ってたけど、どうすべきかな 坂本龍一は言いました「芸術は長く、人生は短し」 音楽ファイルは長く、文字コードは短し
219 :デフォルトの名無しさん :2023/04/26(水) 10:01:56.89 ID:N7+hGpB4.net 教授死んで済々したわ
220 :デフォルトの名無しさん :2023/05/10(水) 11:22:21.87 ID:AjRm4EFi.net ふと思ったが、令和の令って、手書きでどう書いてます? 「令」の下側の部分、活字だと「つ」に縦棒みたいになってるけど、手書きだとマみたいに書く人は 少なくないと思う。でもこれって中国語の活字体に近い 実はこんなレベルで「統合」漢字ですか?
221 :デフォルトの名無しさん :2023/05/10(水) 12:49:42.27 ID:ji6HZ6my.net >>220 今どき手書きしない。 ここ20年くらい住所氏名電話番号くらいしか手書きした覚えないなあ。あとは問診票の体温とかか
222 :デフォルトの名無しさん :2023/05/10(水) 12:58:40.69 ID:ji6HZ6my.net >>220 あえて言うと、もともと歴史的には明朝体(印刷用)字体と楷書体(手書き)字体の差なので、手書きの時にマになるのが普通のこと。 「はしご高」とかも本来は楷書体(手書き用)で、明朝体(印刷用)は「くち高」。 この辺の歴史を忘れちゃって別字だ同字だ異字体だと言って混乱してるのが現代人。もともとは単に書体の違い。
223 :デフォルトの名無しさん :2023/05/10(水) 15:58:11.20 ID:fhY7dZBk.net 昔は詳しくない層はうろおぼえで何となく近い文字を同じ文字と認識してたんだろうけど 今は正確に同じ形を出力できるようになったぶん「なんか違うぞ」と目に留まりやすくなってしまったんだな
224 :デフォルトの名無しさん :2023/05/10(水) 16:41:18.39 ID:ji6HZ6my.net 悪いのは学校教育。 昔の人は明朝体と楷書体は完全に別物という認識で区別がついてた。本とか新聞とかで見るのが明朝体。手書きは楷書体、戸籍は手書きなので楷書体だった。 ところが明朝体と楷書体の両方の特徴をもった中間の「教科書体」という書体を作って小学校で文字を教えるようになった。このせいで多くの人にとって書体間の差が良く分からなくなってる。 書道とか専門的なことをやれば気付くのだが、普通の人は明朝体と楷書体の違いが理解できない。 というか両方間違いで中間の教科書体が一般的文字と信じてる。そういう現状に合わせるためにフォントの明朝体や楷書体も学校教育文字については教科書体に近づけるようデザインされるようになってる。
225 :デフォルトの名無しさん :2023/05/10(水) 16:48:21.44 ID:ji6HZ6my.net 日本の明朝体フォントの「令」は珍しく昔ながらの明朝体の字形が残っていて、教科書体(楷書)寄りに改変されてないので、手書きと違う字形になってる。
226 :デフォルトの名無しさん :2023/05/10(水) 19:09:23.30 ID:2bIvyILU.net ※1 どうしてもunicodeのCJK総合漢字から新字体と繁体字と簡体字を切り離してリストアップしたかったんです 散々調べて下のそれっぽいコード例を発見するものの、さっぱりで残念 ttps://qiita.com/Saqoosha/items/927e9d6e77922ad9f08a 膨大にある造語めいた気持ち悪い繁体字と簡体字をPC環境から排除するため、フィルターへそれらのunicodeを登録したいのです 繁体字または簡体字のunicodeリスト、メモ帳などへ抽出したテキストリスト、上記目的を達するのに最適なソフトなど 何かしら情報はないものでしょうか ※2 unicodeを紹介してくださるサイトを、そのまま丸コピして手元へ資料化すれば?と考えるものの著作面で不安 HTTrackというオープンソースのソフトを発見しましたが、古い上にソフトへ通信権限を与える類いのようで、下手なネトゲよりリスク高い 何より資料として閲覧可能になるのは嬉しいものの、繁体字と簡体字を排除する本来の目的に沿わない ↑全てをすっとばして、CJK総合漢字から気持ち悪い繁体字と簡体字のunicodeを抽出する方法、既存のファイルやリストなど、がありましたら解決する話です アドバイスくださいm(vv)m
227 :デフォルトの名無しさん :2023/05/10(水) 19:40:22.77 ID:2/j8QX9l.net 意味不 統合されてるんだし
228 :デフォルトの名無しさん :2023/05/10(水) 20:38:34.78 ID:2bIvyILU.net unicodeにおけるcjk統合漢字は、一つの意味に対する漢字を〇△□×と横並びさせて、それを終えてから次の意味の漢字へ移行する配列となっています だからこそ〇しか要らないのに4E00から9FF0の中で膨大な△□×という文字のゴミが無作為に溢れてしまうのです しかも支那は性懲りもなく使いもしないゴミ文字を未だに造り続けているので、unicodeは5桁にまで膨れ上がっています(そろそろ整理しろよ!新語を作んなボケが!!使わねー字なら抹消しろ!と) 「漢字」と一括りにするのではなく、そこから真に必要で有用な新字体のみを抽出したい、あるいはフィルター用に新字体以外のゴミunicodeリストを欲しい、と思うのは必然ではないでしょうか そのくらい、今の支那はあらゆる分野で癌と化していますよ^^;
229 :デフォルトの名無しさん :2023/05/10(水) 20:39:15.54 ID:2bIvyILU.net ですよねえ・・・ qiita.com/Saqoosha/items/927e9d6e77922ad9f08aさんの例がまさに自分の環境でも活用可能な案だったのですが、古い上によく分からなくて^^; 日本語に用いられる漢字=新字体は、象形文字状態の造語・当て字ばかりで非文明的な繁体字・簡体字と比較すると、めちゃくちゃ秀逸かつ言語内に上手く纏められているんですよ 集約とも言えます 1949年の内閣すげー!!! それも平仮名や片仮名という3種の文字列を組み合わせて歌を詠んだり、そうした世界屈指の難解な文字文化を経たからこそ、私達の先祖は新字体という完成度の高いものを作れたんでしょう 今現在、支那チョンに使われる言葉の多くは「日本語由来」ですしね・・・ 文字においても漢字なのに新字体が一番最初に確立されている不思議 その史実を虚偽で覆い隠さんと、いつもの共産圏の捏造焼き畑で無駄な簡体字が、延々造られ続け、unicodeを圧迫しているのが昨今の実情です やることなすことGと一緒で美も詫び寂びも無い、ただ増えるだけの癌に等しい存在と価値観が、まさにチャイナの本質ですね^^;
230 :デフォルトの名無しさん :2023/05/10(水) 22:10:37.95 ID:ji6HZ6my.net 文字コードのことも漢字のことも何も分かってなくて草。 お前は日本語専用フォント使っとけ。
231 :デフォルトの名無しさん :2023/05/10(水) 23:58:51.60 ID:2bIvyILU.net まあ、統合なんてせず、他はどうでもいいから新字体だけは別枠でunicodeに登録してほしかったですね そうすれば、ここからここまで理論で新字体とそうでないゴミ象形オナニー文字とを正負ともに区別出来たんですわ・・・ 他の地域はそれぞれの民族単位で登録されていたり、誤差の範囲内でもきっちり枠が設けられているのに 東アジアの区分だけ何故かごちゃ混ぜで笑えますよ(拡張ABCDとかやってる暇あんなら新字体だけでも別枠にしろ!) unicodeを制定する世界の上層部が、如何にアジア圏をどうでもよく考え、雑に一括りとしているか分かる話ですなw
232 :デフォルトの名無しさん :2023/05/11(木) 13:57:18.45 ID:zT2biEt2.net 文字コード | 衆議院議員 河野太郎公式サイト https://www.taro.org/2023/05/%E6%96%87%E5%AD%97%E3%82%B3%E3%83%BC%E3%83%89.php
233 :デフォルトの名無しさん :2023/05/11(木) 19:45:15.85 ID:KOkRWEaK.net >>232 2023年になってから取り組んでも無駄だろな 無理やり押し付けて既存のシステムが崩壊し日本はますます貧しくなる
234 :デフォルトの名無しさん :2023/05/12(金) 01:04:14.69 ID:O4GoEXjP.net 国賊親子だからそうやって日本の国体を壊し、貧困化の延長を謀るのがこいつらの本懐だからな^^; 自分達だけは生かされると思っているのだろうけど、支那の歴史は例外なく相手国で利敵に走った屑を真っ先に親類縁者ひっくるめて惨殺して口封じとした 俺らパンピーやその子孫が絶望の中にいるとき、こいつら当人は他界し、その子孫は既にもがき苦しんだ後っしょ ま、俺らの将来も支那の臓器牧場候補だろうけど、その前に必ずこの国賊達が総じて臓器強奪や人肉食の材料になる点だけ、留飲を下げる要素だろうね
235 :デフォルトの名無しさん :2023/05/12(金) 09:02:37.92 ID:GoY4o9UG.net CJK統合漢字 https://ja.wikipedia.org/wiki/CJK%E7%B5%B1%E5%90%88%E6%BC%A2%E5%AD%97 1984年、ISOの文字コード規格委員会 (ISO/TC 97 - SC2) は文字セットの切り替えを行わずに世界中の文字を単一の文字集合として扱える文字コード規格 (ISO 10646) を作成することを決定し、専門のワークグループ (WG2) を設置した。当初、この文字コード規格は16ビットを想定し、その中に日本や中国など各国の漢字コード表をそのまま入れることを想定していた。しかし中国はこの方式では自国で現在策定中の漢字コードが全て入らなくなるとしてこの方針に反対し[要出典]、1989年、各国の漢字コードを統合した漢字集合HCCのアイデアを提案した。 1990年、完成したISO 10646の初版ドラフト (DIS 10646) では、漢字コードは32ビットで表現され、各国の漢字コードはそのまま入れることになった。しかし中国は漢字を各国でばらばらに符号化するのではなく、あくまで統一して扱うことを求めてこのドラフトには当初から反対しており、今後の漢字コードの方針を決めるため、ワークグループはCJK-JRGと呼ばれるグループを別途設置し、そこで引き続き検討することにした。
236 :デフォルトの名無しさん :2023/05/12(金) 09:03:55.43 ID:qO5bbQQ2.net >>222 なるほどー。 そうすると統合漢字も自然なものに思えてきますね。国や言語毎に字体が違うだけなんだと。
237 :デフォルトの名無しさん :2023/05/13(土) 18:20:42.38 ID:qjeq2TF1.net 漢字の場合、国・言語ごとの字形の違いは アルファベット書きの単語における国・言語ごとの綴りの違いに近いと思う。 同源の単語であれば他言語の綴りで書かれても一応意味は分かるが、 決してそれが自然だとは思われない。 漢字は統合によって「元の綴りがどうだったか」の情報が残らなくなってしまったので 言語判定をさぼってフォールバックフォント表示を通常運用にしたような環境では 他言語の綴りに化けた文書に頻繁に遭遇することになり違和感が募る。
238 :デフォルトの名無しさん :2023/05/13(土) 21:07:02.92 ID:uFhfbSOD.net 同じ漢字でも、簡体字って全然読めないよ… 違和感なんてレベルじゃないよ、あれ…
239 :デフォルトの名無しさん :2023/05/13(土) 21:56:00.31 ID:i7WkhiEz.net おばあちゃんが書く門の略字体なんかは今の子読めなかったりするね
240 :デフォルトの名無しさん :2023/05/13(土) 22:43:36.36 ID:wqzP/3o9.net 不思議な漢字と日本語──異体字の謎 https://tenki.jp/suppl/hiroyuki_koga/2015/05/18/3961.html 実は、意味も発音も同じなのに異なった字形の漢字は、紀元前約1600年前に中国で誕生した、漢字の原型である「甲骨文字」からあります。 このことはなにを示しているかというと、異体字は主に手書きの文字だからこそ生まれるということです。手書きであれば、点画が短いとか長いとか、おさえるとか払うとか表現が人によって変わってしまうことは当然ですね。それまで使われていた文字があるときにちょっと異なったふうに書かれて、それが誤字となって消えてしまうのではなく、多くの人がそう書くようになってある程度定着してしまう…しかも前の書き方も生きている…。これが異体字の源泉です。楷書、行書などの漢字のスタイルである「書体」も関係しています。 異体字は人名や地名に多いですね。 地名については、言ってみれば「なまり」のようなものだといってもいいかもしれません。人名であれば、漢字の字形の差が自分の個性のようなものと感じられて「渡邊」と書かれないと、自分ではないような気がする、といったことも起こってきます。 文字は社会のなかで共有されているものですから、自分勝手に書いていいというものではありません。ただ異体字だからといって、「間違っている文字」というわけでもないのです。正字・旧字・本字・俗字…といった区別は、漢字の使われ方を標準化するためにある社会・時代で便宜的に決められた「正しさ」の基準ですから、時代によって変わることもあります。日本でも当用漢字、常用漢字、人名漢字などとしょっちゅう漢字の枠組みが変化していることはご存知でしょう。 現在ではコンピューターや携帯電話などで表示できる漢字の数が飛躍的に増えたことで、この枠組がまた変化しています。時代の変化とともに、そして技術との関係で漢字はどんどん変化するものなのです。
241 :デフォルトの名無しさん :2023/05/14(日) 00:10:02.53 ID:28vpFfrh.net >>238 新字体もいわば簡略字体なわけで、まあ違和感があるかどうかは慣れなのかも >>239 簡体字だと门ですよね。というわけで昔の世代の方がより簡体字を読める?
242 :デフォルトの名無しさん :2023/05/14(日) 00:59:04.93 ID:hyIJBQi4.net 中国語での発音が同じという観点で共産党が簡体字を作ったので 日本の老人とは関係ない
243 :デフォルトの名無しさん :2023/05/14(日) 03:20:42.61 ID:c+bjkz0t.net 簡体字には二種類の起源があって、難しい漢字のかわりに手書きの略字を形を整えて正式採用したものと、めったに使わない漢字を廃止して意味や音の似た別字で置き換えたもの。(民間の手書きでは難しい字を宛て字で置き換えるのがよくある話) 実は日本語でも政府は同じようなことをやってる。「編輯」の「輯」を廃止して別字の「集」にするよう指示したり、「叡智」を別字の「英知」に置き換えたり。 中国(大陸)は日本より徹底的実行しただけ。
244 :デフォルトの名無しさん :2023/05/14(日) 04:03:24.17 ID:+AQkW+Hc.net 英知バウ子
245 :デフォルトの名無しさん :2023/05/14(日) 04:07:03.99 ID:S56KB+xo.net >>243 障碍→障害は酷すぎた
246 :デフォルトの名無しさん :2023/05/14(日) 04:45:02.11 ID:Cyit5h6Q.net >>245 これは「前からどちらも使われていたのが片方に統一された」だったはずで 一般に言われているほどではない
247 :デフォルトの名無しさん :2023/05/14(日) 08:40:55.72 ID:c+bjkz0t.net >>246 昔から両方あるけど、違う意味で使い分けられていた。 障碍:じゃまな物があって進められないこと 障害:危害を加えられて進められないこと 当用漢字で碍を害に置き換えたせいで、この2つが衝突した。「妨碍」を「妨害」に統合した関係も似たような感じ。前者は邪魔な物を置いて、後者は傷を負わせて。
248 :デフォルトの名無しさん :2023/05/14(日) 08:44:30.56 ID:c+bjkz0t.net 碍を害と統合するとか unicode 以上の暴挙。 国語審議会には漢字廃止論者がいたので仕方ないね。
249 :デフォルトの名無しさん :2023/05/14(日) 11:32:59.03 ID:hyIJBQi4.net 近頃は漢字を使うことをあきらめているケースも多いよね こ線橋とか
250 :デフォルトの名無しさん :2023/05/14(日) 15:13:31.89 ID:+xFqdUJk.net こうしちゃおう 跨線橋 ↓ 股線橋
251 :デフォルトの名無しさん :2023/05/14(日) 16:03:06.41 ID:CQAZebBv.net >>247 まさにそれが俗説 https://www8.cao.go.jp/shougai/suishin/seisaku_iinkai/k_54/txt/s3-2.txt
252 :デフォルトの名無しさん :2023/05/14(日) 18:31:54.44 ID:c+bjkz0t.net >>251 俗説でも何でもないだろうが。 引用されてるやつも、昔から混用があったことを指摘してるだけで、害と碍が統合可能な根拠などどこにも示していない。 難しい漢字や頻度の低い字を同じ音の別の漢字で代用するのは大昔からあった習慣。それこそ甲骨文字の頃からある。 しかしあくまで代用は代用。
253 :デフォルトの名無しさん :2023/05/14(日) 18:40:36.33 ID:c+bjkz0t.net 戦争で片足を失った。→ 身体を傷つけられているので「障害」でOK 生まれつき目が見えない。→ 誰かに危害を加えられた訳ではないので「障害」はNG 使った例があるかどうかじゃなくて、正しく使われてるかの問題。
254 :デフォルトの名無しさん :2023/05/14(日) 18:47:52.94 ID:sJ4QSX2k.net >当用漢字で碍を害に置き換えたせいで、 嘘はここだな。 その流れは戦前からあったと。
255 :デフォルトの名無しさん :2023/05/14(日) 18:50:56.65 ID:c+bjkz0t.net >>254 昔から混用があったのと、政府が正式に使用を禁止したのでは全然意味が違う。
256 :デフォルトの名無しさん :2023/05/14(日) 18:56:05.62 ID:sJ4QSX2k.net >当用漢字で碍を害に置き換えたせいで、この2つが衝突した。 せいで衝突したんじゃないな。
257 :デフォルトの名無しさん :2023/05/14(日) 18:58:21.13 ID:c+bjkz0t.net >>256 衝突してるじゃん。学識がある人には使い分けができてたのに、使い分けが禁止になってる。
258 :デフォルトの名無しさん :2023/05/14(日) 19:08:36.54 ID:sJ4QSX2k.net それよりも前から衝突はしてるだろう。 あと当用漢字をそれ以外の「禁止」とするのもまた嘘だろう。 学識がある人はあれと「禁止」は区別がつくから心配には及ばないだろう。
259 :デフォルトの名無しさん :2023/05/14(日) 19:12:14.69 ID:c+bjkz0t.net 話を戻すと大陸の簡体字も同じやり口。 「機」の略字が「机」なわけではなくて、難しい漢字の「機」を廃止するんで、同じ音の「机」を使ってね。民間の手書きとかなら机って書いて人もいただろみたいなの。
260 :デフォルトの名無しさん :2023/05/14(日) 19:13:38.88 ID:sJ4QSX2k.net 話を戻してて笑った。
261 :デフォルトの名無しさん :2023/05/14(日) 19:14:35.45 ID:c+bjkz0t.net >>258 当用漢字は禁止だよ。公文書、学校教育、新聞などでの使用ができなくなった。 当用漢字が廃止されて、常用漢字の制定で推奨に変わった。
262 :デフォルトの名無しさん :2023/05/14(日) 19:22:00.23 ID:sJ4QSX2k.net 使用が一切認められない「禁止」ではない。 そして「話を戻すと」、せいで衝突したんじゃないな。
263 :デフォルトの名無しさん :2023/05/14(日) 21:29:14.62 ID:Rm+3qTCO.net 当用漢字表 https://www.bunka.go.jp/kokugo_nihongo/sisaku/joho/joho/kakuki/syusen/tosin02/index.html 使用上の注意事項 イ この表の漢字で書きあらわせないことばは,別のことばにかえるか,または,かな書きにする。 ロ 代名詞・副詞・接続詞・感動詞・助動詞・助詞は,なるべくかな書きにする。 ハ 外国(中華民国を除く)の地名・人名は,かな書きにする。 ただし,「米国」「英米」等の用例は,従来の慣習に従ってもさしつかえない。 ニ 外来語は,かな書きにする。 ホ 動植物の名称は,かな書きにする。 ヘ あて字は,かな書きにする。 ト ふりがなは,原則として使わない。 チ 専門用語については,この表を基準として,整理することが望ましい。
264 :デフォルトの名無しさん :2023/05/14(日) 23:31:19.13 ID:eRs+xSP8.net 原則となる調達基準が制定されてそれ以外が入りにくくなったみたいな話だよね こういうの一言で言えば何なんだろう?「ルール」?
265 :デフォルトの名無しさん :2023/05/15(月) 00:45:03.74 ID:ZXlC61aQ.net 簡略化は一貫性がない場合もあるのな。傳->伝、團->団とか
266 :デフォルトの名無しさん :2023/05/15(月) 15:41:30.69 ID:/VJRgGP9.net 異体字はその定義があいまいだから、IT技術者の仕様都合でどうにかできる話ではないでしょ
267 :デフォルトの名無しさん :2023/05/19(金) 01:30:50.77 ID:Gmj5KBEl.net UTF-8をよく見かけるけど 7とか6とかも昔はあったんですか?
268 :デフォルトの名無しさん :2023/05/19(金) 02:14:03.40 ID:yl46Wrbm.net 8ビットスルーでない経路が絶滅危惧種だし HTTPで無駄にUTF-7なんて使っても知らんいわれるのがオチ つかうにしてもプログラム書かないといけないならBase64のが筋がよさそう
269 :デフォルトの名無しさん :2023/05/19(金) 03:59:19.38 ID:D8L3U8l/.net UTF-5のことも忘れないでいてあげるべき UTF-5 ‐ 通信用語の基礎知識 https://www.wdic.org/w/WDIC/UTF-5
270 :デフォルトの名無しさん :2023/05/19(金) 05:56:35.73 ID:EpqBRKGy.net UTF-1は美しそうだ
271 :デフォルトの名無しさん :2023/05/19(金) 06:20:44.06 ID:Gmj5KBEl.net やっぱり色々あるんですね㌧ これからも増える可能性もありそうですねー
272 :デフォルトの名無しさん :2023/05/19(金) 07:22:38.06 ID:8oPN6wuF.net ・・・ギャグで言ってるつもりなのか本気でそう思ってるのか判断がつかないんで一応補足しとくと 「UTF-#」の#はバージョン番号じゃなくて Unicodeの文字を何ビットで表現するかを意味してる 基本的には16Bitで表現するUTF-16が一番楽 サロゲートペア文字もそうでない文字も同じデータ長として管理するなら32Bit表現のUTF-32がよい だが現状はAsciiと互換性のある8Bit表現のUTF-8が事実上の標準となった UTF-7はデータビット数を8⇒7に減らすことで少しでも通信速度を稼ごうとしてた昔の通信経路向けの規格
273 :デフォルトの名無しさん :2023/05/19(金) 07:55:58.41 ID:Gmj5KBEl.net >>272 バージョンじゃないんですか、詳しくありがとうございます!
274 :デフォルトの名無しさん :2023/05/19(金) 08:47:03.32 ID:rVwS6Z+x.net >>272 あんまり知ったかぶりすんな >「UTF-#」の#はバージョン番号じゃなくて 虚偽、UTF-1 とか UTF-2 はバージョン > 基本的には16Bitで表現するUTF-16が一番楽 虚偽、(もしくは個人の感想) > UTF-7はデータビット数を8⇒7に減らすことで少しでも通信速度を稼ごうと 虚偽
275 :デフォルトの名無しさん :2023/05/19(金) 12:13:32.86 ID:clAdGtGh.net >>238 毛沢東文字やね あれはスパイを発見し易くするために導入された
276 :デフォルトの名無しさん :2023/05/19(金) 12:33:17.95 ID:clAdGtGh.net >>272 >サロゲートペア文字もそうでない文字も同じデータ長として管理するなら32Bit表現のUTF-32がよい doubt
277 :デフォルトの名無しさん :2023/05/19(金) 13:28:13.37 ID:1PFium2f.net 64bit版g++は、規定のstd::wstringがUTF-32だよ
278 :デフォルトの名無しさん :2023/05/19(金) 13:29:18.88 ID:1PFium2f.net 規定じゃなくて既定だった
279 :デフォルトの名無しさん :2023/05/19(金) 15:02:22.21 ID:clAdGtGh.net >同じデータ長 doubt
280 :デフォルトの名無しさん :2023/05/19(金) 16:15:02.50 ID:DhYPerzk.net ネタとして楽しむためには正しい知識がいる、という
281 :デフォルトの名無しさん :2023/05/20(土) 00:06:13.39 ID:Wgabc+Na.net 文字コード奥深過ぎだなアニメ化して欲しい
282 :デフォルトの名無しさん :2023/05/20(土) 13:16:12.40 ID:QfLlK72x.net IVSなめんな
283 :デフォルトの名無しさん :2023/05/20(土) 13:31:47.35 ID:XYoRKnAf.net ペロッ...これは、0xE0100で修飾された異体字!!
284 :デフォルトの名無しさん :2023/05/20(土) 13:52:04.98 ID:HDVuLGIu.net 文字コードソムリエですね
285 :デフォルトの名無しさん :2023/05/21(日) 20:48:13.44 ID:5peOv9L3.net \ソムリエ
286 :デフォルトの名無しさん :2023/05/23(火) 23:24:40.51 ID:R2ZlFyvy.net 漢字構成記述文字 IDSは何処かで有効活用されているのですか? 今の字体の見た目の直感と違うのですが 黒 →⿱里灬 ダメ? https://kanji-database.sourceforge.net/ids/ids-analysis.html >解字IDSデータは、UCS漢字を、字の成り立ちからIDS化する作業を行っています。 U+09ED1 黑 ⿱𡆧炎 會意 3840010 U+09ED2 黒 →黑 https://github.com/cjkvi/cjkvi-ids/blob/86b4d16159f0079437870408f0ca186e529015db/ids-analysis.txt#L18185
287 :デフォルトの名無しさん :2023/05/24(水) 23:52:15.53 ID:nx1OpmdE.net 見た目じゃなくて成り立ちだから歴史的経緯からIDS化してるんじゃね
288 :デフォルトの名無しさん :2023/05/27(土) 01:16:15.20 ID:JRhYMEVC.net 簡体字制定時にも過度の正規化に反対する良心的な人もいたみたいだけど…結果は文化継承お構い無しむしろ断絶こそ業績みたいな御用学者に押し切られた?わけで 一旦決まったからはあの面子の国、則天文字やルイセンコ学説宜しく滅ぶまで使い続けるんだろな という訳で今すぐ滅びろ
289 :デフォルトの名無しさん :2023/05/27(土) 06:31:36.72 ID:EKOWOt22.net 二簡字ぐらいいくとかっこよくも見えてくる
290 :デフォルトの名無しさん :2023/05/27(土) 14:22:30.10 ID:Qh66ZSbX.net utf-8が標準だと思ってたけど昨日Excel見たらutf-8じゃなくてビックリした
291 :デフォルトの名無しさん :2023/05/27(土) 15:25:11.32 ID:Iw6vgmTP.net メモリ上の内部コードはしらんけど xlsxはXMLだからUTF-8じゃない?
292 :デフォルトの名無しさん :2023/05/27(土) 19:18:50.92 ID:4YJ0U8GR.net 文語で「じゃない」を使うおじさん
293 :デフォルトの名無しさん :2023/05/27(土) 22:18:54.32 ID:Qh66ZSbX.net お姉さんの可能性あるで 俺もお姉さんだし( ・`ω・´)
294 :デフォルトの名無しさん :2023/05/27(土) 22:19:28.39 ID:Qh66ZSbX.net >>291 他の人のExcelも今度確認してみるわ
295 :デフォルトの名無しさん :2023/05/28(日) 11:38:12.73 ID:mveGBcKw.net XML は BOMつき UTF-16 も許されてるんじゃなかったっけ? BOM無しなら UTF-8 だったか
296 :デフォルトの名無しさん :2023/05/28(日) 21:52:09.12 ID:YNYjEu0w.net excelは昔からさまざまな文字コードに対応してる 高い互換性を維持し続けてる それがMSの強さ こういうところはUnixとかLinuxとかOSSでは 太刀打ちできない
297 :デフォルトの名無しさん :2023/05/28(日) 22:53:12.34 ID:mveGBcKw.net >>296 emacs だってexcel 以上に多種多様な文字コードに対応してるし、linux (glibc)の対応ロケールと文字コードの数は windows より多いぞ。 無知が擁護するとMSの格が下がるのでやめとけ。
298 :デフォルトの名無しさん :2023/05/28(日) 23:26:13.89 ID:ig5hb7tN.net >>291 そうだね。実際には階層的になったXMLをzipにしてあるけど んでXMLの中をよく見るとxlsxを作成したローカルのパスが書かれていたり。キモっ おっと文字コード関係なかったw
299 :デフォルトの名無しさん :2023/05/29(月) 01:28:07.80 ID:0ytXwqTB.net Microsoft が互換性重視とか最近のブラックユーモアは笑えないなぁ ASCII との互換性を切捨てて UTF-16 にしようとして失敗したり 5年以上前のCPUは Windows 11 ではサポートしません、買い替えてくださいとか言い出したり その頃 linux では33年前の CPU の 80486 の互換性はそろそろ切って良いのではという議論をしてた。
300 :デフォルトの名無しさん :2023/05/29(月) 12:46:50.20 ID:MCD4Vue8.net 2012年頃? Windows10 が最後の Windows バージョンです(キリっ
269 KB
新着レスの表示
掲示板に戻る
全部
前100
次100
最新50
read.cgi ver.24052200
本文 スレッドタイトル 投稿者