2ちゃんねる ■掲示板に戻る■ 全部 1- 最新50    

文字コード総合スレ part14

1 :デフォルトの名無しさん:2023/03/03(金) 15:46:58.08 ID:yKqwMGHT.net
Windows NTは初代からUnicodeがネイティブの文字コードです。cp932ではありません。
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
 (スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
 (隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
文字コード総合スレ Part10 http://mevius.2ch.net/test/read.cgi/tech/1444822140/
文字コード総合スレ Part11 https://mevius.5ch.net/test/read.cgi/tech/1516629503/
文字コード総合スレ Part12 https://mevius.5ch.net/test/read.cgi/tech/1544931495/
文字コード総合スレ part13
https://mevius.5ch.net/test/read.cgi/tech/1593777227/

138 :デフォルトの名無しさん:2023/03/15(水) 11:00:18.93 ID:ClK12XWK.net
ほー、ってことはWindowsも
そういった互換性を大切にしてたんだな

139 :デフォルトの名無しさん:2023/03/15(水) 11:12:26.56 ID:2SW2Y069.net
むしろ>>127なんて通常はあり得ないって事さ

140 :デフォルトの名無しさん:2023/03/15(水) 12:41:20.81 ID:GIgi9suE.net
>>138
まあ、そうだな。
Windows が大事にしたのは MS-DOS との互換性で、
MS-DOS が大事にしたのは CP/M との互換性で、
CP/M は大昔の汎用機と同じくらい古臭い<BS><BS><BS>シンプルな設計だったというだけだな。

141 :デフォルトの名無しさん:2023/03/15(水) 22:20:01.44 ID:ClK12XWK.net
UNIXは元々研究用だからね
互換性なんか考えちゃいない
だからUNIXはBSD系とSystemV系に分離した
多くのコマンドの互換性がなくなった

142 :デフォルトの名無しさん:2023/03/16(木) 00:21:30.90 ID:OI9tXZBe.net
>>141
歴史をまったく知らない素人妄想だな。
Multics で導入されたテキストデータの抽象化とか知ってるか?

143 :デフォルトの名無しさん:2023/03/16(木) 03:57:32.72 ID:mQ2r18kg.net
http2以降はヘッダに改行なくなったんだね、、、

144 :デフォルトの名無しさん:2023/03/16(木) 07:48:28.62 ID:svmadcyh.net
>>141
多くのコマンドの互換性ってたかだかオプションが違うくらい
シェルスクリプトでどのバージョンでも対応できた

145 :デフォルトの名無しさん:2023/03/16(木) 10:25:24.39 ID:6H39TrIH.net
>>142
知ってる。お前のターン。
俺を論破してみせろやw

146 :デフォルトの名無しさん:2023/03/16(木) 10:25:51.36 ID:6H39TrIH.net
>>144
歴史を知らんのねw

147 :デフォルトの名無しさん:2023/03/16(木) 10:41:46.04 ID:rUjwTzLK.net
知ってる→実は何もわかってない
知らんのかね→自分が何も知らない
どうして、こういう知ったかぶりする小学生みたいんな奴が混ざってるんだろう?

148 :デフォルトの名無しさん:2023/03/16(木) 10:46:31.88 ID:0AiTyYBY.net
コマンドラインにプログレスバーを出したり
固定レイアウトでリアルタイム更新する画面とか
きちんとCRとLFは区別されてるって感じる

149 :デフォルトの名無しさん:2023/03/16(木) 11:13:17.10 ID:N2/NSeFa.net
BOMは文字コード?
ZWNBSは文字コード?
CRは文字コード?
LFは文字コード?

150 :デフォルトの名無しさん:2023/03/16(木) 11:31:30.24 ID:6H39TrIH.net
>>147
俺のこと言ってる?

「知らんだろ」っていうやつは、
自分が知らないことを相手に要求して
揚げ足取ろうとしているだけだから
「知ってる」っていうと相手に大ダメージを与えられる

知ってた?

151 :デフォルトの名無しさん:2023/03/16(木) 14:30:41.33 ID:gF6V1TZr.net
知っとって知らんて言うのは犯罪やぞ

152 :デフォルトの名無しさん:2023/03/16(木) 14:32:32.77 ID:NwWFe4eh.net
>>150
無知なやつは恥も知らんなwww
自分が知らないから相手も知らないはずwww

153 :デフォルトの名無しさん:2023/03/16(木) 14:59:26.59 ID:b0tE1S4+.net
UNIX終了wwやはり正義はWindowsだったwwww

Unix is dead. Long live Unix!
https://www.theregister.com/2023/01/17/unix_is_dead/

154 :デフォルトの名無しさん:2023/03/16(木) 16:43:13.46 ID:hqbItujU.net
Unix というか Linux に徐々に移行でしょ
メインフレームやスーパーコンピュータはLinux になっちゃたし

155 :デフォルトの名無しさん:2023/03/16(木) 16:58:32.87 ID:OI9tXZBe.net
>>153
タイトルすらまともに読めてなくてw
その記事
IBM が Redhat 買ってこれからは Linux を始めとする unix-like の時代。AIX とかの(旧来の) Unix は終わり。
Windows についてはマイクロソフトも WSL を頑張ってるとしか書かれてない。

そもそも文字コードに何の関係が?

156 :デフォルトの名無しさん:2023/03/16(木) 17:04:46.17 ID:CqIyXRLu.net
>>141,153
お前 UTF-8 に BOM つけろ君だろ
教養が感じられないあたりがそっくり
主張が通らなかった、腹いせにスレを荒らすな!

157 :デフォルトの名無しさん:2023/03/16(木) 17:42:30.76 ID:6H39TrIH.net
>>156
アホ化。逆だわ
UTF-8にBOMつけるな
あれはMSが歪めた仕様
元々はバグだ
シランなら黙っとれ

158 :デフォルトの名無しさん:2023/03/17(金) 20:09:59.24 ID:kImSYq8C.net
このスレは以下で全員が一致している
・文字コードはUTF8で統一
・UTF8はBOMを付けない

159 :デフォルトの名無しさん:2023/03/17(金) 21:06:51.85 ID:2DL2Xy3z.net
https://i.imgur.com/5H1ZeBj.png
> LinuxやMacでは、ファイル名やメタデータから文字コードを判断することが多いので、BOMは不要です。

これマジ?

160 :デフォルトの名無しさん:2023/03/17(金) 21:09:37.93 ID:HCeWuFC8.net
BOMって、 UTF16とかじゃないと意味が無いやん?

161 :デフォルトの名無しさん:2023/03/17(金) 21:21:18.90 ID:Y3Hkfwer.net
一応は出典付きになってんだからそれ辿って判断しろ

162 :デフォルトの名無しさん:2023/03/17(金) 22:17:32.94 ID:axfbRcbR.net
mac のファイルシステムはリソースフォークを持っているので
そこにTextEncoding を格納しておけば良い

163 :デフォルトの名無しさん:2023/03/18(土) 09:15:45.80 ID:hvwkbmHD.net
>>159
出典を挙げてくれるところが親切だな。そのqiitaどこ?

164 :デフォルトの名無しさん:2023/03/19(日) 12:16:38.49 ID:fPDrKYk/.net
Windows のファイルシステムは拡張子を持っているので
そこが .txt なら BOM 無し UTF-8 を前提にして良い

165 :デフォルトの名無しさん:2023/03/19(日) 12:24:54.52 ID:h5llDeKs.net
おいおい
Windowsで.txtなんてそれこそ山程CP932のファイルがあるだろう(日本の場合)
それらは全て無視かい

166 :デフォルトの名無しさん:2023/03/19(日) 13:04:41.50 ID:SRrPG6Bv.net
>>165
そいつらは将来に備えて .sjt とかにでも改名しとけw

167 :デフォルトの名無しさん:2023/03/19(日) 13:31:52.51 ID:pEJ/zH5I.net
UTF-8を使う俺が困らなければ他人はどうでもいい。

168 :デフォルトの名無しさん:2023/03/19(日) 14:22:28.77 ID:SRrPG6Bv.net
>>167
UTF-8を使う俺=将来のお前
どうせ嫌でも皆がUTF-8を使うことになる
遅いか早いかの違いでしかない

169 :デフォルトの名無しさん:2023/03/19(日) 14:46:22.57 ID:pEJ/zH5I.net
遅いか早いか、まさにそこがポイントだわな。
100年後には確実に死んでいるだろうからといって明日すぐに死んでもいいなんて考える人はまずいない。

170 :デフォルトの名無しさん:2023/03/19(日) 15:05:53.25 ID:SRrPG6Bv.net
あきらめろ!もう勝負はついてしまったんだ
今は粛々と対応を進めるフェーズだ
早く対応するほど傷は浅くてすむぞ

171 :デフォルトの名無しさん:2023/03/19(日) 15:11:12.34 ID:RPlhi56t.net
>>166
むしろ新しいほうが.utf8のほうが合理的かと

172 :デフォルトの名無しさん:2023/03/19(日) 15:20:23.00 ID:SRrPG6Bv.net
>>171
あきらめろ。どうせSJISのファイルは無くなるんだ。
何ならSJISのテキスト .txt ファイル今後一切作らなくても生きていける。 UTF-8はそうはいかない。

173 :デフォルトの名無しさん:2023/03/19(日) 15:26:26.02 ID:pEJ/zH5I.net
春休みっぽいね。

174 :デフォルトの名無しさん:2023/03/19(日) 16:57:13.82 ID:SRrPG6Bv.net
今日は日曜日なんだぜ。仕事引退したご老人は気づかんかもだが。

175 :デフォルトの名無しさん:2023/03/19(日) 17:30:01.32 ID:NPoZApcF.net
C言語でShiftJISからUTF-8に変換するコードをライブラリは使用しないで書いて下さい。

以下はC言語でShiftJISからUTF-8に変換する簡単なコードです。このコードでは、ShiftJISの1バイト目が0x81以上0x9F以下または0xE0以上0xEF以下の場合には2バイト文字、それ以外の場合には1バイト文字として扱います。

#include <stdio.h>

void sjis_to_utf8(char *sjis, char *utf8) {
unsigned char c1, c2;
while (*sjis != '\0') {
c1 = *(unsigned char *)sjis++;
if (c1 <= 0x7F) {
*utf8++ = c1;
} else {
c2 = *(unsigned char *)sjis++;
if ((0x81 <= c1 && c1 <= 0x9F) || (0xE0 <= c1 && c1 <= 0xEF)) {
*utf8++ = ((c1 << 8) | c2) + 0x3C00;
} else {
*utf8++ = c1;
sjis--;
}
}
}
*utf8 = '\0';
}

int main() {
char sjis[] = "こんにちは、世界!";
char utf8[100];
sjis_to_utf8(sjis, utf8);
printf("%s\n", utf8);
return 0;
}

176 :デフォルトの名無しさん:2023/03/19(日) 17:39:03.96 ID:0QGYVmFU.net
ShiftJISって表現だと文字集合定まらないのに回答もらえんだ
どんだけクソ記事多いんだよ

177 :デフォルトの名無しさん:2023/03/19(日) 21:07:41.87 ID:Lshwza3t.net
>>162
macのリソースフォークとか、知識が化石だな
今は大概のファイルシステムが拡張ファイル属性をサポートするので、そこにメタデータを
記録することが可能

178 :デフォルトの名無しさん:2023/03/19(日) 22:36:34.34 ID:S5QK9jWm.net
apfs はxattr もresource fork も両方使える
named resource fork は無くなってるが

179 :デフォルトの名無しさん:2023/03/28(火) 06:36:26.58 ID:qh0NVSBO.net
>>175
バッファオーバーフローのチェックがなく不合格

180 :デフォルトの名無しさん:2023/03/28(火) 08:25:55.12 ID:b9xJHTM0.net
それ以前の問題だろ。>>175はChatGPTに作らせたんじゃね?

181 :デフォルトの名無しさん:2023/04/03(月) 12:56:12.62 ID:xtNXRsCH.net
AIによるプログラミングはまだ無理だね

182 :デフォルトの名無しさん:2023/04/03(月) 16:26:10.65 ID:vHpZ2WBP.net
AIって、コンピュータのくせに自分でトレース実行してバグ無いか確認しないのなw

183 :デフォルトの名無しさん:2023/04/09(日) 09:21:00.03 ID:Dm0aM9sg.net
検算してもその検算が正しいかどうかすら自身が持てないのがchatGPT

184 :デフォルトの名無しさん:2023/04/09(日) 09:22:48.40 ID:Dm0aM9sg.net
WindowsだがExcelもWordも入れてない
自分のHDD/SSDにはSJISで保存されたファイルなんてもうほぼ存在しない

185 :デフォルトの名無しさん:2023/04/09(日) 12:54:00.15 ID:/c2XAn9L.net
今MacユーザーになるともれなくUnicode絡みの問題が付いてくるよ
https://applech2.com/archives/20230402-nfd-and-nfc-issues-in-macos-13-3-ventura.html

186 :デフォルトの名無しさん:2023/04/09(日) 13:04:53.10 ID:orQE+67J.net
>>185
Mac が定期的にかかる病気。
すぐ治るけど、時間をおいてまた再発する。

187 :デフォルトの名無しさん:2023/04/09(日) 14:46:54.72 ID:auAc9wKg.net
Macは日本の野党と同じで世間からの評価が甘いよなあ。
Macが基幹業務で使われてない何よりの証拠でもあるが。

188 :デフォルトの名無しさん:2023/04/09(日) 17:56:56.24 ID:OOTdGDLa.net
地震ないのに自信たっぷりに回答するのがChatGPT

189 :デフォルトの名無しさん:2023/04/09(日) 18:30:06.98 ID:4krZSi9u.net
クエーッ!

190 :デフォルトの名無しさん:2023/04/09(日) 19:01:55.55 ID:FKzaKr3N.net
知らないことは知らない
調査した限りでは存在しない
そういう答えのほうがいいのに
なんで捏造するんだろうね

191 :デフォルトの名無しさん:2023/04/09(日) 21:05:33.99 ID:UcS23PeT.net
そういうのはだいたい、知らないと答えたらひどく怒られた経験があって委縮して育ってしまったんだと思う

192 :デフォルトの名無しさん:2023/04/12(水) 12:03:52.02 ID:+8HledST.net
自信たっぷりに嘘を答えるから
文系はすぐにだまされるωωω

193 :デフォルトの名無しさん:2023/04/14(金) 14:38:56.45 ID:M7ace2PD.net
キャラ名に「ソ」があると画面がフリーズ Switchの新作ゲームにバグ 制作会社が謝罪
https://www.itmedia.co.jp/news/articles/2304/14/news119.html

194 :デフォルトの名無しさん:2023/04/14(金) 15:45:01.31 ID:xzN0pWfJ.net
>>193
ShiftJISならバックスラッシュ誤判定だろうけど、ShiftJISなわけないよな

195 :デフォルトの名無しさん:2023/04/14(金) 15:53:05.13 ID:seuuHt2q.net
浅慮すぎるのは置いといて
ゲームだし手軽にバイト長固定で処理したかったは十分考えられる

196 :デフォルトの名無しさん:2023/04/14(金) 17:03:50.51 ID:ixIh7fyO.net
芸能人は化ける

197 :デフォルトの名無しさん:2023/04/14(金) 18:27:55.47 ID:I++sIoci.net
ネットの論調は「ソ」と言ったらSJISバグみたいになってるけど今時ありえるだろうか?
もし事実だとしたら旧作からライブラリか何かを移植して流用したのかな?

198 :デフォルトの名無しさん:2023/04/14(金) 18:50:37.36 ID:41MH6ytl.net
「ソ」とか「ポ」を含む文字列で壊れる問題、昔はS-JIS絡みで時々見かけたね

199 :デフォルトの名無しさん:2023/04/14(金) 21:31:31.20 ID:MvmRH5fr.net
ここで念のため
<!--美乳-->

200 :デフォルトの名無しさん:2023/04/15(土) 11:49:15.28 ID:nVVXe4ml.net
ノーパソ

201 :デフォルトの名無しさん:2023/04/15(土) 12:43:38.13 ID:j+1WZq2H.net
XAMPP は、MSYS2 なのか?
Windows のsjis(CP932), MySQL, PHP を使っているのかも

Ruby on Rails では、日本語のバグを避けるため、
Linux, UTF-8, PostgreSQL しか使わない

202 :201:2023/04/15(土) 12:55:47.99 ID:j+1WZq2H.net
>>193
アイディアファクトリー(コンパイルハート)のゲーム開発の求人には、

C/C++, C#, Windows, Unity と書いてある

203 :デフォルトの名無しさん:2023/04/16(日) 08:38:15.57 ID:3UxBQXGl.net
Unityの文字化けを解消する!
https://qiita.com/kumi0708/items/2f8dd2fc2ccb673ff12b

UnityからC#のスクリプトファイルを作成するとUTF-8(BOM無し)になりますが、
VisualStudioはUTF-8(BOM付き)じゃないとコードページを解釈できずにShift-JISになってしまうようです。

204 :デフォルトの名無しさん:2023/04/16(日) 11:48:59.76 ID:SPigkToS.net
WindowsがUTF-16だと知らないのは不思議だな

205 :デフォルトの名無しさん:2023/04/16(日) 12:01:24.12 ID:kKWUTzzz.net
SwitchとWindowsでBOMなしテキスト使ってると、結構困ったことになるんだよね
char:Switch=utf8 Win32=sjis
wchar_t:Switch=utf32 Win32=utf16
char16_t/char32_t:対応しているライブラリが少ない

206 :デフォルトの名無しさん:2023/04/16(日) 12:09:09.12 ID:zYleX6N8.net
ターゲット固定なのにそんなのある?
ネットとか客先とか何くるかわからん状況じゃないんだし

207 :201:2023/04/17(月) 12:35:43.54 ID:4hNaPs7t.net
Windows はUTF-16 か。
確か、Ubuntu はUTF-32 とか?

たとえLinux 内部で、4バイト文字を使っていたとしても、
Ruby などのウェブ系言語では、UTF-8 前提でモジュールを作るでしょ?

CP932 の「表・ソ」などのダメ文字は、数十年前の話

208 :デフォルトの名無しさん:2023/04/18(火) 00:06:47.73 ID:FLdY4aX1.net
一方ビックカメラは令和でもSJISを使った

209 :デフォルトの名無しさん:2023/04/18(火) 04:27:16.75 ID:ClilpHUV.net
>>208
5ch…

210 :デフォルトの名無しさん:2023/04/18(火) 05:51:45.47 ID:GSSywy5h.net
〄🆗

211 :デフォルトの名無しさん:2023/04/18(火) 10:05:55.09 ID:sxhvE7iU.net
森鷗外��る
森鷗外𠮟る

212 :デフォルトの名無しさん:2023/04/18(火) 18:44:09.21 ID:zZ3gNzrS.net
森鴎外(´・ω・`)ショボ-ン

213 :デフォルトの名無しさん:2023/04/18(火) 20:00:26.71 ID:+ox+01C9.net
&#xHHHHH; で5桁以上指定出来ないのは HTML のバグ?

214 :デフォルトの名無しさん:2023/04/18(火) 21:28:06.50 ID:5DETvPNY.net
“𠮟る” と “叱る”
https://hydrocul.github.io/wiki/blog/2014/1201-shikaru.html

215 :デフォルトの名無しさん:2023/04/19(水) 00:17:26.51 ID:OlbpA5HH.net
>>213
え?

216 :デフォルトの名無しさん:2023/04/19(水) 01:44:50.59 ID:rDAf/S/P.net
痛い痔

217 :デフォルトの名無しさん:2023/04/19(水) 17:00:21.07 ID:ZJsXKDj1.net
字にはヒラギノール

218 :デフォルトの名無しさん:2023/04/25(火) 07:46:57.89 ID:oL7xmfo9.net
Macで古いmp3を取り込んだらID3タグが文字化けしまくり
昔はコード変換のユーティリティとか持ってたけど、どうすべきかな

坂本龍一は言いました「芸術は長く、人生は短し」
音楽ファイルは長く、文字コードは短し

219 :デフォルトの名無しさん:2023/04/26(水) 10:01:56.89 ID:N7+hGpB4.net
教授死んで済々したわ

220 :デフォルトの名無しさん:2023/05/10(水) 11:22:21.87 ID:AjRm4EFi.net
ふと思ったが、令和の令って、手書きでどう書いてます?

「令」の下側の部分、活字だと「つ」に縦棒みたいになってるけど、手書きだとマみたいに書く人は
少なくないと思う。でもこれって中国語の活字体に近い
実はこんなレベルで「統合」漢字ですか?

221 :デフォルトの名無しさん:2023/05/10(水) 12:49:42.27 ID:ji6HZ6my.net
>>220
今どき手書きしない。
ここ20年くらい住所氏名電話番号くらいしか手書きした覚えないなあ。あとは問診票の体温とかか

222 :デフォルトの名無しさん:2023/05/10(水) 12:58:40.69 ID:ji6HZ6my.net
>>220
あえて言うと、もともと歴史的には明朝体(印刷用)字体と楷書体(手書き)字体の差なので、手書きの時にマになるのが普通のこと。
「はしご高」とかも本来は楷書体(手書き用)で、明朝体(印刷用)は「くち高」。
この辺の歴史を忘れちゃって別字だ同字だ異字体だと言って混乱してるのが現代人。もともとは単に書体の違い。

223 :デフォルトの名無しさん:2023/05/10(水) 15:58:11.20 ID:fhY7dZBk.net
昔は詳しくない層はうろおぼえで何となく近い文字を同じ文字と認識してたんだろうけど
今は正確に同じ形を出力できるようになったぶん「なんか違うぞ」と目に留まりやすくなってしまったんだな

224 :デフォルトの名無しさん:2023/05/10(水) 16:41:18.39 ID:ji6HZ6my.net
悪いのは学校教育。
昔の人は明朝体と楷書体は完全に別物という認識で区別がついてた。本とか新聞とかで見るのが明朝体。手書きは楷書体、戸籍は手書きなので楷書体だった。
ところが明朝体と楷書体の両方の特徴をもった中間の「教科書体」という書体を作って小学校で文字を教えるようになった。このせいで多くの人にとって書体間の差が良く分からなくなってる。

書道とか専門的なことをやれば気付くのだが、普通の人は明朝体と楷書体の違いが理解できない。
というか両方間違いで中間の教科書体が一般的文字と信じてる。そういう現状に合わせるためにフォントの明朝体や楷書体も学校教育文字については教科書体に近づけるようデザインされるようになってる。

225 :デフォルトの名無しさん:2023/05/10(水) 16:48:21.44 ID:ji6HZ6my.net
日本の明朝体フォントの「令」は珍しく昔ながらの明朝体の字形が残っていて、教科書体(楷書)寄りに改変されてないので、手書きと違う字形になってる。

226 :デフォルトの名無しさん:2023/05/10(水) 19:09:23.30 ID:2bIvyILU.net
※1 どうしてもunicodeのCJK総合漢字から新字体と繁体字と簡体字を切り離してリストアップしたかったんです
散々調べて下のそれっぽいコード例を発見するものの、さっぱりで残念
ttps://qiita.com/Saqoosha/items/927e9d6e77922ad9f08a

膨大にある造語めいた気持ち悪い繁体字と簡体字をPC環境から排除するため、フィルターへそれらのunicodeを登録したいのです
繁体字または簡体字のunicodeリスト、メモ帳などへ抽出したテキストリスト、上記目的を達するのに最適なソフトなど
何かしら情報はないものでしょうか

※2
unicodeを紹介してくださるサイトを、そのまま丸コピして手元へ資料化すれば?と考えるものの著作面で不安
HTTrackというオープンソースのソフトを発見しましたが、古い上にソフトへ通信権限を与える類いのようで、下手なネトゲよりリスク高い
何より資料として閲覧可能になるのは嬉しいものの、繁体字と簡体字を排除する本来の目的に沿わない

↑全てをすっとばして、CJK総合漢字から気持ち悪い繁体字と簡体字のunicodeを抽出する方法、既存のファイルやリストなど、がありましたら解決する話です
アドバイスくださいm(vv)m

227 :デフォルトの名無しさん:2023/05/10(水) 19:40:22.77 ID:2/j8QX9l.net
意味不
統合されてるんだし

228 :デフォルトの名無しさん:2023/05/10(水) 20:38:34.78 ID:2bIvyILU.net
unicodeにおけるcjk統合漢字は、一つの意味に対する漢字を〇△□×と横並びさせて、それを終えてから次の意味の漢字へ移行する配列となっています
だからこそ〇しか要らないのに4E00から9FF0の中で膨大な△□×という文字のゴミが無作為に溢れてしまうのです
しかも支那は性懲りもなく使いもしないゴミ文字を未だに造り続けているので、unicodeは5桁にまで膨れ上がっています(そろそろ整理しろよ!新語を作んなボケが!!使わねー字なら抹消しろ!と)
「漢字」と一括りにするのではなく、そこから真に必要で有用な新字体のみを抽出したい、あるいはフィルター用に新字体以外のゴミunicodeリストを欲しい、と思うのは必然ではないでしょうか
そのくらい、今の支那はあらゆる分野で癌と化していますよ^^;

229 :デフォルトの名無しさん:2023/05/10(水) 20:39:15.54 ID:2bIvyILU.net
ですよねえ・・・
qiita.com/Saqoosha/items/927e9d6e77922ad9f08aさんの例がまさに自分の環境でも活用可能な案だったのですが、古い上によく分からなくて^^;
日本語に用いられる漢字=新字体は、象形文字状態の造語・当て字ばかりで非文明的な繁体字・簡体字と比較すると、めちゃくちゃ秀逸かつ言語内に上手く纏められているんですよ
集約とも言えます
1949年の内閣すげー!!!

それも平仮名や片仮名という3種の文字列を組み合わせて歌を詠んだり、そうした世界屈指の難解な文字文化を経たからこそ、私達の先祖は新字体という完成度の高いものを作れたんでしょう
今現在、支那チョンに使われる言葉の多くは「日本語由来」ですしね・・・
文字においても漢字なのに新字体が一番最初に確立されている不思議
その史実を虚偽で覆い隠さんと、いつもの共産圏の捏造焼き畑で無駄な簡体字が、延々造られ続け、unicodeを圧迫しているのが昨今の実情です
やることなすことGと一緒で美も詫び寂びも無い、ただ増えるだけの癌に等しい存在と価値観が、まさにチャイナの本質ですね^^;

230 :デフォルトの名無しさん:2023/05/10(水) 22:10:37.95 ID:ji6HZ6my.net
文字コードのことも漢字のことも何も分かってなくて草。
お前は日本語専用フォント使っとけ。

231 :デフォルトの名無しさん:2023/05/10(水) 23:58:51.60 ID:2bIvyILU.net
まあ、統合なんてせず、他はどうでもいいから新字体だけは別枠でunicodeに登録してほしかったですね
そうすれば、ここからここまで理論で新字体とそうでないゴミ象形オナニー文字とを正負ともに区別出来たんですわ・・・
他の地域はそれぞれの民族単位で登録されていたり、誤差の範囲内でもきっちり枠が設けられているのに
東アジアの区分だけ何故かごちゃ混ぜで笑えますよ(拡張ABCDとかやってる暇あんなら新字体だけでも別枠にしろ!)
unicodeを制定する世界の上層部が、如何にアジア圏をどうでもよく考え、雑に一括りとしているか分かる話ですなw

232 :デフォルトの名無しさん:2023/05/11(木) 13:57:18.45 ID:zT2biEt2.net
文字コード | 衆議院議員 河野太郎公式サイト
https://www.taro.org/2023/05/%E6%96%87%E5%AD%97%E3%82%B3%E3%83%BC%E3%83%89.php

233 :デフォルトの名無しさん:2023/05/11(木) 19:45:15.85 ID:KOkRWEaK.net
>>232
2023年になってから取り組んでも無駄だろな
無理やり押し付けて既存のシステムが崩壊し日本はますます貧しくなる

234 :デフォルトの名無しさん:2023/05/12(金) 01:04:14.69 ID:O4GoEXjP.net
国賊親子だからそうやって日本の国体を壊し、貧困化の延長を謀るのがこいつらの本懐だからな^^;
自分達だけは生かされると思っているのだろうけど、支那の歴史は例外なく相手国で利敵に走った屑を真っ先に親類縁者ひっくるめて惨殺して口封じとした
俺らパンピーやその子孫が絶望の中にいるとき、こいつら当人は他界し、その子孫は既にもがき苦しんだ後っしょ
ま、俺らの将来も支那の臓器牧場候補だろうけど、その前に必ずこの国賊達が総じて臓器強奪や人肉食の材料になる点だけ、留飲を下げる要素だろうね

235 :デフォルトの名無しさん:2023/05/12(金) 09:02:37.92 ID:GoY4o9UG.net
CJK統合漢字
https://ja.wikipedia.org/wiki/CJK%E7%B5%B1%E5%90%88%E6%BC%A2%E5%AD%97

1984年、ISOの文字コード規格委員会 (ISO/TC 97 - SC2) は文字セットの切り替えを行わずに世界中の文字を単一の文字集合として扱える文字コード規格 (ISO 10646) を作成することを決定し、専門のワークグループ (WG2) を設置した。当初、この文字コード規格は16ビットを想定し、その中に日本や中国など各国の漢字コード表をそのまま入れることを想定していた。しかし中国はこの方式では自国で現在策定中の漢字コードが全て入らなくなるとしてこの方針に反対し[要出典]、1989年、各国の漢字コードを統合した漢字集合HCCのアイデアを提案した。

1990年、完成したISO 10646の初版ドラフト (DIS 10646) では、漢字コードは32ビットで表現され、各国の漢字コードはそのまま入れることになった。しかし中国は漢字を各国でばらばらに符号化するのではなく、あくまで統一して扱うことを求めてこのドラフトには当初から反対しており、今後の漢字コードの方針を決めるため、ワークグループはCJK-JRGと呼ばれるグループを別途設置し、そこで引き続き検討することにした。

236 :デフォルトの名無しさん:2023/05/12(金) 09:03:55.43 ID:qO5bbQQ2.net
>>222
なるほどー。

そうすると統合漢字も自然なものに思えてきますね。国や言語毎に字体が違うだけなんだと。

237 :デフォルトの名無しさん:2023/05/13(土) 18:20:42.38 ID:qjeq2TF1.net
漢字の場合、国・言語ごとの字形の違いは
アルファベット書きの単語における国・言語ごとの綴りの違いに近いと思う。

同源の単語であれば他言語の綴りで書かれても一応意味は分かるが、
決してそれが自然だとは思われない。

漢字は統合によって「元の綴りがどうだったか」の情報が残らなくなってしまったので
言語判定をさぼってフォールバックフォント表示を通常運用にしたような環境では
他言語の綴りに化けた文書に頻繁に遭遇することになり違和感が募る。

238 :デフォルトの名無しさん:2023/05/13(土) 21:07:02.92 ID:uFhfbSOD.net
同じ漢字でも、簡体字って全然読めないよ…
違和感なんてレベルじゃないよ、あれ…

272 KB
新着レスの表示

掲示板に戻る 全部 前100 次100 最新50
名前: E-mail (省略可) :

read.cgi ver.24052200