2ちゃんねる ■掲示板に戻る■ 全部 1- 最新50    

文字コードの種類は何故複数あるのでしょうか?

1 :デフォルトの名無しさん:04/08/23 17:55.net
1つにしてくれればPGが苦労することはなくて
、ミンナうれしいはずなのに。

101 :デフォルトの名無しさん:2006/11/09(木) 12:34:39 .net
JISの文字コードがあれなのはそもそもが朝日新聞が適当に定めた文字だから

102 :デフォルトの名無しさん:2007/01/06(土) 11:43:23 .net
まず文字コードについてだが、コード云々の前に自然言語の整理が必要だと思う。
実際にはほとんど使われることがない文字のためにコード領域を使うのは無駄だから
そういう文字はどんどん淘汰してゆくべき。
あと、字体がそっくりな文字なんかもできるだけ1つに統合してしまったほうがいい。
そのあとで国(言語種別)ごとにコード領域を分けて、すべての文字を1つのコード体系に
収めるべき。

次に改行コードだが、全部LFで統一でOK。改行ごときに2バイトも必要ない。
既存のリソースは全部LFに変換してしまえばよい。
Windowsなんかでファイルの改行を勝手に変換する機能をサポートすれば、
CR+LFはいずれこの世から自然消滅するだろう。

最後にエンディアンについてだが、ビッグエンディアンに統一すべき。
人間が感覚的になじみやすいほうがいいから。

これらのことをやるにはそれなりの負担がかかるが、その結果得られるメリットを
考えたらすぐにでも取り掛かるべき。もちろん世界レベルで。

103 :デフォルトの名無しさん:2007/01/10(水) 13:15:10 .net
バベルの塔で神の怒りに触れ文字コードの種類が沢山になった。
これは事実で、(ry

104 :デフォルトの名無しさん:2007/01/10(水) 14:26:08 .net
JISとEUCはほぼ等価だから
漏れ的には扱い安さは
EUC > JIS >>> SJIS >>>>>>> UNICODE
だと思うよ

105 :デフォルトの名無しさん:2007/01/10(水) 14:28:45 .net
判定のしやすさで言えばJISは・・
UNICODEもそうだな、代わりにUTF-8とか使うが

106 :デフォルトの名無しさん:2007/01/10(水) 17:43:21 .net
援交ディングと門司セットの話がない交ぜに!

107 :デフォルトの名無しさん:2007/01/10(水) 18:11:17 .net
UTF-128あれば大丈夫だろ?

108 :デフォルトの名無しさん:2007/01/10(水) 18:15:07 .net
野球板 お約束その122
「しまってこーぜー」

「まずお前が社会の窓閉めろや」

109 :デフォルトの名無しさん:2007/01/10(水) 18:15:43 .net
ミスッた

110 :デフォルトの名無しさん:2007/01/10(水) 20:06:46 .net
言語は何故複数あるのでしょうか?
どうせなら言語も英語だけにしようよ。

パスがでたー

111 :デフォルトの名無しさん:2007/01/11(木) 09:38:18 .net
主食は何故複数あるのでしょうか?
どうせなら主食も米だけにしようよ。

112 :デフォルトの名無しさん:2007/01/11(木) 23:46:02 .net
>104
まさかとはおもうが、そのJISはCESとしてのISO-2022-JPの通称のことなのか?
それともCCSとしてのJISX208なのか。

113 :デフォルトの名無しさん:2007/01/24(水) 23:51:46 .net
だいたい文字をコード(数字)に置き換えなければならない
現代のコンピュータアーキテクチャが問題。

やっぱ文字は文字として扱えなきゃダメでしょ。

114 :デフォルトの名無しさん:2007/01/25(木) 09:34:43 .net
「文字を文字として扱う」っていうのは具体的にどういうことよ?

115 :デフォルトの名無しさん:2007/01/25(木) 10:01:33 .net
0から9、AからFまでの文字しか使わない

116 :デフォルトの名無しさん:2007/01/25(木) 11:25:11 .net
で、それらの文字を文字として扱うとはどういうこと?

117 :デフォルトの名無しさん:2007/02/10(土) 22:58:13 .net
あいう・・・と書かずに
a01001a01002a01003・・・

118 :デフォルトの名無しさん:2007/03/16(金) 03:44:15 .net
ベクトルデータとしてパターン認識させるとか?w

119 :デフォルトの名無しさん:2007/07/12(木) 19:45:19 .net
【日本語を扱える主な文字コード(“x-” 付きのものは IANA 非登録)】

Shift_JIS
Windows-31J
x-Mac-Japanese

ISO-2022-JP
ISO-2022-JP-2
x-CP50220

EUC-JP
x-CP51932

UTF-8
x-UTF-8N
x-UTF-8-BOM

UTF-7

UTF-16
UTF-16BE
UTF-16LE

120 :デフォルトの名無しさん:2007/07/12(木) 21:01:07 .net
UTF-32系は?

121 :・∀・)っ-○◎●:2007/08/09(木) 02:10:09 .net
UTF-9は?

122 :デフォルトの名無しさん:2007/08/09(木) 16:25:42 .net
UTF-18は?

123 :デフォルトの名無しさん:2007/08/09(木) 23:52:07 .net
Punycodeは?

124 :デフォルトの名無しさん:2007/08/13(月) 14:54:27 .net
Windows上でperlのCGIを作成していて、
ファイルの保存時に、漢字コードを指定しないと
保存できないのですが、
シフトJISと
JISと
EUCと、
どれを選択したらいいのでしょうか?
作成後はFFFTPでレンタルサーバーにアップロードしますが、
そのレンタルサーバーは当然UNIXなので、
UNIXで動かすということを考えればEUCで保存したほうが
いいのですか?
あと、C5の問題(表とか)を考えれば
シフトJISだと
表¥
っていちいち書かないと文字化けしますが、
EUCだったらそんな余計なこと考えないでいいと
いう記述も見つけました。
だったらEUCで保存しようかな?と思いましたが
それだとWindows上でソースコードの変更作業するときに
漢字が文字化けしないですか?
だってWindowsはシフトJISしか取り扱えないのだから。
結局何で保存すればいいのでしょうか?

125 :デフォルトの名無しさん:2007/08/13(月) 23:34:09 .net
>>124
・ShiftJisで書いてffftpで変換する。
・まともなエディタでEUCで書く。

126 :・∀・)っ-○◎●:2007/08/15(水) 03:02:00 .net
UNIXだからってサイトをEUCにしないといけないなんてことはない。
最近のLinuxは標準文字コードはUTF-8が多いよ。

XML対応とかも視野に入れるならできればUTF-8のほうがいい。
Shift-JISはね、HTMLだけならいいけどプログラム書くと何かとトラブルに遭いやすい。


127 :デフォルトの名無しさん:2007/08/15(水) 03:08:05 .net
そしてベンダ毎の変換表の違いやらのUnicode特有の問題になやまされるわけですね。

SJISでも機種依存文字とか、2バイト目に0x5C使ってるとか問題あるけど、
Unicode使っても薔薇色の未来が待ってるわけじゃない。
どっちかっつーと、長いものには巻かれろ的な感じの方が強い。

128 :デフォルトの名無しさん:2007/08/15(水) 10:36:44 .net
ハナからUnicode使ってれば変換表とか関係ないんじゃ?

129 :・∀・)っ-○◎●:2007/08/15(水) 23:28:24 .net
それは言える。

tDiaryでうかつにrecent-rssプラグイン使って2chのRSSを表示しようとすると
機種依存文字の関係でUNICODEの変換失敗で全部転ける。

130 :デフォルトの名無しさん:2007/08/16(木) 01:39:32 .net
>>128
ハナからUnicodeしか使って無くても、WAVE DASH使うと
Windowsのフォントでは汚くなるとかあるし無問題とはならない。

131 :デフォルトの名無しさん:2007/08/16(木) 05:24:15 .net
世界が今すぐに全てUnicodeに変るわけじゃないから、
>>128は実現不可能な夢。

そもそも狂っている変換表があるから、
元の意味/意図と違うUnicodeのデータが溜っていっている状況。

132 :デフォルトの名無しさん:2007/08/16(木) 10:12:50 .net
ダンゴさんの居るスレは活気があるな。

133 :デフォルトの名無しさん:2007/08/20(月) 17:54:12 .net
普通の日本語のサイトならEUC-JPかISO-2022-JPでいいだろ
ちょいと外国の文字使うくらいなら実体参照でも十分だし
Unicodeなんて混乱の極みにある物を使う気にはなれん

134 :デフォルトの名無しさん:2007/08/20(月) 20:15:12 .net
なんでウェブサイトの話になってるの?


135 :デフォルトの名無しさん:2007/08/26(日) 08:04:08 .net
あげ

136 :デフォルトの名無しさん:2007/08/30(木) 08:21:39 .net
ネットワークが一番文字コード問題が露呈しやすいからだろ

137 :デフォルトの名無しさん:2007/09/02(日) 18:33:34 .net
>>1
なんで人の言葉は複数あるんでしょうか?


138 :デフォルトの名無しさん:2007/09/04(火) 16:32:27 .net
バベルの塔を建てたから

139 :デフォルトの名無しさん:2007/09/08(土) 10:08:44 .net
JEFとかKEISとかその先にある厚生省系、労働省系の外字コードなんかがUnicodeに反映されていないってのがあるな

140 :デフォルトの名無しさん:2007/11/25(日) 16:28:52 .net
JISの文字コード表なんて
もうごちゃごちゃだな
80h〜9Fhなんて制御文字には使わないんだから
1区1点〜126区126点1つにまとめろよ

141 :デフォルトの名無しさん:2008/01/16(水) 23:18:53 .net
>>135
あるよ。
以上。
↓次の方どうぞ

142 :デフォルトの名無しさん:2008/05/07(水) 23:34:16 .net
age

143 :デフォルトの名無しさん:2008/05/12(月) 22:00:30 .net
sage

144 :デフォルトの名無しさん:2008/07/09(水) 23:50:48 .net
2208

145 :デフォルトの名無しさん:2008/12/23(火) 07:49:06 .net
>>139
JEF KEIS IBM JIPS(E/J)
これらの拡張も含めた文字は全てUTF-8で表現できるんじゃないの?

146 :デフォルトの名無しさん:2008/12/25(木) 21:09:50 .net
プライベートエリアを私用領域とか訳しちゃうセンスが在る限り文字コードは増え続けるさ


147 :デフォルトの名無しさん:2009/01/07(水) 12:48:00 .net
だれか文字コード総合スレの新スレ立ててー。

148 :デフォルトの名無しさん:2009/01/07(水) 21:23:47 .net
>>147
前スレ、一ヶ月書き込みなくて17レスで落ちてるみたいだけど、需要ないからじゃね?

149 :デフォルトの名無しさん:2009/01/07(水) 21:31:34 .net
この板、即死に引っ掛からなければ、数か月書き込みないのはざらなほう。

150 :デフォルトの名無しさん:2009/01/08(木) 00:03:07 .net
>>147
ここを乗っ取ればいいんじゃね?
>>148
誰もExt.Cには興味ないのか…
Unicodeメーリングリストも絵文字で絶賛炎上中だしな

151 :デフォルトの名無しさん:2009/01/08(木) 22:13:20 .net
>>149
ああ、即死食らったのか

まぁ、このスレで充分な気もするけど

152 :デフォルトの名無しさん:2009/01/12(月) 16:41:43 .net
http://www.unicode.org/mail-arch/unicode-ml/y2009-m01/0380.html
最近のUnicodeメーリングリストは顔が真っ赤で引くに引けなくなった人たちが
たくさんいるようだがこれはひどすぎる
日本では「犬」を「ケン」と読むこともあるなんて知らないんだろうな。
それとも「いぬ」と読む「犬」と「ケン」と読む「犬」は別字だとか言い出すんだろうか。
それ何てKS X 1001?

153 :デフォルトの名無しさん:2009/01/12(月) 19:52:02 .net
文字コードって65000くらいあるの?

154 :デフォルトの名無しさん:2009/01/12(月) 21:00:14 .net
100万くらいあります

155 :デフォルトの名無しさん:2009/01/15(木) 00:13:07 .net
絵文字レビュー終了のお知らせ

156 :デフォルトの名無しさん:2009/01/18(日) 23:15:58 .net
国ごとに専用の(速度重視の)エンコーディング一つとUnicodeだけにしてほしい

157 :デフォルトの名無しさん:2009/01/18(日) 23:17:53 .net
>>157
日本は何にするの?

158 :デフォルトの名無しさん:2009/01/26(月) 11:26:56 .net
http://twitter.com/wraith13/status/1147555396

159 :デフォルトの名無しさん:2009/01/26(月) 12:52:12 .net
>>157
JIS_X201で。

160 :デフォルトの名無しさん:2009/01/26(月) 23:24:33 .net
http://smallbear.sakura.ne.jp/tron/btm20091.html#20090123
まるで人ごとのように書いてますけど
TRONコードでは&T224C71;と&T224C72;のどっちなんですか?
ていうか「&T224C71;と&T224C72;の区別すらできない欠陥規格だ!」式の批判は
(JIS|Unicode)叩きの定番だったような気がするんですが。
ていうかTフォントマダー? (AAry

161 :デフォルトの名無しさん:2009/01/27(火) 01:10:46 .net
「…お母さん?俺やけど…」
「…TRONか?…」
「うん…俺、包摂分離してしもて…」
「もう、包摂分離の事は気にせんでいいから、成仏して…」

162 :デフォルトの名無しさん:2009/01/27(火) 08:05:57 .net
ちなみに今昔文字鏡では*****(検閲削除されました)番と*****(検閲削除されました)番。
いや実際には調べてないけど絶対分離されてるに違いないし

163 :マイク ◆gZ6OoOjBU6 :2009/02/05(木) 08:39:33 .net
UnicodeだかUTF16だか知らんが
サロゲート文字の処理に関する脆弱性が色々なブラウザで報告されたりしてた。
2001年頃に2chで西村博之が誰かに指摘されてたウニコードに関する問題ってそれのことだったのかな。

164 :マイク ◆gZ6OoOjBU6 :2009/02/05(木) 08:49:15 .net
これだわこれ。
blackhatコンファレンスで長谷川洋介って人だっけ?
それが発表してた文字コードに関する脆弱性に関する論文に近いもの。
見てない奴は見てみ
参考になんぞ

https://www.blackhat.com/presentations/bh-jp-08/bh-jp-08-Hasegawa/BlackHat-japan-08-Hasegawa-Char-Encoding.pdf

165 :デフォルトの名無しさん:2009/02/06(金) 15:04:05 .net
Gmailが絵文字を全世界的に公式アナウンス。

https://mail.google.com/mail/help/about_whatsnew.html

> Emoticons - they're not just for chat anymore
> Express yourself with emoticons from to (小さい笑い顔) or (カニ) even (ハエうんこ).
> Click the (小さい笑い顔) button when composing a message
> in "Rich formatting" mode, or choose the new emoticons tab in chat,
> and express yourself to your ハートマーク)'s desire.
> Learn more (http://mail.google.com/support/bin/answer.py?hl=en&answer=112518)

https://mail.google.com/mail/help/images/whatsnew/emoji_smile.gif
を絵文字アイコンに決定した模様。

「even ハエうんこ」ワロタ

166 :デフォルトの名無しさん:2009/02/07(土) 08:19:39 .net
Sun-ExtBが更新されて、Extension Cの正式版に対応してた。
>>165
それはちょっと前に話題になってたUnicode絵文字じゃなくてリッチテキスト方式かな

167 :デフォルトの名無しさん:2009/02/07(土) 09:20:45 .net
UTF-16サロゲートペアをUTF-8に変換出来ますか?

168 :デフォルトの名無しさん:2009/02/07(土) 12:12:34 .net
>>167
いったんUnicode scalar valueを求めてからUTF-8に変換してください。
サロゲートのコードポイント(D800..DFFF)をそのままUTF-8にするのは不正です。

169 :デフォルトの名無しさん:2009/02/08(日) 01:58:04 .net
日本人になまじ技術力があったから日本製PCが一時期国内でシェアを占め
独自のPC漢字文化が創られた。これがすべての始まり。

170 :デフォルトの名無しさん:2009/02/08(日) 13:24:01 .net
で、ケータイの世界でもまったく同じようにガラパゴスケータイがシェアを占めて
独自の絵文字文化が発達したわけですね、わかります。

進歩しろよ

171 :デフォルトの名無しさん:2009/02/10(火) 11:08:47 .net
絵文字はユニコードに入りますよ、たぶん。

172 :デフォルトの名無しさん:2009/02/11(水) 01:08:00 .net
日本のケータイメーカーが音頭を取って入れたわけではないけどね。
漢字だってAdobeの活動でようやく異体字の使い分けが(原理上は)できるようになった

173 :デフォルトの名無しさん:2009/02/13(金) 07:51:40 .net
http://www.kumikomi.net/article/report/2009/01tron/01.html
> 2009年の早い時期に,
もう出す出す詐欺はいいよ
> 第1期 236,025字の一般リリース(Webからの無償ダウンロード)を予定しているという.
GT78,675字×3書体を先に出すことにしたのか

174 :デフォルトの名無しさん:2009/02/17(火) 21:04:27 .net
久しぶりにSMPのroadmapを見たらU+1B100あたりに「(Historic Kana)」というのがあった。
http://www.unicode.org/roadmaps/smp/
歴史的仮名遣いに必要な文字はすべて収録済みのはずだから
変体仮名の追加提案かな

175 :デフォルトの名無しさん:2009/02/17(火) 21:25:54 .net
"historical"じゃないのは何故だろう?

176 :デフォルトの名無しさん:2009/02/17(火) 23:03:24 .net
この前提案されてたKATAKANA LETTER ORIGINAL E(片仮名の元々のア行の「エ」、「衣」に由来)もそこに入るのかも知れない。
同時に提案されてたHIRAGANA LETTER YE(平仮名ヤ行の「え」、「江」に由来)は平仮名ブロックの空きの内の一つU+3097にほぼ決定みたいだが、
片仮名ブロックはもう空きが無いからな。

177 :デフォルトの名無しさん:2009/02/22(日) 18:58:47 .net
http://fezn.exblog.jp/10234044/
一太郎ってIVS対応してたの? マジ?

178 :デフォルトの名無しさん:2009/02/23(月) 23:33:42 .net
> 今後は「出典をすべてscanデータで出すべし」という方針に。
> だが、律儀に守っているのは日本と中国ぐらい。。
> 未提出多数とか、「人名だから」出さずじまいとか、出典非明示→取り下げ、とか。
UCSがゴミまみれになるのを防ぐことに一定の効果を上げてるわけだな。いいことだ。

179 :デフォルトの名無しさん:2009/02/24(火) 15:45:03 .net
>>177
今後の話だろ。

180 :デフォルトの名無しさん:2009/02/25(水) 22:50:21 .net
今後の話だったら「ブラウザはまだ」って書いてるのが変だ

181 :デフォルトの名無しさん:2009/03/03(火) 22:09:24 .net
U+1B000がKATAKANA LETTER ARCHAIC E(片仮名「衣」由来のア行の「エ」)になってた。
名前がORIGINAL E(元々の「エ」)からARCHAIC E(古代の「エ」)に変更されてた。
平仮名ヤ行の「え」と違ってBMP外になってしまうけどしょうがないか。
Historic KanaというブロックでU+1B000から256文字分予約されたけど今後変体仮名とか重要な昔の仮名をU+1B001以降にも追加していくつもりなのかな?

182 :デフォルトの名無しさん:2009/03/04(水) 00:21:44 .net
256で足りるのw?
そこら辺の文字はよく知らないけど512から1024くらいあってもいいような。

183 :デフォルトの名無しさん:2009/03/04(水) 00:29:59 .net
変体かなは良く分からないけど、ここのページを見る限り、平仮名だけでも軽く600以上ありそう。
ttp://www10.plala.or.jp/koin/koinhentaigana.html


184 :デフォルトの名無しさん:2009/03/04(水) 12:43:59 .net
住基仮名だけなら256で足りるがな。

185 :デフォルトの名無しさん:2009/03/05(木) 07:38:01 .net
1バイト目に文字種を表すもんだけいれて後は可変でよろしくやればいいと思った
最低2バイト〜な感じで

186 :デフォルトの名無しさん:2009/03/05(木) 17:50:02 .net
欧米人にはそれが理解できんのですよ。

たとえば、”うまれつき目の見えないひと” を想像してみてください。
その人に「海は青い」という事を、いったいどうやって教えればいいのか。
そのひとには、赤も青も黄色も無いんです。色という概念が全く無いんです。
だから理解不可能です。

3次元の世界で生活している我々が4次元の世界を理解できないのと同じく
1文字1バイト圏で生活している欧米人には、1文字が2バイト、3バイトになるのが
理解できんのです。ヤツらにとってマルチバイト文化は4次元の世界なのです。

187 :デフォルトの名無しさん:2009/03/05(木) 18:06:53 .net
物理的に無理なのと一緒にされても。

188 :デフォルトの名無しさん:2009/03/05(木) 19:19:15 .net
文字コード総合の次スレはここでござるな? しからば過去スレを貼り。

【UTF8】文字コード変換【SJIS】
http://pc5.2ch.net/test/read.cgi/tech/1063177450/
文字コード統一スレ 1文字目
http://pc8.2ch.net/test/read.cgi/tech/1109171258/
文字コード総合スレ part2
http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3
http://pc11.2ch.net/test/read.cgi/tech/1180250376/


189 :デフォルトの名無しさん:2009/03/05(木) 20:24:38 .net
>>185
いきなり可変でよろしくやってるのがUTF-8です。

190 :デフォルトの名無しさん:2009/03/05(木) 21:44:14 .net
>>184
たとえば「安」から「あ」へ連続的に変化していく過程の文字の数々にどうやって包摂規準を
設定するのか、とか考えると住基仮名のようなclosed setしかありえない気がする

191 :デフォルトの名無しさん:2009/03/07(土) 02:01:46 .net
変体でも「あ」なら「あ」なのだから、「あ」に対して異体字セレクタの対応を決めればいいだけなんじゃね?
256種類まで対応できるんだから、多分足りるでしょ。
足りなきゃ、異体字セレクタの方を増やせばいい。


192 :デフォルトの名無しさん:2009/03/07(土) 14:29:53 .net
U+E0100〜U+E01EFは漢字専用じゃなかったっけ?

193 :デフォルトの名無しさん:2009/03/07(土) 15:36:34 .net
それよりアラビア文字みたいに前後の文字で字形を変えるのを
サポートする必要があるんじゃないか

194 :デフォルトの名無しさん:2009/03/07(土) 19:27:11 .net
・縦書き
・前後の状況で字形を変える必要がある
・異体字セレクタに対応が必要
それなんてモンゴル文字?

195 :デフォルトの名無しさん:2009/03/07(土) 22:28:59 .net
草書を標準化するところから始めないと…

196 :デフォルトの名無しさん:2009/03/08(日) 11:10:41 .net
アラビア文字がまさに草書の電子化

197 :デフォルトの名無しさん:2009/03/09(月) 02:11:40 .net
文字コード総合スレ part5
http://pc11.2ch.net/test/read.cgi/tech/1236529563/l50
作ってきた。 
即死回避に、だれか頼む。 
あと、テンプレがまだ(40行)残ってるので。現在連投規制(5回)で書き込めないのを何とかしないといけない。


198 :デフォルトの名無しさん:2009/03/09(月) 02:23:53 .net
●かえ

199 :デフォルトの名無しさん:2009/03/09(月) 02:36:52 .net
●持ってない
取り合えず見切り発車してくれ。

200 :デフォルトの名無しさん:2009/03/09(月) 22:10:13 .net
>>197


どんだけ書けば即死回避するんだっけ

88 KB
新着レスの表示

掲示板に戻る 全部 前100 次100 最新50
名前: E-mail (省略可) :

read.cgi ver 2014.07.20.01.SC 2014/07/20 D ★