文字コードの種類は何故複数あるのでしょうか?
1 :デフォルトの名無しさん :04/08/23 17:55.net 1つにしてくれればPGが苦労することはなくて 、ミンナうれしいはずなのに。
101 :デフォルトの名無しさん :2006/11/09(木) 12:34:39 .net JISの文字コードがあれなのはそもそもが朝日新聞が適当に定めた文字だから
102 :デフォルトの名無しさん :2007/01/06(土) 11:43:23 .net まず文字コードについてだが、コード云々の前に自然言語の整理が必要だと思う。 実際にはほとんど使われることがない文字のためにコード領域を使うのは無駄だから そういう文字はどんどん淘汰してゆくべき。 あと、字体がそっくりな文字なんかもできるだけ1つに統合してしまったほうがいい。 そのあとで国(言語種別)ごとにコード領域を分けて、すべての文字を1つのコード体系に 収めるべき。 次に改行コードだが、全部LFで統一でOK。改行ごときに2バイトも必要ない。 既存のリソースは全部LFに変換してしまえばよい。 Windowsなんかでファイルの改行を勝手に変換する機能をサポートすれば、 CR+LFはいずれこの世から自然消滅するだろう。 最後にエンディアンについてだが、ビッグエンディアンに統一すべき。 人間が感覚的になじみやすいほうがいいから。 これらのことをやるにはそれなりの負担がかかるが、その結果得られるメリットを 考えたらすぐにでも取り掛かるべき。もちろん世界レベルで。
103 :デフォルトの名無しさん :2007/01/10(水) 13:15:10 .net バベルの塔で神の怒りに触れ文字コードの種類が沢山になった。 これは事実で、(ry
104 :デフォルトの名無しさん :2007/01/10(水) 14:26:08 .net JISとEUCはほぼ等価だから 漏れ的には扱い安さは EUC > JIS >>> SJIS >>>>>>> UNICODE だと思うよ
105 :デフォルトの名無しさん :2007/01/10(水) 14:28:45 .net 判定のしやすさで言えばJISは・・ UNICODEもそうだな、代わりにUTF-8とか使うが
106 :デフォルトの名無しさん :2007/01/10(水) 17:43:21 .net 援交ディングと門司セットの話がない交ぜに!
107 :デフォルトの名無しさん :2007/01/10(水) 18:11:17 .net UTF-128あれば大丈夫だろ?
108 :デフォルトの名無しさん :2007/01/10(水) 18:15:07 .net 野球板 お約束その122 「しまってこーぜー」 ↓ 「まずお前が社会の窓閉めろや」
109 :デフォルトの名無しさん :2007/01/10(水) 18:15:43 .net ミスッた
110 :デフォルトの名無しさん :2007/01/10(水) 20:06:46 .net 言語は何故複数あるのでしょうか? どうせなら言語も英語だけにしようよ。 パスがでたー
111 :デフォルトの名無しさん :2007/01/11(木) 09:38:18 .net 主食は何故複数あるのでしょうか? どうせなら主食も米だけにしようよ。
112 :デフォルトの名無しさん :2007/01/11(木) 23:46:02 .net >104 まさかとはおもうが、そのJISはCESとしてのISO-2022-JPの通称のことなのか? それともCCSとしてのJISX208なのか。
113 :デフォルトの名無しさん :2007/01/24(水) 23:51:46 .net だいたい文字をコード(数字)に置き換えなければならない 現代のコンピュータアーキテクチャが問題。 やっぱ文字は文字として扱えなきゃダメでしょ。
114 :デフォルトの名無しさん :2007/01/25(木) 09:34:43 .net 「文字を文字として扱う」っていうのは具体的にどういうことよ?
115 :デフォルトの名無しさん :2007/01/25(木) 10:01:33 .net 0から9、AからFまでの文字しか使わない
116 :デフォルトの名無しさん :2007/01/25(木) 11:25:11 .net で、それらの文字を文字として扱うとはどういうこと?
117 :デフォルトの名無しさん :2007/02/10(土) 22:58:13 .net あいう・・・と書かずに a01001a01002a01003・・・
118 :デフォルトの名無しさん :2007/03/16(金) 03:44:15 .net ベクトルデータとしてパターン認識させるとか?w
119 :デフォルトの名無しさん :2007/07/12(木) 19:45:19 .net 【日本語を扱える主な文字コード(“x-” 付きのものは IANA 非登録)】 Shift_JIS Windows-31J x-Mac-Japanese ISO-2022-JP ISO-2022-JP-2 x-CP50220 EUC-JP x-CP51932 UTF-8 x-UTF-8N x-UTF-8-BOM UTF-7 UTF-16 UTF-16BE UTF-16LE
120 :デフォルトの名無しさん :2007/07/12(木) 21:01:07 .net UTF-32系は?
121 :・∀・)っ-○◎● :2007/08/09(木) 02:10:09 .net UTF-9は?
122 :デフォルトの名無しさん :2007/08/09(木) 16:25:42 .net UTF-18は?
123 :デフォルトの名無しさん :2007/08/09(木) 23:52:07 .net Punycodeは?
124 :デフォルトの名無しさん :2007/08/13(月) 14:54:27 .net Windows上でperlのCGIを作成していて、 ファイルの保存時に、漢字コードを指定しないと 保存できないのですが、 シフトJISと JISと EUCと、 どれを選択したらいいのでしょうか? 作成後はFFFTPでレンタルサーバーにアップロードしますが、 そのレンタルサーバーは当然UNIXなので、 UNIXで動かすということを考えればEUCで保存したほうが いいのですか? あと、C5の問題(表とか)を考えれば シフトJISだと 表¥ っていちいち書かないと文字化けしますが、 EUCだったらそんな余計なこと考えないでいいと いう記述も見つけました。 だったらEUCで保存しようかな?と思いましたが それだとWindows上でソースコードの変更作業するときに 漢字が文字化けしないですか? だってWindowsはシフトJISしか取り扱えないのだから。 結局何で保存すればいいのでしょうか?
125 :デフォルトの名無しさん :2007/08/13(月) 23:34:09 .net >>124 ・ShiftJisで書いてffftpで変換する。 ・まともなエディタでEUCで書く。
126 :・∀・)っ-○◎● :2007/08/15(水) 03:02:00 .net UNIXだからってサイトをEUCにしないといけないなんてことはない。 最近のLinuxは標準文字コードはUTF-8が多いよ。 XML対応とかも視野に入れるならできればUTF-8のほうがいい。 Shift-JISはね、HTMLだけならいいけどプログラム書くと何かとトラブルに遭いやすい。
127 :デフォルトの名無しさん :2007/08/15(水) 03:08:05 .net そしてベンダ毎の変換表の違いやらのUnicode特有の問題になやまされるわけですね。 SJISでも機種依存文字とか、2バイト目に0x5C使ってるとか問題あるけど、 Unicode使っても薔薇色の未来が待ってるわけじゃない。 どっちかっつーと、長いものには巻かれろ的な感じの方が強い。
128 :デフォルトの名無しさん :2007/08/15(水) 10:36:44 .net ハナからUnicode使ってれば変換表とか関係ないんじゃ?
129 :・∀・)っ-○◎● :2007/08/15(水) 23:28:24 .net それは言える。 tDiaryでうかつにrecent-rssプラグイン使って2chのRSSを表示しようとすると 機種依存文字の関係でUNICODEの変換失敗で全部転ける。
130 :デフォルトの名無しさん :2007/08/16(木) 01:39:32 .net >>128 ハナからUnicodeしか使って無くても、WAVE DASH使うと Windowsのフォントでは汚くなるとかあるし無問題とはならない。
131 :デフォルトの名無しさん :2007/08/16(木) 05:24:15 .net 世界が今すぐに全てUnicodeに変るわけじゃないから、 >>128 は実現不可能な夢。 そもそも狂っている変換表があるから、 元の意味/意図と違うUnicodeのデータが溜っていっている状況。
132 :デフォルトの名無しさん :2007/08/16(木) 10:12:50 .net ダンゴさんの居るスレは活気があるな。
133 :デフォルトの名無しさん :2007/08/20(月) 17:54:12 .net 普通の日本語のサイトならEUC-JPかISO-2022-JPでいいだろ ちょいと外国の文字使うくらいなら実体参照でも十分だし Unicodeなんて混乱の極みにある物を使う気にはなれん
134 :デフォルトの名無しさん :2007/08/20(月) 20:15:12 .net なんでウェブサイトの話になってるの?
135 :デフォルトの名無しさん :2007/08/26(日) 08:04:08 .net あげ
136 :デフォルトの名無しさん :2007/08/30(木) 08:21:39 .net ネットワークが一番文字コード問題が露呈しやすいからだろ
137 :デフォルトの名無しさん :2007/09/02(日) 18:33:34 .net >>1 なんで人の言葉は複数あるんでしょうか?
138 :デフォルトの名無しさん :2007/09/04(火) 16:32:27 .net バベルの塔を建てたから
139 :デフォルトの名無しさん :2007/09/08(土) 10:08:44 .net JEFとかKEISとかその先にある厚生省系、労働省系の外字コードなんかがUnicodeに反映されていないってのがあるな
140 :デフォルトの名無しさん :2007/11/25(日) 16:28:52 .net JISの文字コード表なんて もうごちゃごちゃだな 80h〜9Fhなんて制御文字には使わないんだから 1区1点〜126区126点1つにまとめろよ
141 :デフォルトの名無しさん :2008/01/16(水) 23:18:53 .net >>135 あるよ。 以上。 ↓次の方どうぞ
142 :デフォルトの名無しさん :2008/05/07(水) 23:34:16 .net age
143 :デフォルトの名無しさん :2008/05/12(月) 22:00:30 .net sage
144 :デフォルトの名無しさん :2008/07/09(水) 23:50:48 .net 2208
145 :デフォルトの名無しさん :2008/12/23(火) 07:49:06 .net >>139 JEF KEIS IBM JIPS(E/J) これらの拡張も含めた文字は全てUTF-8で表現できるんじゃないの?
146 :デフォルトの名無しさん :2008/12/25(木) 21:09:50 .net プライベートエリアを私用領域とか訳しちゃうセンスが在る限り文字コードは増え続けるさ
147 :デフォルトの名無しさん :2009/01/07(水) 12:48:00 .net だれか文字コード総合スレの新スレ立ててー。
148 :デフォルトの名無しさん :2009/01/07(水) 21:23:47 .net >>147 前スレ、一ヶ月書き込みなくて17レスで落ちてるみたいだけど、需要ないからじゃね?
149 :デフォルトの名無しさん :2009/01/07(水) 21:31:34 .net この板、即死に引っ掛からなければ、数か月書き込みないのはざらなほう。
150 :デフォルトの名無しさん :2009/01/08(木) 00:03:07 .net >>147 ここを乗っ取ればいいんじゃね? >>148 誰もExt.Cには興味ないのか… Unicodeメーリングリストも絵文字で絶賛炎上中だしな
151 :デフォルトの名無しさん :2009/01/08(木) 22:13:20 .net >>149 ああ、即死食らったのか まぁ、このスレで充分な気もするけど
152 :デフォルトの名無しさん :2009/01/12(月) 16:41:43 .net http://www.unicode.org/mail-arch/unicode-ml/y2009-m01/0380.html 最近のUnicodeメーリングリストは顔が真っ赤で引くに引けなくなった人たちが たくさんいるようだがこれはひどすぎる 日本では「犬」を「ケン」と読むこともあるなんて知らないんだろうな。 それとも「いぬ」と読む「犬」と「ケン」と読む「犬」は別字だとか言い出すんだろうか。 それ何てKS X 1001?
153 :デフォルトの名無しさん :2009/01/12(月) 19:52:02 .net 文字コードって65000くらいあるの?
154 :デフォルトの名無しさん :2009/01/12(月) 21:00:14 .net 100万くらいあります
155 :デフォルトの名無しさん :2009/01/15(木) 00:13:07 .net 絵文字レビュー終了のお知らせ
156 :デフォルトの名無しさん :2009/01/18(日) 23:15:58 .net 国ごとに専用の(速度重視の)エンコーディング一つとUnicodeだけにしてほしい
157 :デフォルトの名無しさん :2009/01/18(日) 23:17:53 .net >>157 日本は何にするの?
158 :デフォルトの名無しさん :2009/01/26(月) 11:26:56 .net http://twitter.com/wraith13/status/1147555396
159 :デフォルトの名無しさん :2009/01/26(月) 12:52:12 .net >>157 JIS_X201で。
160 :デフォルトの名無しさん :2009/01/26(月) 23:24:33 .net http://smallbear.sakura.ne.jp/tron/btm20091.html#20090123 まるで人ごとのように書いてますけど TRONコードでは&T224C71;と&T224C72;のどっちなんですか? ていうか「&T224C71;と&T224C72;の区別すらできない欠陥規格だ!」式の批判は (JIS|Unicode)叩きの定番だったような気がするんですが。 ていうかTフォントマダー? (AAry
161 :デフォルトの名無しさん :2009/01/27(火) 01:10:46 .net 「…お母さん?俺やけど…」 「…TRONか?…」 「うん…俺、包摂分離してしもて…」 「もう、包摂分離の事は気にせんでいいから、成仏して…」
162 :デフォルトの名無しさん :2009/01/27(火) 08:05:57 .net ちなみに今昔文字鏡では*****(検閲削除されました)番と*****(検閲削除されました)番。 いや実際には調べてないけど絶対分離されてるに違いないし
163 :マイク ◆gZ6OoOjBU6 :2009/02/05(木) 08:39:33 .net UnicodeだかUTF16だか知らんが サロゲート文字の処理に関する脆弱性が色々なブラウザで報告されたりしてた。 2001年頃に2chで西村博之が誰かに指摘されてたウニコードに関する問題ってそれのことだったのかな。
164 :マイク ◆gZ6OoOjBU6 :2009/02/05(木) 08:49:15 .net これだわこれ。 blackhatコンファレンスで長谷川洋介って人だっけ? それが発表してた文字コードに関する脆弱性に関する論文に近いもの。 見てない奴は見てみ 参考になんぞ https://www.blackhat.com/presentations/bh-jp-08/bh-jp-08-Hasegawa/BlackHat-japan-08-Hasegawa-Char-Encoding.pdf
165 :デフォルトの名無しさん :2009/02/06(金) 15:04:05 .net Gmailが絵文字を全世界的に公式アナウンス。 https://mail.google.com/mail/help/about_whatsnew.html > Emoticons - they're not just for chat anymore > Express yourself with emoticons from to (小さい笑い顔) or (カニ) even (ハエうんこ). > Click the (小さい笑い顔) button when composing a message > in "Rich formatting" mode, or choose the new emoticons tab in chat, > and express yourself to your ハートマーク)'s desire. > Learn more (http://mail.google.com/support/bin/answer.py?hl=en&answer=112518) https://mail.google.com/mail/help/images/whatsnew/emoji_smile.gif を絵文字アイコンに決定した模様。 「even ハエうんこ」ワロタ
166 :デフォルトの名無しさん :2009/02/07(土) 08:19:39 .net Sun-ExtBが更新されて、Extension Cの正式版に対応してた。 >>165 それはちょっと前に話題になってたUnicode絵文字じゃなくてリッチテキスト方式かな
167 :デフォルトの名無しさん :2009/02/07(土) 09:20:45 .net UTF-16サロゲートペアをUTF-8に変換出来ますか?
168 :デフォルトの名無しさん :2009/02/07(土) 12:12:34 .net >>167 いったんUnicode scalar valueを求めてからUTF-8に変換してください。 サロゲートのコードポイント(D800..DFFF)をそのままUTF-8にするのは不正です。
169 :デフォルトの名無しさん :2009/02/08(日) 01:58:04 .net 日本人になまじ技術力があったから日本製PCが一時期国内でシェアを占め 独自のPC漢字文化が創られた。これがすべての始まり。
170 :デフォルトの名無しさん :2009/02/08(日) 13:24:01 .net で、ケータイの世界でもまったく同じようにガラパゴスケータイがシェアを占めて 独自の絵文字文化が発達したわけですね、わかります。 進歩しろよ
171 :デフォルトの名無しさん :2009/02/10(火) 11:08:47 .net 絵文字はユニコードに入りますよ、たぶん。
172 :デフォルトの名無しさん :2009/02/11(水) 01:08:00 .net 日本のケータイメーカーが音頭を取って入れたわけではないけどね。 漢字だってAdobeの活動でようやく異体字の使い分けが(原理上は)できるようになった
173 :デフォルトの名無しさん :2009/02/13(金) 07:51:40 .net http://www.kumikomi.net/article/report/2009/01tron/01.html > 2009年の早い時期に, もう出す出す詐欺はいいよ > 第1期 236,025字の一般リリース(Webからの無償ダウンロード)を予定しているという. GT78,675字×3書体を先に出すことにしたのか
174 :デフォルトの名無しさん :2009/02/17(火) 21:04:27 .net 久しぶりにSMPのroadmapを見たらU+1B100あたりに「(Historic Kana)」というのがあった。 http://www.unicode.org/roadmaps/smp/ 歴史的仮名遣いに必要な文字はすべて収録済みのはずだから 変体仮名の追加提案かな
175 :デフォルトの名無しさん :2009/02/17(火) 21:25:54 .net "historical"じゃないのは何故だろう?
176 :デフォルトの名無しさん :2009/02/17(火) 23:03:24 .net この前提案されてたKATAKANA LETTER ORIGINAL E(片仮名の元々のア行の「エ」、「衣」に由来)もそこに入るのかも知れない。 同時に提案されてたHIRAGANA LETTER YE(平仮名ヤ行の「え」、「江」に由来)は平仮名ブロックの空きの内の一つU+3097にほぼ決定みたいだが、 片仮名ブロックはもう空きが無いからな。
177 :デフォルトの名無しさん :2009/02/22(日) 18:58:47 .net http://fezn.exblog.jp/10234044/ 一太郎ってIVS対応してたの? マジ?
178 :デフォルトの名無しさん :2009/02/23(月) 23:33:42 .net > 今後は「出典をすべてscanデータで出すべし」という方針に。 > だが、律儀に守っているのは日本と中国ぐらい。。 > 未提出多数とか、「人名だから」出さずじまいとか、出典非明示→取り下げ、とか。 UCSがゴミまみれになるのを防ぐことに一定の効果を上げてるわけだな。いいことだ。
179 :デフォルトの名無しさん :2009/02/24(火) 15:45:03 .net >>177 今後の話だろ。
180 :デフォルトの名無しさん :2009/02/25(水) 22:50:21 .net 今後の話だったら「ブラウザはまだ」って書いてるのが変だ
181 :デフォルトの名無しさん :2009/03/03(火) 22:09:24 .net U+1B000がKATAKANA LETTER ARCHAIC E(片仮名「衣」由来のア行の「エ」)になってた。 名前がORIGINAL E(元々の「エ」)からARCHAIC E(古代の「エ」)に変更されてた。 平仮名ヤ行の「え」と違ってBMP外になってしまうけどしょうがないか。 Historic KanaというブロックでU+1B000から256文字分予約されたけど今後変体仮名とか重要な昔の仮名をU+1B001以降にも追加していくつもりなのかな?
182 :デフォルトの名無しさん :2009/03/04(水) 00:21:44 .net 256で足りるのw? そこら辺の文字はよく知らないけど512から1024くらいあってもいいような。
183 :デフォルトの名無しさん :2009/03/04(水) 00:29:59 .net 変体かなは良く分からないけど、ここのページを見る限り、平仮名だけでも軽く600以上ありそう。 ttp://www10.plala.or.jp/koin/koinhentaigana.html
184 :デフォルトの名無しさん :2009/03/04(水) 12:43:59 .net 住基仮名だけなら256で足りるがな。
185 :デフォルトの名無しさん :2009/03/05(木) 07:38:01 .net 1バイト目に文字種を表すもんだけいれて後は可変でよろしくやればいいと思った 最低2バイト〜な感じで
186 :デフォルトの名無しさん :2009/03/05(木) 17:50:02 .net 欧米人にはそれが理解できんのですよ。 たとえば、”うまれつき目の見えないひと” を想像してみてください。 その人に「海は青い」という事を、いったいどうやって教えればいいのか。 そのひとには、赤も青も黄色も無いんです。色という概念が全く無いんです。 だから理解不可能です。 3次元の世界で生活している我々が4次元の世界を理解できないのと同じく 1文字1バイト圏で生活している欧米人には、1文字が2バイト、3バイトになるのが 理解できんのです。ヤツらにとってマルチバイト文化は4次元の世界なのです。
187 :デフォルトの名無しさん :2009/03/05(木) 18:06:53 .net 物理的に無理なのと一緒にされても。
188 :デフォルトの名無しさん :2009/03/05(木) 19:19:15 .net 文字コード総合の次スレはここでござるな? しからば過去スレを貼り。 【UTF8】文字コード変換【SJIS】 http://pc5.2ch.net/test/read.cgi/tech/1063177450/ 文字コード統一スレ 1文字目 http://pc8.2ch.net/test/read.cgi/tech/1109171258/ 文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/ 文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
189 :デフォルトの名無しさん :2009/03/05(木) 20:24:38 .net >>185 いきなり可変でよろしくやってるのがUTF-8です。
190 :デフォルトの名無しさん :2009/03/05(木) 21:44:14 .net >>184 たとえば「安」から「あ」へ連続的に変化していく過程の文字の数々にどうやって包摂規準を 設定するのか、とか考えると住基仮名のようなclosed setしかありえない気がする
191 :デフォルトの名無しさん :2009/03/07(土) 02:01:46 .net 変体でも「あ」なら「あ」なのだから、「あ」に対して異体字セレクタの対応を決めればいいだけなんじゃね? 256種類まで対応できるんだから、多分足りるでしょ。 足りなきゃ、異体字セレクタの方を増やせばいい。
192 :デフォルトの名無しさん :2009/03/07(土) 14:29:53 .net U+E0100〜U+E01EFは漢字専用じゃなかったっけ?
193 :デフォルトの名無しさん :2009/03/07(土) 15:36:34 .net それよりアラビア文字みたいに前後の文字で字形を変えるのを サポートする必要があるんじゃないか
194 :デフォルトの名無しさん :2009/03/07(土) 19:27:11 .net ・縦書き ・前後の状況で字形を変える必要がある ・異体字セレクタに対応が必要 それなんてモンゴル文字?
195 :デフォルトの名無しさん :2009/03/07(土) 22:28:59 .net 草書を標準化するところから始めないと…
196 :デフォルトの名無しさん :2009/03/08(日) 11:10:41 .net アラビア文字がまさに草書の電子化
197 :デフォルトの名無しさん :2009/03/09(月) 02:11:40 .net 文字コード総合スレ part5 http://pc11.2ch.net/test/read.cgi/tech/1236529563/l50 作ってきた。 即死回避に、だれか頼む。 あと、テンプレがまだ(40行)残ってるので。現在連投規制(5回)で書き込めないのを何とかしないといけない。
198 :デフォルトの名無しさん :2009/03/09(月) 02:23:53 .net ●かえ
199 :デフォルトの名無しさん :2009/03/09(月) 02:36:52 .net ●持ってない 取り合えず見切り発車してくれ。
200 :デフォルトの名無しさん :2009/03/09(月) 22:10:13 .net >>197 乙 どんだけ書けば即死回避するんだっけ
88 KB
新着レスの表示
掲示板に戻る
全部
前100
次100
最新50
read.cgi ver 2014.07.20.01.SC 2014/07/20 D ★
本文 スレッドタイトル 投稿者