文字コード総合スレ part14
254 :デフォルトの名無しさん :2023/05/14(日) 18:47:52.94 ID:sJ4QSX2k.net >当用漢字で碍を害に置き換えたせいで、 嘘はここだな。 その流れは戦前からあったと。
255 :デフォルトの名無しさん :2023/05/14(日) 18:50:56.65 ID:c+bjkz0t.net >>254 昔から混用があったのと、政府が正式に使用を禁止したのでは全然意味が違う。
256 :デフォルトの名無しさん :2023/05/14(日) 18:56:05.62 ID:sJ4QSX2k.net >当用漢字で碍を害に置き換えたせいで、この2つが衝突した。 せいで衝突したんじゃないな。
257 :デフォルトの名無しさん :2023/05/14(日) 18:58:21.13 ID:c+bjkz0t.net >>256 衝突してるじゃん。学識がある人には使い分けができてたのに、使い分けが禁止になってる。
258 :デフォルトの名無しさん :2023/05/14(日) 19:08:36.54 ID:sJ4QSX2k.net それよりも前から衝突はしてるだろう。 あと当用漢字をそれ以外の「禁止」とするのもまた嘘だろう。 学識がある人はあれと「禁止」は区別がつくから心配には及ばないだろう。
259 :デフォルトの名無しさん :2023/05/14(日) 19:12:14.69 ID:c+bjkz0t.net 話を戻すと大陸の簡体字も同じやり口。 「機」の略字が「机」なわけではなくて、難しい漢字の「機」を廃止するんで、同じ音の「机」を使ってね。民間の手書きとかなら机って書いて人もいただろみたいなの。
260 :デフォルトの名無しさん :2023/05/14(日) 19:13:38.88 ID:sJ4QSX2k.net 話を戻してて笑った。
261 :デフォルトの名無しさん :2023/05/14(日) 19:14:35.45 ID:c+bjkz0t.net >>258 当用漢字は禁止だよ。公文書、学校教育、新聞などでの使用ができなくなった。 当用漢字が廃止されて、常用漢字の制定で推奨に変わった。
262 :デフォルトの名無しさん :2023/05/14(日) 19:22:00.23 ID:sJ4QSX2k.net 使用が一切認められない「禁止」ではない。 そして「話を戻すと」、せいで衝突したんじゃないな。
263 :デフォルトの名無しさん :2023/05/14(日) 21:29:14.62 ID:Rm+3qTCO.net 当用漢字表 https://www.bunka.go.jp/kokugo_nihongo/sisaku/joho/joho/kakuki/syusen/tosin02/index.html 使用上の注意事項 イ この表の漢字で書きあらわせないことばは,別のことばにかえるか,または,かな書きにする。 ロ 代名詞・副詞・接続詞・感動詞・助動詞・助詞は,なるべくかな書きにする。 ハ 外国(中華民国を除く)の地名・人名は,かな書きにする。 ただし,「米国」「英米」等の用例は,従来の慣習に従ってもさしつかえない。 ニ 外来語は,かな書きにする。 ホ 動植物の名称は,かな書きにする。 ヘ あて字は,かな書きにする。 ト ふりがなは,原則として使わない。 チ 専門用語については,この表を基準として,整理することが望ましい。
264 :デフォルトの名無しさん :2023/05/14(日) 23:31:19.13 ID:eRs+xSP8.net 原則となる調達基準が制定されてそれ以外が入りにくくなったみたいな話だよね こういうの一言で言えば何なんだろう?「ルール」?
265 :デフォルトの名無しさん :2023/05/15(月) 00:45:03.74 ID:ZXlC61aQ.net 簡略化は一貫性がない場合もあるのな。傳->伝、團->団とか
266 :デフォルトの名無しさん :2023/05/15(月) 15:41:30.69 ID:/VJRgGP9.net 異体字はその定義があいまいだから、IT技術者の仕様都合でどうにかできる話ではないでしょ
267 :デフォルトの名無しさん :2023/05/19(金) 01:30:50.77 ID:Gmj5KBEl.net UTF-8をよく見かけるけど 7とか6とかも昔はあったんですか?
268 :デフォルトの名無しさん :2023/05/19(金) 02:14:03.40 ID:yl46Wrbm.net 8ビットスルーでない経路が絶滅危惧種だし HTTPで無駄にUTF-7なんて使っても知らんいわれるのがオチ つかうにしてもプログラム書かないといけないならBase64のが筋がよさそう
269 :デフォルトの名無しさん :2023/05/19(金) 03:59:19.38 ID:D8L3U8l/.net UTF-5のことも忘れないでいてあげるべき UTF-5 ‐ 通信用語の基礎知識 https://www.wdic.org/w/WDIC/UTF-5
270 :デフォルトの名無しさん :2023/05/19(金) 05:56:35.73 ID:EpqBRKGy.net UTF-1は美しそうだ
271 :デフォルトの名無しさん :2023/05/19(金) 06:20:44.06 ID:Gmj5KBEl.net やっぱり色々あるんですね㌧ これからも増える可能性もありそうですねー
272 :デフォルトの名無しさん :2023/05/19(金) 07:22:38.06 ID:8oPN6wuF.net ・・・ギャグで言ってるつもりなのか本気でそう思ってるのか判断がつかないんで一応補足しとくと 「UTF-#」の#はバージョン番号じゃなくて Unicodeの文字を何ビットで表現するかを意味してる 基本的には16Bitで表現するUTF-16が一番楽 サロゲートペア文字もそうでない文字も同じデータ長として管理するなら32Bit表現のUTF-32がよい だが現状はAsciiと互換性のある8Bit表現のUTF-8が事実上の標準となった UTF-7はデータビット数を8⇒7に減らすことで少しでも通信速度を稼ごうとしてた昔の通信経路向けの規格
273 :デフォルトの名無しさん :2023/05/19(金) 07:55:58.41 ID:Gmj5KBEl.net >>272 バージョンじゃないんですか、詳しくありがとうございます!
274 :デフォルトの名無しさん :2023/05/19(金) 08:47:03.32 ID:rVwS6Z+x.net >>272 あんまり知ったかぶりすんな >「UTF-#」の#はバージョン番号じゃなくて 虚偽、UTF-1 とか UTF-2 はバージョン > 基本的には16Bitで表現するUTF-16が一番楽 虚偽、(もしくは個人の感想) > UTF-7はデータビット数を8⇒7に減らすことで少しでも通信速度を稼ごうと 虚偽
275 :デフォルトの名無しさん :2023/05/19(金) 12:13:32.86 ID:clAdGtGh.net >>238 毛沢東文字やね あれはスパイを発見し易くするために導入された
276 :デフォルトの名無しさん :2023/05/19(金) 12:33:17.95 ID:clAdGtGh.net >>272 >サロゲートペア文字もそうでない文字も同じデータ長として管理するなら32Bit表現のUTF-32がよい doubt
277 :デフォルトの名無しさん :2023/05/19(金) 13:28:13.37 ID:1PFium2f.net 64bit版g++は、規定のstd::wstringがUTF-32だよ
278 :デフォルトの名無しさん :2023/05/19(金) 13:29:18.88 ID:1PFium2f.net 規定じゃなくて既定だった
279 :デフォルトの名無しさん :2023/05/19(金) 15:02:22.21 ID:clAdGtGh.net >同じデータ長 doubt
280 :デフォルトの名無しさん :2023/05/19(金) 16:15:02.50 ID:DhYPerzk.net ネタとして楽しむためには正しい知識がいる、という
281 :デフォルトの名無しさん :2023/05/20(土) 00:06:13.39 ID:Wgabc+Na.net 文字コード奥深過ぎだなアニメ化して欲しい
282 :デフォルトの名無しさん :2023/05/20(土) 13:16:12.40 ID:QfLlK72x.net IVSなめんな
283 :デフォルトの名無しさん :2023/05/20(土) 13:31:47.35 ID:XYoRKnAf.net ペロッ...これは、0xE0100で修飾された異体字!!
284 :デフォルトの名無しさん :2023/05/20(土) 13:52:04.98 ID:HDVuLGIu.net 文字コードソムリエですね
285 :デフォルトの名無しさん :2023/05/21(日) 20:48:13.44 ID:5peOv9L3.net \ソムリエ
286 :デフォルトの名無しさん :2023/05/23(火) 23:24:40.51 ID:R2ZlFyvy.net 漢字構成記述文字 IDSは何処かで有効活用されているのですか? 今の字体の見た目の直感と違うのですが 黒 →⿱里灬 ダメ? https://kanji-database.sourceforge.net/ids/ids-analysis.html >解字IDSデータは、UCS漢字を、字の成り立ちからIDS化する作業を行っています。 U+09ED1 黑 ⿱𡆧炎 會意 3840010 U+09ED2 黒 →黑 https://github.com/cjkvi/cjkvi-ids/blob/86b4d16159f0079437870408f0ca186e529015db/ids-analysis.txt#L18185
287 :デフォルトの名無しさん :2023/05/24(水) 23:52:15.53 ID:nx1OpmdE.net 見た目じゃなくて成り立ちだから歴史的経緯からIDS化してるんじゃね
288 :デフォルトの名無しさん :2023/05/27(土) 01:16:15.20 ID:JRhYMEVC.net 簡体字制定時にも過度の正規化に反対する良心的な人もいたみたいだけど…結果は文化継承お構い無しむしろ断絶こそ業績みたいな御用学者に押し切られた?わけで 一旦決まったからはあの面子の国、則天文字やルイセンコ学説宜しく滅ぶまで使い続けるんだろな という訳で今すぐ滅びろ
289 :デフォルトの名無しさん :2023/05/27(土) 06:31:36.72 ID:EKOWOt22.net 二簡字ぐらいいくとかっこよくも見えてくる
290 :デフォルトの名無しさん :2023/05/27(土) 14:22:30.10 ID:Qh66ZSbX.net utf-8が標準だと思ってたけど昨日Excel見たらutf-8じゃなくてビックリした
291 :デフォルトの名無しさん :2023/05/27(土) 15:25:11.32 ID:Iw6vgmTP.net メモリ上の内部コードはしらんけど xlsxはXMLだからUTF-8じゃない?
292 :デフォルトの名無しさん :2023/05/27(土) 19:18:50.92 ID:4YJ0U8GR.net 文語で「じゃない」を使うおじさん
293 :デフォルトの名無しさん :2023/05/27(土) 22:18:54.32 ID:Qh66ZSbX.net お姉さんの可能性あるで 俺もお姉さんだし( ・`ω・´)
294 :デフォルトの名無しさん :2023/05/27(土) 22:19:28.39 ID:Qh66ZSbX.net >>291 他の人のExcelも今度確認してみるわ
295 :デフォルトの名無しさん :2023/05/28(日) 11:38:12.73 ID:mveGBcKw.net XML は BOMつき UTF-16 も許されてるんじゃなかったっけ? BOM無しなら UTF-8 だったか
296 :デフォルトの名無しさん :2023/05/28(日) 21:52:09.12 ID:YNYjEu0w.net excelは昔からさまざまな文字コードに対応してる 高い互換性を維持し続けてる それがMSの強さ こういうところはUnixとかLinuxとかOSSでは 太刀打ちできない
297 :デフォルトの名無しさん :2023/05/28(日) 22:53:12.34 ID:mveGBcKw.net >>296 emacs だってexcel 以上に多種多様な文字コードに対応してるし、linux (glibc)の対応ロケールと文字コードの数は windows より多いぞ。 無知が擁護するとMSの格が下がるのでやめとけ。
298 :デフォルトの名無しさん :2023/05/28(日) 23:26:13.89 ID:ig5hb7tN.net >>291 そうだね。実際には階層的になったXMLをzipにしてあるけど んでXMLの中をよく見るとxlsxを作成したローカルのパスが書かれていたり。キモっ おっと文字コード関係なかったw
299 :デフォルトの名無しさん :2023/05/29(月) 01:28:07.80 ID:0ytXwqTB.net Microsoft が互換性重視とか最近のブラックユーモアは笑えないなぁ ASCII との互換性を切捨てて UTF-16 にしようとして失敗したり 5年以上前のCPUは Windows 11 ではサポートしません、買い替えてくださいとか言い出したり その頃 linux では33年前の CPU の 80486 の互換性はそろそろ切って良いのではという議論をしてた。
300 :デフォルトの名無しさん :2023/05/29(月) 12:46:50.20 ID:MCD4Vue8.net 2012年頃? Windows10 が最後の Windows バージョンです(キリっ
301 :デフォルトの名無しさん :2023/05/29(月) 13:52:34.19 ID:M19znpYQ.net MSはJIS X 0213:2012のIVSに Wordが早く対応したりしてそれほど悪い印象はない しかしパス名が未だにCP932系なのは何とかならんのか
302 :デフォルトの名無しさん :2023/05/29(月) 14:43:43.87 ID:0ytXwqTB.net >>301 ロケール設定とアプリの問題じゃないの?
303 :デフォルトの名無しさん :2023/05/29(月) 15:27:55.29 ID:hGly4rru.net 近年のMSは、昔からの独自仕様での高い互換性よりも、オープンソース&標準準拠を進めているのは良い
304 :デフォルトの名無しさん :2023/05/29(月) 21:29:10.05 ID:NNOaBXNh.net >>302 日本ロケールだとNTFSのパス名がShift JIS
305 :デフォルトの名無しさん :2023/05/29(月) 21:38:29.70 ID:mH3oOe43.net ファイル名で使用される文字セット https://learn.microsoft.com/ja-jp/windows/win32/intl/character-sets-used-in-file-names > NTFS では、Unicode にファイル名が格納されます。
306 :デフォルトの名無しさん :2023/05/29(月) 21:41:41.73 ID:1bms2IW3.net >>304 そういうのはコンソールやアプリ側のエンコーディング設定であってな...
307 :デフォルトの名無しさん :2023/05/29(月) 21:58:43.15 ID:0DJ9XOU5.net UTF16はMBCSと共存しており切り捨てた訳ではない windows11で64bit版だけになるまで16bitアプリも動かせてたわけで そもそもソースレベルでしか互換性を保てないのがLinux Linuxは当初はEUCだったと思うけど当時の日本語対応ソフトが今のUTF8で動くかい?
308 :デフォルトの名無しさん :2023/05/29(月) 23:12:48.07 ID:0ytXwqTB.net >>307 あほ? EUC-JPアプリって何? 20年前にコンパイルされたアプリが一切の改変無く、EUC-JP でも、UTF-8 でも SJIS でも動くんだが? ロケールの切り替えとか知ってる?
309 :デフォルトの名無しさん :2023/05/30(火) 07:55:17.64 ID:89IT6MB6.net >>308 Linuxで20年前にコンパイルしたバイナリが今のLinuxで動く? 冗談はやめてほしい 百歩譲ってロケール切り替えで動くとして今のUTF8前提のアプリと共存出来ないでしょ Windowsだったら20年前のMBCSのソフトもそのまま動くよ 当然Unicodeのソフトも動く Ubuntuが32bitCPUのサポートカーをきったのは5年くらい前だっけ Windows11より速いですね あとマイクロソフトがMBCS切り捨ててUTF16一本にしようとしたってのは初耳ですが根拠を出してほしい
310 :デフォルトの名無しさん :2023/05/30(火) 08:50:00.67 ID:ZT3eEMEM.net >>309 技術がないやつは、これだから。 お前の技術が足りないのをOSのせいにしてるだけだな 全部できるぞ。俺が実際使ってるし Ubuntu で32ビットアプリも動いてるよ
311 :デフォルトの名無しさん :2023/05/30(火) 09:40:11.60 ID:ksZIMFia.net コンパイルしたなら文字コード関係なくそりゃ動くわな。 スクリプト言語なら知らんが。
312 :デフォルトの名無しさん :2023/05/30(火) 10:48:25.25 ID:sLlAlpBn.net スクリプト言語のが文字という概念があるから ロケールみて外部入出力ちゃんと取り持ってくれそう 昔のプログラムはバイトストリームで処理してるから問題ないだけで ロケールなんてgettextで文言変わるくらいにしか利用してない
313 :デフォルトの名無しさん :2023/05/30(火) 12:45:01.53 ID:+VlMdD+Q.net >>309 冗談は辞めてほしい 君が何も知らないのはよく分かった
314 :デフォルトの名無しさん :2023/06/05(月) 02:33:56.51 ID:QCgpDYcxq しっかし立憲は子供カ゛一だの尖閣カ゛ーた゛の.しかも党として自家撞着まて゛してるし,それとも両方予算倍増してこのクソ腐敗税金泥棒政府を どんた゛け拡大させろと言いたいんた゛か,腐敗主義自民公明に乗っ取られたクソ政府に対して,國會でのクソの役にも立たなさには呆れ返るな 唯一原發ガ‐はマ├モだが.鉄道の3〇倍以上もの温室効果ガスまき散らして石油無駄に燃やしまくって気侯変動させて災害連発させて人を 殺しまくってるクソ航空機を根絶やしにすれば,原發全廃しても電気料金は下か゛るというソ─スくらい持ってきて合理的に主張しろ枝野幸男 クソ航空機のC〇2排出量が鉄道の6倍とか言ってるハ゛力か゛いるが、きっと在来線の倍ほと゛非効率な新幹線と比較して、クソ航空機は離着陸 で莫大なCO2出すわけだか゛長距離て゛排出量計算して,鉄道は乗車率25〇%て゛も運行可能た゛か゛、それすら無視した━方的な値なんだろうな 最も短い距離て゛運航してる航路て゛比較すへ゛きた゛し,東海道在来線なんて空き座席全然ないんだし,乗車率10〇%比とか現実乖離甚だしいわ 鉄道は再エネのみて゛の運行だって可能なんだから,それも考えればクソポリへリ含めてクソ航空機を飛ばす行為に破防法を適用するのが妥当 創価学會員は、何百萬人も殺傷して損害を与えて私腹を肥やし続けて逮捕者まで出てる世界最惡の殺人腐敗組織公明党を 池田センセ‐がロをきけて容認するとか本氣て゛思ってるとしたら侮辱にもほと゛か゛あるそ゛! hΤТРs://i、imgur,сοm/hnli1ga.jpeg
315 :デフォルトの名無しさん :2023/06/07(水) 04:27:17.54 ID:0FN/+S+x.net タイトルに付いていたらあ、クソだなと思うもの 異世界 チート 転生 のんびり 最強 スローライフ 無双 ギルド 追放 スキル おっさん 勇者 魔王 賢者 魔術師 錬金術 聖女 奴隷 悪役令嬢 婚約破棄
316 :デフォルトの名無しさん :2023/06/07(水) 17:58:56.39 ID:Xm2S+dHf.net 遅くとも<title>までにはエンコードを確定できるワードが欲しいね
317 :デフォルトの名無しさん :2023/06/18(日) 09:23:53.16 ID:a4zjBeRN.net どす恋!
318 :デフォルトの名無しさん :2023/06/22(木) 20:17:25.79 ID:u8IMi/jS.net >>312 > 昔のプログラムはバイトストリームで処理してるから問題ないだけで > ロケールなんてgettextで文言変わるくらいにしか利用してない あっさり言ってくれちゃってますが Ken Thompson大先生の大発明UTF-8以前は みんな処理系から実行系まで USC-2対応に書き換えるつもりだったんですよ? 凄く簡単なアイデアだけど着眼点がシャープ それから商業UNIXのm17nは徹底的なもので grepなんかも各言語、各文字コード対応だった
319 :デフォルトの名無しさん :2023/06/22(木) 20:30:09.06 ID:6hgABg1u.net 👁--------→
320 :デフォルトの名無しさん :2023/06/22(木) 23:18:43.47 ID:xBwPkaNz.net 昔のプログラムはバイトストリームで処理してるから問題ない? そんなわけないだろ 正規表現の.とかUTF-8の一文字に対応させんといかんから ほとんどのプログラムに修正が必要だぞ 今も修正できてないコマンドはいくらでもある
321 :デフォルトの名無しさん :2023/06/23(金) 00:24:16.74 ID:M8BBIM3e.net 相手が変なこといってるなと感じたら じぶんが拾えてない情報がないか確認するよねふつう
322 :デフォルトの名無しさん :2023/06/23(金) 00:39:25.84 ID:31qk7hM1.net ふわっとしてんな
323 :デフォルトの名無しさん :2023/06/23(金) 05:42:45.03 ID:G2V4SBFP.net >>321 お前、もしかして相手が変なことを言っていると感じているのか?
324 :デフォルトの名無しさん :2023/06/23(金) 11:06:55.50 ID:wom6IAq0.net >>318 みんな突っ込まないでくれているけど USC-2 → UCS-2
325 :デフォルトの名無しさん :2023/06/23(金) 11:12:13.58 ID:yEQ18GoZ.net >>324 タイポとか誤変換とかに突っ込んでたらきりがないのでわかってるぽいのはスルーで 無理に訂正する必要もないよ
326 :デフォルトの名無しさん :2023/06/23(金) 13:39:13.07 ID:fMNbteF1.net なーんだ、てっきり南カリフォルニア大学ことかと思っちゃった
327 :デフォルトの名無しさん :2023/06/23(金) 13:40:28.91 ID:fMNbteF1.net のw
328 :デフォルトの名無しさん :2023/06/23(金) 16:35:16.14 ID:RASP4hQI.net このスレに来る人はICUを集中治療室とか国際基督教大学とは思わないから安心しろ
329 :デフォルトの名無しさん :2023/06/23(金) 16:49:42.58 ID:fJe7a8sc.net UTF-8がASCII互換っていうのはASCII部分のみが互換っていう意味で ASCIIだけを使ってるなら動くってことだよ ASCII以外の漢字部分までASCII互換になるわけがない そもそもASCIIに漢字なんて無いんだから 漢字は別途対応、もちろん漢字だけじゃなくて絵文字とかも含むからね
330 :デフォルトの名無しさん :2023/06/24(土) 15:50:27.65 ID:v2U7ONLO.net これで気兼ねなくATMの話ができます!
331 :デフォルトの名無しさん :2023/06/24(土) 15:54:00.59 ID:xBNVjuxa.net >>320 正規表現とか使ってなければ問題無いだろう ほとんどのプログラムに修正が必要は大げさ
332 :デフォルトの名無しさん :2023/06/24(土) 16:15:39.62 ID:6718OB4j.net 昔のプログラムがバイトストリームで処理してると思っているあたりが素人くさい。 MS-DOSの話してるんだろうか?
333 :デフォルトの名無しさん :2023/06/24(土) 17:49:25.13 ID:mybFnLY5.net >>331 ASCII以外の文字を扱う全てのプログラムに修正が必要
334 :デフォルトの名無しさん :2023/06/25(日) 09:29:11.85 ID:u4T7tXaY.net >>332 昔も今もバイトストリームだろ じゃなきゃバックスラッシュと円記号が同一視されるはずがない
335 :デフォルトの名無しさん :2023/06/25(日) 11:58:16.15 ID:0nHjw2pZ.net >>334 小学生でもそんなこと言わんぞ 「文字コード」って聞いたことあるか?
336 :デフォルトの名無しさん :2023/06/25(日) 13:42:41.66 ID:gLBngrQA.net 多バイト文字の処理が念頭にあるんだろうけども 改行含めてASCIIの範囲でマッチできれば成立するプラグラムの方が大半な気がする catやcpなんて文字コードなにそれだし
337 :デフォルトの名無しさん :2023/06/25(日) 17:28:04.26 ID:ySKqPmeW.net うん。だからテキスト処理関係のフィルタコマンドだよ grepとかsedとかawkとかtrとかcutとかsortとか そこいらは全部修正が必要
338 :デフォルトの名無しさん :2023/06/25(日) 17:56:47.65 ID:0nHjw2pZ.net >>337 お前どこのツール使ってるの? オレの sort とかのツールはちゃんとロカール対応してるけど?
339 :デフォルトの名無しさん :2023/06/25(日) 19:33:55.93 ID:+QOmRgEX.net >>330 それは回線にモデルとかISBNとか使ってた頃の遺物だろww
340 :デフォルトの名無しさん :2023/06/25(日) 19:53:24.27 ID:s5vVSYDk.net ぼくは雑誌コード
341 :デフォルトの名無しさん :2023/06/25(日) 19:59:23.87 ID:ySKqPmeW.net >>338 だからロケールに対応する修正が入ってるから今は動くようになってるんだろ UTF-8がASCII互換だからって、何も修正しないで動くわけじゃないって話をしてる
342 :デフォルトの名無しさん :2023/06/25(日) 20:41:53.62 ID:0nHjw2pZ.net >>341 Unix 系はunicodeとか発明される以前の昔からロカールあったろ? お前のは無かったの? UTF-8 きても対応文字コードが増えた以上の変化はないぞ
343 :デフォルトの名無しさん :2023/06/25(日) 21:34:04.71 ID:nujrLvHq.net >>337 ほとんどのプログラムって言っていたのが随分と対象が減ったな
344 :デフォルトの名無しさん :2023/06/25(日) 21:49:59.79 ID:ySKqPmeW.net >>342 昔にロケールなんて概念ねーよw あったとしてもASCIIしか考慮してないプログラムは ロケールに対応してない
345 :デフォルトの名無しさん :2023/06/25(日) 21:54:46.00 ID:ySKqPmeW.net どうせ今の話しか知らんくせに やってみたら動いているみたいだから 昔から対応していたみたいの思ってるんだろうけど これとか読んだら? GNU Coreutils - Multibyte/unicode support https://crashcourse.housegordon.org/coreutils-multibyte-support.html
346 :デフォルトの名無しさん :2023/06/25(日) 21:56:04.00 ID:ySKqPmeW.net 多くの人の努力によってようやくUTF-8に対応しつつあるというのに ASCIIのままのプログラムでUTF-8でも動くとか あーほみたいじゃなくて、あーほ
347 :デフォルトの名無しさん :2023/06/25(日) 22:09:28.31 ID:0nHjw2pZ.net >>344 unicode や UTF-8 よりロカール機構の方が古いって本当に知らないの? 調べもしないの? 恥ずかしくない?
348 :デフォルトの名無しさん :2023/06/25(日) 22:10:52.26 ID:ySKqPmeW.net >>347 古いって知ってるがそれがなにか? 古かったら、対応しなくても動くんですか(笑)
349 :デフォルトの名無しさん :2023/06/25(日) 22:18:03.54 ID:ySKqPmeW.net だいたいASCIIにしか対応してないプログラムって言ってんだから ロケールにも対応してないに決まってるだろ 頭悪そうじゃなくて、頭悪い。
350 :デフォルトの名無しさん :2023/06/25(日) 22:22:23.09 ID:0nHjw2pZ.net >>346 gnu や linux は商用unixの後追いで互換ツール作ってたんだよ。商用unixは皆対応できてた。 こっちとら linux の黎明期に glibc や gnu tool の locale 実装手伝ってたりしたんだが、お前何やったの?
351 :デフォルトの名無しさん :2023/06/25(日) 22:24:10.92 ID:ySKqPmeW.net >>350 話をすり替えんな お前がやった仕事は大したことじゃないんだろ?w だってASCIIに対応していれば、そのまんま動くんだからな!
352 :デフォルトの名無しさん :2023/06/25(日) 22:25:47.25 ID:ySKqPmeW.net 俺が何をやったかだって? お前よりすごいことをしていたよ 守秘義務があるから言えないけどなwww
353 :デフォルトの名無しさん :2023/06/25(日) 22:25:52.06 ID:0nHjw2pZ.net >>349 336の話してるんだが、どこで言ったの? 脳内? ASCII しか対応してないって何時の時代の話? お前何か参加したの?
354 :デフォルトの名無しさん :2023/06/25(日) 22:30:06.30 ID:ySKqPmeW.net > ASCII しか対応してないって何時の時代の話? まさか全アメリカ人がUTF-8に目覚めたとでも思ってるのか?w
355 :デフォルトの名無しさん :2023/06/25(日) 22:31:57.20 ID:ySKqPmeW.net 今もUnicode・UTF-8に非対応で、 本当は一文字なのに三文字とか間違える実装を知らんのだろうな
356 :デフォルトの名無しさん :2023/06/25(日) 22:34:23.36 ID:ySKqPmeW.net 漢字1文字が最大8バイト、Unicodeの「IVS」とは? https://xtech.nikkei.com/it/article/COLUMN/20100126/343783/
357 :デフォルトの名無しさん :2023/06/25(日) 22:34:25.42 ID:0nHjw2pZ.net UTF-8 が来た時には既に locale があった locale に対応していたれば同じバイナリで UTF-8 も扱えたので、UTF-8 に対応するめの改修とかする必要なかった
358 :デフォルトの名無しさん :2023/06/25(日) 22:37:12.38 ID:0nHjw2pZ.net 個々のツールを改修する必要はなくて、OS側のライブラリを改修することで対応するという基本的な考え方が理解できてないんだろうな。
359 :デフォルトの名無しさん :2023/06/25(日) 22:40:53.01 ID:ySKqPmeW.net どうやらASCIIしか考慮してないプログラムは そのOS側のライブラリを使ってないということに 思い至らないようだw それともなにか?printfをロケール対応に 仕様変更するきかね?www
360 :デフォルトの名無しさん :2023/06/25(日) 22:41:32.64 ID:9S6fsVfv.net >>336 wc
361 :デフォルトの名無しさん :2023/06/25(日) 22:42:37.03 ID:ySKqPmeW.net UTF-8 が来た時には既に locale があった だがlocale に対応していないプログラムがたくさんあった
362 :デフォルトの名無しさん :2023/06/25(日) 23:21:26.81 ID:0nHjw2pZ.net >>361 で336のうちどれの話?
363 :デフォルトの名無しさん :2023/06/26(月) 10:16:30.84 ID:lZKUXxOT.net >>359 ISO/IEC 9899:1990/Amendment1:1995(C95)の7.9.6.1と7.9.6.3より printfの仕様はロケール対応では? %sの代わりに%lsでワイドキャラクタを扱える
364 :デフォルトの名無しさん :2023/06/26(月) 10:35:51.62 ID:wgwkla1B.net >>359 商業UNIXはlibcレベルから各文字コード対応だったんだよ
365 :デフォルトの名無しさん :2023/06/26(月) 10:39:44.57 ID:lZKUXxOT.net なんかCの仕様をわかっていない人がいるような Cのプログラムをロケールを利用した国際化対応するには冒頭でsetlocale()を 呼ぶだけでなくて、文字をcharではなくwchar_tで扱い、fgetsの代わりにfgetwsを 使うなどワイドキャラクタ対応のw系関数で文字を処理するに変更するか、printfや scanf系関数で%sの代わりに%lsで扱う Cのユニコード関連の仕様はISO/IEC 9899:2011(C11)で導入され、6.4の\u,\U, u'',U''と 7.27のuchar.hで定義されたchar16_t, char32_tがユニコード関連 これらはロケールやwchar_tとは別概念なはず
366 :デフォルトの名無しさん :2023/06/26(月) 11:12:59.67 ID:15L3klhZ.net >>365 順番とか歴史を理解してる? 国際化するのに locale という仕組みが提案さてて wchar_t が導入され、OS標準ツールは言語や文字コードを切り替えられるようになった その後に多言語化のために unicode と UTF-8 が出てきて locale 対応しているプログラムは変更なく多言語化できるようになった 比較的最近になって、もう新しいプログラムは unicode だけ対応していれば 十分で locale 対応いらないんじゃね? という大雑把アメリカンな考えが出てきて char32_t みたいな仕組みが作られた 国ごとに仕組み違うし、言語ごとに文字の定義とか違うんだから unicode あっても locale 無くせないんだよ。というアメリカ以外からの当然の反発もあって 今は、真面目に国際化対応が必要なやつは locale, そんなん気にしなくて良いやつは生UTF-32, Windowsと互換性が最重要なら生UTF-16みたいな棲み分けになってる
367 :デフォルトの名無しさん :2023/06/26(月) 11:45:10.68 ID:OOvp3Qkm.net utf-8になってもロケールは必要だよね 言語や地域ごとに処理を変えないといけないから 例えば同じ文字を使っていても辞書順が違うことがある 発音記号の取り扱いとか それからwchar_t+Unicodeのみで処理する枠組みはうまくいかなかった ASCII文字だけ扱いたい時 Unicode以前旧世界との互換性 を考えると 結局世界はMBCSと付き合わざるを得ない事に納得し wchar_t+Unicodeは速いindexingが必要な内部表現だけで使うことになった
368 :デフォルトの名無しさん :2023/06/26(月) 11:51:20.62 ID:uBe3VRyC.net localeに対応しているlessコマンドはsjisファイルも読めるん?
369 :デフォルトの名無しさん :2023/06/26(月) 12:04:29.17 ID:OOvp3Qkm.net >>368 昔の商業UNIXにlessはなくてmoreだけど ja_JP.sjis に設定すれば Solarisでは2byte目\問題もなかった もちろん内部的にはMBCS stringとして扱ってる euc-jpだってMBCSなのだから ちなみにSolarisの場合はこの辺の処理は ハードコーディングではなくテーブルドリブンだった
370 :デフォルトの名無しさん :2023/06/26(月) 12:07:04.06 ID:OOvp3Qkm.net ただこの辺の努力は全て水泡に帰して GNU Linux全盛期に入ったわけだ つまり文字コード対応はutf-8をベースにして 各言語対応は車輪の再発明をしなければならなかったし まだ当時に追いついてもいない
371 :デフォルトの名無しさん :2023/06/26(月) 12:44:13.00 ID:15L3klhZ.net >>370 再発明とかはやってないぞ 普通に gnu tool も昔から locale 対応してるし、今もそう ただ、まだマイナーなバグや使い難い仕様が一杯残ってるねってだけ。国際化でなくて、特に多言語化のまわりが熟れてない ユーザーにも一部の開発者にも国際化と多言語化の違いとか、機構と文字コードの違いが良くわかってないやつがいて 本来は「多言語化に問題がある」というべきところを「UTF-8の処理に問題がある」という言い方をしがち
372 :デフォルトの名無しさん :2023/06/26(月) 12:54:23.97 ID:15L3klhZ.net ここでも知らんやつもいるかもしれないので、一応書いておくと 国際化(i18n): 文字コードとか言語とかを切り替えて使えるようにする機構 多言語化(m17n): 一つのテキストの中に複数の言語の文章を含めることができるようにする機構
373 :デフォルトの名無しさん :2023/06/26(月) 13:12:12.62 ID:15L3klhZ.net unicode という規格には (A) 純粋に文字コードを定義している部分。どの文字にどのコードを割り当て、それをどのように符号化するか。UTF-8 は符号化の名前 (B) unicode を使ってどのように多言語化(m17n)を実現するかの部分。標準的な多言語化を提案する。IVSの対応とかはこっち の2つが含まれてる。 今いろいろやってるのは (B) 側の話。UTF-8対応やってるんじゃなくて「多言語化」対応やってる
374 :デフォルトの名無しさん :2023/06/26(月) 16:20:01.13 ID:LAEwcUbv.net 多言語化は国際化に含まれますか?
375 :デフォルトの名無しさん :2023/06/26(月) 17:50:33.08 ID:e5otmU9r.net >>373 それもちょっと違うね 「(A) 純粋に文字コードを定義している部分」にUTF8は全く関係ない そこでは各文字にコード割り当て定義されていてコードは一意に定まる 一方でUTF8やUTF16などはそのコードのエンコーディングの話であり文字コード割り当てとは独立した全く別の話になるね
376 :デフォルトの名無しさん :2023/06/26(月) 18:30:16.65 ID:15L3klhZ.net >>375 エンコードはコードじゃないという主張の人なの? 珍しいな
377 :デフォルトの名無しさん :2023/06/26(月) 19:03:46.54 ID:CwqPR/Mz.net >>376 そこは全く異なるのがユニコードの基本 例えば「あ」はコードポイントU+3042と一意に定められている これはエンコーディング方式に関係なく一意に定まる エンコーディング方式が増えたり廃止されたりしても影響を受けない 一方でこのコードポイントを扱う時に環境や状況に応じて様々なエンコーディング方式を取ることができる 例えばコードポイントは16bitに収まりきらないので32bitに入れるのがUTF32 「あ」はコードポイントU+3042なのでUTF32だと0x00003042となる UTF8は8bit前半をascii互換とし8bit後半の不定長列を非asciiに割り当てる 「あ」はコードポイントU+3042なのでUTF8だと0xE3 0x81 0x82となる このようにコードポイント割り当てとエンコーディングは全く独立した別の分野
378 :デフォルトの名無しさん :2023/06/26(月) 19:14:59.15 ID:b1vEmQDc.net >>377 それはISO-2022のフレームワークとさほど大差ない 特にShift JISも含めて考えた場合は
379 :デフォルトの名無しさん :2023/06/26(月) 19:27:42.67 ID:Wnoei0OS.net バイト表現と文字コード体系は別の概念
380 :デフォルトの名無しさん :2023/06/26(月) 22:19:22.18 ID:15L3klhZ.net >>377 世間では一般的に コードポイント(符号位置)+エンコード=文字コード という認識なんだけどね。言葉の定義の問題なので、ここで議論しても始まらないか
381 :デフォルトの名無しさん :2023/06/26(月) 23:14:57.66 ID:zFI2p9hF.net その感覚はないな \uXXXXや数値文字参照で指定する値という認識じゃね? コードポイントそのもの
382 :デフォルトの名無しさん :2023/06/27(火) 00:02:41.00 ID:fkxIsCCD.net >>381 世間一般はSJISもEUC-JPもUTF-8も文字コードという認識なんだよ。厳密な言い方とはいえないが、そういもの コードポイントだけを文字コードと呼ぶやつはかなり特殊、自覚しとけ
383 :デフォルトの名無しさん :2023/06/27(火) 00:31:42.23 ID:TcukIZUS.net character encoding system = encoding method + character set
384 :デフォルトの名無しさん :2023/06/27(火) 00:39:10.68 ID:0oaaTR6k.net 文字コードポイントとそのエンコーディングの区別ができてやつがいるな 例えばUTF8の0xE3 0x81 0x82を文字コードポイントとは言わない あくまでも文字コードポイントはU+3042であり0xE3 0x81 0x82はUTFでエンコーディングした時のバイト列にすぎない
385 :デフォルトの名無しさん :2023/06/27(火) 01:24:36.76 ID:fkxIsCCD.net >>383 + の後ろを coded character set 「符号化文字集合」とした方がより良いな
386 :デフォルトの名無しさん :2023/06/27(火) 07:10:50.09 ID:TcukIZUS.net >>385 codedじゃ誤解しそうな人が出るので numberedを付けるかどうか迷った
387 :デフォルトの名無しさん :2023/06/27(火) 09:02:31.09 ID:fkxIsCCD.net >>386 規格によって用語の意味が違うので難しいところだねインターネットのRFCとかだと正式用語は code character set + character encoding scheme それぞれCCSとCESと略されることもある 一般的な日本訳は「符号化文字集合」と「文字符号化方式」かな
388 :デフォルトの名無しさん :2023/06/27(火) 09:03:47.40 ID:fkxIsCCD.net >>387 dが抜けた。coded character set ね
389 :デフォルトの名無しさん :2023/06/30(金) 18:08:26.89 ID:9szWkPbV.net >>384 お前は文字コードとエンコードの区別はついているか?
390 :デフォルトの名無しさん :2023/07/01(土) 03:56:24.34 ID:LJyXb+JQ.net 数学の写像だと考えればいいのでは
391 :デフォルトの名無しさん :2023/07/11(火) 16:13:44.17 ID:heSsZz8c.net てすと🌀🌀
392 :デフォルトの名無しさん :2023/07/27(木) 22:11:05.51 ID:u2yUFzzA.net 𝕏
393 :デフォルトの名無しさん :2023/07/28(金) 00:23:42.06 ID:8p3s4hKM.net フフフ
394 :デフォルトの名無しさん :2023/07/28(金) 00:51:45.87 ID:9nGZuQCT.net 文字コードって誰が作ってんの?
395 :デフォルトの名無しさん :2023/07/28(金) 02:16:49.64 ID:6UVKXpPK.net >>394 誰が作っても良い。他人に使ってもらえるかは知らんが
396 :デフォルトの名無しさん :2023/07/28(金) 02:28:54.58 ID:9nGZuQCT.net 俺用の文字コードを作れば、漏洩して悪意ある他人が見ても文字化けで意味不明ってことか。
397 :デフォルトの名無しさん :2023/07/28(金) 19:41:58.97 ID:25x9IMWE.net まず13文字ずらします
398 :デフォルトの名無しさん :2023/07/29(土) 08:13:24.61 ID:ej8Wm4VI.net おおジュリアス・シーザー
399 :デフォルトの名無しさん :2023/07/29(土) 14:26:21.89 ID:fTZOzdc3.net カエサル派にとっては意味不明ってことか。
400 :デフォルトの名無しさん :2023/08/04(金) 14:46:46.47 ID:XLfSEGlw.net コードずらしただけだと出現頻度でばれるって話
401 :デフォルトの名無しさん :2023/08/04(金) 18:06:48.16 ID:v1ivVYRs.net -・ ・・- ・-・・ ・-・・ ・--・ ---
402 :デフォルトの名無しさん :2023/08/18(金) 15:49:14.73 ID:s/AKDW6W.net macOS上の話ですが、'が’という名前のフォルダを作ってその名前をシェルで見ると % ls | iconv -f utf-8 -t utf-16le | od -x -A n 304b 3099 000a % echo * | iconv -f utf-8 -t utf-16le | od -x -A n 304c 000a あれ、もしかしてシェル (zsh) がUnicodeの合成をしている?
403 :デフォルトの名無しさん :2023/08/18(金) 23:53:14.80 ID:mQKTVMWd.net bashでやると元のままでコマンドを外部コマンドにしても変わらないから globがそういう動作なんやね
404 :デフォルトの名無しさん :2023/08/19(土) 00:16:00.94 ID:Af/nXbF+.net 正確に言うと MacOS の zsh のグロブだな。
405 :デフォルトの名無しさん :2023/08/19(土) 01:35:51.14 ID:5L917aO4.net >>404 もしかしてmacOS上以外のzshだと挙動が違ったりします?
406 :デフォルトの名無しさん :2023/08/19(土) 02:04:07.40 ID:Af/nXbF+.net >>405 違う
407 :デフォルトの名無しさん :2023/08/19(土) 10:09:35.79 ID:5L917aO4.net >>406 確かに、zshのソースを見てみたらMac上だとファイル名を加工する処理が入ってました: https://github.com/zsh-users/zsh/blob/master/Src/utils.c#L5169
408 :デフォルトの名無しさん :2023/08/19(土) 10:21:56.98 ID:5L917aO4.net が、果たしてそれはいい事なんだろうか。小さな親切大きなお世話という気もしないでもない 皆さんご存知macOS上のFSはファイル名がUnicodeの分解形になっているのだが、 上記により、シェル内でワイルドカードを使うとファイル名が合成形で得られる その後、そのファイル名を加工して別のファイルを作ると、合成形でファイルが作られること になる(macOSのUNIXレイヤーではパス名を分解形にすることは強制ではない) 結果、分解形のファイル名と合成形のファイル名がコンタミするではないか、と
409 :デフォルトの名無しさん :2023/08/19(土) 10:44:11.66 ID:Af/nXbF+.net >>408 macOS には HFS+ と APFS というのがあってだな。
410 :デフォルトの名無しさん :2023/09/18(月) 15:14:20.26 ID:lNC8R66h.net awkが新しくなる!? 本家AwkがUnicode (UTF-8)とCSV対応に! https://qiita.com/ko1nksm/items/1a3e711bbd925657f5fd やっぱりUTF-8に対応するにはアプリ側を修正しなきゃいけないって事ね
411 :デフォルトの名無しさん :2023/09/18(月) 17:45:11.83 ID:xE50yd7v.net >>410 そもそも、そういう用途は nawk じゃなくて gawk とか使ってるので今更 nawk が対応したと主張したところで意味無し nawk は文字とバイトの区別すらついて無かった古典だし。POSIX?それ美味しいの?状態だったのがようやく今頃になって対応始めた感じ。まだ問題だらけなので文字コード区別必要な場面での使用は非推奨。
412 :デフォルトの名無しさん :2023/09/21(木) 17:13:01.39 ID:2fMT8T96.net 事故の予感しかしない
413 :デフォルトの名無しさん :2023/10/05(木) 21:37:01.18 ID:629OTK1e.net 全ての開発者が知っておくべきUnicodeについての最低限の知識 https://gigazine.net/news/20231005-unicode/
414 :デフォルトの名無しさん :2023/10/06(金) 02:09:53.00 ID:rMpfnI78.net 互換漢字のことを思い出してもいいですか macOSのFinderで神というフォルダーを作ると神に変換される Chrome上で神を検索すると神と神の両方にマッチする Firefox上で神を検索すると神にはマッチしない Firefox上で分解形の神︀で検索すると合成形の神にはマッチしない Mozcで神︀を入力すると分解形がデフォ みんなちがって、みんないい?
415 :デフォルトの名無しさん :2023/10/06(金) 09:13:41.28 ID:r0aKLQgw.net おはよう 今起きたけど、UTF-8にBOMつけるか否か?結論は出た?
416 :デフォルトの名無しさん :2023/10/06(金) 09:59:40.01 ID:Zl0hPCVy.net UTF-8にBOは存在しない ↓ BOMなんて概念が不要 議論も何も無い
417 :デフォルトの名無しさん :2023/10/06(金) 11:34:57.64 ID:rMpfnI78.net >>414 >macOSのFinderで神というフォルダーを作ると神に変換される このあたり、Appleには素のNFDとは少し違う独自の正規化を使うこだわりが あったのだと思っていたけど、今は違うのかな?
418 :デフォルトの名無しさん :2023/10/06(金) 14:17:35.44 ID:RyNaN3Hq.net >>416 元来の用途で使う可能性が無いからこそ新しいより有用な目的を割り当てて使えるのですね
419 :デフォルトの名無しさん :2023/10/06(金) 17:44:51.54 ID:vOZibH++.net >>416 お前が世間知らずなだけ エディタでbomありutf8は普通にサポートされてる 当然これは需要があるから
420 :デフォルトの名無しさん :2023/10/06(金) 18:03:58.96 ID:vujaBc4z.net Firefoxの検索は半角カナの同一視もしてくれないからなあ
421 :デフォルトの名無しさん :2023/10/06(金) 21:14:36.66 ID:VyRY/4o/.net How can I get WideCharToMultiByte to convert strings encoded in UTF-16BE? https://devblogs.microsoft.com/oldnewthing/20231005-00/?p=108854 UTB-16BEからShift_JISに変換したいとかいろんな要望があるものだな
422 :デフォルトの名無しさん :2023/10/06(金) 21:24:18.57 ID:cSD4ys+j.net >>416 正確には「UTF-8にバイトオーダーの違いはない」だな。
423 :デフォルトの名無しさん :2023/10/06(金) 22:08:49.33 ID:g8qFATdI.net JSONなどBOMを付与して送信してはいけないと明確に規定されていたり BOMを取り扱わない規定やソフトウェアもあるため UTF8ではBOMを付与しないほうが好ましい
424 :デフォルトの名無しさん :2023/10/06(金) 22:54:13.21 ID:cSD4ys+j.net JSOINファイルに付けるなとは言ってないみたいよ
425 :デフォルトの名無しさん :2023/10/06(金) 23:20:11.94 ID:tE7CLicd.net #!shebangの邪魔になるだろ
426 :デフォルトの名無しさん :2023/10/07(土) 09:59:00.66 ID:I3+2vFW6.net >>425 BOMを認識するようシステムコールを改修すればいいだけ それをしないのはOS開発者の怠慢
427 :デフォルトの名無しさん :2023/10/07(土) 10:25:02.17 ID:8Whhaa6B.net >>414 macOS/iOSのSafariではひらがなとカタカナを同一視するという挙動があるようで みんなちがって、みんないいw
428 :デフォルトの名無しさん :2023/10/07(土) 10:55:59.28 ID:dXS7C+xF.net >>426 execve の引数解釈が locale に従うのであれば BOM を付けるべきではない状況に該当すると思う。
429 :デフォルトの名無しさん :2023/10/07(土) 19:44:18.39 ID:hE+46nhQ.net BOMなしがいいってのはAsciiしか対応してないレガシーソフトウェアに通したいから? UTF8を意識できてるならBOMのありなしの両対応は簡単だし
430 :デフォルトの名無しさん :2023/10/07(土) 20:50:45.55 ID:iX5KyQz4.net >>429 ファイルの接続とか分割にゴミ処理とかしないですむ。自分がいまから出力するのが先頭かどうか不明とかでも問題は起きない ファイルの先頭とかには別の識別子置きたいアプリもある。先頭BOMが優先して使えるとか思い上がり。 そして何より、世の中すべて UTF-8 で情報交換すべきで、他の文字コードは内部コード以外は認めない。滅べば良いと本気で信じてるので BOM に使いみちなんかない。 だいたい最近の欧米の主張はこんな感じ。
431 :デフォルトの名無しさん :2023/10/07(土) 21:50:44.31 ID:gQ4GHwFf.net UTF8こそが不要で滅べば良い。I
432 :デフォルトの名無しさん :2023/10/08(日) 05:39:53.69 ID:c7bH/Jal.net これからの時代は UTF-32
433 :デフォルトの名無しさん :2023/10/08(日) 05:43:54.93 ID:c7bH/Jal.net なぁに。1バイトを32bitにしてしまえばエンディアンがどうのなどとつまらない事を考える必要もなくなる。BOMも不要。
434 :デフォルトの名無しさん :2023/10/08(日) 05:46:34.19 ID:c7bH/Jal.net いいかげんチマチマと8bitづつ扱うようなケチな精神がいけない。 8bit CPU の事などもう忘れろ。
435 :デフォルトの名無しさん :2023/10/08(日) 12:38:49.49 ID:BgGDjECm.net >>432 文字結合あるからUTF32でも解決しない 結局可変ならUTF8が合理的という考え方もある
436 :デフォルトの名無しさん :2023/10/08(日) 13:46:55.09 ID:VA0G2N7t.net >>435 つまり UTF1024 が必要ということだな
437 :デフォルトの名無しさん :2023/10/09(月) 13:08:59.15 ID:anIJ/4nw.net えっ
438 :414 :2023/10/09(月) 14:11:34.76 ID:o3mTrHdx.net ふーん 結局UTF-8にBOMつけるか否か?まだ結論は出てないんだな? じゃあ、今からまた寝るから結論出たら教えて…おやすみ
439 :デフォルトの名無しさん :2023/10/10(火) 07:39:18.70 ID:dUGfQnTA.net 結論は出ない、永遠に寝てろ
440 :デフォルトの名無しさん :2023/10/10(火) 08:43:04.58 ID:5iCI9hbC.net 結論も何も最初から規格上は「つけないことを推奨」。規格を無視するやつらは勝手につけてるだけ。 これ以上何に結論を出せと?
441 :デフォルトの名無しさん :2023/10/10(火) 09:13:29.30 ID:aKJ84hs/.net 禁止はしてないな。いくつか使用すべきではない状況はあるがそれ以外必要に応じて使ってよい。 まあいずれEUCと同じように淘汰はされていくと思うが。
442 :デフォルトの名無しさん :2023/10/11(水) 14:25:41.16 ID:+taOca1a.net 拡大解釈を結論としちゃうとそりゃ永遠に終わらんよな
443 :デフォルトの名無しさん :2023/10/11(水) 16:29:14.72 ID:dsbLch4n.net もう恥ずかしいからやめろよ
444 :デフォルトの名無しさん :2023/10/11(水) 16:32:12.66 ID:iAp1htgn.net 文字コードの自動判定でBOMが欲しいんでしょ だったら日本人的には当面ありの方がいいんじゃないの
445 :デフォルトの名無しさん :2023/10/11(水) 17:54:36.20 ID:UpuL/ixe.net まじで文字コード判定でBOM必要とするなんてExcel以外にしらんし 他にならって決め打ちか失敗前提で推測する実装にしとけばこんなことにはならなんだ
446 :デフォルトの名無しさん :2023/10/11(水) 23:59:31.72 ID:Bi4J/pND.net >>444 今はネット通信もローカルもUTF8を使うのが普通だからBOMは要らない HTTPやHTMLならそこで文字コード指定できるし
447 :デフォルトの名無しさん :2023/10/12(木) 21:40:02.12 ID:HDD8qAO3.net UTF8を使うのが普通だったりエンコーディングを指定できる所ばかりじゃないんだからBOMがあるのは仕方ない
448 :デフォルトの名無しさん :2023/10/12(木) 22:03:04.02 ID:/ksYFMDD.net >>445 まさにExcelのためにBOM付けてる >>446 早くWindowsのシステムロケールが標準でUTF-8になれば良いな
449 :デフォルトの名無しさん :2023/10/12(木) 22:26:37.40 ID:dSlEv+Dk.net visual studioもbom必要 設定でutf8指定したら不要だけど 外部のソースまでutf8前提になるので踏み切れない
450 :デフォルトの名無しさん :2023/10/12(木) 23:49:07.23 ID:vmLUU1Bo.net いわゆるWindows PowerShell(5.x系)も、日本語を含むスクリプトの場合は BOM付きUTF-8 で保存する必要がある 文字コード、改行コード(何らかのデミリタ)に関わる問題は果てしなく続く そして、文字数カウント問題も...
451 :デフォルトの名無しさん :2023/10/13(金) 08:42:04.37 ID:QFEuT346.net >>448 Mac, iPhone も Linux, android も BOM なし UTF8 オンリーで、十分いけてることを考ええると、 UTF8にBOM必要とかいってるやつも、日本語 Windows の system locale が UTF8 なったら手のひら返すだろうね
452 :デフォルトの名無しさん :2023/10/13(金) 09:08:31.59 ID:Zvnb58M2.net 必要だから使っているだけで、必要なくなったら使わなくなるだけ。 手のひら返すって発想が出るのはこれをなにか派閥争いや宗教的対立ととらえているんだろうな。
453 :414 :2023/10/13(金) 09:49:50.49 ID:e5Ke0Kb/.net みんなうるさいなぁ…全然寝れないじゃん! 結論は出ない…という結論が出てるんだから もうみんな静かにしといて欲しいわ ホントの結論が出たら起こしてねw
454 :デフォルトの名無しさん :2023/10/13(金) 09:59:16.16 ID:an/6eWNJ.net UTF-8にBOMは不要だがBOMを要求する出来の悪いアプリが存在するというだけの話 アプリを修正すればいいだけなのに出来の悪い子のためにBOM付きファイルを広めようとするから迷惑がられる
455 :デフォルトの名無しさん :2023/10/13(金) 20:19:14.08 ID:Zvnb58M2.net こう、「出来の悪い」とか要らん煽りをちょいちょい挟んでくるのがな
456 :デフォルトの名無しさん :2023/10/13(金) 21:36:36.55 ID:UzC3xoYA.net 環境のCPのエンコーディングとUTF-8を両対応したくてBOMを導入した設計は偏狭 専用の閉じたデータなら勝手にどうぞだけどCSVファイルだよ 出来が悪いにもほどがある
457 :デフォルトの名無しさん :2023/10/13(金) 22:08:36.81 ID:Zvnb58M2.net 一応Unicode規格に定められた仕様なわけだがそれを正しく実装しても出来が悪い呼ばわりするわけだな
458 :デフォルトの名無しさん :2023/10/13(金) 23:15:47.89 ID:SKnf/8eA.net CSVファイルの一般的書式 (RFC4180 日本語訳) http://www.kasai.fm/wiki/rfc4180jp CSVファイルにBOM付けるな、なんてどこに書いてあるんだよ
459 :デフォルトの名無しさん :2023/10/14(土) 00:20:16.97 ID:U0vUYMwi.net >>458 ABNF表記 そのRFCはメジャーではないし従う必要もないけどね
460 :デフォルトの名無しさん :2023/10/14(土) 12:58:12.11 ID:x03gZ5vc.net VC++はコンパイルオプションでBOM無し通るようになったから許す
461 :デフォルトの名無しさん :2023/10/14(土) 23:17:30.52 ID:BgrcFKKf.net あ、そうか。UTF-8なのにBOM入りにする理由はコードの自動判別のためか。
462 :デフォルトの名無しさん :2023/10/15(日) 01:20:23.94 ID:QRU3KQek.net >>461 Windows は文字コードの指定がないとシステムロカールに設定されている文字コード(日本語WiIndows11だとCP932=SJIS)という約束になっていて、これを変更せずに UTF−8 を使いたいがための苦肉の策だった(過去形)。 最近はマイクロソフトはこの約束を破棄して標準を UTF−8 にするよう要請してるし、将来システムロケールのデフォルトを UTF−8 に変更することは確実なので、単なる経過措置。
463 :デフォルトの名無しさん :2023/10/15(日) 01:39:21.51 ID:xER5snLk.net メモ帳のデフォルトの文字コードは、BOM付きUTF-8
464 :デフォルトの名無しさん :2023/10/15(日) 02:16:16.57 ID:ZnCIGybA.net >>463 もう今は BOM なしがデフォ BOM 付にする場合は格納する時に明示的に選ぶ
465 :デフォルトの名無しさん :2023/10/15(日) 10:20:43.11 ID:qGVDb90a.net 「メモ帳」に多数の改善、BOMなしUTF-8がデフォルト保存形式に 〜「Windows 10 19H1」 https://forest.watch.impress.co.jp/docs/news/1157696.html
466 :デフォルトの名無しさん :2023/10/15(日) 11:24:00.22 ID:2RtZyNYP.net 「UTF8はBOMを付けない」 これでWindows以外は統一されている WindowsでもBOMなしが標準になりつつある 大勢は決した
467 :デフォルトの名無しさん :2023/10/15(日) 12:36:43.97 ID:MbTcJx+r.net ExcelがBOM無しCSV/TSVを文字化けせずに読み込んでくれたら解決しそうw 自慢?のcopilot使ってもいいからさっさと解決しろやーw
468 :デフォルトの名無しさん :2023/10/15(日) 13:03:46.10 ID:QRU3KQek.net >>467 今でもシステムロカールを UTF8 に切り替ええると BOM なしで読める。システムのデフォルトを SJIS に設定しているから BOM なしを SJIS とみなしてるだけ。
469 :デフォルトの名無しさん :2023/10/15(日) 14:10:15.45 ID:nt2NScg7.net >>468 今のExcelの挙動の方がOSの設定を反映してて行儀良いとも言える WindowsがUTF-8で統一されるには、まずはWindowsのシステムロケールの規定値がUTF-8にならないことにはな
470 :デフォルトの名無しさん :2023/10/15(日) 15:48:50.38 ID:QRU3KQek.net >>469 その通りなんだが、マイクロソフト自身がそこを翻して、今後は外部文字コードはシステム設定にかかわらず UTF8 にするようにプログラマー向けのガイドで推奨している。 時代は変わったというやつだな。
471 :デフォルトの名無しさん :2023/10/15(日) 21:43:34.82 ID:qGVDb90a.net General Unicode requirement in INF files https://learn.microsoft.com/en-us/windows-hardware/drivers/display/general-unicode-requirement INF files should be saved and encoded as Unicode (UTF-16 LE); they must not be ANSI or UTF-8.
472 :デフォルトの名無しさん :2023/10/15(日) 23:29:04.23 ID:Rd0ckQwZ.net 話してるのは交換用のデータ そういうレガシーな閉じたデータは困んないし関係ないよ
473 :デフォルトの名無しさん :2023/10/16(月) 00:06:18.56 ID:WBw8/fQB.net Microsoft は 、UTF-8 BOM 無しを推奨する理由として「Web アプリや Unix 系の OS が UTF8 BOM 無しなので、文字コード関連のバグを最低限にするためには UTF8 は BOM なしである必要がある」と主張している。 この主張を元に PowerShell とかの基幹アプリもデフォルトを BOM 無しに移行した。 今はもう UTF-8 BOM つきを推奨するメジャー組織は存在しない。
474 :デフォルトの名無しさん :2023/10/16(月) 00:53:41.28 ID:RCBIhsJ4.net ハナっから「推奨」していた組織など存在しない
475 :デフォルトの名無しさん :2023/10/16(月) 09:54:20.88 ID:kgcCjrnK.net Windows/MS がさっさと間違いを認めれば良いだけ
476 :デフォルトの名無しさん :2023/10/16(月) 11:23:36.19 ID:WBw8/fQB.net >>474 マイクロソフトは昔はプログラマ向けにBOMつけることを推奨してたんだよ。ツールとかも勝手にBOMを追加していた。 そもそもユニコード規格で UTF8 のBOMが文字コード判別用として規定されたのもマイクロソフトの主張によるもの。 他の企業とかは反対だったけどMSが強く主張するので、妥協として非推奨という形で規格に取り入れられた。
477 :デフォルトの名無しさん :2023/10/16(月) 15:03:12.56 ID:wuREpmcE.net RFC3629の日本語訳 UTF-8, ISO 10646 を変換したフォーマット https://www.akanko.net/marimo/data/rfc/rfc3629-jp.txt プロトコルはが常にUTF-8であるなら、そのような場合シグネチャ機能は完全に無駄であるので、そのプロトコルが命令するそれらの原文のプロトコル要素のためのシグネチャとしてU+FEFFの使用を禁止【すべき】(SHOULD)である。 プロトコルは、それらの原文のプロトコル要素、プロトコルの実装が常に適切にメカニズムを使う立場にあることが予測されるとき、そのプロトコルが文字符号識別メカニズムを供給するためのシグネチャとしてのU+FEFFの使用を同じく【禁じるべき】(SHOULD)である。これは、プロトコル要素がそれらの作成時からそれらの適切に分類される伝送の時間まで実装の制御下にきつく維持されるケースであろう。 禁止が不可能、あるいはプロトコルの実装がメカニズムを常に適切に使う立場にないことが予測される時には、プロトコルは、文字符号化識別メカニズムを提供しないそれら原文のプロトコル要素のためのシグネチャとしてU+FEFFの使用を禁じる【べきではない】(SHOULD NOT)。後者2ケースでは、特にプロトコルの実装が、そのような要素を、ファイルシステム、ペイロード(FTPなど)のための符号化識別メカニズムを持たないプロトコル、または文字符号化の適切な識別を保証しない他のプロトコルから得る時のMIME要素(HTTPなど)など、より大きいプロトコル要素で起こりそうだ。
478 :デフォルトの名無しさん :2023/10/16(月) 22:51:46.46 ID:9bPcPHuX.net >>473 UTF8のBOM付きは古いローカル環境のファイルを除いて世の中から消滅だね
479 :デフォルトの名無しさん :2023/10/17(火) 21:20:13.70 ID:ThqcsYHx.net いずれ消滅はするだろうね。今すぐにではないだろうけど。
480 :デフォルトの名無しさん :2023/10/20(金) 01:51:40.88 ID:oeTulwfB.net 以下のウェブページ、ちゃんと表示されます? 自分の環境ではところどころ文字化けが 新JIS漢字で包摂の扱いが変わる文字 https://www.aozora.gr.jp/newJIS-Kanji/gokan_henkou_list.html
481 :デフォルトの名無しさん :2023/10/20(金) 02:19:51.80 ID:oeTulwfB.net Shift_JIS-2004にするとemacsでは見れるっぽいな
482 :デフォルトの名無しさん :2023/10/20(金) 02:31:11.04 ID:9LoNmjGS.net >>480 ページのデコード(文字コード)の問題っぽいので、現代のブラウザでそれらの文字を正しく表示するのは不可能な気がする 少なくともChromiumにはページの文字コードを指定して読み込む機能はない(かなり前に失われた)
483 :デフォルトの名無しさん :2023/10/20(金) 05:05:07.19 ID:oeTulwfB.net >>482 なるほど 試しにソースをUTF-8に変換してみたら問題ないっぽいので、そこに書かれているような UCSのコードポイントがないだとか拡張されたフォントが必要だとかそういうのも 昔話くさいですね。関係者の皆様(?)ご苦労様でした
484 :デフォルトの名無しさん :2023/10/20(金) 05:40:00.05 ID:oeTulwfB.net ちなみに当の青空文庫、チラ見すると今でも基本はJIS X 0208/ShiftJISのようで なかなかストイックですな。結局「包摂の扱いが変わ」らなかったのかな
485 :デフォルトの名無しさん :2023/10/21(土) 08:53:53.52 ID:gqL/5FH6.net >>482 https://chrome.google.com/webstore/detail/set-character-encoding/bpojelgakakmcfmjfilgdlmhefphglae
486 :デフォルトの名無しさん :2023/10/21(土) 12:16:38.09 ID:sf7W/HH9.net 永青文庫といつも間違う
487 :デフォルトの名無しさん :2023/10/22(日) 23:34:06.39 ID:FeoJDOmp.net 中々に興味深い内容だった 我々の著書はなぜ誤植まみれに?出版業界と標準規格は相容れない世界。【文字ヶョデ2】#95 - YouTube https://youtu.be/zSuD9DRzxYk?si=n55RbOykxZLOtTXB
488 :デフォルトの名無しさん :2023/10/23(月) 07:04:22.11 ID:8gpCEC0e.net >使わざる終えない こういう誤字ってる香具師をよく観かけた
489 :デフォルトの名無しさん :2023/10/23(月) 10:59:00.60 ID:Nln6L14l.net >>487 流し見したけど、若いなあ。若い視聴者向けにあえて歴史的な部分を嘘で誤魔化したのかもしれないけど。 印刷業界の正字文化も、おおもとはフォントの都合。コンピュターのフォントじゃなくてフォント(物理)。 金属活字は高価なのでマイナーな漢字は種類揃えることができなきて正字しか存在しなかった。それで作家がどんな漢字を手書きで書いてこようが、植字職人が問答無用で正字に直していた。 作家に文句いわれても、これが正しい漢字だとうちは正しい漢字で出版すると言い訳してきたのが伝授されていくうちに文化として定着した。
490 :デフォルトの名無しさん :2023/10/23(月) 15:38:39.38 ID:1Wk/iiy/.net 常用漢字も公務員ωの都合だしな
491 :デフォルトの名無しさん :2023/10/23(月) 17:57:09.35 ID:1YV3x5Wl.net >>485 元の文書はShift_JISx0213なんですよね。チラ見した感じではリストになさそうなので 単にメニューを追加しただけでは無理そう さらに今は名前がShift_JIS-2004に変わっているという ただ、Shift_JIS-2004にしてもIANAには登録されてないようですが このウェブ文書が書かれたときにはどうやって見ていたのだろう ブラウザにエンコーディングメニューがあった時代にもShift_JISx0213はなかったような
492 :デフォルトの名無しさん :2023/10/23(月) 21:46:58.87 ID:oe4nN6j5.net >>489 昭和期の小説なんて送り仮名すら適当だからなあ 昔はいい加減だったものが編集その他の介入が厳格になってかっちりしたのもありそう
493 :デフォルトの名無しさん :2023/10/24(火) 03:15:10.80 ID:iGA2hVtd.net >>492 送り仮名や当て字は昔は作家の作風の一部だったので出版社が勝手にいじるのは厳禁だった。あくまで正字に直すだけ、あとは校正校閲で指摘して作家本人に直すか確認。 最近は出版社どうのこうのの前にかな漢字変換先生が“正しい”送り仮名をつけるし、わざわざ選ばない限り当て字にもならないので差がほぼ消滅した
494 :デフォルトの名無しさん :2023/12/08(金) 16:57:00.72 ID:UNy3lGIg.net ついにWindows 11のメモ帳に文字数カウント機能が追加される - GIGAZINE https://gigazine.net/news/20231208-windows-11-notepad-character-count/
495 :デフォルトの名無しさん :2023/12/09(土) 18:16:22.88 ID:ruczJkGu.net メモ帳とワードパッドどこで差が付いたのか
496 :デフォルトの名無しさん :2023/12/09(土) 18:53:06.75 ID:ScuIIvWx.net ワードパッドはプアマンズワードみたいなもんだったから、あらゆる意味で中途半端だった エディタとして基本的なものだけでよかったメモ帳とはわけが違うな
497 :デフォルトの名無しさん :2023/12/09(土) 23:47:37.80 ID:AAQcXydY.net >>494 合成絵文字とか国旗とかは何文字扱いなんだろう?
498 :デフォルトの名無しさん :2023/12/12(火) 08:19:11.85 ID:Wmqfa5v8.net >>471 NVIDIA Windows 10 (64 bit) Display INF file 普通にUTF-8で草生えた
499 :デフォルトの名無しさん :2023/12/12(火) 21:14:09.31 ID:rWgfKJ70.net そういえば、Windowsのレジストリスクリプト、 v.4はANSI v.5はUTF-16LE だったな
500 :デフォルトの名無しさん :2023/12/17(日) 01:04:51.64 ID:H3YKPY2M.net 時代のあだはなって奴か
501 :デフォルトの名無しさん :2023/12/17(日) 02:48:49.64 ID:65psdCcV.net 「世界の全部の文字は16ビットに収まる。16ビット固定長なら全世界の人が幸せになる。」 マイクロソフトの発想は面白かったんだが前提が間違っていたのでどうにもならないな。 韓国がワガママ言ってハングルだけでBMPの1/5の1万2千字持って行くとか、中国や台湾が漢字を5万字追加してBMPに入らなくなるとか想定できないのが悪い。 絵文字は同情の余地がある。Google がandroid携帯で携帯市場に参入するとかは当時は予想し難いだろう。
502 :デフォルトの名無しさん :2023/12/17(日) 05:27:58.87 ID:SlmDr4VF.net 想定が甘かったのでなく、もともとISOで32bitで文字を表す規格化が進んでいたけど16bitに収めたい企業のゴリ押しで16bitになったんだよ
503 :デフォルトの名無しさん :2023/12/17(日) 13:09:37.31 ID:65psdCcV.net >>502 その前の話だよ。ISOとかとの調整以前の動き
504 :デフォルトの名無しさん :2023/12/17(日) 13:11:41.67 ID:KrIvl4tf.net じゃあマイクロソフトを持ち出すのはおかしい
505 :デフォルトの名無しさん :2023/12/17(日) 18:20:50.82 ID:65psdCcV.net ISOの多言語化とは別に、マイクロソフトがIBMと多言語文字コードの研究開発してたの知らずに文句言ってるだけか。
506 :デフォルトの名無しさん :2023/12/18(月) 00:12:33.22 ID:HYITYpsg.net おれは歴史を知ってるふう装っても その上に歴史に基づかない妄想を書いたことは取り消せないよな
507 :デフォルトの名無しさん :2023/12/19(火) 10:06:38.46 ID:R7hYmjVP.net https://ja.wikipedia.org/?curid=1999 1984年、ISOの文字コード規格委員会 (ISO/TC 97/SC2) は文字セットの切り替えを行わずに世界中の文字を単一の文字集合として扱える文字コード規格 (ISO 10646) を作成することを決定し、専門の作業グループ (ISO/TC 97/SC 2/WG 2) を設置し、作業を始めていた。1980年代後半にはこの作業グループにおいてさまざまな提案が検討されている。1990年になって出来あがったISO/TC 97/SC 2/WG 2作成のISO 10646の初版ドラフト(DIS 10646#DIS 10646第1版)では、漢字コードは32ビットで表現され、各国の漢字コードはそのまま入れることになった。しかし中国は漢字を各国でばらばらに符号化するのではなく、あくまで統一して扱うことを求めてこのドラフトには当初から反対しており、今後の漢字コードの方針を決めるため、WG 2は CJK-JRG (Joint Research Group) と呼ばれるグループを別途設置し、そこで引き続き検討することにした。 このような公的機関の動きとは別に、1987年頃からXeroxのJoe BeckerとLee Collinsは、後にUnicodeと呼ばれるようになる、世界中の文字を統一して扱える文字コードを開発していた。1989年9月には「Unicode Draft 1」が発表された。ここではその基本方針として、2オクテット(16ビット)固定長で全ての文字を扱えることを目指しており、そのために日本・中国・韓国の漢字を統一することで2万弱の漢字コードを入れ、さらに将来の拡張用に、3万程度の漢字の空き領域が別に用意されていた。
508 :デフォルトの名無しさん :2023/12/19(火) 23:28:13.27 ID:39X2u1HU.net それだけあれば十分だな!
509 :デフォルトの名無しさん :2023/12/20(水) 14:46:55.65 ID:YarW/zxr.net >>507 >しかし中国は漢字を各国でばらばらに符号化するのではなく、あくまで統一して扱うことを求めてこのドラフトには当初から反対 デフォルトで中華フォントを表示させるのに成功した 適当なサンプル https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/3524120/e95e7364-7f46-9c34-a037-330f229ac823.png https://qiita.com/kominato_slj/items/bbe0ae1445d8394d95bf
510 :デフォルトの名無しさん :2023/12/20(水) 14:57:22.31 ID:bsiqnAom.net デフォでCJKフォントになるのまじで敗北 いちいち手をいれるの面倒なのはわかるけど チラシやオフィス文書で頻繁にみかけるし気分悪い
511 :デフォルトの名無しさん :2023/12/20(水) 16:44:38.02 ID:qByD057F.net ChatGPTに頼ってもFlutterでは中華フォント対策コードにはならない て言うか明らかにフォントがおかしいのが気にならないのかよ https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/215011/72c9d7de-2c2b-44c8-7981-52080d8fb313.png https://qiita.com/asasigure/items/ea751ec73689e5fc7a41 https://github.com/asasigure1209/my-memo-app/blob/82a89d1fceec4a793294eaffc396e2d1432daa38/lib/main.dart#L19
512 :デフォルトの名無しさん :2023/12/22(金) 12:48:42.21 ID:aQcDRAHL.net 奴ら平仮名も持ってるから日本語のフォントに来ないってことかな 最初の優先順位はどうやって決まるんだっけ。文字数?
513 :デフォルトの名無しさん :2023/12/22(金) 17:48:45.93 ID:EF50Jr08.net Flutter民「おもちゃアプリで細かい事を言われても困ります」(真顔)
514 :デフォルトの名無しさん :2023/12/23(土) 02:14:34.25 ID:BVNJrzoJ.net 台湾行ったら看板とかでたまにひらがな使ってた。日本でちょっと英語を使うようなノリなのか? ということは台湾のフォントにひらがなが入っていることもあるか 日本語のフォントだって英語が入ってるものなあ
515 :デフォルトの名無しさん :2023/12/23(土) 17:37:20.90 ID:O5/zwK5J.net >>514 何故ひらがなに着目するのかな? ひらがなが台湾に根付いて独自の使用形態に進化していたとしたら別コードを割り当てたら良いと思う 漢字のオフショア版とはレベルが違うのでは
516 :デフォルトの名無しさん :2023/12/24(日) 15:05:39.67 ID:cW5CG4wL.net CJK一緒くたにされてるからUnicode用のフォントなら一般的にひらがな入ってる いまとなっては日本だけフォントグリフがローカルで特殊 これであってる?
517 :デフォルトの名無しさん :2023/12/25(月) 03:12:48.56 ID:BLDGJCrU.net 日本語のテキストに日本語のフォントが使われるには 1) テキストが日本語だと判定されて 2) 日本語にはこのフォントを使うという情報 が必要。だけどこの場合そうなってない で、例えばテキスト中の文字をサポートできるフォントを選ぶ、だけのロジックだと テキストは日本語でも中国や台湾のフォントにも行っちゃう というわけで Flutterのフォントシステムというのは1)と2)はどうなってるんかなと あるいはそれはFlutterが走ってるOSの役割なのかな、とかちょっと気になったのですが
518 :デフォルトの名無しさん :2023/12/25(月) 07:58:07.34 ID:bSYpeLlg.net HTMLならlang属性を指定している範囲がその言語 HTMLの英語使用部分にはlang=en 日本語使用部分にはlang=jaを指定する 入れ子も可能で<html lang=ja>と全体を日本語に指定しつつ 一部のパラグラフを<p lang=zh-CN>と中国語簡体字にすることも可能 全くlangが無指定ならunknownとなりそのHTMLを取り扱っている環境に委ねられる HTMLを生成する側はその部分が例えば日本語かどうか認識できるためlang=jaを指定するべきである
519 :デフォルトの名無しさん :2023/12/25(月) 13:20:40.37 ID:0Mvm6Xuj.net Unicode 以前の古い時代の、中国、台湾、韓国の国家規格の文字コードにも平仮名、片仮名は入っていて向こうの MS-DOS とかでも使えてた。 JIS の文字コードにキリル文字(ロシアの文字)とか入ってるのと同じようなもんだ。
520 :デフォルトの名無しさん :2023/12/25(月) 13:22:55.99 ID:0Mvm6Xuj.net 当然、大昔の中国フォントや韓国フォントにも平仮名や片仮名がはいっている
521 :デフォルトの名無しさん :2023/12/25(月) 18:36:31.84 ID:hM8jXSPc.net >>516 Flutter民「日本だけフォントグリフがローカルで特殊」(迫真)
522 :デフォルトの名無しさん :2023/12/25(月) 22:38:31.42 ID:BLDGJCrU.net 例えばロシアの人もキリル文字に日本語フォントが使われてしまいコレジャナイ感を 感じることがあったりするんだろうか (日本語フォントに入っているのは全角文字とのバランスを意識したデザインだったりする)
523 :デフォルトの名無しさん :2023/12/26(火) 10:43:12.38 ID:gc47Sdem.net >>522 変って言われたことはあるよ。 А細い文字も全角なので
524 :デフォルトの名無しさん :2023/12/26(火) 22:03:56.06 ID:AOFB3Nmz.net Flutterは言語が他で馴染みの薄いDartだから横一線での再スタート感があった。 一部を除いて、そんな動機で参加する再初心者が増えただけだから、 結局は一般知識の差や意識の低さがそこかしこで露になる。
525 :デフォルトの名無しさん :2024/01/01(月) 09:42:44.69 ID:uj2mjMNR.net https://qiita.com/ko1nksm/items/4907c1c88d478cac0be5 POSIX では Unicode を含むマルチバイトのロケールの文字に対応することになっていますが、現実的には対応していないコマンドがあります。商用 Unix はおそらく対応しているはずですが、Linux(GNU コマンド)や BSD 系 Unix では対応していない場合があります。Linux や BSD 系 Unix は POSIX に準拠していると主張してないので、完全対応していなくてもそういうものとして扱うしかありません。 さらに Unicode は数年おきにバージョンアップされます。最初のバージョンは 1991 年の 1.0 で収録されている文字は 7,129 文字です。現在の最新バージョンは 2023 年の 15.1 で収録されている文字は 149,813 文字です。収録されている文字の違いはソート順などに影響します。 それぞれの環境で Unicode への対応は異なり、ロケールに従えば環境ごとで結果が異なる可能性があり、ロケールに従わなければ(C ロケールでバイナリとして扱う)、一文字を一文字として扱うことができません。これを解決すると思われる C.UTF-8 ロケールは環境によって対応していない場合がありますし、話を最初に戻すと環境によってマルチバイトのロケールに対応していないコマンドがあります。 UNIX コマンドはマルチバイトという概念がなかった頃から互換性を保ちながら存在し続けており、その結果 Unicode への対応は中途半端で一貫性がない状態です。
526 :デフォルトの名無しさん :2024/01/01(月) 15:59:51.88 ID:rZ1QEI03.net ほとんどのコマンドがUTF-8をバイトストリーム扱いして実害ないのもある 文字列捕捉するときもASCIIで区切れれば十分だし
527 :デフォルトの名無しさん :2024/01/04(木) 12:49:20.33 ID:Ci8pMMwx.net 最初の節だけでも書いてる人間の質の低さが読み取れるけど、閉じようとして横のスクロールバーを見たらさらに驚いた >>525 もこんなもん張ってないでもうちょいマシな事せーよ
528 :デフォルトの名無しさん :2024/01/15(月) 10:21:35.41 ID:lmEiIC90.net ガムランとかフォルクローレを聴いてる女子小学生とか渋すぎやろ まあ俺も小学生の頃に、渡辺貞夫、日野皓正、高中正義、阿川泰子 カシオペア、喜多郎、ヒロシマ、坂本龍一、姫神、ラリー・カールトン なんか聴いてたが
529 :デフォルトの名無しさん :2024/01/15(月) 10:22:10.79 ID:lmEiIC90.net 誤爆
530 :デフォルトの名無しさん :2024/01/25(木) 15:00:29.08 ID:J/hIWPaa.net 漢数字の〇に親を殺されました。憎くて仕方がないのでunicodeから消してください
531 :デフォルトの名無しさん :2024/01/28(日) 08:46:58.18 ID:P/o+j6FX.net ○を打とうとして〇を打ち込む国民が大半になってしまった。 中国人が日本語のIMEを作っているからこうなる。 日本の日本人にやらせろよ、マイクロソフトのクソは。
532 :デフォルトの名無しさん :2024/01/28(日) 21:48:45.91 ID:2It1lSCU.net IMEは中国開発ってホント? 修正プログラムで賢くなった? Office IME 2007 6の疑問 https://ascii.jp/elem/000/000/195/195021/ Q2 日本語IMEの開発は中国で行なわれているって本当? A2 日本語IMEの開発は、日本で行なわれている。同社インプット メソッド テクノロジー シニアマネージャの佐藤良治氏によると、IME 2007以前のプロトタイプ開発の際には、日本だけでなく米国レドモントと中国北京にあるMicrosoft Researchとの共同作業が行なわれたという。それが誤解して伝わっているようだ。 日本でのIME開発は専任チームを置いて、ほかのアプリケーション開発と同じように独自に行なっているという。IME開発は日本のほかに、韓国、中国、台湾にチームがあって、各言語に依存しない要素(OSとのインターフェースなど)の開発は、これら4チームによる共同作業で行なわれている。専任チームの規模は日本が最も大きいとのことだ。
533 :デフォルトの名無しさん :2024/02/06(火) 23:59:02.95 ID:KyZjavzD.net メールでもヘッダーと本文でSMTPUTF8を使い、添付ファイルもBINARYMIMEを使って 8bitのデータをBase64などでエンコードせずにそのまま送れるのが当たり前になったらいいと思うが この方式で送るメーラーはあるんだろうか? メールの容量を小さくできる利点があるのに 互換性のために8bitデータは従来通りMIMEとBase64でエンコードしているメーラーが多いんじゃないだろうか
534 :デフォルトの名無しさん :2024/02/07(水) 01:54:51.06 ID:56hk09Wt.net Eメールアドレスのアカウント部分に「smtp」という文字列を使ったEメールが最近、届いたわ。
535 :デフォルトの名無しさん :2024/02/07(水) 01:57:32.65 ID:56hk09Wt.net >>532 Windows 10よりも前は、固有名詞は頑なに変換候補に出さなかったぞ。
536 :デフォルトの名無しさん :2024/02/07(水) 12:10:40.26 ID:y0HVimwG.net 出さなかったでなく出せなかった 海外製だったので
537 :デフォルトの名無しさん :2024/02/07(水) 14:45:22.80 ID:QiUY0uKk.net >>535 どうやったらそんなウソがつけるんだよいくらか脳ミソ欠損してんのか?w
538 :デフォルトの名無しさん :2024/02/08(木) 18:57:22.19 ID:T36ggrXR.net >>537 珍しい名字はずっと排除していたのがMS-IME Google日本語入力が登場してから焦って対応したが、体制が貧弱だったせいでもはや追いつけない。
539 :デフォルトの名無しさん :2024/02/08(木) 21:27:00.01 ID:uc+wYlaj.net IMEの話はIMEスレでどうぞ 【Microsoft IME】MS-IME Part15【Office IME】 https://mevius.5ch.net/test/read.cgi/win/1502601208/
540 :デフォルトの名無しさん :2024/02/08(木) 22:08:35.18 ID:BRY6swFg.net 文を書くとき濁点や半濁点は結合済み文字にするか通常の文字と濁点・半濁点を結合して使うかということと ()?などの記号類をASCII文字にするか全角文字にするか悩む
541 :デフォルトの名無しさん :2024/02/09(金) 00:11:16.67 ID:tjbjc/kZ.net 結合済み文字で良いのでは? 普通は一々、結合しないよね
542 :デフォルトの名無しさん :2024/02/09(金) 01:31:39.40 ID:rkpBAVYi.net たまにWindows上の古いアプリに用事があるのだけど、ファイル名に絵文字が入って たりすると駄目なのがある。エクスプローラーでは特に問題ないようでも Windowsは全然わからんのだけど、どこかの時点でファイル名のエンコーディングとか 文字セットとか変わったりしたんですか?
543 :デフォルトの名無しさん :2024/02/09(金) 01:44:08.30 ID:9MJgMFXC.net 単にUNICODE非対応なだけでは? 新しくても英語圏のソフトだとだめなのもありそう
544 :デフォルトの名無しさん :2024/02/11(日) 18:02:55.68 ID:wZuVdUkS.net ↵の改行マークは下に行ってから左に行くから LFCRを表しているように見えるが改行コードがLFCRの機種は無いんだよね CRLFなら左に行ってから下に行く┏のようなマークにするのが正しいのではないだろうか
545 :デフォルトの名無しさん :2024/02/11(日) 18:42:08.50 ID:ffsIt6XU.net リターン(enter)キーに印字されてる記号との兼ね合いもあるだろうし
546 :デフォルトの名無しさん :2024/02/12(月) 19:50:05.96 ID:iH1NbwmP.net プリンタ端末が遅いから、本当はLFCRだけど、CRを先に送出したんじゃなかったけ?
547 :デフォルトの名無しさん :2024/02/12(月) 20:47:13.82 ID:xjQTASu4.net もともとは、タイプライターの動作から来てるからな。 文字をタイプして行末まできたら、送りレバーを右に動かすんだけど、 まず、レバーを押した瞬間に紙を送るドラムが回転して行送り(Line Feed)、 そのままレバーを送ればドラムの載ったキャリッジが右側に移動する(Carriage Return)。 (LFなしのCRのみの動作も可能なモードもある) この2つを合わせたLFCRが本来の形で、 ↵が改行マークなのはこれが影響していると思われる。 改行コードでCRLF(\r\n)になった経緯は、>>546 ということみたいだね。
548 :デフォルトの名無しさん :2024/02/13(火) 05:49:18.51 ID:qAigZXFI.net 正規表現だと/nがLFだけではなく改行全般(CR/CRLF/LFの全て)を指している場合があるよね
549 :デフォルトの名無しさん :2024/02/13(火) 20:51:09.58 ID:rkd9ZwON.net >>542 WindowsはSJISとUTF-16の世界だからな。
550 :デフォルトの名無しさん :2024/02/14(水) 02:41:15.71 ID:nEDLgv5/.net いやWindowsはsjis残ってるけどmultibyteはもうutf8が主流と言っていいでしょ
551 :デフォルトの名無しさん :2024/02/14(水) 13:25:50.83 ID:MjsO/GDn.net >>550 WindowsはデフォルトがUTF-16だから、BOMがないとUTF-8をUTF-16として扱うことが多い。
552 :デフォルトの名無しさん :2024/02/14(水) 14:21:18.91 ID:J37aOx7P.net BOMってことは交換用データの話だとおもうけど だいぶ前からUTF-8推奨じゃね? 内部データとは別の話
553 :デフォルトの名無しさん :2024/02/14(水) 19:34:50.64 ID:ba/U1l5L.net 最初APIの話で当然内部コードの話だったんだけど違う話はじめたからな
554 :デフォルトの名無しさん :2024/02/15(木) 18:14:47.71 ID:ecDgnIbp.net >>552 Windowsそのものの話
555 :デフォルトの名無しさん :2024/02/17(土) 21:31:39.77 ID:919I6L0E.net 絵文字同士を結合した文字はOSによっては結合して表示されないから新たな機種依存文字になってるよね
556 :デフォルトの名無しさん :2024/02/17(土) 21:49:18.90 ID:5TKLtUC1.net 機種?
557 :デフォルトの名無しさん :2024/02/18(日) 00:28:41.00 ID:JX7gxI3D.net 文字幅が実行時にやってみないと確定しないのはマジで困るし非効率すぎるよな
558 :デフォルトの名無しさん :2024/02/19(月) 14:52:55.18 ID:DKEFCHRN.net 市民への郵送物、JISコード外の氏名が文字化け さいたま市が謝罪 https://www.itmedia.co.jp/news/articles/2402/19/news091.html 発送した12万通のうち4438通で、JIS規格の文字コードに含まれない外字を含む氏名について、正しい漢字が適用されなかったという。 対象の郵送物は「さいたま市物価高騰対応重点支援給付金のお知らせ」。 給付金に関する事務を受託している事業者が、外字を適正に印字する設定を誤ったため文字化けが起きたという。
559 :デフォルトの名無しさん :2024/02/19(月) 15:01:56.94 ID:W0+AhDGC.net 書き間違いで大量に発生したニセ漢字は今後使用禁止とするのがいいのかな 外字も必要なくなり皆がハッピー
560 :デフォルトの名無しさん :2024/02/19(月) 15:09:57.93 ID:nUsGqOzK.net 文字化けと言っても記号列の様な感じじゃなく中華フォントになったのだろう 普段から一部の粗悪アプリで中華フォントを見させれれてる弊害だな
561 :デフォルトの名無しさん :2024/02/19(月) 15:17:29.77 ID:W0+AhDGC.net 外字とあるから 書き間違いで戸籍などに登録された、 書き間違いニセ漢字のことだと思うよ
562 :デフォルトの名無しさん :2024/02/19(月) 15:31:19.40 ID:rXkcKh1e.net Unicodeも振られていない「外字」が4%弱の人名に使われてるとは思わないけどね どうなの?
563 :デフォルトの名無しさん :2024/02/19(月) 16:04:50.11 ID:Z5993mnd.net > 2月9日(金曜日)に委託事業者から納品された通知を、郵便局に差し出すために仕分けをしている際に、 > 市職員が外字が正しく適用できていない通知を発見したことで覚知しました。 記号列(◇の中に?等)タイプだと委託業者や印刷所が気が付く可能性が高いから ワタナベやサイトウ等のIVSを反映してなかった、と言う可能性はあるかも チェックした職員はGJだな、普段から外字を気に掛けてるのだろう
564 :デフォルトの名無しさん :2024/02/19(月) 16:29:42.83 ID:wagphOU/.net 右から左に字を書く文化圏でもBackSpaceやEnterキーの矢印は右から左なんだよね
565 :デフォルトの名無しさん :2024/02/20(火) 00:03:22.85 ID:HesmWnzZ.net そりゃそうだろうよ
566 :デフォルトの名無しさん :2024/02/20(火) 08:17:36.44 ID:72vUKQN+.net >>564 え? 某OS上の某キーボードの中の人だったが、逆向きにしたぞ UIは基本的に左右が逆 あと、括弧や不等号を入力すると逆向きになったりする おかげで一時期頭がアラビア語脳だった しかし、日本も戦争に負けなければ「右から左に文字を書く文化圏」なんて 他人事じゃなかったはず アメ公のせいじゃけんのう。くやしいのう
567 :デフォルトの名無しさん :2024/02/21(水) 00:09:55.88 ID:Tatd9Vu2.net あれ、でも実はそうかな? 念の為、競合の某大手のもチェック.... OK,、仲間発見。 焦るじゃないか。いい加減なこと言うんじゃない
568 :デフォルトの名無しさん :2024/02/21(水) 00:24:01.03 ID:Tatd9Vu2.net ああ、OSによってはリターンキーのデザインとかキーボードの言語でなく UIの言語で決めていたのもあったような気がするな くそっ、俺にとって今はどうでもいい事なのに気になるじゃないかw
569 :デフォルトの名無しさん :2024/02/23(金) 13:32:00.44 ID:y/vtB73j.net >>566 >あと、括弧や不等号を入力すると逆向きになったりする >おかげで一時期頭がアラビア語脳だった 頭がパニックになりそう 頭脳パズルで使える
570 :デフォルトの名無しさん :2024/02/23(金) 14:11:14.91 ID:zZg+pKnE.net 文字は右から左だけど、数字は左から右だったような 日本語で表現すると「すーまりいはータッリ30ンリソガ」みたいな感じ
571 :デフォルトの名無しさん :2024/02/23(金) 14:21:21.57 ID:7PfXlp3P.net 数字をリトルエンディアンで表記していると考えると自然。
572 :デフォルトの名無しさん :2024/02/23(金) 23:20:37.86 ID:ZR6D6MGM.net 日本語は中国語と同様に元々縦書きで右から左に行が移る言語なので、横書きした場合は右から左に書いていた。1行の長さが1文字になったみたいな感覚だ。だから戦前戦中は横書きというと右から左に書いてあるのが多い。 これが左から右の英語と同じようにした理由は戦後英語から翻訳した文を下に書く時に見易いから。
573 :デフォルトの名無しさん :2024/02/23(金) 23:36:24.87 ID:BOi6B7hI.net 左から右の横書きは戦後ではなくそれよりもずっと前からだよ あくまで右から左がなくなったのが戦後というだけの話
574 :デフォルトの名無しさん :2024/02/24(土) 21:11:27.48 ID:hGTo+fc5.net 縦書きと横書き https://ja.wikipedia.org/?curid=329702
575 :デフォルトの名無しさん :2024/02/25(日) 21:12:56.55 ID:Cch9zGyp.net >>570 「ガソリン30リッター」の部分が英語だとしたら、そこは左->右なので 「すーまりいはガソリン30リッター」としなければならない
576 :デフォルトの名無しさん :2024/02/25(日) 23:52:14.62 ID:IA0XC+Pj.net >>575 アラビア文字のおハナシ
577 :デフォルトの名無しさん :2024/02/27(火) 11:38:12.52 ID:EbapOQdH.net >>576 もちろんそうですが何か? というか右->左の言語一般かな。ヘブライとかも 難しいのは言語の境界で、例えば「ガソリン30はいりまーす」だとして、 「ガソリン」が英語、「30はいりまーす」が日本語(右->左)だと思えば 「すーまりいは30ガソリン」となるが、「ガソリン30」で区切れると判断してしまうと 「すーまりいはガソリン30」と、違う結果になってしまう あるあるだよね〜
578 :デフォルトの名無しさん :2024/02/27(火) 14:32:58.93 ID:0J04Un9A.net 縦日 に本 書語 けな ら
579 :デフォルトの名無しさん :2024/02/28(水) 01:29:44.98 ID:anWSvM2g.net MS-IMEのせいで丸印が、漢数字の零(ゼロ)に置き換わってしまった。 日本マイクロソフトは常に中国人に日本語を担当させているから、取り返しのつかない事態になってしまった。
580 :デフォルトの名無しさん :2024/02/28(水) 15:41:15.50 ID:lyPNcJHE.net 嘘も百回言えば真実となるってやつか
581 :デフォルトの名無しさん :2024/02/28(水) 19:33:10.15 ID:anWSvM2g.net 漢数字はフォントによっては真円じゃないからな。 潰れた丸印だと何これと思う未来がみえる。
582 :デフォルトの名無しさん :2024/03/05(火) 01:45:14.40 ID:7S/8Mxza.net 区切り文字としてHorizontal Tabは使われているが Vertical TabはTSV形式でも使われていないよね 他にも0x1C-0x1FのFS GS RS USも区切り文字として想定されているのに使われていない
583 :デフォルトの名無しさん :2024/03/05(火) 18:49:24.75 ID:AgmV2Z5M.net oO0◯○。゜❍〇⁰
584 :デフォルトの名無しさん :2024/03/07(木) 05:14:15.03 ID:bENjjFCg.net UTF-8で記号がたくさん登録されてしまったのも問題だよな ハイフンのような横棒は種類がたくさんあって、文字フォントの見た目では区別できなようなものもある。
585 :デフォルトの名無しさん :2024/03/07(木) 16:55:28.90 ID:vq4kvo+w.net それよりもはるかに深刻なのはスペースに見える文字がたくさんあって スペースを取り除くプログラムを書くのが不可能に近い
586 :デフォルトの名無しさん :2024/03/07(木) 17:41:11.51 ID:Km2D9ufH.net \s \p{Zs}以外は知りませんではダメ?
587 :デフォルトの名無しさん :2024/03/08(金) 17:23:14.35 ID:LipF0GJv.net >>585 近いだけで不可能ではないので大丈夫
588 :デフォルトの名無しさん :2024/03/09(土) 19:20:37.58 ID:xWVzZbl0.net Unicodeの正規表現でいける?
589 :デフォルトの名無しさん :2024/03/09(土) 20:38:58.52 ID:v2bDUg3+.net 正規表現じゃ無理に近い 素直にブラックリストです
590 :デフォルトの名無しさん :2024/03/09(土) 21:24:45.91 ID:HJGXBhOf.net >>588 正規表現はASCII文字くらしか想定していないが、UTF-8のASCII文字限定であれば問題ない。
591 :デフォルトの名無しさん :2024/03/09(土) 23:16:58.67 ID:fHpY/2ik.net UnicodeProperty「...
592 :デフォルトの名無しさん :2024/03/10(日) 02:07:22.30 ID:XyA7TYUn.net まだこんなレベルが複数いるとはな 585はなんだとおもってるんだろうか
593 :デフォルトの名無しさん :2024/03/15(金) 23:58:29.83 ID:AJ1aqVjx.net FS GS RS USを区切り文字にしている形式はあるんだろうか
594 :デフォルトの名無しさん :2024/03/16(土) 12:13:18.07 ID:YNOid1to.net 文字列の16進コードでも正規表現できればわかりやすくなる 何語でもよくなる
595 :デフォルトの名無しさん :2024/03/16(土) 13:00:35.09 ID:g4+az/43.net わかりやすいか?
596 :デフォルトの名無しさん :2024/03/22(金) 23:58:21.79 ID:3jp6lodI.net Unicodeのコードポイントが7FFFFFFFではなく10FFFFまでになったのはUTF-16で表せるのが10FFFFまでだから?
597 :デフォルトの名無しさん :2024/03/23(土) 00:18:21.28 ID:2nTsjVrr.net >>596 >>7 FFFFFFFではなく その前提はどこから来たのやら...
598 :デフォルトの名無しさん :2024/03/23(土) 01:10:47.92 ID:IkaEn615.net >>597 UTF-8 で表現可能な上限が 0x7fffffff だな。 UCS-4 すなわち UTF-32 だと 0xffffffff UCS-2 だと 0xffff UTF-16 の上限に合わせているというの合ってる。
599 :デフォルトの名無しさん :2024/03/23(土) 02:34:19.03 ID:Wb02QQTi.net 微妙にかみあってなくて笑う
600 :デフォルトの名無しさん :2024/03/23(土) 07:47:34.76 ID:RuIB3JhE.net 仮にUTF-8のビットパターンで1バイト目に11111111を使っていいとしたら その後は10******が8バイト続くことになり48bitまで表現できることになるね
601 :デフォルトの名無しさん :2024/03/23(土) 09:10:32.39 ID:mSx3lxAx.net >>594 マルチバイト文字に [] が使えなくて | で書かなきゃならんから少し面倒にはなるな。
602 :デフォルトの名無しさん :2024/03/23(土) 11:39:26.85 ID:IkaEn615.net >>600 未定義なので定義次第。6バイトの次が7バイトや8バイトは限らないので10バイトとか定義すればそのまま64ビットをカバーすることできるし、拡張の余地は残してある。
603 :デフォルトの名無しさん :2024/03/24(日) 09:08:35.50 ID:BJcMo4Na.net >>596 当初UCS-4は最上位ビットをエスケープなどの用途に使い それを除いた7FFFFFFFまで使用可能にする計画だったはず しかしUnicodeの上限が10FFFFと決まったためにUCS-4もそれに合わせて10FFFFになったのでは
604 :デフォルトの名無しさん :2024/03/30(土) 15:01:07.51 ID:7t7x8zZ+.net C: \のようにディレクトリの区切りが円マークなのは文字化けの結果なんだよね C:\のようにバックスラッシュが本来の文字なのに 円マークの方が見慣れていてバックスラッシュだと違和感を感じてしまう なぜディレクトリ区切りにスラッシュではなくバックスラッシュを採用したんだろうか
605 :603 :2024/03/30(土) 15:05:16.11 ID:7t7x8zZ+.net 603の1行目でC:の後に0xA5を入れたらバックスラッシュになってしまった・・・
606 :デフォルトの名無しさん :2024/03/30(土) 15:07:21.72 ID:NUhOM3sH.net 別に文字化けでもないでしょ バクスラなのはオプションがスラッシュだから
607 :デフォルトの名無しさん :2024/03/30(土) 15:16:04.30 ID:bmf5qOAu.net Win32のファイル関連APIはスラッシュでOK NT APIを直接使う時にはスラッシュはNG GUIコントロール、ダイアログなどで独自処理してる箇所はスラッシュの考慮漏れ多数
608 :デフォルトの名無しさん :2024/03/30(土) 16:10:17.92 ID:OZirNnMs.net Windows のRuby では、/ も使う。 C:/Users/Owner/Documents/a.txt WSL2, Linux なら、/mnt/c/ とか /mnt/c/Users/Owner/Documents/a.txt
609 :デフォルトの名無しさん :2024/03/31(日) 00:46:19.56 ID:/gud7Tc3.net C:\Users\Owner/Documents/a.txt なんてのが OK な処理系もあるな
610 :デフォルトの名無しさん :2024/03/31(日) 01:53:54.19 ID:x9YjQ3QN.net 処理系というかDOS/WindowsならOSがそうなってる
611 :デフォルトの名無しさん :2024/03/31(日) 06:08:53.00 ID:PaHOJUqO.net >>604 UNIXの真似したかったんだけど同じにしたくなかったんじゃね?
612 :デフォルトの名無しさん :2024/03/31(日) 07:10:21.54 ID:I5DgQFHY.net ゼロは、〇とか0とか0もいいけど、ぼくはΘが僕はスキです。
613 :デフォルトの名無しさん :2024/03/31(日) 07:11:47.66 ID:I5DgQFHY.net ディレクトリ区切り は、> が、ボクは、好き❦❤♥
614 :デフォルトの名無しさん :2024/03/31(日) 07:25:21.69 ID:SDQUovF1.net もともとDOSはCP/Mの互換OSでディレクトリは無かった。で新バージョンで UNIX 等を真似てディレクトリを導入しようとしたんだけど、その時点で / はオプションの導入記号として使用済みだったので仕方なく \ を使った。単なる歴史的経緯。
615 :デフォルトの名無しさん :2024/03/31(日) 14:18:23.86 ID:iuJTPy3O.net DOSはSWITCHARをコマンドでオプションの記号を/から-に変えられたようだが Windowsにも同じ機能はあるんだろうか?
616 :デフォルトの名無しさん :2024/03/31(日) 16:22:56.09 ID:SDQUovF1.net >>615 config.sys に書くやつなので同じのはないな。 一方で windows の内部API は \ だけじゃなくて / もディレクトリ区切りとして受け付けるというか、むしろ内部的には / に統一なのでDOS互換の目的以外でオプションに / を使う意味はない。
617 :デフォルトの名無しさん :2024/04/02(火) 21:41:53.85 ID:bdVNxKJc.net Windowsのパス区切り文字は、なぜ逆スラッシュになったのか? https://ascii.jp/elem/000/001/763/1763591/
618 :デフォルトの名無しさん :2024/04/03(水) 09:15:12.66 ID:vt2yN74v.net 2018年の記事でこのネタを扱って「この事実が開発者の間に広く知られるようになったのはここ数年ぐらいのこと」と書いちゃうの 筆者さんのお年頃を感じるわ
619 :デフォルトの名無しさん :2024/04/03(水) 15:47:23.50 ID:jDA8lqcs.net Windowsは長いパスを想定していないなど、いまさらどうにもならない部分はたくさんあるからなあ。
620 :デフォルトの名無しさん :2024/04/03(水) 15:47:57.80 ID:jDA8lqcs.net 正確には長いシステム文字列だけど
621 :デフォルトの名無しさん :2024/04/05(金) 09:39:34.21 ID:OAeRR9uw.net Windows 10 バージョン 1607 以降で長いパスを有効にする https://learn.microsoft.com/ja-jp/windows/win32/fileio/maximum-file-path-limitation?tabs=registry#enable-long-paths-in-windows-10-version-1607-and-later
622 :デフォルトの名無しさん :2024/04/06(土) 02:00:07.31 ID:q9eV9Q7I.net システムそのもののことを書いたんだけどな
623 :デフォルトの名無しさん :2024/04/06(土) 02:00:42.72 ID:q9eV9Q7I.net Windowsそのものは互換性の維持から変えられない
624 :デフォルトの名無しさん :2024/04/06(土) 06:49:25.04 ID:bcbhwFp/.net いい加減消えろよ荒らしかなんかなのか?
625 :デフォルトの名無しさん :2024/04/08(月) 00:02:59.85 ID:q+W5fVX8.net Windowsだと日本語のパスを普通に扱うから、UTF-8のストレージからコピーしたものなどは、キャラクタセットの問題で同じファイルと認識されないことがある。
626 :デフォルトの名無しさん :2024/04/08(月) 00:06:46.79 ID:gUGErxP/.net robocopyコマンドなどは日本語の濁点文字を変換できないので、Macなどから持ってきたファイル、フォルダなどをWindowsは正確に置き換えられず、新しい別のファイルだと判断してしまう。
627 :デフォルトの名無しさん :2024/04/08(月) 06:23:54.81 ID:/usqsKAh.net Unicodeの正規化の問題はマカーでもMacが変だとおもってるから zipとかを客に要求されたときは気を使ってる 俺はスクリプトでアーカイバ書いた
628 :デフォルトの名無しさん :2024/04/09(火) 20:36:20.01 ID:rPao90Ac.net UTF-8は同じ記号を二重に定義したりと迷惑極まりない
629 :デフォルトの名無しさん :2024/04/09(火) 20:39:38.16 ID:rPao90Ac.net 日本語のフォルダ名、日本語のファイル名、半角スペースが入っているパスなどは、やはりキャラクタセットの問題、区切り文字と誤認識したりと日本語を使う弊害があるから、MacユーザーはWindowsでも問題ない名前にしてくれないと無用なトラブルを起こす。
630 :デフォルトの名無しさん :2024/04/09(火) 21:34:31.96 ID:iMz8mL7D.net >>629 そんなこと言うとマックユーザーは濁点や半濁点が禁止になるぞ?!
631 :デフォルトの名無しさん :2024/04/09(火) 21:45:35.69 ID:UYF51JOY.net >>630 UNIXで日本語を普通に使っている時点で問題があるのにな Macユーザーは知識のない人間が多いのは事実だし、シェアが低いのにMacの方が売れているかのような嘘を話す。
632 :デフォルトの名無しさん :2024/04/09(火) 22:14:36.89 ID:alsgPFRw.net 昔は句点にしったかはいなかったのに時代かな
633 :デフォルトの名無しさん :2024/04/10(水) 01:10:50.60 ID:o/CaXglC.net 句読点話とか昔から議論があって、国とマスコミが合わせている話を最近の話だと思っているのは、ネットの捏造話題に振り回されすぎだw
634 :デフォルトの名無しさん :2024/04/10(水) 17:32:28.51 ID:+KIbNPCo.net 大文字と小文字の使い分けで問題が出るので
635 :デフォルトの名無しさん :2024/04/15(月) 15:11:19.52 ID:PE3M1YJ/.net 改行コードは、LF CR LF+CR どれが間違えなのか統一しろっつうの
636 :デフォルトの名無しさん :2024/04/15(月) 20:58:18.76 ID:QxQntH9/.net >>635 その前提が間違っています
637 :デフォルトの名無しさん :2024/04/16(火) 01:11:44.84 ID:FS4GZ/y6.net >>635 迷ったときはとにかくBOMなしUTF-8でLFにしろ
638 :デフォルトの名無しさん :2024/04/17(水) 05:36:29.22 ID:w7jXmCDp.net >>637 Windowsの知識がないのか?
639 :デフォルトの名無しさん :2024/04/17(水) 05:37:28.83 ID:w7jXmCDp.net WindowsはBOM付きじゃないとUTF-16だとみなすことが多い。
640 :デフォルトの名無しさん :2024/04/17(水) 06:30:22.24 ID:SUsXTeqI.net >>637 正解 それで世界標準が確立した
641 :デフォルトの名無しさん :2024/04/17(水) 18:58:24.59 ID:Pzbg3t/L.net >>639 そりゃあWindowsはそう判定するかもしれんけどな 普通はWindows上で動作するアプリの方にファイルを食わすんよ そんでそのデファクトがBOMなしLF UTF-8って寸法さね
642 :デフォルトの名無しさん :2024/04/17(水) 23:38:18.72 ID:knPCS6jH.net Windows なら BOM 無し CRLF UTF8 ではないかと思う どっちみちアプリ専用なら決め打ちだろうしな 自動判別が必要なものなんてテキストエディタくらいだろう
643 :デフォルトの名無しさん :2024/04/18(木) 00:01:39.47 ID:oEM4PXys.net 結局ネット互換性で文字コードは統一の方向に向かっている感じ。昔はOSごとにバラバラでも問題は大きくなかったんだが最近はそうも行かなくなって、ネット交換性のないアプリとかは時代遅れになっているし、開発もOS独立が主流。 今の所ネットでは、サーバーは Linux が圧倒的なシェアを持ってて、クライアントはスマフォ、特に android がシェア1位なのでやっぱり linux なのでその文字コードに全体が引き寄せられてる。
644 :デフォルトの名無しさん :2024/04/19(金) 16:15:59.26 ID:B7MqzRwb.net 横サイズ×縦サイズのように大きさを書くときには U+D7の乗算記号を使うべきなんだろうがアルファベットのxで書かれていることが多いよね 乗算記号はキーボードから直接入力できないからこうなってしまったのか キーボードから直接入力できる*も乗算記号の代わりとして使えるはずだがこの表記もあまり見かけない
645 :デフォルトの名無しさん :2024/04/19(金) 17:54:47.14 ID:8xyh5QpX.net ×とхとxとXとХと✕と✖の違いがわからない
646 :デフォルトの名無しさん :2024/04/19(金) 19:46:17.55 ID:jRDwWt4b.net >>644 Latin-1補助の文字集合というのがいまいちねえ そういえば円記号だって0xA5だけを使うという世界線がもしあったなら
647 :デフォルトの名無しさん :2024/04/20(土) 02:13:39.00 ID:5uh2yve4.net かける での変換、Shift キーとの同時押 下が面倒で x で代用するのかもしれんな
648 :デフォルトの名無しさん :2024/04/20(土) 02:18:34.42 ID:TAp2l9om.net >>647 もともとユニコードとか日本語とか実装される前の時代というか、コンピュターができる前のタイプライターの時代に乗算記号を x で代用する文化ができた。それが今に引き継がれてるだけ。
649 :デフォルトの名無しさん :2024/04/20(土) 10:09:45.86 ID:V9YAL+TF.net そもそも乗算記号は世界共通じゃないのよ ×じゃなくて・使う地域がある 除算記号も:使う地域がある
650 :デフォルトの名無しさん :2024/04/20(土) 14:38:04.06 ID:nh5GJjX6.net 桁区切りや小数点が違うのは、国際化ライブラリで変換してくれるのがあるよね 数学の演算記号もカバーしてたりするんだろうか
651 :デフォルトの名無しさん :2024/04/20(土) 17:24:22.41 ID:V9YAL+TF.net コンピュータ言語だと*と/で代用してるからね 世界共通じゃないのと普通の文章であまり出てこないのでASCIIコードに入らなかったんだと思う 数学だと乗算記号は省略されるし除算も分数表記になるし
652 :デフォルトの名無しさん :2024/04/20(土) 17:33:35.97 ID:TAp2l9om.net >>651 そんなこと言ってると APL 投げつけられるぞ?
653 :デフォルトの名無しさん :2024/04/20(土) 19:53:23.39 ID:75CIwP38.net セル内文字 ⇒ Unicodeは excel関数として存在する。 かつ UnicodeをUTF-8に変換 のロジックもネット上にあり 然るに、 EXCELセル内文字⇒UTF-8に変換 は、excel関数になくても、 vbaで自作可能❢ なハズです。 なので、EXCELセル内文字⇒UTF-8に変換 するVBAを開発するぞーーー。てか開発させよっーーーと by 🤡の呟き
654 :652 :2024/04/20(土) 20:58:38.32 ID:75CIwP38.net っていうかさ、UTF8 TO UNICODEを開発するぞ UTF8の16進数のやつをUNICODEの16進数に変換 するやつを開発トスル。すると、UNICHAR関数 (EXCEL関数)で、漢字が表示されるハズ スゲーー完璧なプラン(計画) ✌ 以下はその為の備忘録ぢゃ ───────────────── unicode「304A」をUTF-8に変換 1 「304A」を2進数に変えます。 2 それが0800〜FFFF⇒ 先頭から4, 6, 6ビットに分ける 3 それらの先頭に、E0,80,80を足す。 即ち 例「お」Unicode ⇒ UTF-8 は 304A ⇒ 0011 0000 0100 1010 ∴ 304A ⇒ 0011 000001 001010 ∴ 304A ⇒ 03 01 0A ∵16進数 これにE0,80,80を足す 304A ⇒ E3 81 8A ∵16進数 即ち例「お」UTF-8 ⇒ Unicode E3 81 8A ⇒ 03 01 0A ∵E0,80,80を引く 03 01 0A ⇒ 304A ∵🤔 🤔のロジックを検討中
655 :デフォルトの名無しさん :2024/04/20(土) 21:23:20.18 ID:TAp2l9om.net bit shift とか知ってる? bit and とか bit or とかは?
656 :デフォルトの名無しさん :2024/04/21(日) 01:26:18.38 ID:MS9R2kFy.net bit shift等なんとなくわかる で、何となく、どうにかなりそう。 x = x*2 '''xが128未満で左シフト x = x\2 '''右シフト x = x+192 '''xが64未満ならbit orかな bit and はちょっと難しい by 🤡
657 :653 :2024/04/21(日) 01:48:31.65 ID:MS9R2kFy.net 例 UTF-8でE3 81 8Aを、文字表示 E3 81 8A ⇒ 03 01 0A ∵E0,80,80を引く 03 01 0A ⇒ 30 4A ∵🤔思考中 30 4A ⇒ 「お」∵Unichar関数を借用 🤔のロジックを関数UtfStrとする。 プロシジャー名はUtfStrとする。 Sub 図形_Click() '「お」と表示されるハズ、多分 Msgbox UtfStr(&hE3h,&h81,&h8A) End Sub Function UtfStr(a1,a2,a3) as string b1 = a1 - 224 '''&hE0 を引く b2 = a2 - 128 '''&h80 を引く b3 = a3 - 128 '''&h80 を引く c=256*(16*b1+b2\4)+64*(b2 mod 4)+b3 UtfStr=WorksheetFunction.Unichar(c) End Function by 🤡机上済でも未テスト∴bugあるかも
658 :656レビュー自作自演 :2024/04/21(日) 06:35:47.14 ID:MS9R2kFy.net 👤 cの計算式内の16*b1は左2BITシフト? 🤡 yes b1 = a1 - 224 後の処理だから、 数式16*b1は、16*(a1 - 224)と同値だし 数式16*b1は、意訳で、左2BITシフトだ 🥳a1が224未満(モチ、a1がE0未満)で バグる気がするぅーーー 早くテストしてバグって混乱するとヨイ 🤡UTF8で 00 00 00 〜 DF FF FF でバグるか? んーーーー
659 :657 とにかく早速テスト篇 :2024/04/21(日) 08:23:58.98 ID:MS9R2kFy.net 出演者 🥳バカテスター 🤡プロマネ(元プログラマ) 👤宇宙人のランベルト星人 🥳プロマネが作った>>657 のVBAをRunしたらエラーでRunしない。バグ発見∴嬉しいデス ちゃーーーーんとテストしてる証だぁ 🤡 &hE3h は、&hE3 だった。てかそんなの報告せず 修正してテストしろーーーちゅーーーの 🥳 で、修正してテストしたら上手くいっちゃった ちゃんと、「お」とメッセージボックスに表示された 🤡 だろ\(^o^)/ ま、たった一文字だけど 今後は更にコード改造して、UTF8のをEXCELに表示させるぜ 🥳 たったの一文字で、それも「お」だけしかテストしてないぢゃーーー 🤡 最初の一歩はこんなもんだ。てかうっせーーー
660 :658の続きてかプロマネの呟き :2024/04/21(日) 08:39:06.15 ID:MS9R2kFy.net 🤡 Function UtfStr(a1,a2,a3) as string だけど、引数a1,a2,a3 の型はどうしようかな? 未指定で上手くいっちゃったみたいたけど、 なんか、やーーーだな 修正前 (a1,a2,a3) 修正後案1 (a1 as byte,a2 as byte,a3 as byte) 修正後案2 (a1 as integer,a2 as integer,a3 as byte) 修正後案3 (a1 as long,a2 as long,a3 as long) 修正後案4 (a1 as double,a2 as double,a3 as double) どれにしようかな? てかどれでもいいぽいけど 常識的には案1かな? てか案3もいいな。 てか、案4が個人的には好きだけど非常識だろし 案2にするなら、ヤッパ案3だし、んーーー 🥳 (a1 as byte,a2 as double,a3 as long) はどう❓。なんでも上手くいくなら上手くいきそうぢゃーーーん 🤡非常識なヤツ。てか案3にしよっと
661 :659についてランベルト星人感想 :2024/04/21(日) 10:51:04.07 ID:MS9R2kFy.net 👤 UTF8かつカテゴリ3BYTEなら、 そのロジックで、バッチリだろうが・・・ 🤡 オレッちの開発の、秘伝の数式 c=256*(16*b1+b2\4)+64*(b2 mod 4)+b3 は、モチロンバッチリだよな ✌ 👤 で、EXCEL VBAで実装するのか❓んーーー 🤡 モチロンだ。ってか連れないな。なんで 👤 その程度の数式なら、VBAは不要でさ、 EXCEL関数だけで、イケる気もする。 VBAを走らせなくても、UTF8コード値の入力 と同時に、文字(漢字等)が表示されるぜ 🤡 なるほど。入力と同時文字表示は、いいな VBAでの実装は保留とし、EXCEL関数での 実装を検討とする
662 :660 :2024/04/21(日) 11:05:36.10 ID:MS9R2kFy.net 👤 商を求めれるExcel関数は、QUOTIENT 且つ、余りは、Excel関数は、MODだ 且つ、EXCEL関数には、HEX2DECも存在 且つ、EXCEL関数には、UNICHARが存在 🤡 上手くやれば、EXCEL関数に、 UTF8CHARがなくても、UTF8CHARって感じの処理は可能な様な気がする 🥳 どうせ一文字だけだろ。まだまだぢゃーん。 🤡 最初の一歩は、慌ててはいけない。 「恋は焦らず」なんて題名の曲があるだろ てか、文字連結はEXCEL関数てか&できるし 数十文字位の改造も、楽勝と思うよん。 🥳 ちぇっ、つまんないの。楽勝なのかよ てか、カテゴリ3BYTE以外はバグぢゃない? 🤡 可能性は高いけど、カテゴリ3BYTE専用だ 🥳 なんか狡いのーーーー 🤡 これで良いのだ。
663 :661 :2024/04/21(日) 11:12:44.58 ID:MS9R2kFy.net 🤡てかカテゴリ3って何❓ 👤地球のネットによると漢字の様な感じだ。てか オレの霊感ではほぼ大部分の全角文字の気がする なお、霊的な直感なので、違っても怒るなよ 🥳ランベルト星人って地球人より無限大頭がヨイのに 霊感とか直感なのかよ。 てかさ、漢字は全角だし、ネットで漢字とか記載されてるけど ポクのヤマ感だと全角文字の、ことだろ。てかなんで カテゴリ3byteなんだろう。全角って2byteって気もする 🤡んーーオマエのヤマ感より宇宙人の霊感が正しい気がする、霊感的に
664 :662 :2024/04/21(日) 11:20:51.43 ID:MS9R2kFy.net 👤 ーーー、いやま、半角のカナ記号も UTF8では3byteだし、半角でもカナはカテゴリ3 だ。半角英数はASCiiだからカテゴリ3ぢゃないと思う てか、地球のUTF8訳わからん。 てか、EXCEL関数でもVBAでもどっちでも良いのでドンドン実装しちゃいなさーーーーい 🥳ドンドンしちゃいなさーーーーい
665 :プロマネ ノーコードで完成報告 :2024/04/21(日) 12:46:15.51 ID:MS9R2kFy.net >>664 🤡 はい。(VBA等は使用せずに)で EXCEL関数で、実装しちゃいました。 ま、テストデータは少ないからデバッグは必要かもだが そんなデータ入れるヤツがヤヴァイとみなし作業は完了 ま、どんなEXCEL関数でロジック作ったかは 無限大日未満に、公開と思うけど、 >>662 であの宇宙人が書き込んだEXCEL関数を 上手く組合せて完成。 ってか、これからはプログラミングなんて不要だぜ てか、やったぜ。てか スマホの連絡帳のVCFファイルのUTF8的なんだけど それを表示させる作業しなきゃ では、一旦バイバイーーーー やっほーーー 🥳プロマネがはしゃいでる。ポクとは違くアル
666 :664よ。何が完成だの巻 :2024/04/21(日) 13:30:07.84 ID:MS9R2kFy.net 🥳ていうかさ、664よ。何が完成だ❢ S社のスマホの連絡帳で vcfエクスポートしたら、 ファイルcontacts.vcfがエクスポートされ それをウインドウズパソコンに 移動させて、 contacts.vcfを開いたら文字化けた。 電話番号は半角数字の為かバッチリだが 氏名(妙・名) など、文字化けで読めん。 ちなみに、メモ帳で開いたら =E9=8A=80=E8=A1=8C という感じで表示 ま、UTF8ぽいけど、なんだこれ👿 「=E9=8A=80=E8=A1=8C」 ぢゃなくて 「銀行」を出力しろっつうの ※補足 E9 8A 80 は銀でE8 A1 8Cは行 ていうかさ、 「=E9=8A=80=E8=A1=8C」とセル入力で 「銀行」をセルに出力する EXCEL VBA できればノーコードで EXCEL 関数で、 「=E9=8A=80=E8=A1=8C」とセル入力で 「銀行」をセルに出力する やつ作れーー by 🥳バカテスターだが、ご尤もな主張
667 :プロマネてか自作自演 :2024/04/21(日) 13:39:02.51 ID:MS9R2kFy.net >>666 うっせいなーーてか、あのロジックは Excel関数で絶対参照はやらずに、相対参照のみで構築した リロケータブルって感じロジックだから、 ロジックの改造は用意だ。でも ヒマな時につくる。 イコールがでリミッターって感じだな。 ま、尤もな主張は認める。てかノーコードは修正が楽ちん ただし、ロジックは、VBAで設計するのがいいり 実装はそのVBAを参考にヒトがEXCEL関数に手作業で実装だ。 🥳てか、どうでもいいから、早くつくってよ CONTACT.VCF あれ文字化けだよな❓ 🤡おれも、それは、文字化けだと思う。
668 :デフォルトの名無しさん :2024/04/21(日) 13:57:13.06 ID:otjfab/5.net 悪いけどなにひとつ面白くないよ 当人だけがユーモアセンスあると思いこんでる中高年フリーランス(お察しください)か何かか NGNAMEしようにもご丁寧に毎回名前欄かえてくれてるみたいだしなあ いつまで続けるつもりなの?
669 :ランベルト星人 :2024/04/21(日) 16:51:27.41 ID:MS9R2kFy.net なんやかんやで、読者さんがいる。という訳で ノーコード(といってもexcel関数で概略) セル★に「:=E9=8A=80」入力 注 先頭には「:」を入れる事 セル☆はMID(★,3,2) でそこは「E9」表示 セル□はMID(★,6,2) でそこは「8A」表示 セル○はMID(★,9,2) でそこは「80」表示 セル🟦はHEX2DEC(☆)で 233 となる セル🟫はHEX2DEC(□)で 138 となる セル🟪はHEX2DEC(○)で 128 となる セル⭐は以下の数式でUNICODEにさせる 256*(16*(🟦-224)+INT((🟫-128)/4)) +64*(MOD((🟫-128),4)) +(🟪-128) で ⭐は37504 となる セル🌟はUNICHAR(⭐)で「銀」と表示 by 👤 これがランベルト星人のノーコードでのロジックだ(注 概略)
670 :668の補足 :2024/04/21(日) 16:56:31.18 ID:MS9R2kFy.net ⭐の37054はunicodeだけど十進数のunicode 単なる補足でした さてと、一段落したから、次回は暫くかも。気が向いたら また投稿するね。てか、文字化けvcfの漢字が表示されたので 嬉しくなって投稿しちゃいましたーーーでは、バイバイ👋
671 :668の補足 :2024/04/21(日) 18:33:10.13 ID:MS9R2kFy.net 🥳 今イロイロ、連絡帳のcontact.vcfのを半手作業で その668のロジックで、文字表示してみたんだけど・・・ 30点不合格って感じですね。入力と同時に文字が表示されるのは 素晴らしいけど、でも 🙆 漢字(全角)なら、まず正しく表示 ❌ 半角英数字は、⭐が異常な値(例えば負数)になり はUNICHAR(⭐)で エラーで、#VALUEと表示ですな EXCEL関数でやるのは、困難と判断する。 🤡ま、氏名とか住所の項目に全角文字だけなら上手くいきそ でも、その様な項目に半角文字が混ざるとダメか、 これは、ヤッパバグだな。(;´д`)トホホ… 例 5チャンネル なら○と思われるが 5チャンネル は、5のUTF8は&H35で&hE0未満故に🙅 ∴ >>658 の指摘が的中かよ。 バカテスター、なかなかやるな てか、(;´д`)トホホ…
672 :デフォルトの名無しさん :2024/04/21(日) 21:29:10.71 ID:o+cJ3WcJ.net 何これ最近流行りのスクリプト?
673 :デフォルトの名無しさん :2024/04/21(日) 22:29:13.79 ID:MS9R2kFy.net スクリプト? いやexcel関数で⭐とかは任意のセルの意味 ちなみに、全角漢字+半角数字混在のcontact.vcf のUTF8らしき、文字化けで読めないのは、ドウニカ、なった
674 :デフォルトの名無しさん :2024/04/21(日) 22:51:17.48 ID:ZC2cYJ3v.net >>637 UTF8なんて欠陥規格は使用禁止にすべきだな。殆どの文字がUnicodeの原形が分からないほど いじくりまわされたコードにされてしまい非常に分かりにくいし、大部分の文字がUTF16より バイト数が多くなってしまうから。単にASCIIがUTF8でも同じコードで同じバイト数で表せるという 理由だけのために、ASCIIに未練がある老害が欠陥規格を押し付けている。英語のまともな文章すら 書けないASCIIなんてもはやゴミ同然なのに、変化を受けいられないのは頑迷固陋すぎる。
675 :デフォルトの名無しさん :2024/04/21(日) 22:51:46.82 ID:ZC2cYJ3v.net ASCIIからの訣別を促進するため、プログラム言語の予約語や演算子、HTMLのタグなどに ASCIIにない文字をどんどん採用すれば良い。老害もASCII外の文字を強制的に使わせられれば、 奇怪な変換をしない素直なコードが合理的で優れていることを思い知らされるだろう。
676 :デフォルトの名無しさん :2024/04/22(月) 06:39:46.57 ID:K/eQNJGk.net よくわかるけど、よくわからないから、 絵文字も、ASCのも、全角漢字も、半角数字も、半角カナ なんでも、4byteのコードであるUTF32 にしろーーー ASCとかUTF8とかUNICODEとかEDなんとかは、今すぐ廃止しろー てか、UTF32ってなんでも4BYTE/文字 なの❓ だとしたら、UTF32だけでいいんぢゃなーーい。 UTF8 UTF16 UNICODEも今すぐ廃止しろーーーーーー
677 :デフォルトの名無しさん :2024/04/22(月) 06:44:03.13 ID:K/eQNJGk.net ていうか、UTF8は、名前をかえろーーーーー UTF8は、UTF8兼UTF16兼UTF24兼UTF32 という名称にしろ てか、UTF8は なんちゃってUTF8 がいい。 by 🥳
678 :デフォルトの名無しさん :2024/04/22(月) 06:55:50.72 ID:K/eQNJGk.net そうだ。ASCIIは、廃止しろーーーーーー老害だーーー だけど、ASCIIアート廃止は、反対だーーーーー てか、やっぱりEBCDIC IBMが1963年に定めた8ビットの文字コード にしろーーー。老害も、超賛成すると思う しかも、8ビットだから、EBCDICこそ、UTF8という名前にして 今のUTF8は、モピロン、なんちゃってUTF8に改名しなさーーい ていうか、EBCDICなら、老害も賛成するんぢゃなーーーい❓ てか、5CHってサイコー、絵文字も、お絵描きも 化けない ぽぃ https://o.5ch.net/2314g.png
679 :備忘録but厳密さは低い :2024/04/22(月) 09:17:14.56 ID:K/eQNJGk.net n文字目の最初のが、E0以上は n文字目は、UTF8カテゴリ3byte n文字目の最初のが、E0未満は n文字目は、UTF8カテゴリ1byte∴ASC
680 :単なるロジックの自主練習 :2024/04/22(月) 09:31:13.54 ID:K/eQNJGk.net 「赤」という文字の色は、黒だけど 「赤」という文字の文字コードは、「黒」の文字コードと異なる 当たり前ではある。 さて、 000000000011111111 123456789012345678 「UTF8 PRINTABLE:=30」という感じの文章があるとする これは、18文字だと思うだろ?! でも、どうやら1文字だ。なぜかって 意訳すると、その18文字は「0」という1文字だ ちなみに、0x30はUTF8でもASCiiでも「0」という1文字 だったかな。 by 👤地球人の文章には呆れる┐( ∵ )┌ てか、UTF8よりASCIIアートがこれから主流だーーーー✌
681 :678よ。4byte文字をサポートしろ :2024/04/22(月) 10:01:00.58 ID:K/eQNJGk.net >>679 なにこの、厳密性の低いロジック やっぱりこれからは、>>680 様のご主張の通り 絵文字1⃣💃🤡とか、ASCIIアート的な文字だ。 ASCIIアート的なのは、ASCII4文字がいいな。 4文字熟語というか、4文字ASCIIだ。ていうかさ お前の書き込んだ n文字目の最初のが、E0以上は n文字目は、UTF8カテゴリ3byte は、ラフすぎる n文字目の最初のがE0以上F0未満⇒n文字目は3byte文字 n文字目の最初のがF0以上⇒n文字目は4byte文字 だぜ。 おそらく、4byteのは絵文字💃🤡1⃣とかだから、 絵文字もバッチリな変換ロジックとなるぜ、 1byte〜3byte文字の様な、asciiとか全角漢字なんて もうこんなの文字ですらないもんねー。廃止しろー で、絵文字とasciiアートだけでよろしいーーーー✌
682 :文字化け :2024/04/22(月) 10:06:31.97 ID:K/eQNJGk.net 5chの書込で絵文字1⃣って書き込むと お絵描きのようには表示されません、 バグってるぅーーーーと思う by🥳発達障害テスター sssp://o.5ch.net/23176.png
683 :備忘録but厳密さは低い :2024/04/22(月) 14:05:18.79 ID:K/eQNJGk.net >>679 680 UTF8は、 F0-F7は4バイト、F8-FBは5バイト、FC-FDは6バイト らしっす。
684 :0682の続き :2024/04/22(月) 16:14:40.14 ID:K/eQNJGk.net 👤 でUTF8は、FE-FFは何バイトだ。その調子なら7バイトか? 地球の書では、それは最大6バイトだから 6以下なのに7バイトというランベルト星にも存在しない値か❓ 🤡第1バイト目は、UTF8は、第1バイト目は、FE-FFは、UTF8でない との旨がネット記載されてる。意味は通じない文章だ 👤んーー地球人は理解できん。てか一応地球の論理学的には UTF8でないと仮定で、UTF8でない ∵自明 @ UTF8であると仮定で、UTF8でない ∵背理法?A @でもAでもUTF8でない だな。 もし、UTF8なのに第1文字バイト目がFEまたはFF⇒ そもそも、変換プログラムがバグってるか、 そもそも、UTF8ですらない。 というのだろう 念のため、ASCIIコードでFE FFのASCIIコードが 存在するような体系があるか調査しておけ 🤡めんどくせー、3バイト文字と、みなして変換して 変換エラーになるだろうから、それでお茶濁すのが 実現的なオレッちのやり方。ぢゃーバイバイ👋👋👋
685 :683の続き :2024/04/22(月) 16:24:58.60 ID:K/eQNJGk.net 🤡てか、ASCii 127は存在する。16進数に翻訳すると ASCii FF は存在すると言うことになる。 👤 んーやはり思ったとおりだ、FFがある、でなんて文字だ 🤡 文字をパンチ穴空けて消しちゃうという機能のようだ 👤 紙に穴🕳を空けて、文字を消すってことなのか❓ 🤡 多分そうだ、モピロンUTF8もその機能を継承すべきだよな。 👤 モピロンた。🕳を、空けて文字を消すのだ。てか 地球人は頭が変だ。
686 :発達障害テスター :2024/04/22(月) 16:30:05.52 ID:K/eQNJGk.net 🥳 えー、ウッソーーー バイナリファイルにFF FF FF FF FF FF ・・・・・・ で、メモ帳でUTF8でそのファイルを開くと んーーーきっと🕳🕳🕳🕳🕳が表示されてさ、 それを印刷すると、プリンタが紙を🕳穴だらけにしてくれるか 早くテストしてみようーーーーよ。 👤🤡 オマエはもっと頭が変だ。
687 :備忘録but厳密さは低い :2024/04/22(月) 17:34:03.27 ID:K/eQNJGk.net てか😅 1111 1111 = 255 = FF 0111 1111 = 127 = 7F だFFと7Fは違うといというか、カテゴリー何バイトにするのか はやく、設計決めろーーちゅーーーの
688 :備忘録but厳密さは低い :2024/04/22(月) 18:16:52.29 ID:K/eQNJGk.net 🤡突然ですが、下記要領でテストやれ バイナリエディタぽぃツールで16進で 31 32 33 34 35 7F FF 31 32 33 34 35 のファイルを作成。それを メモ帳でUTF8で開く 尚フォントはいつものヤツとする 🥳の予想:12345🕳?????? と表示され そして、🕳と表示のとこは、絶対 穴が開き壊れちゃいますぅーーーーー 👤の霊感:12345 か 12345(del) って感じ 🤡答え 12345・12345 と表示された ただし、・は UNICODE 30FB ではなく なんと、・は UNICODE F8F3 だ F8F3というUNICODE は、 ネットで調べたが、意味がわからん∴謎
689 :プロマネの憶測 :2024/04/22(月) 18:25:11.98 ID:K/eQNJGk.net 🤡 ちなみに、・はメモ帳からexcelにコピペし DEC2HEX(UNICODE(⭐))というEXCEL関数したら F8F3 と表示された ってことは、 utf8の 7F FF ⇔ unicodeの F8 F3 との変換をメモ帳は内部でやっていると 憶測される。 BY 🤡の憶測の的中率は6.66‥%
690 :デフォルトの名無しさん :2024/04/22(月) 18:39:14.77 ID:K/eQNJGk.net てかUnicodeの範囲外かつ、UTF8の範囲外としても、 一応UTF8を変換してはくれてる。 というか。地球の書、主語を意図的曖昧にして解りづらくしてるんとちゃう❓
691 :686 :2024/04/22(月) 18:40:22.96 ID:K/eQNJGk.net てかカテゴリー何バイトにするのか はやく、設計決めろーーちゅーーーの
692 :プロマネ(との設定) :2024/04/22(月) 21:01:36.75 ID:K/eQNJGk.net >>669 ランベルト星人よ。それはカテゴリー3の場合の数式だな オマエのは、地球のネットの文学作品を読んで作ったような数式だ。 ていうか、これが秘伝の数式だ UTF8 = 14897152+ UNICODE ∵カテゴリー3 但し、UNICODE UTF8一覧表をみて、霊感で閃いた数式なので これが間違ってても怒らないでね by 🤡プロマネ 🥳プロマネやるーーーー。中学一年生の数学レベルぢゃーーん ランベルトって宇宙人、厨房よりバカなの❓ 👤うっせー。なんか数式一発なんて狡い。 🥳あ、負け惜しみだーーーー 🤡いや、まだテストしてない。それに霊感だ。 😅カテゴリー何バイトにするのかは、後回しで その数式で上手くいくか、早くテストしろー でカテゴリー3専用だろ 🤡ちなみに、 UTF8 = ASCii ∵カテゴリー1 だ 😅はやくカテゴリーを計算するのをつくれーーーー
693 :カテゴリーを仮計算 仮 仮 :2024/04/23(火) 06:31:34.43 ID:4WFWNNQf.net 先頭文字 カテゴリ ─── ── 00-7F ⇒ 1 C2-DF ⇒ 2 E0-EF ⇒ 3 F0-F7 ⇒ 4 F8-FB ⇒ 5 FC-FD ⇒ 6 上記以外 んーーー暫定カテゴリー1?
694 :デフォルトの名無しさん :2024/04/23(火) 07:48:18.49 ID:1Q5bRy/V.net >>674 ? もしや君、UnicodeとUTF8を別のものと思っている?
695 :ランベルト星人 :2024/04/23(火) 08:45:19.27 ID:4WFWNNQf.net 👤 コラ、プロマネよ。チミの数式一発のやつ カテゴリ3バイトのでも、99%超の確率でダメだ。 霊感どころか、直感もないダメ数式ですよーーー やはり、カテゴリ3のほぼ99%以上(霊感では100%)について 下記の、超秘伝の数式でバッチリなのぢゃ 🟦1byte目のUTF8の10進数 トスル 且つ 🟫2byte目の それだ トスル 且つ 🟪3byte目の ぢゃ トスル スルト、 ⭐ = 256*(16*(🟦-224)+INT((🟫-128)/4)) +64*(MOD((🟫-128),4)) +(🟪-128) というランベルト星の秘伝の数式により ⭐には地球人が発明したUTF8の10進数をゲットぢゃ なお、霊感では、多分全てのカテゴリー3の文字で成立のありがたい数式ぢゃ 🥳 プロマネダメぢゃーーーーん。霊感に頼るからだよん てかランベルト、やるぢゃーーん。霊感バッチリぢゃーーん、 👤 いや、霊感というか地球の書をやっと理解して後は、ま霊感ぢゃ
696 :発達障害テスター :2024/04/23(火) 10:55:15.34 ID:4WFWNNQf.net 🥳 UnicodeとUTF8をまったく別のものていうか、 UnicodeでUTF32の亜種のような気がする 👤 ┐(‘〜`;)┌
697 :デフォルトの名無しさん :2024/04/23(火) 13:13:02.11 ID:veCrNLlk.net よく使う言葉を漢字1文字に割り当てるルールがあればよい ウクライナ→浮など 同じ漢字の場合の勝ち負けルールも決めておく
698 :ランベルト星人 :2024/04/23(火) 16:35:40.45 ID:4WFWNNQf.net 2byte専用縛りのUTF to UNICODE の変換数式だ 【カテゴリ2専用 普通にテスト済】 セル★に「:=C2=AE」と入力 注 先頭には「:」を入れる事 セル☆はMID(★,3,2) でそこは「C2」表示 セル□はMID(★,6,2) でそこは「AE」表示 セル🟦はHEX2DEC(☆)で 194 となる セル🟫はHEX2DEC(□)で 174 となる セル⭐は以下の数式でUNICODEにさせる ⭐=64*(🟦-192)+(🟫-128) で ⭐は 174 となった セル🌟はUNICHAR(⭐)で「®」と表示 なお、ある ンゴ文字 を連結で 表示が逆(右から左)に表示されたり、 右詰めに表示されたりしたが キニシナイとする。エクセルでの表示だし とにかく、下記数式は、バッチリ ⭐=64*(🟦-192)+(🟫-128) ∵2byte専用 BY 👤まずまずなので嬉しくて投稿しちゃった 🥳ランベルトって子供みたーーーーい
699 :697訂正 :2024/04/23(火) 16:42:46.35 ID:4WFWNNQf.net ❌ンゴ文字 ⭕ンコ文字 に訂正 sssp://o.5ch.net/231hc.png
700 :デフォルトの名無しさん :2024/04/23(火) 17:41:40.24 ID:gmQp6YI4.net >>675 プログラム言語の予約語や演算子、HTMLのタグなどには 制御文字を使えばその文字がコマンドの一部なのかデータなのかどうか 判別しやすくなるのにそんな使われ方にはならなかったね。 0x1B(ESC)はそのために存在する文字なのに。
701 :0692の改訂∴朝令暮改 :2024/04/23(火) 20:49:00.69 ID:4WFWNNQf.net 【修正前】 UTF8文字 カテゴリ ─── ── 00-7F ⇒ 1 C2-DF ⇒ 2 E0-EF ⇒ 3 F0-F7 ⇒ 4 F8-FB ⇒ 5 FC-FD ⇒ 6 上記以外 んーーー暫定カテゴリー1? 【朝令暮改 改訂】 UTF8文字 カテゴリ ─── ── 00〜7F ⇒ 1 C2 80〜DF BF ⇒ 2 E0 80 80 〜 EF BF BF ⇒ 3 F0 80 80 80 〜 F4 BF BF BF ⇒ 4 F800000000〜FBFFFFFFFF ⇒ 5なの? 不正なの? 地球人の書イミフ FC0000000000〜FDFFFFFFFFFF ⇒ 6なの? 不正なの? 地球人の書イミフ 上記以外 ヘンなのはカテゴリーは1でいいやーーーーー by 👤地球の書を更に完璧に理解したぜ 🥳宇宙人、更に病状悪化。治療不可だな
702 :デフォルトの名無しさん :2024/04/23(火) 20:54:53.10 ID:4WFWNNQf.net LPRINT CHR$ (27); 賛成
703 :デフォルトの名無しさん :2024/04/23(火) 21:24:18.36 ID:6TsV+qCl.net >>694 ここでのUnicodeはUnicode表に載っているコード値という意味ね。 UTF8はU+100以上の文字がUnicode表とは似ても似つかぬコードに変形されてしまうので不可。 UTF16はU+10000以上の文字が変形されるのはあまり好ましくないが、結果のサロゲートペア U+D800〜DBFFとU+DC00〜DFFFもUnicode表に載っているのでまあ可。
704 :デフォルトの名無しさん :2024/04/23(火) 21:43:55.95 ID:4WFWNNQf.net >>701 自己スレ 朝令暮改を更に改訂 今度こそ最終案 【超々最終案】 とにかくカテゴリー、キーメタ。 UTF8の先頭 カテゴリ ─── ── 00〜7F ⇒ 1 C0〜DF ⇒ 2 80〜EF ⇒ 3 F0〜F8 ⇒ 4 上記以外 ⇒んー悩む。0だけど1かな by👤地球の書 更に超完璧に超理解したぜ 🥳 どの案でも、いいぢゃーーーーん。
705 :デフォルトの名無しさん :2024/04/23(火) 22:45:52.70 ID:2WXqZgLp.net >>703 似てもに似つかぬとか言い出すのはお前が16進数とか使ってるから。2進数使えば解決。そのままだということが分かる。
706 :発達障害テスター :2024/04/24(水) 05:32:39.83 ID:s8r+XPAL.net 🥳 モピロン、ASCiiもUTF8も、なんでも、 文字がASCiiなら、同じだ。ちがうのはunicodeだけ 「A」は、ASCもUTF8も、1BYTEだけど、 UNICODEは、1BYTEぢゃないもんねー。2バイトかな。 1と2は、違う値ですよーーーーーーーー。BY🥳
707 :プロマネ :2024/04/24(水) 05:39:16.75 ID:s8r+XPAL.net >>704 こら、自称宇宙人!、カテゴリーは10進数はOKだが UTF8の先頭は、16進数だけでなく、2進数も併用して 書き直せ、ちゅーーーーの by 🤡 10進数にしよっかな by 👤
708 :2進数レビュー :2024/04/24(水) 08:35:44.88 ID:s8r+XPAL.net 🤡サロゲートペアてかカテゴリー4の UTF8toUNICODE を設計しろ。で まずは、 U+10000 〜 U+10FFFF を2進数にしろ 👤3byte 24bit U+10FFFFのみ解答とする Unicode 1‖⚪⚪⚪⚫ ⚪⚪⚪⚪ 2‖⚫⚫⚫⚫ ⚫⚫⚫⚫ 3‖⚫⚫⚫⚫ ⚫⚫⚫⚫ 🥳 ポクならサロなんちゃらは、設計は U+010000〜U+ 0FFFFFにするぅぅ UnicodeのサロのMaxのは、 1‖⚪⚪⚪⚪ ⚫⚫⚫⚫ 2‖⚫⚫⚫⚫ ⚫⚫⚫⚫ 3‖⚫⚫⚫⚫ ⚫⚫⚫⚫ てかU+10FFFFってどんな文字なの❓ 🤡レビュー中止。てか カテゴリー4のUTF8toUNICODE のプログラミング設計にとりかかれ
709 :突然ですがランベルト星人の呟き :2024/04/24(水) 08:47:17.93 ID:s8r+XPAL.net >>708 テスター🥳の疑問 、地球のネットのAIで検索してみた。スゲーー長文だが、U+10FFFFについてAIで検索すると チョー適当にまとめると以下の通りかも 「天使の力」「大いなる創造の力」「愛の力」と呼ばれているそうです。 いずれにしても、『』という文字には謎めいた魅力があり、人々の興味を引きつけることは間違いありません。 との、ご回答だ by 👤 地球人の仕様ナゾ 誤回答なの? by 🥳なんか面白い
710 :707の続き :2024/04/24(水) 09:50:49.16 ID:s8r+XPAL.net 👤Unicodeは、とにかく4てか3byteトスル Unicode on サロゲートペア 1‖⚪⚪⚪🔵 🔵🔵🟤🟤 2‖🟤🟤🟤🟤 🟣🟣🟣🟣 3‖🟣🟣🟢🟢 🟢🟢🟢🟢 トスル 🤡すると、UTF-8は? 👤地球の書を解読すると UTF-8 on サロゲートペア 1U⚫⚫⚫⚫ ⚪🔵🔵🔵 2U⚫⚪🟤🟤 🟤🟤🟤🟤 3U⚫⚪🟣🟣 🟣🟣🟣🟣 4U⚫⚪🟢🟢 🟢🟢🟢🟢 と解読できた。 なお、地球人は⚫は1、そして、 ⚪は0という文字を使用するようぢゃ 🤡サロゲートてかカテゴリ4専用の UTF8toUNICODE をすぐプログラ厶しろ
711 :709の続き :2024/04/24(水) 10:03:19.23 ID:s8r+XPAL.net 🥳カテゴリー4かの判定は、 F0〜F8 ⇒ 4 だから、2進数に翻訳で 1U⚫⚫⚫⚫ ⚪⚪⚪⚪ 〜 1U⚫⚫⚫⚫ ⚫⚪⚪⚪ >> の 1U⚫⚫⚫⚫ ⚪🔵🔵🔵は、 条件の十分条件ぽぃぞ。 🤡 十分条件って何❓ 🥳 それだけで、バッチリ十分だぜ条件❢ 👤 ¯\(◉‿◉)/¯¯ 🤡サロゲートの専用の UTF8toUNICODE をすぐプログラ厶しろ
712 :デフォルトの名無しさん :2024/04/24(水) 10:18:40.68 ID:uTe2irO1.net 車輪の再発明どころか まわりが車輪を使ってる中で丸太を転がすことを見つけてドヤってるかのような
713 :デフォルトの名無しさん :2024/04/24(水) 12:53:35.98 ID:PsCDSBWI.net 小学生がネットで調べたことを一生懸命自慢してるんじゃないだろうか? 爺の巣窟でそんなやついるかという疑問はあるが、小学校低学年の算数知識ならこんなもんだろう。高学年だと恥ずかしくて外歩けないレベルだし。
714 :ランベルト星人\(^o^)/ :2024/04/24(水) 13:56:24.70 ID:s8r+XPAL.net 【カテゴリ4専用・多分OK】 セル★に「:=F0=A8=AA=B9」入力 注 先頭には「:」を入れる事 セル☆はMID(★,3,2) でそこは「F0」表示 セル□はMID(★,6,2) でそこは「A8」表示 セル○はMID(★,9,2) でそこは「AA」表示 セル△はMID(★,12,2) でそこは「B9」表示 セル🟦はHEX2DEC(☆)で240 となる セル🟫はHEX2DEC(□)で168 となる セル🟪はHEX2DEC(○)で170 となる セル🟩はHEX2DEC(△)で185 となる セル⭐は以下の超秘伝の数式でUNICODEにさせる ⭐=65536*(4*(🟦B-240)+INT((🟫-128)/16)) +256*(16*MOD((🟫-128),16)+INT(((🟪-128)/4))) +(64*MOD((🟪-128),4)+(G-128)) セル🌟はUNICHAR(⭐)で 「金先王」というか お絵描きの文字 表示された\(^o^)/ 超秘伝の数式だぜぇーーー by 👤 やっほーサロゲートともバッチリ 🥳一文字だけしかテストしてないぢゃん てか超秘伝の数式?アタマがヤバイぢゃん https://o.5ch.net/231rd.png
715 :デフォルトの名無しさん :2024/04/24(水) 14:02:06.16 ID:IsoM8arJ.net Look! A pair of boobs! -> (.Y.)
716 :発達障害テスター :2024/04/24(水) 14:02:56.34 ID:s8r+XPAL.net 🥳ランベルト星人やるーーーねー ランベルト星人は、小学生の算数低学年でも 2進数とか計算とかバッチリぢゃーーーーん ランベルト星人の数学パワー偏差値は無限大はマジぢゃーーーん。 👤偏差値は、正規分布は、範囲は±∞だけど・‥…
717 :デフォルトの名無しさん :2024/04/24(水) 17:47:14.76 ID:s8r+XPAL.net >>708 の👤さんの2進数って、わかりやすい。 てか、UTF8、UTF16、UTF32は今すぐ廃止 そして、UTF24を地球人の皆さーーーん。今すぐ開発しようよ。 なんでも3byte/文字でいいじゃーーーん。 U+🟢🟠は、UTF24は⚪🟢🟠 U+⚪🔴🟢🟠は、UTF24は🔴🟢🟠 ちなみに、⚪は2進数だと00000000 の定数 変換簡単。地球でも大人なら計算できると思う。 てか、UTF8とかUNICODEもっと仕様変えようよ。 そのたびに、スマホの連絡帳のcontact.vcfが 文字化けして、システム改修のお仕事が増えるから 景気バッチリになるよ。 てか、UTF24を開発しなさーーい
718 :デフォルトの名無しさん :2024/04/24(水) 18:27:46.35 ID:s8r+XPAL.net 👤自慢する訳ぢゃないけどサロゲートに対応した 超秘伝の数式 ⭐=65536*(4*(🟦-240)+INT((🟫-128)/16))+256*(16*MOD((🟫-128),16)+INT(((🟪-128)/4))) +(64*MOD((🟪-128),4)+(🟩-128)) マジ、可也完璧 てか、オレッちのPCのEXCEL、どうにか サロゲートとかいう漢字、表示はされるけど MID関数が、怪しいのを発見 ま、この超秘伝の数式を検証テスト中に発見した ので、お絵描きしておく。 ちなみに、月へんに亀という文字を三文字 で、先頭の4文字を表示というロジックなのに 2文字しか表示しない。 ったく、地球人が変な規格を追加するから 滅茶苦茶ぢゃーーーん。 てか、サロゲートも、廃止しろーーーー https://o.5ch.net/231so.png
719 :発達障害テスター :2024/04/24(水) 19:38:51.65 ID:s8r+XPAL.net てか、MID関数がサロゲート のせいでバグってるの❓ で絵文字はスキです∵カワイイ ∴絵文字をサロゲートにするのは反対 ∴絵文字は日本語の漢字を半分削り 日本語は絵文字だらけにしろー。 絵文字のMID関数でのバグもなくなりそうぢゃーーーん BY 🥳バカテスター
720 :夜会もレビュー :2024/04/24(水) 20:25:50.12 ID:s8r+XPAL.net 🤡 MID関数の第2パラメータ はサロゲートならば倍にすれば解決ぢゃん 👤 呆┐( ˘_˘)┌ これだから地球上は小学生未満の知能なのだ オレの霊感だとサロゲートは2文字と誤認識するからだ しかし、ある日予告なく、 🟥🟩 🟦🟨が 内部はunicodeは、UCS2やめて、 内部はUTF32とか、UCS4にしたら 「ユーザーがサロゲートならば倍」の修正ロジックは、巻き戻さないとヤバイ 🟥🟩 🟦🟨が、そこまでは、やらないだろ というか、UNICODEがUCS4に規格追加しても、それと同時に あの計算ソフトの内部はUTF32とか、UCS4になる訳ではあるまい。 🤡MID関数等の使用を禁ずる案件が増えて嬉しいです 🥳バグっていいぢゃーーーん。AKBてかHKBてか、何とか坂48 サイコー
721 :デフォルトの名無しさん :2024/04/24(水) 21:43:02.45 ID:KaCj8qqt.net >>705 そのままじゃないだろ。 Unicode : 101101101010111 UTF8: 11100101 10101101 10010111 第一、2進数なんて可読性が低すぎる表記を使えるわけない。
722 :デフォルトの名無しさん :2024/04/25(木) 00:11:56.99 ID:PLcFkbi3.net >>704 UTF-8 は以下のように、先頭ニブル・4ビットで、1〜4バイト文字を判別している 1バイト文字: 0000〜0111: 0〜7 多バイト文字の2バイト目以降 1000〜1011: 8〜11(8〜B) 2バイト文字: 1100〜1101: 12〜13(C〜D) 3バイト文字: 1110: 14(E) 4バイト文字: 1111: 15(F) Unicode → UTF-8 1バイト文字(数字・アルファベット) U+0000 〜 U+007F 0xxx xxxx 2バイト文字(アラビア文字) U+0080 〜 U+07FF 110x xxxx 10xx xxxx 3バイト文字(ひらがな・漢字) U+0800 〜 U+FFFF 1110 xxxx 10xx xxxx 10xx xxxx 4バイト文字(難漢字) U+10000 〜 U+10FFFF 1111 0xxx 10xx xxxx 10xx xxxx 10xx xxxx BOM = "\uFEFF" → EF BB BF
723 :デフォルトの名無しさん :2024/04/25(木) 06:29:50.76 ID:Zr256XUh.net 🤡:=プロマネ(の役) カテゴリーの最終案件は再検討∧後日 👤:=ランベルト星人(の役) どうして? 🤡以前納品したexcel関数で作ったのが サロゲート文字でバグることが判明 👤で、ま、それはオレが報告したけど 🤡MID関数で4バイト文字: 1111: 15(F)で バグから、MID関数使う全ての改修だ 👤サロゲートの文字使用禁止でいいぢゃん 🥳:=発達障害テスタ(の役) 絵文字使用禁止に反対。∴ MID関数使う全ての改修に、超賛成 ていうか、「👤」は難毒漢字なの?? 👤それは、サロゲート∧emojiかも sssp://o.5ch.net/231zu.png
724 :722 :2024/04/25(木) 08:19:51.97 ID:C8YrSVH7.net 🥳で、全てのプログラムで MID関数は使用禁止、早くやろーーよ サロゲート文字列でバグるから、 >>723 で「MID関数使う全ての改修だ」 って、全て プロマネいってたぢゃーん。 🤡うっせいなーー、それは微妙に撤回 サロゲート文字列を引数とする MID関数の使用を禁止に、変更だ us-ASCii文字列を引数とする MID関数の使用は許可トスル そう MID(":=F0=A8=AA=B9",3,2) はOK 🥳 :=F0=A8=AA=B9はサロゲート文字ぢゃん 月亀 って感じの難毒漢字一文字ぢゃーん 🤡 なんてバカなんだ ascii13文字だ。 👤¯\(°_o)/¯ 地球人のcontact.vcf 化けるわけだ
725 :ランベルト星人 :2024/04/25(木) 09:19:23.56 ID:Zr256XUh.net 721さんの地球の日本語 「多バイト文字の2バイト目以降 1000〜1011: 8〜11(8〜B)」 の解読に成功した。おそらく それが絶対に2byte or 3byte or 4byte のUTF8ならば、 2byte目 3byte目 4byte目 ─── ──── ──── 80〜EF na unknown ⇒ 2byte と判定せよ 80〜EF 80〜BF na ⇒ 3byte と判定せよ 80〜EF 80〜BF 80〜BF ⇒ 3byte と判定せよ 🥳 na とか unknown ってなに、バカなの❓ そんなの、書いてないぢゃーーーん。勝手に解釈いれるな 👤 ん、参照するなってか、参照したら付きの文字の先頭だし んーーー言葉に出来ん。 てか、プログラミングするときは、この辺りの設計は 重要だ 🤡難しく考えないでドンドン、プログラム製造しろーーー 🥳ドンドン、しろーーー
726 :デフォルトの名無しさん :2024/04/25(木) 09:26:46.18 ID:Zr256XUh.net 👤 あ、しまつた。タイプミスしまくってた 🥳 なんだよ。プログラムところがタイプライタからやり直せ 🤡 ま、プログラムでタイプミスしなきゃ、ヨシ、 🥳 タイプミスっても、シンタクスエラーなるしヨシ 👤 とにかく、サロゲートでの文字列のMID関数でバグる件の 修正は、目処たった 🥳 やるぢゃーーーーん。テキトーにやっればいいぢゃーーーん 🤡 とにかく、慎重且つ迅速にやれ 👤 ま、今日は、プログラムの修正に専念する。バイバイ
727 :デフォルトの名無しさん :2024/04/25(木) 10:10:22.88 ID:Zr256XUh.net 👤とにかく、MID関数はサロゲート未対応 に伴う、プログラム改修は完了した。 🤡ありがとう。そうだ 単独1byteには対応済 単独2byteには対応済 単独3byteには対応済 そして、その対応で、単独4byteも対応済 👤 単独? asciiとサロゲートが混在は? 🤡 それは、これからだ。 1〜4byte文字が混在混在混在の文字列の UTF8→UNICODE 変換のプログラムに 魔改造とする。その為に >>722 の一覧は重要だ。 👤 yes 🥳4つのロジックを継ぎ接ぎするだけ 超楽勝。∴小学生でも、超できるね 🤡 地球人の小学生には無理だろ 👤 yes
728 :突然ですがランベルト星人の呟き :2024/04/25(木) 13:18:02.69 ID:Zr256XUh.net みえた。裏の裏の裏まで霊感で見えた 1バイトなのに、1バイト目80〜FFは👻 2バイトで2バイト目80〜BF外 は👻 3バイトで2バイト目80〜BF外 は👻 3バイトで3バイト目80〜BF外 は👻 4バイトで2バイト目80〜BF外 は👻 4バイトで3バイト目80〜BF外 は👻 4バイトで4バイト目80〜BF外 は👻 と表示する by 👤透視によりUTF8仕様の裏まで読切る なお👻は「おばけ」を意味するemoji
729 :デフォルトの名無しさん :2024/04/25(木) 15:12:32.21 ID:VKvfdxmp.net 性器表現使うようになってから midなんてもう使わなくなったわ
730 :突然ですがランベルト星人の呟き :2024/04/25(木) 15:16:15.41 ID:Zr256XUh.net 👤プログラム設計者が 2バイトで2バイト目80〜BF外 は👻を表示のロジックをどうするか 愉しみ 🤡単に👻を表示するだけだろ 👤ま、そうだが、2バイト文字なのか怪しいわけで、 次の文字は、2バイト先なのか、それとも、 次の文字は、1バイト作なのか、どっちでプログラム設計するかだ 🤡んー、2バイトとのはずなのに2バイトぢゃないか ま、文字化けasciiとみなし、次のは1バイト先だ。 なかなか、ランベルト、有能ぢゃーーん。 地球人の既存のロジックでそこまで気づくのは皆無だな 👤それなりに地球人でもいるだろ。半分位
731 :バカテスタ :2024/04/25(木) 15:22:15.35 ID:Zr256XUh.net 🥳 ランベルトとプロマネ、プログラム設計のハナシしてるな てか、変なUTF8コードだと、「👻」を表示するってこと❓ 👤モチロン、宇宙初の超バッチリロジック 文字化けは、絵文字「👻」で表示。これが 我が宇宙のスタンダードだ。だっちゅーーーの 🤡多分、地球初てか、世界発かな。てかま、 絵文字をUNICODEがサポートした時点で、変なやつが 文字化けの文字を「👻」にする奴は665人ぐらいいるな 世界で666番目だと憶測する。 🥳面白いけど、二人とも頭オカシイです。
732 :プロマネみずからプログラミング設計 :2024/04/25(木) 15:42:21.27 ID:Zr256XUh.net PRINTABLE:=xx=xx=xx=xx=xx=xx なんて感じのやつは、1バイト先はその3倍右だな by 🤡呟き
733 :デフォルトの名無しさん :2024/04/25(木) 18:28:36.90 ID:e5LyQxxV.net UnicodeでU+7F,U+FFFFは制御文字なのにU+FFは制御文字じゃないんだね 8bitの上限という意味があるコードポイントなのに制御文字として割り当てられなかったのが意外
734 :デフォルトの名無しさん :2024/04/25(木) 18:40:22.81 ID:HtOHMeNR.net 👻「ワ ロ タ ʬ ʬ ʬ」
735 :デフォルトの名無しさん :2024/04/25(木) 20:55:57.72 ID:9Q+n8XjX.net >>733 7Fが制御文字DELに割り当てられたのは当時は紙テープに穿孔していたから。 Unicodeの策定時には8ビットの上限FFを特別扱いする意味は既になくなっていた。
736 :721 :2024/04/26(金) 03:57:38.85 ID:g1wZg0z4.net >>722 のルールに基いて、以下の3つの10進数のバイト列を、 先頭(1バイト目)からチェックしていく時、 最初にルール違反となるのは、何バイト目か? 129 130 120 169 240 159 146 206 184 つまり、ルール違反はエンコードエラーになる。 一般的にはルール違反の文字を除去して、処理を続けるべきではない
737 :朝からレビュー :2024/04/26(金) 08:54:42.48 ID:NalgKhcH.net 🥳721というか735 楽しい その9byteは、ポクのメモ帳は、ANSI左下に表示。してるのに文字が化けてる 🤡 無理やりなら、現ツール UTF8tUNICODE し、 それをキャラクター表示し さらに手作業でおこなった結果は、 👻👻x👻👻👻👻Ϙ である 👻👻x👻👻👻👻 のそれぞれを ascii 1byteとみなし、3byte目のみ 化けずにxと表示 最後の2byteは、 UTF8の2バイト文字と判定 「♀」に似た字体U+03D8 Ϙは、古代ギリシャの文字コッパ 👤解読率 約2割、ダメだな。そのツール 🤡てか、オマエが設計中のだ。
738 :736 :2024/04/26(金) 09:00:29.67 ID:NalgKhcH.net 🤡メモ帳のANSI表示は右下に表示だろ 🥳テヘペロ、右と左は知ってる。タイプミスっただけ
739 :超低レベルなレビュー :2024/04/26(金) 13:16:03.82 ID:NalgKhcH.net 🤡 UTF-8にはサロゲートペアはないぜ 👤 んーー「😊」とかそして「👤」は UTF-8では、4BYTEだろ 🤡 地球ではネットサーフィンで見たら UTF-8にサロゲートペアはありません 👤 でも、「😊」とかそして「👤」は UTF-8変換できるぞ 🥳 そうだ、てか、日本語を半分にして 空いた3byteに「🥳🤡👤」 を割当てろ 👤 んー珠にはいいこというね モピロン、ランベルト星では、 フォントに👤というフォントがあって 日本語等の漢字は全て絵文字に化ける なんてねーーーー 🥳 ひらがななら幼稚園児でも知ってるよ 漢字は幼稚園児なら知らないから、 ランベルト星人のような幼稚園児に バッチリな、フォントだね。 👤 おそらくまだ、地球にはこのフォント は無いと思う。 でも、フォントによっては 白黒ではあるが絵文字だらけのも 見覚えある 🤡 ちゃーんと国語と漢字の勉強しなさーーい by 😅チョー低レベル 失礼しましたーーー
740 :ランベルト星人 :2024/04/26(金) 14:28:51.75 ID:NalgKhcH.net 👤 >>737 の、🤡よ、 オマエは、半手作業「👻👻x👻👻👻👻Ϙ」なんてホザいてるが オレの秘伝の数式での手作業では、 「👻👻x👻👻👻👻θ」だっ ❌ 最後の2byteは、「♀」に似た字体U+03D8 ⭕ 最後の2byteは、「θ」であり、 U+03B8 んー0x20ズレてるな。 ランベルト星の秘伝の数式 >>698 に記載のだが ⭐=64*(🟦-192)+(🟫-128) バッチリだ。 ※UTF8で2byte専用で、絶対にUTF8で2BYTEの文字コードであること ま、不正なコードなら👻が沢山でるが、 とにかく、最後のそれは、θ、θ、θのようだ。 🥳てか、UTF8の2byteのに ンゴ文字ってのがあってさ U+07F7なんだけど、これが先頭文字だと EXCELのセルに貼り付けると、文字の順番が右から左に逆になりやすい てか、U+07F7の字体。カワイイです。てかンゴ文字が 文字化けしても、わからないと思います。 てか、U+07F6は、字体は、2と9が合体してる 🤡はい。てか、無意味なことかくなーーー https://o.5ch.net/232b5.png
741 :突然ですがランベルト星人の呟き :2024/04/26(金) 23:44:38.72 ID:NalgKhcH.net 👤下記のお絵描き UTF-8 on 4byte 1U⚫⚫⚫⚫ ⚪🔵🔵🔵 2U⚫⚪🟤🟤 🟤🟤🟤🟤 3U⚫⚪🟣🟣 🟣🟣🟣🟣 4U⚫⚪🟢🟢 🟢🟢🟢🟢 から 以下のプログラミング設計した オレッて天才❓ elseif F0≦🟦≦F8 THEN if 80h≦🟫≦BF and 80h≦🟪≦BF and 80h≦🟩≦BF then then '4byte ⭐=65536*(4*(🟦-240) +INT((🟫-128)/16)) +256*(16*MOD((🟫-128),16) +INT(((🟪-128)/4))) +(64*MOD((🟪-128),4) +(🟩-128)) UNICHAR(⭐)を表示 n=n+4
742 :プロマネの役 :2024/04/27(土) 00:02:00.10 ID:t7simqGe.net 🤡 ビット積を使わずunicode化かよ ま、地球人から賛否両論てか、地球人にソースレビュー させたら非難の嵐だせ。 👤 ゲラゲラ 地球人が間抜けかどうかわかるな 🤡 ナンデ 👤 ま、プログラミング設計と、文字コード設計、そして その裏の裏まで透視できてくるとわかる、 てか、elseif F0≦🟦≦F8 THENは 暫定的だ。F0≦🟦≦F6辺りにするかな wwww てか、さ、u+10FFFF〜u+1FFFFFには 正当なコードはいくつあると思う 🤡最大のそれは、u+10FFFF だから 簡単だな。1より大きい くは、・・・ 👤ちなみに、UNICHAR(⭐)は、excel関数の意だが ⭐がデカイとエラーとなる ま、u+FFFFでも、その10倍てかF倍より1つ小さい 付近までならokだ。 🤡おれっちのテスト用マシンのexcel windowsは10にupすみだが excelは7の頃のだ unichar関数なんて無いかもしれない 👤んーーーー、その頃は未だutf8はなかったのか 🤡そこそこ国内に浸透してた記憶はある 🥳てかさ、16面のunicodeって何個あるの❓ 👤🤡 夜も老けた。そろそろお休みーーーー 🥳お休みーーーー
743 :デフォルトの名無しさん :2024/04/27(土) 13:53:22.31 ID:t7simqGe.net 👤文字コードで0x00の処理に、ミスは、あった ま、0x00はモチロンasciiコードだが、 話すと長くなるが、文字化けで0x00となっても👻を表示するのは 困難と判断す。ていうか、0x00は文字でない文字だ∵文字の終端だっけか C言語ではそうたよな❓、 🤡入力にバグデータが含まれる文字列は、 出力のその位置には👻は出力して欲しいが、 単なる要望だ。0x00は難しいそうだな。 🥳なんでーーー。カンタンだよな。 🤡👤おそらく、高難易度かもしれん。
744 :プロマネ変なテスト思いつくの巻 :2024/04/27(土) 15:26:45.51 ID:t7simqGe.net 🤡 あっそうだ。0x31 0x32 0x33 0x00 0x35 というファイルをバイナリエディタで作成とする 🥳 で 🤡 メモ帳で開く、ANSIでもUTF8でもキニシナイ 🥳 そりゃ、全部ASCiiだからモチロン文字化けない。 で、「123」 と表示かな 「123 123」かもね 🤡 ま、後者となった覚えがある 🥳 なんだよーー、聞くな。知ってるぢゃーーん 🤡 で、特には編集はしないが、上書き保存する ・・・ 続きは別途
745 :743 :2024/04/27(土) 15:49:40.89 ID:t7simqGe.net 🤡🥳 あっいけね、「123 5」という表示だ 🤡 でさ、メモ帳で編集せず上書き保存してさ、 そのファイルをバイナリエディタで開くと どうなるか、予想してみろ 🥳 0x31 0x32 0x33 0x00 0x35 のまま∵編集してない 🤡 0x31 0x32 0x33 0x20 0x35 だ。 0x00は、0x20に変化した。spaceに変化だ 👤 ┐(´ー`)┌ てか文字列の途中の0x00は0x20に変更 するようにさせるか、そのままでよいかだな 🥳スペースが見えたら病気ですよーーー0x00ってスペース❓ 👤¯\(°_o)/¯
746 :744 :2024/04/27(土) 16:14:24.10 ID:t7simqGe.net 🤡でさ、文字列の途中に0x00あると、魔改造したツールどうなる? 👤想定外だったが、いつの間にか、0x00を無視するロジックを組み込んでた プログラミング設計書からコードに手作業でコーディングするわけだが その時、そのロジックは組み込んでた。ま、コーディング中は頭がいっぱいで 記憶にはないがな。 🤡有能なヤツは、設計書の本質まで考えてコーディングするから いろいろた。設計書にそこまで盛り込むとソースコードの方が見易くなるという 罠にはまる。てか、現状の動作を仕様とする。 👤変更不要という意味か❓ 🤡モピロンだ。 👤ok 🥳0x00を表示するようにしろーーバグぢゃなーーい 👤🤡 ま、見えないものは表示しないのでこれでよいのだーー 🥳これでよいのだーーに賛成
747 :自作自演感想文 :2024/04/28(日) 06:21:33.65 ID:HryHCmVX.net >>708 ズバシーレビュー。オウマイゴッドって感じ ていうか、地球人はそれは、21bit U+10000 〜 U+10FFFF は21bitなんて説を書き込でるサイトが 散見される。この707のお絵描きをみれば、 ホントは、20bit+1文字、が超超正解ぢゃーーーん by 🥳 んーー、サイトによっては、約20bit と記載してる。 敢えて、「約」を入れてる。有効数字を鑑みて 20±0.5bitと意訳できる by 👤 単なる忖度だ ゲラゲラ by 🤡 さすが、地球人のプロマネらしいホントにホントな話しぽぃぢゃーーーん by 🥳幼稚園児よりマシか
748 :デフォルトの名無しさん :2024/04/28(日) 06:43:00.72 ID:HryHCmVX.net CHAR(🟦)を表示でもよいし、 ⭐=🟦、UNICHAR(⭐)を表示でもヨシ だって、Unicodeもutf8もasciiも全部同じ by 🥳 値が128未満なら、値的にはそうだ。 格納のバイト数は、異なるかも by 🤡 0x00等は、値は、128未満 ∵0<128 しかしアプリや言語により動作はことなる by 👤 0x7Fをデスプレーで表示で🕳が開くようしろー 完全なる互換性を継承しろーーー デスプレーが壊れてもヨシ(๑•̀ㅂ•́)و✧ by 🥳バカテスター
749 :デフォルトの名無しさん :2024/04/28(日) 08:53:39.45 ID:rkFAlLnQ.net >>733 別に制御文字がコード上限とかを表す意味ではないから C0やC1がなぜ存在するのか、もう昔話なんだなあ
750 :プロマネ(の役)の呟き :2024/04/28(日) 15:59:34.49 ID:HryHCmVX.net UTF-8 on 4byte 1U⚫⚫⚫⚫ ⚪🔵🔵🔵 2U⚫⚪🟤🟤 🟤🟤🟤🟤 3U⚫⚪🟣🟣 🟣🟣🟣🟣 4U⚫⚪🟢🟢 🟢🟢🟢🟢 ⚫⚪以外は、マルの個数は21個だな そ、UTF8は2の21乗つまり、21bitだ unicodeは2の約20乗だ。utf8の方が約2倍 文字が多い。 なんてワケはない。そこが、とにかく、なんやかんやで、ややこしい UTF8→UNICODEの変換で半分重複する。 なんて、ことはない。ように変換プラグラムを やるのは、結構面倒な予感 てか、もう完成はしたけど、何か後味は悪い BY 🤡 👤気にするな。結構完璧だ 🥳気にするな。動けばいいぢゃーーーん
751 :プロマネの呟き :2024/04/28(日) 18:03:11.53 ID:HryHCmVX.net スマホの連絡帳の氏名に、 UTF8なら2,3,4byte文字混在 「サインΘ👻だよ 👤🤡🥳」をタイプ それをcontacts.vcfでexport 自作ツールで 文字化けてかpritable以降の 文字列(asciiだけどutf8)を、地球人でも 解るようエンコードした。 ま、excelということもあってwindows上のためか、絵文字が白黒でデザインがしょぼい が、とにかく、ツールバッチリ 超秘伝だか、超々秘伝の数式だか、あれバッチリ ちなみに、👻もそれを電話帳(連絡帳)に入力もしたが、バッチリ表示。完璧だぜ。 by 🤡 絵文字が白黒? いまひとつぢゃーーーん by 🥳 てかさ、windowsのメモ帳ってカラー表示は無理 by 👤 メモ帳、ちゃんとなおせーーーー by 🥳バカなクレーマー
752 :プロマネのつぶやき :2024/04/28(日) 18:19:51.71 ID:HryHCmVX.net ま、「サインΘ👻だよ 👤🤡🥳」をexcelに貼り付けると 絵文字は白黒だが、それぞれの文字に任意の色をつけれる。 一文字には、任意の1色だけだが、画像でないのだから、 何か、いい感じ。てか、👤のデザインがイマイチだな。 なんか、カワイイ感じになってる。👤はやはり、ブラック感のある ワルーーーって感じなんだけど てか、イタリックやると、👤🥳🤡もイタリック体になる これは、ナカナカよし。 🟦🟦 🟦🟦 なかなかやるなーーーー てかマイクロソフトのロゴって 青い四角四つにいつの間にか化学変換してるな。気が付かなかった
753 :ランベルト星人の呟き :2024/04/28(日) 22:18:28.10 ID:HryHCmVX.net 👤今回のツール、いろいろテストで不具合発見した ナカナカ、手間取ったが、デバッグ取り敢えず完了 ぢゃーひと休みいれるかな。 ちなみに、それは、最後の文字が「=」で継続行だ 最後の文字とは改行コードの一つ手前との意味 それに伴う改修だ。vcfにもちゃんとした規格があり それに忠実にやってるんだな。疲れたぜ 🥳意味がさっぱりわかんないから、ok
754 :752の続き、早朝レビュー :2024/04/29(月) 04:56:50.11 ID:V3l6c++H.net 👤 ワタシは宇宙人。で、「=」はナゾなる制御コードだ 🤡 自称宇宙人、頭大丈夫か? 🥳 ランベルトさん、デバッグしすぎで、頭バグっちゃったーーー 👤 安心しろ。「=」は、その直後に改行でも継続と解釈という意味だ RFC何とかという、地球のルール。それは宇宙のスタンダードだ 🤡 ん、てかさ、「=」は、EXCELでは、それが先頭なら、関数 として解釈しろ。という制御コードぢゃねえーーー? 👤 あ、思い出した。vcfファイルの中身から、コピペして、 excelのセルへコピペする。トスル 🤡 すると、先頭が「=E0=80=BF」などは、文字列でなく、関数とみなす 👤 そ、あの秘伝のツールは、ホントはon EXCEL って感じ 🤡 入力のセルは文字列って指定しろ。初期設定の標準ではダメ 👤 デバッグ中に気が付き、修正は済んだ。標準でなく文字列とした 🥳 標準なんての従うからバグちゃったのーーー。スタンダード嫌いです スタンダード反対。宇宙やるーーーー 🤡 てか、だからヤツは宇宙人なんだぞ
755 :RFC宇宙人初登場 :2024/04/29(月) 05:10:29.84 ID:V3l6c++H.net ® ヘーイ、ワタシはRFC宇宙人 宇宙標準てか地球の規格 RFCを貼るぞ CRLF sequence (U+000D followed by U+000A). Long logical lines of text can be split into a multiple-physical-line representation using the following folding technique. Content lines SHOULD be folded to a maximum width of 75 octets
756 :ランベルト宇宙人、自作自演 :2024/04/29(月) 05:24:19.94 ID:V3l6c++H.net 👤 75文字までなら改行不要で76文字で改行しろって規格❓ ® そうだけど、ちがうもんねーーーー 👤 漢字10文字程度、改行しまくりだ。こらS⚪nyのスマホの vcfのエクスポートするの、ヘンぢゃねーーー ® ソニーさんのは、我がスタンダードRFC通りを守ってるぽぃ 👤 んーー、漢字10文字は、UTF8のPRINTABLEにデコードてか エンコードすると何文字だ。プロマネ計算しろ 🤡 3BYTE/日本語 で、さらに、PRINTABLEだから、 えーと、一文字は、「=E0=80=BF」って感じの9octed/日本語 多分、®の75 octetsがマックスは75/9だから 漢字八文字超えたら改行しろ。ぢゃない。 ソニーさん教えて下さい。 🥳 単にアンドロイドのツールをパクらせただけだろ グ⚪グルさんが詳しいんぢゃない。 てか、あのツールはデバッグ済んだし キニシナイ 👤そうだな。てか地球の、ルールめんどくせー
757 :プロマネ、裏のウラを、読む :2024/04/29(月) 05:35:23.63 ID:V3l6c++H.net RFCの規格、改行は、暗に、 CRLF sequence を前提に規格書を策定してるのか? RFCってマイク🟦ソフトなのな? BY 🤡 プログラム、の憶測って、ウガリすぎーープロマネ🧠バグってるーー BY 🥳 有能なプロマネともなると、規格のウラのウラまで読み切る事も大切 BY 🤡 地球人に産まれて来なくて良かったぜーー BY👤 あ、自称宇宙人のランベルト宇宙人、バグった言い訳してるーー BY 🥳
758 :完了∴編集後記1 :2024/04/29(月) 08:04:27.22 ID:V3l6c++H.net プログラミング設計 n文字目の先頭🟦とおく※暗に🟦は有 その次のを🟫とおく※無なら0x00が無難 さらに次を🟪とおく※ 〃 その次のを🟩とおく※ 〃 n=1 '先頭をゼロとするなら要改 Repeat until 🟦=0 if 🟦<128 then 'ascii ⭐=🟦 UNICHAR(⭐)を表示 n=n+1 elseif 🟦<192then 'なんちゃってascii 「👻」を表示 n=n+1 elseif 🟦<224 then '2byte if 128≦🟫≦191 then ⭐=64*(🟦-192)+(🟫-128) UNICHAR(⭐)を表示 n=n+2 else 「👻」を表示 n=n+1 ' ∵1byte文字トミナス end if
759 := 継続の記号∵RFC2045? :2024/04/29(月) 08:06:07.54 ID:V3l6c++H.net elseif 🟦<240 then '3byte if 128≦🟫≦191 and 128≦🟪≦191 then then ' ⭐ =256*(16*(🟦-224) +INT((🟫-128)/4)) +64*(MOD((🟫-128),4)) +(🟪-128) UNICHAR(⭐)を表示 n=n+3 else 「👻」を表示 n=n+1 ' ∵1byte文字トミナス end if elseif 🟦<248 THEN if 128≦🟫≦191 and 128≦🟪≦191 and 128≦🟩≦191 then then '4byte ⭐=65536*(4*(🟦-240) +INT((🟫-128)/16)) +256*(16*MOD((🟫-128),16) +INT(((🟪-128)/4))) +(64*MOD((🟪-128),4) +(🟩-128)) UNICHAR(⭐)を表示 n=n+4 else 「👻」を表示 n=n+1 ' ∵1byte文字トミナス end if
760 := :2024/04/29(月) 08:07:48.87 ID:V3l6c++H.net else '5,6byte 「👻」を表示 n=n+1 ' ∵1byte文字トミナス end if end repeat msgbox"やったね∵処理完了\(^o^)/"
761 :=は最後が=なら継続ぢゃないアル :2024/04/29(月) 08:12:06.24 ID:V3l6c++H.net こらーーー if 🟦<128 then 'ascii は、 if 0=🟦 then 'null '何もしない elseif 0<🟦<128 then 'ascii ぢゃなーーーーい てか先頭=は関数とみなすです。∵excel 継続から最後に=ですよ。 で最後は改行CrLf ですよ∵RFC2045? BY 🤡 意味わかんない けどスゴくてヤバイ BY 🥳
762 :memopad man :2024/04/29(月) 14:12:05.17 ID:V3l6c++H.net ❌ if 🟦<128 then 'ascii 🙆 if 0=🟦 then 'null2space ⭐=32 unichar(⭐) n=n+1 elseif 0<🟦<128 then 'ascii ∴ Me is MemoPadMan.✌ ∴ Me is All ®ight. ∵Me is 💯 🤡🥳👤®一同 boo boo voo boo booooooooooo.
763 :プロマネ :2024/04/29(月) 14:22:42.15 ID:V3l6c++H.net if 0=🟦 ってけしからんコードだ 変数は左、定数は右、これが社会人の定式デス ∴ if 🟦 = 0 と記述しなさーーい by 🤡プロマネの役 定数が左。変数は右。地球人にはアリエナイ 極一部の古代ギリシャ文字とかンゴ文字は知らんけど 定数が左。変数は右 代入演算子ではナイ と 地球人でも解る記述だ。モピロン、素晴らしい by 👤ランベルト星人 🟦=0 でも 0=🟦でも、論理式なら どっちも真偽値は同じ。 ポクはモピロン天才数学者より天才だ by 🥳発達障害テスタ
764 :JAVA星人現る :2024/04/29(月) 17:31:13.46 ID:V3l6c++H.net ☕ポクはサンマイ🟤🟤システ🟤のジャバ星人だ。宜しくね。 >>758 のソースコードもどき。地球人らしいコードですね。 ⭐=64*(🟦-192)+(🟫-128) ∧ ⭐=0を満たす整数解 1つでよいので、解いてみろーーー by ☕ポクはJAVA星人 何か、宇宙人。自称だろうけど、沢山やってきた。 なんか、ヤバイ。地球が征服されちゃうの❓ はやく、宇宙人に征服してほしいです。地球のオトコに呆きたところよUFO by 🥳 ピンクレディーのUFOのその歌詞は、 ❌ 地球の男に飽きたところよ ⭕ 地球の男に呆きたところよ なんちゃってーーーーーー BY 🤡 今日はエイプリルフールぢゃなかった。失言しちゃった
765 :ランベルト星人 :2024/04/29(月) 17:38:44.32 ID:V3l6c++H.net 👤 誰だ。ジャバ星人か何か知らんが、お前は絵文字一文字で☕ でよい。www ゲラゲラ てかプロマネ、地球を防衛したなら プロマネが解けよ。てかオレは瞬時に解ったけど 🤡 プロマネってポクのことかな。地球人をバカにするなーー ていうか ⭐=64*(🟦-192)+(🟫-128) ∧ ⭐=0を満たす整数解 1つでよいなら厨房でも、解けるぜ、こらテスター解けよ オレッちの解っちゃった。1つなら楽勝 てか、🟦は192(0xC0)を代入して、あとは、匕・ミ・ッ
766 :地球人ならバカテスターでも解けます :2024/04/29(月) 17:51:54.65 ID:V3l6c++H.net 🥳 数学大好き。てかランベルト星人とかプロマネ 解けないからポクに聞いてるんだな。 無理しやがって、教えて、アゲルと、 数式 ⭐=64*(🟦-192)+(🟫-128) ───1⃣ 1⃣の🟦に192を代入 ─── 2⃣ 1⃣の⭐に0を代入とする。すると、 1⃣は、0=64✕(192-192)+(🟫-128) ───1⃣💨 1⃣💨をfor🟫やると、 🟫=128 ───3⃣ 以上1⃣3⃣より、求めるべき整数解の一つは、 (🟦、🟫)=(192、128) ヤッターー 解けたーーー\(^o^)/ 👤 んで、それでどうしたのかな ☕ 地球人って・・・ 👤 オレは地球人基準で数学パワーが∞ ☕ そりゃ地球人が無限人でも宇宙人から見れば 数学パワーはマイナス無限大だし当然だろ 🥳 よくわかんないけど、地球人を侵略してくれて ホントうにありがとう
767 :デフォルトの名無しさん :2024/04/29(月) 17:57:13.31 ID:V3l6c++H.net ランベルトは、 ⭐=64*(🟦-192)+(🟫-128)=0 の解の一つ (🟦、🟫)=(192、128)を解いたな 数式⭐が、ビット演算に変えても (🟦、🟫)=(192、128)なら⭐はゼロになりそうだ by 🤡地球人代表 自称プロマネ(の役)
768 :ランベルト星人 :2024/04/29(月) 19:42:39.90 ID:V3l6c++H.net elseif 🟦<224 then '2byte if 128≦🟫≦191 then ⭐=64*(🟦-192)+(🟫-128) UNICHAR(⭐)を表示 n=n+2 で、当ロジックは🟦≧192のときに実行される。 故に実質 if 192≦🟦<224 then '2byte if 128≦🟫≦191 then ⭐=64*(🟦-192)+(🟫-128) UNICHAR(⭐)を表示 n=n+2 と同じだ。さてと、一人でソースレビューするか by 👤 地球人ぢゃナイオレも参加させろ。そのレビュー by ☕ジャバ星人
769 :デフォルトの名無しさん :2024/04/29(月) 19:43:33.42 ID:VwlqwQ1k.net CSVやTSVでセル内改行ができない問題は 行の区切りを改行文字ではなくRSやVTにすれば解決しそうだがその方法で問題あるだろうか
770 :デフォルトの名無しさん :2024/04/30(火) 05:42:00.58 ID:6q3HkpC/.net そういえば、エクセルの、ある一つ、一つの、ひとつの、 セル内で文字列[xxxxyyyy]を改行は、 オペレーション的には xxxx [ALT]+[改行] yyyy だったような。 地球の書によると、Lf(ASCIIコード10 スナワチ0x0a)だ。 CSVでセル内改行不能問題は、知らん。失礼m(_ _)m ちな、ンゴ文字をセル内に入れる、文字の表示方向が 逆になったりする事が、よくある。 それは、バグでなく仕様の可能性、かと憶測する。 なお、数字を入れると、右詰めになり、 先頭が=だと関数とみなされることは、多い、 文字化けの要因のひとつ。該当セルを標準でなく文字列に 設定するのもひとつの手段、かな?。 試行錯誤して作成してる、😅
771 :ランベルト星人とプロマネ :2024/04/30(火) 09:07:48.91 ID:6q3HkpC/.net 👤 PRINTABLE:=C0=80 で👻と表示、ヤバ。バグなのか? ☕ ま、いいんぢゃなーーい 🤡 SONYさんのスマホのCNTACTS.VCFはヌル文字なんて入力不可 また、半角数字は123なら =31=32=33 と出力だ 2バイトには変換しないので、 そんな不正なコードは出力しませんよーーー だから、ASCiiは、=C0=B8 なんて出力しません ☕ レビューやーめたーーーー
772 :ランベルト星人の呟き :2024/04/30(火) 10:09:05.00 ID:6q3HkpC/.net ある文字が、UTF8で絶対に絶対に絶対に2BYTE文字の場合、 その下限てか上限は、=C2=80 だ てか、UTF8で0xC280はなんて文字なんだろうか 🤡知らん。けど、変な文字だろ 電話帳にそんなコードは入力しないからどうでもよいので 🥳ポクのスマホの連絡帳てか電話帳の氏名に 絵文字入れても、バッチリ。ツールバッチリ 絵文字とASCII文字だけバッチリなら 他の文字は使用しないから、ツール問題なし てか、絵文字以外かつASCii以外の文字の 入力を禁止しろーーーー 漢字は入力禁止 🤡ちゃんと日本語も難読もSONYさんのcontacts.vcfは RCF2045守ってるのでバッチリ 👤てか、守らなくても、ワリとヘッチャラだよな 🥳絵文字バッチリだから、ヘッチャラ
773 :デフォルトの名無しさん :2024/04/30(火) 10:23:58.61 ID:6q3HkpC/.net ランベルトとかいう、宇宙人の落ちこぼれが UTF8 C280 つまりU+0080がどんな文字が 疑問に思ってるようだ。 どうやら、極めて怪しい制御コードのような 霊感を感じる。それのお絵描きしておく BY ☕ジャバ星人でしたーーーー https://o.5ch.net/233fk.png
774 :デフォルトの名無しさん :2024/04/30(火) 10:39:20.69 ID:6q3HkpC/.net xxx ❓❓❓ PAD だろ xxxはとPADとは全く違う by 👤 xxxは未知だから、PADとかいのでもいいんぢゃない by 🤡 xとPは違う文字である。この2人目がヤバイ by 🥳
775 :バカテスター :2024/04/30(火) 11:12:57.08 ID:6q3HkpC/.net 🥳 それは、Padding Character というヤツ モチロン、非表示の文字らしいです。 だから、Spaceで、表示すべきです。 xxx とか PAD と表示してるサイトが 多々見受けられる。バグですね。ーー BY 🥳発達障害が更に悪化中
776 :ランベルト星人等 :2024/04/30(火) 11:20:15.08 ID:6q3HkpC/.net ちぇっ、👻表示させたかな。by 👤 そんな文字はスマホに入力できないので、 そんな文字をデコードしたのはcontacts.vcfに存在しないので リリース済のは、修正しませーーーん by 🤡 え、リリース済❓👤 デヘヘ🤡
777 :JAVA星人 :2024/04/30(火) 15:27:13.93 ID:6q3HkpC/.net オレッちがソースレビューさせれば、以下のようにするのになあ elseif 🟦<192then 'なんちゃってascii 「👻」を表示 n=n+1 elseif 🟦<224 then '2byte は、 elseif 🟦<192then 'なんちゃってascii 「👻」を表示 n=n+1 elseif 🟦<194then 'なんちゃって2byte 「👻」を表示 n=n+1で容認、n=n+2が理想 elseif 🟦<224 then '2byte by ☕ポクはJAVA星人
778 :ランベルト星人 :2024/04/30(火) 15:35:57.73 ID:6q3HkpC/.net 緊急PGメンテかよ。ま、 elseif 🟦<192then 'なんちゃってascii 「👻」を表示 n=n+1 elseif 🟦<224 then '2byte は、 elseif 🟦<194then 'なんちゃってUTF8 「👻」を表示 n=n+1 elseif 🟦<224 then '2byte で再リリースを検討する。ま、理想は☕星人の通りだが インパクトがわからん。 てかさ、なんちゃってUTF8なんてS⭕NYのCONTACTS.VCFに 出力はされないから、ね。 BY 👤 モピロン、再リリースは何時でもOK BY 🤡 バグっていいぢゃーーん BY 🥳 🤡 PGバグでも運用上はバグぢゃないもんねーーー
779 :バカテスター :2024/04/30(火) 15:46:58.40 ID:6q3HkpC/.net >>778 の緊急PG修正ってコメント除けば 一文字修正するだけぢゃーーーん ❌ elseif 🟦<192then 'なんちゃってascii ⭕ elseif 🟦<194then 'なんちゃってUTF8 192を194にするだけ。1秒で修正するぢゃーーーん プロマネとか自称宇宙人ってバカなの❓ BY 🥳超バカテスターに成りすましてみたー
780 :ランベルト星人 :2024/04/30(火) 16:26:39.63 ID:6q3HkpC/.net 👤再リリース完了 🤡Good job ☕ま、やらかすと思ったわ 👤UTF8では、最初の1バイト目が1100 が2byte なんて地球の書に釣られた ☕そっか、かつてのオレを思い出した 👤んー❓ ☕2BYTE⇒1100 xxxx xxxx xxxx は真か偽だな。 👤地球人には無理だろ。偏差値パワーが有限だからな地球人は ☕オレはかつて地球人だった。オマエも地球人に格下げ寸前だったな 🤡C0 00 〜 C0 7F は、UTF8 ではなんちゃって2BYTEって 地球の書に記載した方がいいか? 👤☕ それは正解だが、反例らしき忖度に満ちた地球の書に 記載しても、何だな。そもそも、地球人は🐴🦌だ。 🥳ちぇ、地球人をバカしたバッドエンディングなの❓ この文学作品したヒトってバカっかぢゃなーーーい 😅AUAUアウアウ
781 :あっいけね :2024/04/30(火) 16:29:13.91 ID:6q3HkpC/.net >>780 ❌C0 00 〜 C0 7F は、UTF8 ではなんちゃって2BYTE ⭕C0 00 〜 C2 7F は、UTF8 ではなんちゃって2BYTE だった。他にもたくさん、ミスってそう。( ・ั﹏・ั)
782 :編集後記 :2024/04/30(火) 18:21:22.96 ID:6q3HkpC/.net 👤プロマネよ。あのさ、ナンデ、UTF8文字列→UNICODE文字列 なんてプログラミングをオレにさせたんだ? 🤡それがさ、6年前の春は、その当時で古いスマホの電話帳 を、その当時で新しいスマホに、vcfファイル経由でコピーしたことに遡る。 👤6年前時点の古いスマホなら、android4.x新しいのなら、android8頃か 🤡んー、多分yes 🥳バージョンが古いから、vcfファイルも、モピロン、文字化けだよね。 🤡いや、vcfを当時のパソコンで開くとちゃんと氏名等の漢字は読める。平文だ その頃はwin8.1のヤツを使用してた。 👤vcfは漢字も平文で読めたのか 🤡yes その当時は。 👤でutf8→unicodeと関係あるんだ 🤡その当時は関係はなし、で、 そして、機種変更した。2年前だ。 ・・・・ 👤vcfが2年前の機種のときに文字化けか 🤡文字化けと思ったが、デコードだな 1文字漢字がascii9文字に化学変化、後はわかるだろ 🥳グーグルので共有でいいぢゃーーーん。 個人情報はグ⚪グルのサーバに保管だね 🤡でも、とにかくPRINTABLE: のをエンコツール自作に至ったわけ
783 :デフォルトの名無しさん :2024/05/01(水) 00:33:47.56 ID:T3vg4v9s.net >>769 >CSVやTSVで、セル内改行ができない問題は Ruby ではクォート文字で囲めば、 行区切り文字・列区切り文字・クォート文字も、データ内に入れられる require 'csv' input = <<"EOT" "a""a","b,b",あ "c c","d\nd" EOT p input_ary = CSV.parse( input ) # 2次元配列 #=> [ ["a\"a", "b,b", "あ"], ["c\nc", "d\nd"] ] # 2次元配列を、CSV 文字列に変換する csv_str = input_ary.map( &:to_csv ).join puts csv_str "a""a","b,b",あ "c c","d d"
784 :デフォルトの名無しさん :2024/05/01(水) 05:45:14.27 ID:ksHbXVNI.net ん、微妙に話しズレるが、新たなるプロジェクト思いついた ・VBAでcontacts.csvをバイナリで読み込ませる ・CR LF などそれが2バイトでも全てLF1byteに変換する ・それをセルの んー例えばC3セルに表示 ・C3セルの一つだけのセルに、contacts.vcfが表示される ・とにかく、vcfのエンコードツールをvbaで開発する by 🤡 それより、プロマネ、プリンタかってーーー ネットプリントめんどくせー by 🥳👤 プロジェクトは延期ーー 🤡
785 :ジャバ星人の呟き :2024/05/01(水) 20:43:19.84 ID:ksHbXVNI.net ☕ 2BYTE⇒1100 xxxx xxxx xxxx の最小値って地球人よ知ってるか❓ 16進で、xC000 だぜ。もし、xC280にしたいならさ、 それを簡易に表現できるパワーが必要だろ。 やたら、言い訳した内容を補足に入れてもよ。 そんなの、理解できねーーーってワケ by ☕ でさ、なんで自称宇宙人のチミはジャバ星人って自称してるの by 👤ランベルト星人 んーーー by☕ ま、ウスウス知ってるけど、JAVAってIBMが開発した言語❓ それとも ・・マイクロソフト ❓ BY 👤 マイクロソフトもIBMもライバルだ ぢゃーバイバイ BY ☕
786 :プロマネの呟き :2024/05/01(水) 21:00:20.23 ID:ksHbXVNI.net ジャバ星人(サンマイクロシステ⚪星人)と、ランベルト星人の やり取り、意味深だな。 てかさ、ISO/IEC 10646 [ISO.10646] に UTF8toUNICODE の極めて具体的なアルゴリズムが 英文で記載されてる。 モピロン、ランベルト星人やジャバ星人が開発したのは その通りに作ってるハズだろ。 地球人の規格か概ね上位互換だ てかそれキニシナイ BY 👤 今の規格でも何か怪しい てかもぅゴリゴリだせを BY ☕ あのさ、ジャバ星人は地球からスピンアウトしたら BY 初登場のミラクル星人
787 :ジャバ星人 :2024/05/02(木) 14:20:08.07 ID:cxxyFm3G.net オラ、いや、ミラクル星人にはナイショだけどよ、 ランベルトとかいう宇宙人の、自称秘伝の数式 ⭐=64*(🟦-192)+(🟫-128) ※UTF8で2byte専用 で⭐が127以下になる全ての🟦、🟫の非負整数解って ま、地球人でも厨房程度の低知能で解けるだろ。 見え貼ってビット積とか使って規格書記載してるから 数式の連立方程式すら失念し、重複するだってワケ 地球人って、地球🌏の中ぢゃ、知能はマシだが、 この宇宙の中ぢゃ、もう恥ずかしくて、宇宙旅行なんて出来ないだろ by ☕ てか、あの規格書、あれが21bitとか記載してるぞ、 20bit + 1文字だよな。地球人ってバカなのか? by 👤 いやいや、地球の数学では、 2^21 = 2^20 + 1なんぢゃねーーー ゲラゲラ by ☕ 矛盾許容の数学を構築したランベルト星の数学ですら アリエネー。てか、isoなんとかってジョークサイトだよな by 👤 ゲラゲラゲラゲラゲラゲラ論理積以前だろスピンアウト正解 by ☕
788 :正常ぽぃ地球人とランベルト星人but自作自演 :2024/05/03(金) 06:35:56.34 ID:00No5FFk.net >>784 でさ、 🤡 > CR LF などが2バイトも全てLF1byteに変換 の記述って、🦩ダチョウ (無駄に長いの意)な表現だよな 👤地球人は知能はバカの一つ覚え。無限個ある欠陥だらけの 文章の、2、3点を修正して、今度は完璧だなんて思い込む 🤡てか、「あのCrLfをLfにする」の何処がダチョウな表現なんだ❓ 👤正解は「Crを無視する」だろ 🤡オマエも地球人並みの知能だな。無限大の知能ってウソぢゃーーん 👤そもそも、Cr単独で改行なんてのは、アリエナイ前提だ モチロン、Lf単独で改行は、Unixとか比較的近年UTF8で 地球で、主流だろ 🤡んー❓ 厳密すればするぼど、やはりダチョウ🦩になる 👤ところで、ゲーデルの不完全性定理ってどう思う 🤡あの辺りは数学ではナゾの密林だ。てか 証明できん事を証明しましたーーー。をアリガタッてるのか 👤知らんが、あの規格書も、6〜7年前から更新ストップだろ 🤡更新すればする程、矛盾にみちた内容になってるかも 👤もはや、矛盾してるかすら解かんないとちゃう? 🤡ノーコメントとする。てかランベルトよ、 「Crを無視する」というロジックは、1行目で真かつ k行目で真と仮定してk+1行目が真を証明が必要だ 👤てかよ、kは整数かつ1以上が必要だろ 🤡どちらかというと十分で微かにダチョウだよ 👤んーー、kは整数かつ2以上が必要 といえば十分か 🤡話しが長いな。てかゲーデル不完全性定理と関係ありそ 👤それ以前に我が星、ランベルト星の数学・論理学は矛盾許容だ 🤡それ、完全性定理ぢゃねーーー? 👤どっちでもok ∵矛盾許容 🥳ポクも宇宙人に産まれ変わりたいデーース
789 :デフォルトの名無しさん :2024/05/04(土) 01:03:55.27 ID:Lsoig7U/.net VTも使うTSV形式はこんな感じか。 行末のCRLFは無くても問題ないが あった方がテキストエディタで開いた時に見やすくなる セルA1␉セルB1␉セルC1␋␍␊ セルA2␉セルB2␉セルC2␋␍␊ ASCIIが想定していたUSやRSの使い方はこんな所だろうか セルA1␟セルB1␟セルC1␞␍␊ セルA2␟セルB2␟セルC2␞␍␊
790 :デフォルトの名無しさん :2024/05/04(土) 08:00:55.56 ID:XF0U8juk.net 🥳 てかプロマネさ、エクセルに CSVの文章貼り付けるときどうしてる? 🤡 んー「,」の半角は tab に置換えてから、コピペ 🥳 「123,ABC」を「123tabABC」 てやって、A1セルに貼付けても A1セルに「123tabABC」って表示されたよ ウッソ付きーーーー! 👤 地球人って・・・ 🤡 地球人でも、かなり、・・・・ 👤 こんな文章を、書き込む奴も・・・・なのか? 🤡 ノーコメントとする。
791 :デフォルトの名無しさん :2024/05/04(土) 13:09:03.98 ID:tY3IcCX2.net 一日一回無料で使える脱衣AI見つけたbb https://mao.5ch.net/test/read.cgi/gymnastics/1240746278/217
792 :デフォルトの名無しさん :2024/05/04(土) 16:13:25.74 ID:Lsoig7U/.net セルの列やセルの行を区切るのに制御文字を使えれば セル内に,や”を入れたり改行することもできるんだよね
793 :単なる呟き :2024/05/04(土) 18:46:03.94 ID:XF0U8juk.net 🤡 多分、タブの制御コードは、␉ って感じだ 🥳 タブはHTなの?、ポクは英語バッチリ [Tab]ぢゃーーーん キーボードにHTなんてマークのキーは見つからん 👤 キーボードの[Tab]にマジックでHTって記入しちゃえー!
794 :デフォルトの名無しさん :2024/05/05(日) 00:28:15.77 ID:DTqCPhPD.net 垂直タブはキャレット記法で^Kだけど PC-98のDOSで↑キーを押すと^Kが入力されたのを思い出した 他には→キーを押すと^Lが入力されたと思う
795 :デフォルトの名無しさん :2024/05/05(日) 14:18:12.85 ID:ufyV/oQQ.net >>788 の自称宇宙人の👤が 「Cr単独で改行アリエナイ∴Cr無視」とか言ってますが ヘンですね。 というか、'xxxxx␍yyyyy'は、ポクの メモ帳で開いたら xxxxx yyyyy でちゃんと改行されて表示ですよ。 改行がCr単独なんてアリエナイ なんて 勝手な前提しちゃいけません。レッテル論法禁止🚫🈲🙅 by 🤡 👤 give up てか今日はバィバィ。さよならーーー
796 :デフォルトの名無しさん :2024/05/05(日) 20:09:04.88 ID:DTqCPhPD.net GUIでCR,LF,HT,BS,DEL以外の制御文字を ソースコードなどに手動で入力して使う事がほとんど無いのは キーボードに専用のキーが無いからなのかね? CUIではCtrlとアルファベットキーの組み合わせで入力できたけど GUIではショートカットキーとして使われていて制御文字は入力できないし C1制御文字に至ってはさらに馴染みがない。 制御文字をもっと活用すればエスケープ文字が図形文字のために その文字を表示するために特別な入力をする必要も無くなるのに。
797 :デフォルトの名無しさん :2024/05/05(日) 21:28:31.49 ID:GQlpZ+4B.net >>796 制御文字のほとんどが機種依存だから。
798 :デフォルトの名無しさん :2024/05/06(月) 04:24:56.29 ID:w6EM8fRb.net >>795 CR 単独は、古いMac だけ
799 :デフォルトの名無しさん :2024/05/06(月) 09:46:14.51 ID:endGOe+7.net >>798 OS9, AppleII, commodore
800 :デフォルトの名無しさん :2024/06/01(土) 00:05:13.54 ID:7lxL4C6A.net IPAmj明朝のIVSって、2017年ので止まってるの?
801 :デフォルトの名無しさん :2024/06/01(土) 11:39:25.67 ID:7lxL4C6A.net あたらしめのIVSを使おうと思ったらグリフがないくさいので
802 :デフォルトの名無しさん :2024/06/02(日) 01:04:43.33 ID:rO+GNz4V.net >>800 は正解くさいので違うフォントを使うことにした。
803 :デフォルトの名無しさん :2024/06/02(日) 11:08:06.07 ID:EnNBM925.net 「IPAmj明朝は、IVD 2017-12-12 Moji_Johoコレクションに準拠してIVSを実装してあります」と説明されているとおりで、他のIVSに対応する目的のものではないから、更新が止まってるとかではないような
804 :デフォルトの名無しさん :2024/06/03(月) 14:37:57.00 ID:UCbPeCZM.net >>803 Moji_Johoコレクションは数年おきにアップデートされている 「IVD 2017-12-12 Moji_Johoコレクションに準拠」という説明は、同時に「2017-12-12版以降 には対応しない」という意味でもあるのかなと思っている
805 :デフォルトの名無しさん :2024/06/03(月) 15:58:23.74 ID:YdsWYYn6.net PowerPointでShift+Enterを押すと垂直タブを入力できるようだけど 他のソフトでも垂直タブがShift+TabやShift+Enterで入力できるのが標準になっていたら 垂直タブはもっと広く普及していただろうか
806 :デフォルトの名無しさん :2024/06/04(火) 15:13:07.31 ID:uznUZQwV.net CSVとTSVを比べるとTSVの方がテキストエディターで開いたときに見やすいから便利だと思うんだけどCSVにはどんな利点がある?
807 :デフォルトの名無しさん :2024/06/04(火) 16:24:20.35 ID:QS4SGGEb.net 文字コードの話じゃねーじゃん
808 :デフォルトの名無しさん :2024/06/04(火) 17:03:57.21 ID:8TlGJtZv.net >>807 いちおうTABもSpaceもcommaもCRもLFも個々に「文字コード」ではある。いわゆる文字符号化手法とか符号化文字集合ではないが。 文字コードは曖昧で意味広すぎ
809 :デフォルトの名無しさん :2024/06/04(火) 17:15:26.05 ID:8TlGJtZv.net >>806 CSV の利点は制御文字(cc)ではなく表示文字を使っている点。TAB はccなので表示系によっては見た目で区別できない場合がある。典型的にはスペースと見間違える(1文字TABはスペースと同じアキになる可能性 常にTABとスペースが正確に区別できる環境ならTSVの方がだんぜん便利だと思うが TAB は普通の文字じゃないことも文字コード設計として念頭においておくべき あと unicode にはスペース類似文字もカンマに似た文字も多過ぎるので、どのみち見た目で区別は駄目という話はある、酷い話だ。
810 :デフォルトの名無しさん :2024/06/04(火) 17:46:25.88 ID:1kTV4q2T.net すげーな 職場でもあんま話通じない人なのかな
811 :デフォルトの名無しさん :2024/06/04(火) 22:21:43.51 ID:GNPHSdGp.net 「慶応」も「コンクリート」も漢字1文字で 〜Unicode標準に新しいブロックが提案中 手書きでしばしば用いられる「部首+カナ」スタイルの略式漢字 https://forest.watch.impress.co.jp/docs/serial/yajiuma/1597030.html
812 :デフォルトの名無しさん :2024/06/04(火) 23:02:09.29 ID:k5yNkVnV.net >>811 そういうのは合字といって昔からある
813 :デフォルトの名無しさん :2024/06/04(火) 23:04:13.30 ID:k5yNkVnV.net UTF-8は日本語だと明確に指示していないと、漢字が中国の漢字が入り込んでしまう。
814 :デフォルトの名無しさん :2024/06/04(火) 23:06:31.80 ID:k5yNkVnV.net UTF-8で記号がたくさん追加定義されて、MS-IMEがめちゃくちゃだから、変な記号を使う日本人が激増した。
815 :デフォルトの名無しさん :2024/06/04(火) 23:12:43.53 ID:A0JJZg9T.net 変体仮名で限界 用例を見たが、それ以上の歴史的重要資料が大量にあって デジタル化の必要性があるとは到底思えない 英字アルファベットも代表的なカリグラフィーを収めて終了 unicode標準は局所的な特定小集団のおもちゃじゃない
816 :デフォルトの名無しさん :2024/06/05(水) 07:49:52.75 ID:Ex4xeIUM.net >>811 従来の漢字、特に中国の簡体字等、読みの同じ部首やつくりで置き換えて文字を 作ったりとかはあるので、発想としては近いものを感じる
817 :デフォルトの名無しさん :2024/06/05(水) 09:34:19.11 ID:TjOdfiQ/.net UnicodeData.txtをあたらないと何を表してるのかさっぱり分からん絵文字よりは まだその手の略字のほうが有意義な気はする
818 :デフォルトの名無しさん :2024/06/05(水) 10:21:36.77 ID:xv3Pbp+3.net >>809 Firefoxだと表示できない文字は□の中に16進コードが書かれた文字が表示されるから 同じようにテキストエディターでも制御文字と空白に見える文字は空白を表示する代わりに 16進のコードが表示されれば分かりやすくなるね
819 :デフォルトの名無しさん :2024/06/05(水) 13:38:49.33 ID:XaSaDlvd.net >>811 標準に滑り込ませて既成事実化するよりも、 草の根で外字フォントを配るのが良いと思う
820 :デフォルトの名無しさん :2024/06/05(水) 15:08:16.04 ID:lcx/EjsX.net >>819 草の根で外字フォントを配ってなんとかなることだったらわざわざ標準化する必要なくね? 外字フォントを配るぐらいにとどめておいた方がいい以上の根拠なし意見でしかないぞ。それ。
821 :デフォルトの名無しさん :2024/06/06(木) 09:50:50.05 ID:GV7aCOF9.net >>819 それを全国の市町村の役所でやって既成事実化できずただただ氾濫して手に負えなくなったんよ
822 :デフォルトの名無しさん :2024/06/06(木) 10:38:50.99 ID:qz5pj6nB.net 役所は文系ばかりなのでとんでもないことを平気でやらかす
823 :デフォルトの名無しさん :2024/06/06(木) 10:46:53.59 ID:qz5pj6nB.net >>794 98に限らず hjklで←↓↑→替わりにしてる環境は割とある
824 :デフォルトの名無しさん :2024/06/06(木) 16:26:25.10 ID:nRDHkFIj.net unicodeだと同じ文字に見えても違うコードポイントの文字が多いから テキストエディタにもコードポイントを表示する機能と バイナリではどう記録されているのか表示する機能が欲しい バイナリエディタでは折り返しが16バイト毎の固定で文章入力しにくいから 折り返しを16バイト毎ではなく0x0D0Aにできるバイナリエディタのような感じかな
825 :デフォルトの名無しさん :2024/06/07(金) 00:30:00.98 ID:KQ6L7vRD.net 絵文字とか異体字セレクタとかもあるし、とりえあえず文字(グラフィームってやつ?)の 境界を見つけるのが面倒だよね 文字境界を探すライブラリとか、今ってそこら辺もちゃんと動く感じ?
826 :デフォルトの名無しさん :2024/06/07(金) 02:08:04.46 ID:4C4NoraV.net >>824 サクラエディタにそんな機能があるな
827 :デフォルトの名無しさん :2024/06/07(金) 20:02:28.27 ID:f1gRwXGz.net Ruby では、 https://qiita.com/QUANON/items/2539feed89cee2290664 couple = '👨👩' p couple.length #=> 3 # \X Unicode 結合文字シーケンス (eXtended grapheme cluster) (?>\P{M}\p{M}*) p couple.scan(/\X/).length #=> 1 # \u{0308} はウムラウト p euml = "e\u{0308}" # "ë"。"〜"で囲む p /\X/.match(euml) #=> #<MatchData "ë"> ウムラウト有り p $&.codepoints #=> [101, 776] # \w 単語構成文字 [a-zA-Z0-9_] # \W 非単語構成文字 [^a-zA-Z0-9_] p /\w/.match(euml) #=> #<MatchData "e"> ウムラウト無し p $&.codepoints #=> [101] p couple.chars #=> ["👨", "", "👩"] p couple.grapheme_clusters #=> ["👨👩"] 書記素クラスタ # U+200D は、Zero Width Joiner (ZWJ: ゼロ幅接合子) couple.each_char { |chr| puts(format('U+%04X', chr.ord)) } # U+1F468, U+200D, U+1F469 (euml + couple).each_grapheme_cluster { |chr| puts(format('U+%04X', chr.ord)) } # U+0065, U+1F468 # つまり先頭文字である、'e👨' だけになる
828 :デフォルトの名無しさん :2024/06/07(金) 21:53:54.62 ID:8MnTJRoZ.net Macなんて日本語でも英語のUTF-8と決めつけるから、SJISですらうまく打てない。
829 :デフォルトの名無しさん :2024/06/07(金) 22:04:15.54 ID:8MnTJRoZ.net >>811 その記事は時代に逆行している変な人間の記事だな 手書き文字を登録しろと言い出すと無限に定義するはめになり、見た目の区別もつかなくなる。
830 :デフォルトの名無しさん :2024/06/07(金) 22:06:42.14 ID:NZ6fOaVt.net JavaScriptの識別子に中黒が使えるようになった https://nanto.asablo.jp/blog/2024/06/07/9690975 JavaScriptの識別子(変数名、関数名、プロパティ名など)の2文字目以降に中黒「・」(U+30FB KATAKANA MIDDLE DOT)が使えるようになりました。以下のコードはChrome 124では構文エラーになりますが、Chrome 125では問題なく実行できます。 const シン・ゴジラ = 2016; 中黒が使えるようになったのは、JavaScript(ECMAScript)の仕様が変わったからではありません。変わったのはUnicodeの仕様のほうです。Unicode 15.1.0(2023年9月)においてOther_ID_Continueプロパティ(を持つ文字の集まり)に中黒が追加されました。
831 :デフォルトの名無しさん :2024/06/07(金) 22:34:26.74 ID:8MnTJRoZ.net >>830 表記の揺れの原因になりやすい記号
832 :デフォルトの名無しさん :2024/06/07(金) 23:59:44.50 ID:2VgcMGPt.net >>829 異体字はこんな風に生まれたんだろうけど と高みたいに両方ともUnicodeで基底文字として扱われてる文字と 異体字として扱われる文字の違いは何なんだろうな
833 :デフォルトの名無しさん :2024/06/08(土) 01:05:00.06 ID:mxKAN8QR.net >>832 中国人/台湾人の辞書や文字コード表に記載されているかどうか。はしご高は台湾漢字由来だったか 日本の異字体はIVS使うことにしたので最近は登録申請すらほとんどしてないけど、中華人民共和国は今もがんがん本体に追加要請してる
834 :デフォルトの名無しさん :2024/06/08(土) 01:39:00.68 ID:h1Q0ar53.net >>833 「異体字」を「異字体」と間違っている時点で説得力なしw
835 :デフォルトの名無しさん :2024/06/08(土) 10:12:44.74 ID:mxKAN8QR.net >>834 この場合は「異−字体」であってるんだよ。「異体−字」は個々の文字を指す。
836 :デフォルトの名無しさん :2024/06/08(土) 13:27:19.23 ID:QJis2zSF.net そういえば、斉藤なんかの「さい」の異体字はすごい数あるな もともと難しい字で、戸籍登録の際の書き間違いが原因らしいけど
837 :デフォルトの名無しさん :2024/06/08(土) 21:42:22.14 ID:b6OQAhB4.net 異体字と異字体 https://www.ytv.co.jp/announce/kotoba/back/2001-2100/2036.html#:~:text=%E3%81%AE%E8%A9%B12038%E3%80%8C-,%E7%95%B0%E4%BD%93%E5%AD%97%E3%81%A8%E7%95%B0%E5%AD%97%E4%BD%93,-%E3%80%8D%0A%0A%E6%96%B0%E8%81%9E%E7%94%A8%E8%AA%9E
838 :デフォルトの名無しさん :2024/06/15(土) 21:59:47.39 ID:1hp9WHhR.net すげーのを引っ張りだしたなw
839 :デフォルトの名無しさん :2024/06/17(月) 09:21:34.95 ID:TtAe0wMx.net CJK統合漢字拡張もいつの間にかI(アイ)まで来てるのかあ どこまで行くんでしょう
840 :デフォルトの名無しさん :2024/06/17(月) 18:15:03.85 ID:BtZF1kb5.net >>839 中国さんが飽きるまで とはいえ中国さんは、日式異体字とか辞書に載せて、辞書に載ってるから申請とか、留まるところを知らない
841 :デフォルトの名無しさん :2024/06/17(月) 23:07:05.19 ID:4L+665Jw.net >>835 それさ、同じ漢字と、字体違いの漢字を同一だと思っているでしょ? 同じ意味の漢字と、見た目違いの同じ意味の漢字は別物だよ
842 :デフォルトの名無しさん :2024/06/18(火) 00:34:22.90 ID:4d4deoVm.net >>841 異体字≡異体文字 異字体≡異体 この2つは当然べつもの
843 :デフォルトの名無しさん :2024/06/18(火) 02:46:10.52 ID:7l1MdKKx.net >>842 漢字の話をしているだぞ? 漢字は意味が違ったけど同じになったもの、新しい漢字を作るときに位置が違ったもの、わざと創作した存在しない漢字などがあり、字体違いだけでなく書体違いもあり、あなたのこだわりは漢字そのものをわかっていない。
844 :デフォルトの名無しさん :2024/06/18(火) 02:47:11.32 ID:7l1MdKKx.net >>842 「異字体」というのは中国語
845 :デフォルトの名無しさん :2024/06/18(火) 03:01:03.27 ID:4d4deoVm.net 「漢字Aと漢字Bは〇〇の関係にある」 この〇〇には異体や異字体は入るが、異体字や異体文字は入らない。異体字は字体の関係性ではなく個々の文字を指す用語。 「異なる字体」と言いたい場合は「異体/異字体」を使用する。 「字体」とは文字の骨格となる構成を言う。「字形」や「書体」とは違う概念
846 :デフォルトの名無しさん :2024/06/18(火) 05:09:10.23 ID:7l1MdKKx.net ○ 〇
847 :デフォルトの名無しさん :2024/06/18(火) 05:09:59.04 ID:7l1MdKKx.net >>845 漢数字のゼロを丸印だと思っている方に言われたくない
848 :デフォルトの名無しさん :2024/06/18(火) 07:20:08.45 ID:4d4deoVm.net >>847 すまん。アンドロイドで「まるまる」で変換しただけで思ってるとか無関係。
849 :デフォルトの名無しさん :2024/06/18(火) 07:55:46.38 ID:7l1MdKKx.net Google日本語入力を使った方がいい
850 :デフォルトの名無しさん :2024/06/18(火) 09:14:05.74 ID:4d4deoVm.net >>849 俺の使ってる google 日本語入力だと「まるまる」の候補は〇〇、丸々、丸丸、円円 (カナやローマ字以外だと)4つだけだな。 この謎の漢数字の〇〇って「ひとふたまるまる」とかの軍隊時間呼称とか用なんだろうか? でも「人蓋〇〇」とかになるな
851 :デフォルトの名無しさん :2024/06/18(火) 10:39:53.14 ID:7l1MdKKx.net 中国が日本語を担当しているせいで、日本人が「まる」と入力したときに零だと勘違いしているだけだ。 大日本帝国の末期の用語みたいになっている。
852 :デフォルトの名無しさん :2024/06/18(火) 10:41:16.55 ID:7l1MdKKx.net 変換候補に出てくる文字の説明がちゃんと出てくるものを使わないと
853 :デフォルトの名無しさん :2024/06/18(火) 15:04:55.87 ID:J2T1cvE/.net 梵
854 :デフォルトの名無しさん :2024/06/18(火) 16:01:02.14 ID:xFwnxcwf.net 悩
855 :デフォルトの名無しさん :2024/06/23(日) 18:00:29.64 ID:AwO4Mznw.net 異体字セレクタって、無闇に使うと問題あったりしますか? 例えば対応してないシステムやアプリ上で使うと何か問題が発生するとか
856 :デフォルトの名無しさん :2024/06/23(日) 19:08:28.54 ID:E6KcLbxg.net 検索する時にはまりそう
857 :デフォルトの名無しさん :2024/06/23(日) 19:53:42.52 ID:kgoIYSsb.net >>856 規格にちゃんと従っていれば検索時には無視してくれるので大丈夫 現時点で規格をちゃんと実装してないやつの方が多いってのは棚に上げておく
272 KB
新着レスの表示
掲示板に戻る
全部
前100
次100
最新50
read.cgi ver.24052200
本文 スレッドタイトル 投稿者