2ちゃんねる ■掲示板に戻る■ 全部 1- 最新50    

文字コード総合スレ part14

1 :デフォルトの名無しさん:2023/03/03(金) 15:46:58.08 ID:yKqwMGHT.net
Windows NTは初代からUnicodeがネイティブの文字コードです。cp932ではありません。
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
 (スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
 (隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
文字コード総合スレ Part10 http://mevius.2ch.net/test/read.cgi/tech/1444822140/
文字コード総合スレ Part11 https://mevius.5ch.net/test/read.cgi/tech/1516629503/
文字コード総合スレ Part12 https://mevius.5ch.net/test/read.cgi/tech/1544931495/
文字コード総合スレ part13
https://mevius.5ch.net/test/read.cgi/tech/1593777227/

658 :656レビュー自作自演:2024/04/21(日) 06:35:47.14 ID:MS9R2kFy.net
👤 cの計算式内の16*b1は左2BITシフト?
🤡 yes
 b1 = a1 - 224 後の処理だから、
 数式16*b1は、16*(a1 - 224)と同値だし
 数式16*b1は、意訳で、左2BITシフトだ
🥳a1が224未満(モチ、a1がE0未満)で
 バグる気がするぅーーー
 早くテストしてバグって混乱するとヨイ
🤡UTF8で 00 00 00 〜 DF FF FF
 でバグるか? んーーーー

659 :657 とにかく早速テスト篇:2024/04/21(日) 08:23:58.98 ID:MS9R2kFy.net
出演者
🥳バカテスター 🤡プロマネ(元プログラマ) 👤宇宙人のランベルト星人

🥳プロマネが作った>>657のVBAをRunしたらエラーでRunしない。バグ発見∴嬉しいデス
ちゃーーーーんとテストしてる証だぁ

🤡 &hE3h は、&hE3 だった。てかそんなの報告せず
修正してテストしろーーーちゅーーーの

🥳 で、修正してテストしたら上手くいっちゃった
ちゃんと、「お」とメッセージボックスに表示された

🤡 だろ\(^o^)/ ま、たった一文字だけど
今後は更にコード改造して、UTF8のをEXCELに表示させるぜ

🥳 たったの一文字で、それも「お」だけしかテストしてないぢゃーーー

🤡 最初の一歩はこんなもんだ。てかうっせーーー

660 :658の続きてかプロマネの呟き:2024/04/21(日) 08:39:06.15 ID:MS9R2kFy.net
🤡 Function UtfStr(a1,a2,a3) as string
だけど、引数a1,a2,a3 の型はどうしようかな?
未指定で上手くいっちゃったみたいたけど、
なんか、やーーーだな

修正前 (a1,a2,a3)
修正後案1 (a1 as byte,a2 as byte,a3 as byte)
修正後案2 (a1 as integer,a2 as integer,a3 as byte)
修正後案3 (a1 as long,a2 as long,a3 as long)
修正後案4 (a1 as double,a2 as double,a3 as double)
どれにしようかな? てかどれでもいいぽいけど
常識的には案1かな? てか案3もいいな。
てか、案4が個人的には好きだけど非常識だろし
案2にするなら、ヤッパ案3だし、んーーー

🥳 (a1 as byte,a2 as double,a3 as long)
はどう❓。なんでも上手くいくなら上手くいきそうぢゃーーーん

🤡非常識なヤツ。てか案3にしよっと

661 :659についてランベルト星人感想:2024/04/21(日) 10:51:04.07 ID:MS9R2kFy.net
👤 UTF8かつカテゴリ3BYTEなら、
  そのロジックで、バッチリだろうが・・・
🤡 オレッちの開発の、秘伝の数式
 c=256*(16*b1+b2\4)+64*(b2 mod 4)+b3
 は、モチロンバッチリだよな ✌
👤 で、EXCEL VBAで実装するのか❓んーーー
🤡 モチロンだ。ってか連れないな。なんで
👤 その程度の数式なら、VBAは不要でさ、
  EXCEL関数だけで、イケる気もする。
  VBAを走らせなくても、UTF8コード値の入力
  と同時に、文字(漢字等)が表示されるぜ
🤡 なるほど。入力と同時文字表示は、いいな
  VBAでの実装は保留とし、EXCEL関数での
  実装を検討とする

662 :660:2024/04/21(日) 11:05:36.10 ID:MS9R2kFy.net
👤 商を求めれるExcel関数は、QUOTIENT
  且つ、余りは、Excel関数は、MODだ
  且つ、EXCEL関数には、HEX2DECも存在
  且つ、EXCEL関数には、UNICHARが存在
🤡 上手くやれば、EXCEL関数に、
  UTF8CHARがなくても、UTF8CHARって感じの処理は可能な様な気がする

🥳 どうせ一文字だけだろ。まだまだぢゃーん。
🤡 最初の一歩は、慌ててはいけない。
  「恋は焦らず」なんて題名の曲があるだろ
  てか、文字連結はEXCEL関数てか&できるし
  数十文字位の改造も、楽勝と思うよん。
🥳 ちぇっ、つまんないの。楽勝なのかよ
  てか、カテゴリ3BYTE以外はバグぢゃない?
🤡 可能性は高いけど、カテゴリ3BYTE専用だ
🥳 なんか狡いのーーーー
🤡 これで良いのだ。

663 :661:2024/04/21(日) 11:12:44.58 ID:MS9R2kFy.net
🤡てかカテゴリ3って何❓
👤地球のネットによると漢字の様な感じだ。てか
 オレの霊感ではほぼ大部分の全角文字の気がする
 なお、霊的な直感なので、違っても怒るなよ
🥳ランベルト星人って地球人より無限大頭がヨイのに
 霊感とか直感なのかよ。
 てかさ、漢字は全角だし、ネットで漢字とか記載されてるけど
 ポクのヤマ感だと全角文字の、ことだろ。てかなんで
 カテゴリ3byteなんだろう。全角って2byteって気もする
🤡んーーオマエのヤマ感より宇宙人の霊感が正しい気がする、霊感的に

664 :662:2024/04/21(日) 11:20:51.43 ID:MS9R2kFy.net
👤 ーーー、いやま、半角のカナ記号も
UTF8では3byteだし、半角でもカナはカテゴリ3
だ。半角英数はASCiiだからカテゴリ3ぢゃないと思う
てか、地球のUTF8訳わからん。
てか、EXCEL関数でもVBAでもどっちでも良いのでドンドン実装しちゃいなさーーーーい

🥳ドンドンしちゃいなさーーーーい

665 :プロマネ ノーコードで完成報告:2024/04/21(日) 12:46:15.51 ID:MS9R2kFy.net
>>664
🤡 はい。(VBA等は使用せずに)で
EXCEL関数で、実装しちゃいました。

ま、テストデータは少ないからデバッグは必要かもだが
そんなデータ入れるヤツがヤヴァイとみなし作業は完了

ま、どんなEXCEL関数でロジック作ったかは
無限大日未満に、公開と思うけど、
>>662 であの宇宙人が書き込んだEXCEL関数を
上手く組合せて完成。

ってか、これからはプログラミングなんて不要だぜ
てか、やったぜ。てか
スマホの連絡帳のVCFファイルのUTF8的なんだけど
それを表示させる作業しなきゃ

では、一旦バイバイーーーー やっほーーー

🥳プロマネがはしゃいでる。ポクとは違くアル

666 :664よ。何が完成だの巻:2024/04/21(日) 13:30:07.84 ID:MS9R2kFy.net
🥳ていうかさ、664よ。何が完成だ❢
S社のスマホの連絡帳で
vcfエクスポートしたら、
ファイルcontacts.vcfがエクスポートされ
それをウインドウズパソコンに
移動させて、
contacts.vcfを開いたら文字化けた。
電話番号は半角数字の為かバッチリだが
氏名(妙・名) など、文字化けで読めん。

ちなみに、メモ帳で開いたら
=E9=8A=80=E8=A1=8C という感じで表示
ま、UTF8ぽいけど、なんだこれ👿
「=E9=8A=80=E8=A1=8C」 ぢゃなくて
「銀行」を出力しろっつうの
※補足 E9 8A 80 は銀でE8 A1 8Cは行

ていうかさ、
「=E9=8A=80=E8=A1=8C」とセル入力で
「銀行」をセルに出力する
EXCEL VBA できればノーコードで
EXCEL 関数で、
「=E9=8A=80=E8=A1=8C」とセル入力で
「銀行」をセルに出力する
やつ作れーー

by 🥳バカテスターだが、ご尤もな主張

667 :プロマネてか自作自演:2024/04/21(日) 13:39:02.51 ID:MS9R2kFy.net
>>666 うっせいなーーてか、あのロジックは
Excel関数で絶対参照はやらずに、相対参照のみで構築した
リロケータブルって感じロジックだから、
ロジックの改造は用意だ。でも
ヒマな時につくる。

イコールがでリミッターって感じだな。

ま、尤もな主張は認める。てかノーコードは修正が楽ちん
ただし、ロジックは、VBAで設計するのがいいり
実装はそのVBAを参考にヒトがEXCEL関数に手作業で実装だ。

🥳てか、どうでもいいから、早くつくってよ
CONTACT.VCF あれ文字化けだよな❓

🤡おれも、それは、文字化けだと思う。

668 :デフォルトの名無しさん:2024/04/21(日) 13:57:13.06 ID:otjfab/5.net
悪いけどなにひとつ面白くないよ
当人だけがユーモアセンスあると思いこんでる中高年フリーランス(お察しください)か何かか

NGNAMEしようにもご丁寧に毎回名前欄かえてくれてるみたいだしなあ
いつまで続けるつもりなの?

669 :ランベルト星人:2024/04/21(日) 16:51:27.41 ID:MS9R2kFy.net
なんやかんやで、読者さんがいる。という訳で
ノーコード(といってもexcel関数で概略)

セル★に「:=E9=8A=80」入力
  注 先頭には「:」を入れる事

セル☆はMID(★,3,2) でそこは「E9」表示
セル□はMID(★,6,2) でそこは「8A」表示
セル○はMID(★,9,2) でそこは「80」表示

セル🟦はHEX2DEC(☆)で 233 となる
セル🟫はHEX2DEC(□)で 138 となる
セル🟪はHEX2DEC(○)で 128 となる

セル⭐は以下の数式でUNICODEにさせる
 256*(16*(🟦-224)+INT((🟫-128)/4))
 +64*(MOD((🟫-128),4))
 +(🟪-128)
 で ⭐は37504 となる

セル🌟はUNICHAR(⭐)で「銀」と表示

by 👤 これがランベルト星人のノーコードでのロジックだ(注 概略)

670 :668の補足:2024/04/21(日) 16:56:31.18 ID:MS9R2kFy.net
⭐の37054はunicodeだけど十進数のunicode 単なる補足でした
さてと、一段落したから、次回は暫くかも。気が向いたら
また投稿するね。てか、文字化けvcfの漢字が表示されたので
嬉しくなって投稿しちゃいましたーーーでは、バイバイ👋

671 :668の補足:2024/04/21(日) 18:33:10.13 ID:MS9R2kFy.net
🥳 今イロイロ、連絡帳のcontact.vcfのを半手作業で
その668のロジックで、文字表示してみたんだけど・・・
30点不合格って感じですね。入力と同時に文字が表示されるのは
素晴らしいけど、でも
🙆 漢字(全角)なら、まず正しく表示
❌ 半角英数字は、⭐が異常な値(例えば負数)になり
はUNICHAR(⭐)で エラーで、#VALUEと表示ですな

EXCEL関数でやるのは、困難と判断する。

🤡ま、氏名とか住所の項目に全角文字だけなら上手くいきそ
でも、その様な項目に半角文字が混ざるとダメか、
これは、ヤッパバグだな。(;´д`)トホホ…

例 
 5チャンネル なら○と思われるが
 5チャンネル は、5のUTF8は&H35で&hE0未満故に🙅
∴ >>658の指摘が的中かよ。
バカテスター、なかなかやるな
てか、(;´д`)トホホ…

672 :デフォルトの名無しさん:2024/04/21(日) 21:29:10.71 ID:o+cJ3WcJ.net
何これ最近流行りのスクリプト?

673 :デフォルトの名無しさん:2024/04/21(日) 22:29:13.79 ID:MS9R2kFy.net
スクリプト? いやexcel関数で⭐とかは任意のセルの意味
ちなみに、全角漢字+半角数字混在のcontact.vcf
のUTF8らしき、文字化けで読めないのは、ドウニカ、なった

674 :デフォルトの名無しさん:2024/04/21(日) 22:51:17.48 ID:ZC2cYJ3v.net
>>637
UTF8なんて欠陥規格は使用禁止にすべきだな。殆どの文字がUnicodeの原形が分からないほど
いじくりまわされたコードにされてしまい非常に分かりにくいし、大部分の文字がUTF16より
バイト数が多くなってしまうから。単にASCIIがUTF8でも同じコードで同じバイト数で表せるという
理由だけのために、ASCIIに未練がある老害が欠陥規格を押し付けている。英語のまともな文章すら
書けないASCIIなんてもはやゴミ同然なのに、変化を受けいられないのは頑迷固陋すぎる。

675 :デフォルトの名無しさん:2024/04/21(日) 22:51:46.82 ID:ZC2cYJ3v.net
ASCIIからの訣別を促進するため、プログラム言語の予約語や演算子、HTMLのタグなどに
ASCIIにない文字をどんどん採用すれば良い。老害もASCII外の文字を強制的に使わせられれば、
奇怪な変換をしない素直なコードが合理的で優れていることを思い知らされるだろう。

676 :デフォルトの名無しさん:2024/04/22(月) 06:39:46.57 ID:K/eQNJGk.net
よくわかるけど、よくわからないから、
絵文字も、ASCのも、全角漢字も、半角数字も、半角カナ
なんでも、4byteのコードであるUTF32 にしろーーー
ASCとかUTF8とかUNICODEとかEDなんとかは、今すぐ廃止しろー
てか、UTF32ってなんでも4BYTE/文字 なの❓
だとしたら、UTF32だけでいいんぢゃなーーい。
UTF8 UTF16 UNICODEも今すぐ廃止しろーーーーーー

677 :デフォルトの名無しさん:2024/04/22(月) 06:44:03.13 ID:K/eQNJGk.net
ていうか、UTF8は、名前をかえろーーーーー
UTF8は、UTF8兼UTF16兼UTF24兼UTF32 という名称にしろ
てか、UTF8は なんちゃってUTF8 がいい。
by 🥳

678 :デフォルトの名無しさん:2024/04/22(月) 06:55:50.72 ID:K/eQNJGk.net
そうだ。ASCIIは、廃止しろーーーーーー老害だーーー
だけど、ASCIIアート廃止は、反対だーーーーー
てか、やっぱりEBCDIC IBMが1963年に定めた8ビットの文字コード
にしろーーー。老害も、超賛成すると思う
しかも、8ビットだから、EBCDICこそ、UTF8という名前にして
今のUTF8は、モピロン、なんちゃってUTF8に改名しなさーーい

ていうか、EBCDICなら、老害も賛成するんぢゃなーーーい❓
てか、5CHってサイコー、絵文字も、お絵描きも
化けない ぽぃ
https://o.5ch.net/2314g.png

679 :備忘録but厳密さは低い:2024/04/22(月) 09:17:14.56 ID:K/eQNJGk.net
n文字目の最初のが、E0以上は
 n文字目は、UTF8カテゴリ3byte
n文字目の最初のが、E0未満は
 n文字目は、UTF8カテゴリ1byte∴ASC

680 :単なるロジックの自主練習:2024/04/22(月) 09:31:13.54 ID:K/eQNJGk.net
「赤」という文字の色は、黒だけど
「赤」という文字の文字コードは、「黒」の文字コードと異なる 
当たり前ではある。 さて、
000000000011111111
123456789012345678
「UTF8 PRINTABLE:=30」という感じの文章があるとする
これは、18文字だと思うだろ?!
でも、どうやら1文字だ。なぜかって
意訳すると、その18文字は「0」という1文字だ
ちなみに、0x30はUTF8でもASCiiでも「0」という1文字
だったかな。 by 👤地球人の文章には呆れる┐⁠(⁠ ⁠∵⁠ ⁠)⁠┌

てか、UTF8よりASCIIアートがこれから主流だーーーー✌

681 :678よ。4byte文字をサポートしろ:2024/04/22(月) 10:01:00.58 ID:K/eQNJGk.net
>>679 なにこの、厳密性の低いロジック
やっぱりこれからは、>>680様のご主張の通り
絵文字1⃣💃🤡とか、ASCIIアート的な文字だ。
ASCIIアート的なのは、ASCII4文字がいいな。
4文字熟語というか、4文字ASCIIだ。ていうかさ
お前の書き込んだ

n文字目の最初のが、E0以上は
 n文字目は、UTF8カテゴリ3byte

は、ラフすぎる

n文字目の最初のがE0以上F0未満⇒n文字目は3byte文字
n文字目の最初のがF0以上⇒n文字目は4byte文字

だぜ。

おそらく、4byteのは絵文字💃🤡1⃣とかだから、
絵文字もバッチリな変換ロジックとなるぜ、
1byte〜3byte文字の様な、asciiとか全角漢字なんて
もうこんなの文字ですらないもんねー。廃止しろー
で、絵文字とasciiアートだけでよろしいーーーー✌

682 :文字化け:2024/04/22(月) 10:06:31.97 ID:K/eQNJGk.net
5chの書込で絵文字1⃣って書き込むと
お絵描きのようには表示されません、
バグってるぅーーーーと思う
by🥳発達障害テスター
sssp://o.5ch.net/23176.png

683 :備忘録but厳密さは低い:2024/04/22(月) 14:05:18.79 ID:K/eQNJGk.net
>>679 680 UTF8は、
F0-F7は4バイト、F8-FBは5バイト、FC-FDは6バイト らしっす。

684 :0682の続き:2024/04/22(月) 16:14:40.14 ID:K/eQNJGk.net
👤 でUTF8は、FE-FFは何バイトだ。その調子なら7バイトか?
地球の書では、それは最大6バイトだから
6以下なのに7バイトというランベルト星にも存在しない値か❓

🤡第1バイト目は、UTF8は、第1バイト目は、FE-FFは、UTF8でない
との旨がネット記載されてる。意味は通じない文章だ

👤んーー地球人は理解できん。てか一応地球の論理学的には
UTF8でないと仮定で、UTF8でない ∵自明 @
UTF8であると仮定で、UTF8でない ∵背理法?A
@でもAでもUTF8でない だな。
もし、UTF8なのに第1文字バイト目がFEまたはFF⇒
そもそも、変換プログラムがバグってるか、
そもそも、UTF8ですらない。

というのだろう

念のため、ASCIIコードでFE FFのASCIIコードが
存在するような体系があるか調査しておけ

🤡めんどくせー、3バイト文字と、みなして変換して
変換エラーになるだろうから、それでお茶濁すのが
実現的なオレッちのやり方。ぢゃーバイバイ👋👋👋

685 :683の続き:2024/04/22(月) 16:24:58.60 ID:K/eQNJGk.net
🤡てか、ASCii 127は存在する。16進数に翻訳すると
ASCii FF は存在すると言うことになる。
👤 んーやはり思ったとおりだ、FFがある、でなんて文字だ
🤡 文字をパンチ穴空けて消しちゃうという機能のようだ
👤 紙に穴🕳を空けて、文字を消すってことなのか❓
🤡 多分そうだ、モピロンUTF8もその機能を継承すべきだよな。
👤 モピロンた。🕳を、空けて文字を消すのだ。てか
地球人は頭が変だ。

686 :発達障害テスター:2024/04/22(月) 16:30:05.52 ID:K/eQNJGk.net
🥳 えー、ウッソーーー
バイナリファイルにFF FF FF FF FF FF ・・・・・・
で、メモ帳でUTF8でそのファイルを開くと
んーーーきっと🕳🕳🕳🕳🕳が表示されてさ、
それを印刷すると、プリンタが紙を🕳穴だらけにしてくれるか
早くテストしてみようーーーーよ。

👤🤡 オマエはもっと頭が変だ。

687 :備忘録but厳密さは低い:2024/04/22(月) 17:34:03.27 ID:K/eQNJGk.net
てか😅
1111 1111 = 255 = FF
0111 1111 = 127 = 7F だFFと7Fは違うといというか、カテゴリー何バイトにするのか
はやく、設計決めろーーちゅーーーの

688 :備忘録but厳密さは低い:2024/04/22(月) 18:16:52.29 ID:K/eQNJGk.net
🤡突然ですが、下記要領でテストやれ

バイナリエディタぽぃツールで16進で
31 32 33 34 35 7F FF 31 32 33 34 35
のファイルを作成。それを
メモ帳でUTF8で開く
尚フォントはいつものヤツとする

🥳の予想:12345🕳?????? と表示され
そして、🕳と表示のとこは、絶対
穴が開き壊れちゃいますぅーーーーー

👤の霊感:12345 か 12345(del) って感じ

🤡答え
12345・12345 と表示された

ただし、・は UNICODE 30FB ではなく
なんと、・は UNICODE F8F3 だ
F8F3というUNICODE は、
ネットで調べたが、意味がわからん∴謎

689 :プロマネの憶測:2024/04/22(月) 18:25:11.98 ID:K/eQNJGk.net
🤡 ちなみに、・はメモ帳からexcelにコピペし
DEC2HEX(UNICODE(⭐))というEXCEL関数したら
F8F3 と表示された

ってことは、
utf8の 7F FF ⇔ unicodeの F8 F3
との変換をメモ帳は内部でやっていると
憶測される。

BY 🤡の憶測の的中率は6.66‥%

690 :デフォルトの名無しさん:2024/04/22(月) 18:39:14.77 ID:K/eQNJGk.net
てかUnicodeの範囲外かつ、UTF8の範囲外としても、
一応UTF8を変換してはくれてる。
というか。地球の書、主語を意図的曖昧にして解りづらくしてるんとちゃう❓

691 :686:2024/04/22(月) 18:40:22.96 ID:K/eQNJGk.net
てかカテゴリー何バイトにするのか はやく、設計決めろーーちゅーーーの

692 :プロマネ(との設定):2024/04/22(月) 21:01:36.75 ID:K/eQNJGk.net
>>669 ランベルト星人よ。それはカテゴリー3の場合の数式だな
オマエのは、地球のネットの文学作品を読んで作ったような数式だ。
ていうか、これが秘伝の数式だ

UTF8 = 14897152+ UNICODE ∵カテゴリー3
但し、UNICODE UTF8一覧表をみて、霊感で閃いた数式なので
これが間違ってても怒らないでね

by 🤡プロマネ

🥳プロマネやるーーーー。中学一年生の数学レベルぢゃーーん
ランベルトって宇宙人、厨房よりバカなの❓

👤うっせー。なんか数式一発なんて狡い。

🥳あ、負け惜しみだーーーー

🤡いや、まだテストしてない。それに霊感だ。

😅カテゴリー何バイトにするのかは、後回しで
その数式で上手くいくか、早くテストしろー でカテゴリー3専用だろ

🤡ちなみに、
UTF8 = ASCii ∵カテゴリー1 だ

😅はやくカテゴリーを計算するのをつくれーーーー

693 :カテゴリーを仮計算 仮 仮:2024/04/23(火) 06:31:34.43 ID:4WFWNNQf.net
先頭文字 カテゴリ
───  ──
00-7F ⇒ 1
C2-DF ⇒ 2
E0-EF ⇒ 3
F0-F7 ⇒ 4
F8-FB ⇒ 5
FC-FD ⇒ 6
上記以外 んーーー暫定カテゴリー1?

694 :デフォルトの名無しさん:2024/04/23(火) 07:48:18.49 ID:1Q5bRy/V.net
>>674

もしや君、UnicodeとUTF8を別のものと思っている?

695 :ランベルト星人:2024/04/23(火) 08:45:19.27 ID:4WFWNNQf.net
👤
コラ、プロマネよ。チミの数式一発のやつ
カテゴリ3バイトのでも、99%超の確率でダメだ。
霊感どころか、直感もないダメ数式ですよーーー

やはり、カテゴリ3のほぼ99%以上(霊感では100%)について
下記の、超秘伝の数式でバッチリなのぢゃ

🟦1byte目のUTF8の10進数 トスル 且つ
🟫2byte目の それだ   トスル 且つ
🟪3byte目の ぢゃ    トスル

スルト、

⭐ = 256*(16*(🟦-224)+INT((🟫-128)/4))
 +64*(MOD((🟫-128),4))
 +(🟪-128)

というランベルト星の秘伝の数式により
⭐には地球人が発明したUTF8の10進数をゲットぢゃ

なお、霊感では、多分全てのカテゴリー3の文字で成立のありがたい数式ぢゃ


🥳 プロマネダメぢゃーーーーん。霊感に頼るからだよん
てかランベルト、やるぢゃーーん。霊感バッチリぢゃーーん、

👤 いや、霊感というか地球の書をやっと理解して後は、ま霊感ぢゃ

696 :発達障害テスター:2024/04/23(火) 10:55:15.34 ID:4WFWNNQf.net
🥳 UnicodeとUTF8をまったく別のものていうか、
UnicodeでUTF32の亜種のような気がする 
👤 ┐⁠(⁠‘⁠〜⁠`⁠;⁠)⁠┌

697 :デフォルトの名無しさん:2024/04/23(火) 13:13:02.11 ID:veCrNLlk.net
よく使う言葉を漢字1文字に割り当てるルールがあればよい
ウクライナ→浮など
同じ漢字の場合の勝ち負けルールも決めておく

698 :ランベルト星人:2024/04/23(火) 16:35:40.45 ID:4WFWNNQf.net
2byte専用縛りのUTF to UNICODE の変換数式だ

【カテゴリ2専用 普通にテスト済】
セル★に「:=C2=AE」と入力
  注 先頭には「:」を入れる事

セル☆はMID(★,3,2) でそこは「C2」表示
セル□はMID(★,6,2) でそこは「AE」表示

セル🟦はHEX2DEC(☆)で 194 となる
セル🟫はHEX2DEC(□)で 174 となる

セル⭐は以下の数式でUNICODEにさせる
 ⭐=64*(🟦-192)+(🟫-128)
 で ⭐は 174 となった

セル🌟はUNICHAR(⭐)で「®」と表示

なお、ある ンゴ文字 を連結で
表示が逆(右から左)に表示されたり、
右詰めに表示されたりしたが
キニシナイとする。エクセルでの表示だし
とにかく、下記数式は、バッチリ

⭐=64*(🟦-192)+(🟫-128) ∵2byte専用

BY 👤まずまずなので嬉しくて投稿しちゃった

🥳ランベルトって子供みたーーーーい

699 :697訂正:2024/04/23(火) 16:42:46.35 ID:4WFWNNQf.net
❌ンゴ文字 ⭕ンコ文字 に訂正
sssp://o.5ch.net/231hc.png

700 :デフォルトの名無しさん:2024/04/23(火) 17:41:40.24 ID:gmQp6YI4.net
>>675
プログラム言語の予約語や演算子、HTMLのタグなどには
制御文字を使えばその文字がコマンドの一部なのかデータなのかどうか
判別しやすくなるのにそんな使われ方にはならなかったね。
0x1B(ESC)はそのために存在する文字なのに。

701 :0692の改訂∴朝令暮改:2024/04/23(火) 20:49:00.69 ID:4WFWNNQf.net
【修正前】
UTF8文字 カテゴリ
───  ──
00-7F ⇒ 1
C2-DF ⇒ 2
E0-EF ⇒ 3
F0-F7 ⇒ 4
F8-FB ⇒ 5
FC-FD ⇒ 6
上記以外 んーーー暫定カテゴリー1?

【朝令暮改 改訂】
UTF8文字 カテゴリ
───  ──
00〜7F ⇒ 1
C2 80〜DF BF ⇒ 2
E0 80 80 〜 EF BF BF ⇒ 3
F0 80 80 80 〜 F4 BF BF BF ⇒ 4
F800000000〜FBFFFFFFFF 
  ⇒ 5なの? 不正なの? 地球人の書イミフ
FC0000000000〜FDFFFFFFFFFF
  ⇒ 6なの? 不正なの? 地球人の書イミフ
上記以外 ヘンなのはカテゴリーは1でいいやーーーーー

by 👤地球の書を更に完璧に理解したぜ

🥳宇宙人、更に病状悪化。治療不可だな

702 :デフォルトの名無しさん:2024/04/23(火) 20:54:53.10 ID:4WFWNNQf.net
LPRINT CHR$ (27); 賛成

703 :デフォルトの名無しさん:2024/04/23(火) 21:24:18.36 ID:6TsV+qCl.net
>>694
ここでのUnicodeはUnicode表に載っているコード値という意味ね。

UTF8はU+100以上の文字がUnicode表とは似ても似つかぬコードに変形されてしまうので不可。
UTF16はU+10000以上の文字が変形されるのはあまり好ましくないが、結果のサロゲートペア
U+D800〜DBFFとU+DC00〜DFFFもUnicode表に載っているのでまあ可。

704 :デフォルトの名無しさん:2024/04/23(火) 21:43:55.95 ID:4WFWNNQf.net
>>701 自己スレ 朝令暮改を更に改訂 今度こそ最終案
【超々最終案】
とにかくカテゴリー、キーメタ。
UTF8の先頭 カテゴリ
───   ──
00〜7F ⇒ 1
C0〜DF ⇒ 2
80〜EF ⇒ 3
F0〜F8 ⇒ 4
上記以外 ⇒んー悩む。0だけど1かな

by👤地球の書 更に超完璧に超理解したぜ

🥳 どの案でも、いいぢゃーーーーん。

705 :デフォルトの名無しさん:2024/04/23(火) 22:45:52.70 ID:2WXqZgLp.net
>>703
似てもに似つかぬとか言い出すのはお前が16進数とか使ってるから。2進数使えば解決。そのままだということが分かる。

706 :発達障害テスター:2024/04/24(水) 05:32:39.83 ID:s8r+XPAL.net
🥳 モピロン、ASCiiもUTF8も、なんでも、
文字がASCiiなら、同じだ。ちがうのはunicodeだけ
「A」は、ASCもUTF8も、1BYTEだけど、
UNICODEは、1BYTEぢゃないもんねー。2バイトかな。
1と2は、違う値ですよーーーーーーーー。BY🥳

707 :プロマネ:2024/04/24(水) 05:39:16.75 ID:s8r+XPAL.net
>>704 こら、自称宇宙人!、カテゴリーは10進数はOKだが
UTF8の先頭は、16進数だけでなく、2進数も併用して
書き直せ、ちゅーーーーの

by 🤡

10進数にしよっかな
by 👤

708 :2進数レビュー:2024/04/24(水) 08:35:44.88 ID:s8r+XPAL.net
🤡サロゲートペアてかカテゴリー4の
 UTF8toUNICODE を設計しろ。で
 まずは、
 U+10000 〜 U+10FFFF を2進数にしろ

👤3byte 24bit U+10FFFFのみ解答とする
  Unicode  
  1‖⚪⚪⚪⚫ ⚪⚪⚪⚪
  2‖⚫⚫⚫⚫ ⚫⚫⚫⚫
  3‖⚫⚫⚫⚫ ⚫⚫⚫⚫

🥳 ポクならサロなんちゃらは、設計は
  U+010000〜U+ 0FFFFFにするぅぅ
  UnicodeのサロのMaxのは、
  1‖⚪⚪⚪⚪ ⚫⚫⚫⚫
  2‖⚫⚫⚫⚫ ⚫⚫⚫⚫
  3‖⚫⚫⚫⚫ ⚫⚫⚫⚫
  てかU+10FFFFってどんな文字なの❓

🤡レビュー中止。てか
 カテゴリー4のUTF8toUNICODE
 のプログラミング設計にとりかかれ

709 :突然ですがランベルト星人の呟き:2024/04/24(水) 08:47:17.93 ID:s8r+XPAL.net
>>708 テスター🥳の疑問
、地球のネットのAIで検索してみた。スゲーー長文だが、U+10FFFFについてAIで検索すると
チョー適当にまとめると以下の通りかも

「天使の力」「大いなる創造の力」「愛の力」と呼ばれているそうです。 いずれにしても、『􏿿』という文字には謎めいた魅力があり、人々の興味を引きつけることは間違いありません。

との、ご回答だ by 👤 地球人の仕様ナゾ

誤回答なの? by 🥳なんか面白い

710 :707の続き:2024/04/24(水) 09:50:49.16 ID:s8r+XPAL.net
👤Unicodeは、とにかく4てか3byteトスル
  Unicode on サロゲートペア
  1‖⚪⚪⚪🔵 🔵🔵🟤🟤
  2‖🟤🟤🟤🟤 🟣🟣🟣🟣
  3‖🟣🟣🟢🟢 🟢🟢🟢🟢 トスル

🤡すると、UTF-8は?
👤地球の書を解読すると
  UTF-8 on サロゲートペア
  1U⚫⚫⚫⚫ ⚪🔵🔵🔵
  2U⚫⚪🟤🟤 🟤🟤🟤🟤
  3U⚫⚪🟣🟣 🟣🟣🟣🟣
  4U⚫⚪🟢🟢 🟢🟢🟢🟢

  と解読できた。
  なお、地球人は⚫は1、そして、
  ⚪は0という文字を使用するようぢゃ

🤡サロゲートてかカテゴリ4専用の
 UTF8toUNICODE をすぐプログラ厶しろ

711 :709の続き:2024/04/24(水) 10:03:19.23 ID:s8r+XPAL.net
🥳カテゴリー4かの判定は、
F0〜F8 ⇒ 4 だから、2進数に翻訳で
  1U⚫⚫⚫⚫ ⚪⚪⚪⚪
  〜
  1U⚫⚫⚫⚫ ⚫⚪⚪⚪

  >> の
  1U⚫⚫⚫⚫ ⚪🔵🔵🔵は、
  条件の十分条件ぽぃぞ。

🤡 十分条件って何❓
🥳 それだけで、バッチリ十分だぜ条件❢
👤 ¯⁠\⁠(⁠◉⁠‿⁠◉⁠)⁠/⁠¯¯
🤡サロゲートの専用の
 UTF8toUNICODE をすぐプログラ厶しろ

712 :デフォルトの名無しさん:2024/04/24(水) 10:18:40.68 ID:uTe2irO1.net
車輪の再発明どころか
まわりが車輪を使ってる中で丸太を転がすことを見つけてドヤってるかのような

713 :デフォルトの名無しさん:2024/04/24(水) 12:53:35.98 ID:PsCDSBWI.net
小学生がネットで調べたことを一生懸命自慢してるんじゃないだろうか?
爺の巣窟でそんなやついるかという疑問はあるが、小学校低学年の算数知識ならこんなもんだろう。高学年だと恥ずかしくて外歩けないレベルだし。

714 :ランベルト星人\(^o^)/:2024/04/24(水) 13:56:24.70 ID:s8r+XPAL.net
【カテゴリ4専用・多分OK】
セル★に「:=F0=A8=AA=B9」入力
  注 先頭には「:」を入れる事

セル☆はMID(★,3,2) でそこは「F0」表示
セル□はMID(★,6,2) でそこは「A8」表示
セル○はMID(★,9,2) でそこは「AA」表示
セル△はMID(★,12,2) でそこは「B9」表示

セル🟦はHEX2DEC(☆)で240  となる
セル🟫はHEX2DEC(□)で168  となる
セル🟪はHEX2DEC(○)で170  となる
セル🟩はHEX2DEC(△)で185  となる

セル⭐は以下の超秘伝の数式でUNICODEにさせる
⭐=65536*(4*(🟦B-240)+INT((🟫-128)/16))
+256*(16*MOD((🟫-128),16)+INT(((🟪-128)/4)))
+(64*MOD((🟪-128),4)+(G-128))

セル🌟はUNICHAR(⭐)で 「金先王」というか
お絵描きの文字 表示された\(^o^)/ 
超秘伝の数式だぜぇーーー

by 👤 やっほーサロゲートともバッチリ

🥳一文字だけしかテストしてないぢゃん
てか超秘伝の数式?アタマがヤバイぢゃん
https://o.5ch.net/231rd.png

715 :デフォルトの名無しさん:2024/04/24(水) 14:02:06.16 ID:IsoM8arJ.net
Look! A pair of boobs! -> (.Y.)

716 :発達障害テスター:2024/04/24(水) 14:02:56.34 ID:s8r+XPAL.net
🥳ランベルト星人やるーーーねー
ランベルト星人は、小学生の算数低学年でも
2進数とか計算とかバッチリぢゃーーーーん
ランベルト星人の数学パワー偏差値は無限大はマジぢゃーーーん。

👤偏差値は、正規分布は、範囲は±∞だけど・‥…

717 :デフォルトの名無しさん:2024/04/24(水) 17:47:14.76 ID:s8r+XPAL.net
>>708 の👤さんの2進数って、わかりやすい。
てか、UTF8、UTF16、UTF32は今すぐ廃止
そして、UTF24を地球人の皆さーーーん。今すぐ開発しようよ。

なんでも3byte/文字でいいじゃーーーん。
U+🟢🟠は、UTF24は⚪🟢🟠
U+⚪🔴🟢🟠は、UTF24は🔴🟢🟠
ちなみに、⚪は2進数だと00000000 の定数
変換簡単。地球でも大人なら計算できると思う。
てか、UTF8とかUNICODEもっと仕様変えようよ。
そのたびに、スマホの連絡帳のcontact.vcfが
文字化けして、システム改修のお仕事が増えるから
景気バッチリになるよ。

てか、UTF24を開発しなさーーい

718 :デフォルトの名無しさん:2024/04/24(水) 18:27:46.35 ID:s8r+XPAL.net
👤自慢する訳ぢゃないけどサロゲートに対応した
超秘伝の数式
⭐=65536*(4*(🟦-240)+INT((🟫-128)/16))+256*(16*MOD((🟫-128),16)+INT(((🟪-128)/4)))
+(64*MOD((🟪-128),4)+(🟩-128))
マジ、可也完璧

てか、オレッちのPCのEXCEL、どうにか
サロゲートとかいう漢字、表示はされるけど
MID関数が、怪しいのを発見
ま、この超秘伝の数式を検証テスト中に発見した
ので、お絵描きしておく。

ちなみに、月へんに亀という文字を三文字
で、先頭の4文字を表示というロジックなのに
2文字しか表示しない。
ったく、地球人が変な規格を追加するから
滅茶苦茶ぢゃーーーん。
てか、サロゲートも、廃止しろーーーー
https://o.5ch.net/231so.png

719 :発達障害テスター:2024/04/24(水) 19:38:51.65 ID:s8r+XPAL.net
てか、MID関数がサロゲート
のせいでバグってるの❓ で絵文字はスキです∵カワイイ
∴絵文字をサロゲートにするのは反対
∴絵文字は日本語の漢字を半分削り
日本語は絵文字だらけにしろー。
絵文字のMID関数でのバグもなくなりそうぢゃーーーん
BY 🥳バカテスター

720 :夜会もレビュー:2024/04/24(水) 20:25:50.12 ID:s8r+XPAL.net
🤡 MID関数の第2パラメータ
はサロゲートならば倍にすれば解決ぢゃん

👤 呆┐⁠(⁠ ⁠˘⁠_⁠˘⁠)⁠┌ これだから地球上は小学生未満の知能なのだ
オレの霊感だとサロゲートは2文字と誤認識するからだ
しかし、ある日予告なく、
🟥🟩
🟦🟨が
内部はunicodeは、UCS2やめて、
内部はUTF32とか、UCS4にしたら
「ユーザーがサロゲートならば倍」の修正ロジックは、巻き戻さないとヤバイ
 
🟥🟩
🟦🟨が、そこまでは、やらないだろ
というか、UNICODEがUCS4に規格追加しても、それと同時に
あの計算ソフトの内部はUTF32とか、UCS4になる訳ではあるまい。

🤡MID関数等の使用を禁ずる案件が増えて嬉しいです

🥳バグっていいぢゃーーーん。AKBてかHKBてか、何とか坂48 サイコー

721 :デフォルトの名無しさん:2024/04/24(水) 21:43:02.45 ID:KaCj8qqt.net
>>705
そのままじゃないだろ。

Unicode : 101101101010111
UTF8: 11100101 10101101 10010111

第一、2進数なんて可読性が低すぎる表記を使えるわけない。

722 :デフォルトの名無しさん:2024/04/25(木) 00:11:56.99 ID:PLcFkbi3.net
>>704
UTF-8 は以下のように、先頭ニブル・4ビットで、1〜4バイト文字を判別している

1バイト文字: 0000〜0111: 0〜7

多バイト文字の2バイト目以降
1000〜1011: 8〜11(8〜B)

2バイト文字: 1100〜1101: 12〜13(C〜D)
3バイト文字: 1110: 14(E)
4バイト文字: 1111: 15(F)

Unicode → UTF-8

1バイト文字(数字・アルファベット)
U+0000 〜 U+007F 0xxx xxxx

2バイト文字(アラビア文字)
U+0080 〜 U+07FF 110x xxxx 10xx xxxx

3バイト文字(ひらがな・漢字)
U+0800 〜 U+FFFF 1110 xxxx 10xx xxxx 10xx xxxx

4バイト文字(難漢字)
U+10000 〜 U+10FFFF 1111 0xxx 10xx xxxx 10xx xxxx 10xx xxxx

BOM = "\uFEFF"
→ EF BB BF

723 :デフォルトの名無しさん:2024/04/25(木) 06:29:50.76 ID:Zr256XUh.net
🤡:=プロマネ(の役)
カテゴリーの最終案件は再検討∧後日

👤:=ランベルト星人(の役) 
どうして?

🤡以前納品したexcel関数で作ったのが
サロゲート文字でバグることが判明

👤で、ま、それはオレが報告したけど

🤡MID関数で4バイト文字: 1111: 15(F)で
バグから、MID関数使う全ての改修だ

👤サロゲートの文字使用禁止でいいぢゃん

🥳:=発達障害テスタ(の役)
絵文字使用禁止に反対。∴
MID関数使う全ての改修に、超賛成
ていうか、「👤」は難毒漢字なの??

👤それは、サロゲート∧emojiかも
sssp://o.5ch.net/231zu.png

724 :722:2024/04/25(木) 08:19:51.97 ID:C8YrSVH7.net
🥳で、全てのプログラムで
MID関数は使用禁止、早くやろーーよ
サロゲート文字列でバグるから、
>>723 で「MID関数使う全ての改修だ」
って、全て プロマネいってたぢゃーん。

🤡うっせいなーー、それは微妙に撤回
サロゲート文字列を引数とする
MID関数の使用を禁止に、変更だ
us-ASCii文字列を引数とする
MID関数の使用は許可トスル

そう MID(":=F0=A8=AA=B9",3,2) はOK

🥳
:=F0=A8=AA=B9はサロゲート文字ぢゃん
月亀 って感じの難毒漢字一文字ぢゃーん

🤡 なんてバカなんだ ascii13文字だ。

👤¯⁠\⁠(⁠°⁠_⁠o⁠)⁠/⁠¯ 地球人のcontact.vcf 化けるわけだ

725 :ランベルト星人:2024/04/25(木) 09:19:23.56 ID:Zr256XUh.net
721さんの地球の日本語
「多バイト文字の2バイト目以降 1000〜1011: 8〜11(8〜B)」
の解読に成功した。おそらく
それが絶対に2byte or 3byte or 4byte のUTF8ならば、
2byte目 3byte目 4byte目
─── ──── ────
80〜EF na   unknown ⇒ 2byte と判定せよ
80〜EF 80〜BF na    ⇒ 3byte と判定せよ
80〜EF 80〜BF 80〜BF  ⇒ 3byte と判定せよ

🥳 na とか unknown ってなに、バカなの❓
 そんなの、書いてないぢゃーーーん。勝手に解釈いれるな
👤 ん、参照するなってか、参照したら付きの文字の先頭だし
 んーーー言葉に出来ん。
てか、プログラミングするときは、この辺りの設計は
重要だ

🤡難しく考えないでドンドン、プログラム製造しろーーー
🥳ドンドン、しろーーー

726 :デフォルトの名無しさん:2024/04/25(木) 09:26:46.18 ID:Zr256XUh.net
👤 あ、しまつた。タイプミスしまくってた
🥳 なんだよ。プログラムところがタイプライタからやり直せ
🤡 ま、プログラムでタイプミスしなきゃ、ヨシ、
🥳 タイプミスっても、シンタクスエラーなるしヨシ
👤 とにかく、サロゲートでの文字列のMID関数でバグる件の
  修正は、目処たった
🥳 やるぢゃーーーーん。テキトーにやっればいいぢゃーーーん
🤡 とにかく、慎重且つ迅速にやれ
👤 ま、今日は、プログラムの修正に専念する。バイバイ

727 :デフォルトの名無しさん:2024/04/25(木) 10:10:22.88 ID:Zr256XUh.net
👤とにかく、MID関数はサロゲート未対応
に伴う、プログラム改修は完了した。

🤡ありがとう。そうだ
単独1byteには対応済
単独2byteには対応済
単独3byteには対応済
そして、その対応で、単独4byteも対応済

👤 単独? asciiとサロゲートが混在は?
🤡 それは、これからだ。
1〜4byte文字が混在混在混在の文字列の
UTF8→UNICODE 変換のプログラムに
魔改造とする。その為に
>>722 の一覧は重要だ。
👤 yes

🥳4つのロジックを継ぎ接ぎするだけ
 超楽勝。∴小学生でも、超できるね

🤡 地球人の小学生には無理だろ
👤 yes

728 :突然ですがランベルト星人の呟き:2024/04/25(木) 13:18:02.69 ID:Zr256XUh.net
みえた。裏の裏の裏まで霊感で見えた
1バイトなのに、1バイト目80〜FFは👻
2バイトで2バイト目80〜BF外 は👻
3バイトで2バイト目80〜BF外 は👻
3バイトで3バイト目80〜BF外 は👻
4バイトで2バイト目80〜BF外 は👻
4バイトで3バイト目80〜BF外 は👻
4バイトで4バイト目80〜BF外 は👻
と表示する

by 👤透視によりUTF8仕様の裏まで読切る

なお👻は「おばけ」を意味するemoji

729 :デフォルトの名無しさん:2024/04/25(木) 15:12:32.21 ID:VKvfdxmp.net
性器表現使うようになってから
midなんてもう使わなくなったわ

730 :突然ですがランベルト星人の呟き:2024/04/25(木) 15:16:15.41 ID:Zr256XUh.net
👤プログラム設計者が
2バイトで2バイト目80〜BF外 は👻を表示のロジックをどうするか
愉しみ
🤡単に👻を表示するだけだろ
👤ま、そうだが、2バイト文字なのか怪しいわけで、
 次の文字は、2バイト先なのか、それとも、
 次の文字は、1バイト作なのか、どっちでプログラム設計するかだ
🤡んー、2バイトとのはずなのに2バイトぢゃないか
 ま、文字化けasciiとみなし、次のは1バイト先だ。
 なかなか、ランベルト、有能ぢゃーーん。
 地球人の既存のロジックでそこまで気づくのは皆無だな
👤それなりに地球人でもいるだろ。半分位

731 :バカテスタ:2024/04/25(木) 15:22:15.35 ID:Zr256XUh.net
🥳 ランベルトとプロマネ、プログラム設計のハナシしてるな
てか、変なUTF8コードだと、「👻」を表示するってこと❓

👤モチロン、宇宙初の超バッチリロジック
 文字化けは、絵文字「👻」で表示。これが
 我が宇宙のスタンダードだ。だっちゅーーーの

🤡多分、地球初てか、世界発かな。てかま、
 絵文字をUNICODEがサポートした時点で、変なやつが
 文字化けの文字を「👻」にする奴は665人ぐらいいるな
 世界で666番目だと憶測する。

🥳面白いけど、二人とも頭オカシイです。

732 :プロマネみずからプログラミング設計:2024/04/25(木) 15:42:21.27 ID:Zr256XUh.net
PRINTABLE:=xx=xx=xx=xx=xx=xx
なんて感じのやつは、1バイト先はその3倍右だな
by 🤡呟き

733 :デフォルトの名無しさん:2024/04/25(木) 18:28:36.90 ID:e5LyQxxV.net
UnicodeでU+7F,U+FFFFは制御文字なのにU+FFは制御文字じゃないんだね
8bitの上限という意味があるコードポイントなのに制御文字として割り当てられなかったのが意外

734 :デフォルトの名無しさん:2024/04/25(木) 18:40:22.81 ID:HtOHMeNR.net
👻「ワ ロ タ ʬ ʬ ʬ」

735 :デフォルトの名無しさん:2024/04/25(木) 20:55:57.72 ID:9Q+n8XjX.net
>>733
7Fが制御文字DELに割り当てられたのは当時は紙テープに穿孔していたから。
Unicodeの策定時には8ビットの上限FFを特別扱いする意味は既になくなっていた。

736 :721:2024/04/26(金) 03:57:38.85 ID:g1wZg0z4.net
>>722
のルールに基いて、以下の3つの10進数のバイト列を、
先頭(1バイト目)からチェックしていく時、
最初にルール違反となるのは、何バイト目か?

129 130
120 169
240 159 146 206 184

つまり、ルール違反はエンコードエラーになる。
一般的にはルール違反の文字を除去して、処理を続けるべきではない

737 :朝からレビュー:2024/04/26(金) 08:54:42.48 ID:NalgKhcH.net
🥳721というか735 楽しい
その9byteは、ポクのメモ帳は、ANSI左下に表示。してるのに文字が化けてる

🤡
無理やりなら、現ツール
UTF8tUNICODE し、
それをキャラクター表示し
さらに手作業でおこなった結果は、

👻👻x👻👻👻👻Ϙ である

👻👻x👻👻👻👻 のそれぞれを
ascii 1byteとみなし、3byte目のみ
化けずにxと表示

最後の2byteは、
UTF8の2バイト文字と判定
「♀」に似た字体U+03D8
 Ϙは、古代ギリシャの文字コッパ

👤解読率 約2割、ダメだな。そのツール
🤡てか、オマエが設計中のだ。

738 :736:2024/04/26(金) 09:00:29.67 ID:NalgKhcH.net
🤡メモ帳のANSI表示は右下に表示だろ
🥳テヘペロ、右と左は知ってる。タイプミスっただけ

739 :超低レベルなレビュー:2024/04/26(金) 13:16:03.82 ID:NalgKhcH.net
🤡 UTF-8にはサロゲートペアはないぜ
👤 んーー「😊」とかそして「👤」は
  UTF-8では、4BYTEだろ
🤡 地球ではネットサーフィンで見たら
  UTF-8にサロゲートペアはありません
👤 でも、「😊」とかそして「👤」は
  UTF-8変換できるぞ
🥳 そうだ、てか、日本語を半分にして
  空いた3byteに「🥳🤡👤」
  を割当てろ
👤 んー珠にはいいこというね
  モピロン、ランベルト星では、
  フォントに👤というフォントがあって
  日本語等の漢字は全て絵文字に化ける
  なんてねーーーー
🥳 ひらがななら幼稚園児でも知ってるよ
  漢字は幼稚園児なら知らないから、
  ランベルト星人のような幼稚園児に
  バッチリな、フォントだね。
👤 おそらくまだ、地球にはこのフォント
  は無いと思う。
  でも、フォントによっては
  白黒ではあるが絵文字だらけのも
  見覚えある
🤡 ちゃーんと国語と漢字の勉強しなさーーい

by 😅チョー低レベル 失礼しましたーーー

740 :ランベルト星人:2024/04/26(金) 14:28:51.75 ID:NalgKhcH.net
👤 >>737の、🤡よ、
オマエは、半手作業「👻👻x👻👻👻👻Ϙ」なんてホザいてるが
オレの秘伝の数式での手作業では、
「👻👻x👻👻👻👻θ」だっ

❌ 最後の2byteは、「♀」に似た字体U+03D8
⭕ 最後の2byteは、「θ」であり、 U+03B8

んー0x20ズレてるな。
ランベルト星の秘伝の数式 >>698 に記載のだが
⭐=64*(🟦-192)+(🟫-128) バッチリだ。
※UTF8で2byte専用で、絶対にUTF8で2BYTEの文字コードであること

ま、不正なコードなら👻が沢山でるが、
とにかく、最後のそれは、θ、θ、θのようだ。

🥳てか、UTF8の2byteのに ンゴ文字ってのがあってさ
U+07F7なんだけど、これが先頭文字だと
EXCELのセルに貼り付けると、文字の順番が右から左に逆になりやすい
てか、U+07F7の字体。カワイイです。てかンゴ文字が
文字化けしても、わからないと思います。
てか、U+07F6は、字体は、2と9が合体してる
🤡はい。てか、無意味なことかくなーーー
https://o.5ch.net/232b5.png

741 :突然ですがランベルト星人の呟き:2024/04/26(金) 23:44:38.72 ID:NalgKhcH.net
👤下記のお絵描き

UTF-8 on 4byte
  1U⚫⚫⚫⚫ ⚪🔵🔵🔵
  2U⚫⚪🟤🟤 🟤🟤🟤🟤
  3U⚫⚪🟣🟣 🟣🟣🟣🟣
  4U⚫⚪🟢🟢 🟢🟢🟢🟢

から 以下のプログラミング設計した
オレッて天才❓

elseif F0≦🟦≦F8 THEN
  if 80h≦🟫≦BF and
   80h≦🟪≦BF and
   80h≦🟩≦BF then
  then '4byte
    ⭐=65536*(4*(🟦-240)
      +INT((🟫-128)/16))
      +256*(16*MOD((🟫-128),16)
      +INT(((🟪-128)/4)))
      +(64*MOD((🟪-128),4)
      +(🟩-128))
    UNICHAR(⭐)を表示
    n=n+4

742 :プロマネの役:2024/04/27(土) 00:02:00.10 ID:t7simqGe.net
🤡 ビット積を使わずunicode化かよ
ま、地球人から賛否両論てか、地球人にソースレビュー
させたら非難の嵐だせ。
👤 ゲラゲラ 地球人が間抜けかどうかわかるな
🤡 ナンデ
👤 ま、プログラミング設計と、文字コード設計、そして
その裏の裏まで透視できてくるとわかる、
てか、elseif F0≦🟦≦F8 THENは
暫定的だ。F0≦🟦≦F6辺りにするかな
wwww てか、さ、u+10FFFF〜u+1FFFFFには
正当なコードはいくつあると思う
🤡最大のそれは、u+10FFFF だから
簡単だな。1より大きい くは、・・・

👤ちなみに、UNICHAR(⭐)は、excel関数の意だが
⭐がデカイとエラーとなる
ま、u+FFFFでも、その10倍てかF倍より1つ小さい
付近までならokだ。
🤡おれっちのテスト用マシンのexcel
windowsは10にupすみだが
excelは7の頃のだ
unichar関数なんて無いかもしれない
👤んーーーー、その頃は未だutf8はなかったのか
🤡そこそこ国内に浸透してた記憶はある
🥳てかさ、16面のunicodeって何個あるの❓
👤🤡 夜も老けた。そろそろお休みーーーー
🥳お休みーーーー

743 :デフォルトの名無しさん:2024/04/27(土) 13:53:22.31 ID:t7simqGe.net
👤文字コードで0x00の処理に、ミスは、あった
ま、0x00はモチロンasciiコードだが、
話すと長くなるが、文字化けで0x00となっても👻を表示するのは
困難と判断す。ていうか、0x00は文字でない文字だ∵文字の終端だっけか
C言語ではそうたよな❓、

🤡入力にバグデータが含まれる文字列は、
出力のその位置には👻は出力して欲しいが、
単なる要望だ。0x00は難しいそうだな。

🥳なんでーーー。カンタンだよな。

🤡👤おそらく、高難易度かもしれん。

744 :プロマネ変なテスト思いつくの巻:2024/04/27(土) 15:26:45.51 ID:t7simqGe.net
🤡 あっそうだ。0x31 0x32 0x33 0x00 0x35
というファイルをバイナリエディタで作成とする
🥳 で
🤡 メモ帳で開く、ANSIでもUTF8でもキニシナイ
🥳 そりゃ、全部ASCiiだからモチロン文字化けない。
  で、「123」 と表示かな 「123 123」かもね
🤡 ま、後者となった覚えがある
🥳 なんだよーー、聞くな。知ってるぢゃーーん
🤡 で、特には編集はしないが、上書き保存する
・・・ 続きは別途

745 :743:2024/04/27(土) 15:49:40.89 ID:t7simqGe.net
🤡🥳 あっいけね、「123 5」という表示だ
🤡 でさ、メモ帳で編集せず上書き保存してさ、
そのファイルをバイナリエディタで開くと
どうなるか、予想してみろ

🥳 0x31 0x32 0x33 0x00 0x35 のまま∵編集してない
🤡 0x31 0x32 0x33 0x20 0x35 だ。
  0x00は、0x20に変化した。spaceに変化だ
👤 ┐⁠(⁠´⁠ー⁠`⁠)⁠┌ てか文字列の途中の0x00は0x20に変更
するようにさせるか、そのままでよいかだな
🥳スペースが見えたら病気ですよーーー0x00ってスペース❓
👤¯⁠\⁠(⁠°⁠_⁠o⁠)⁠/⁠¯

746 :744:2024/04/27(土) 16:14:24.10 ID:t7simqGe.net
🤡でさ、文字列の途中に0x00あると、魔改造したツールどうなる?
👤想定外だったが、いつの間にか、0x00を無視するロジックを組み込んでた
プログラミング設計書からコードに手作業でコーディングするわけだが
その時、そのロジックは組み込んでた。ま、コーディング中は頭がいっぱいで
記憶にはないがな。
🤡有能なヤツは、設計書の本質まで考えてコーディングするから
いろいろた。設計書にそこまで盛り込むとソースコードの方が見易くなるという
罠にはまる。てか、現状の動作を仕様とする。
👤変更不要という意味か❓
🤡モピロンだ。
👤ok
🥳0x00を表示するようにしろーーバグぢゃなーーい
👤🤡 ま、見えないものは表示しないのでこれでよいのだーー
🥳これでよいのだーーに賛成

747 :自作自演感想文:2024/04/28(日) 06:21:33.65 ID:HryHCmVX.net
>>708 ズバシーレビュー。オウマイゴッドって感じ
ていうか、地球人はそれは、21bit
U+10000 〜 U+10FFFF は21bitなんて説を書き込でるサイトが
散見される。この707のお絵描きをみれば、
ホントは、20bit+1文字、が超超正解ぢゃーーーん
by 🥳

んーー、サイトによっては、約20bit と記載してる。
敢えて、「約」を入れてる。有効数字を鑑みて
20±0.5bitと意訳できる

by 👤

単なる忖度だ ゲラゲラ
by 🤡

さすが、地球人のプロマネらしいホントにホントな話しぽぃぢゃーーーん
by 🥳幼稚園児よりマシか

748 :デフォルトの名無しさん:2024/04/28(日) 06:43:00.72 ID:HryHCmVX.net
CHAR(🟦)を表示でもよいし、
⭐=🟦、UNICHAR(⭐)を表示でもヨシ
だって、Unicodeもutf8もasciiも全部同じ
by 🥳

値が128未満なら、値的にはそうだ。
格納のバイト数は、異なるかも
by 🤡

0x00等は、値は、128未満 ∵0<128
しかしアプリや言語により動作はことなる
by 👤

0x7Fをデスプレーで表示で🕳が開くようしろー
完全なる互換性を継承しろーーー
デスプレーが壊れてもヨシ(๑•̀ㅂ•́)و✧

by 🥳バカテスター

749 :デフォルトの名無しさん:2024/04/28(日) 08:53:39.45 ID:rkFAlLnQ.net
>>733
別に制御文字がコード上限とかを表す意味ではないから
C0やC1がなぜ存在するのか、もう昔話なんだなあ

750 :プロマネ(の役)の呟き:2024/04/28(日) 15:59:34.49 ID:HryHCmVX.net
UTF-8 on 4byte
  1U⚫⚫⚫⚫ ⚪🔵🔵🔵
  2U⚫⚪🟤🟤 🟤🟤🟤🟤
  3U⚫⚪🟣🟣 🟣🟣🟣🟣
  4U⚫⚪🟢🟢 🟢🟢🟢🟢
⚫⚪以外は、マルの個数は21個だな
そ、UTF8は2の21乗つまり、21bitだ
unicodeは2の約20乗だ。utf8の方が約2倍
文字が多い。

なんてワケはない。そこが、とにかく、なんやかんやで、ややこしい
UTF8→UNICODEの変換で半分重複する。

なんて、ことはない。ように変換プラグラムを
やるのは、結構面倒な予感

てか、もう完成はしたけど、何か後味は悪い
BY 🤡

👤気にするな。結構完璧だ
🥳気にするな。動けばいいぢゃーーーん

751 :プロマネの呟き:2024/04/28(日) 18:03:11.53 ID:HryHCmVX.net
スマホの連絡帳の氏名に、
UTF8なら2,3,4byte文字混在
「サインΘ👻だよ 👤🤡🥳」をタイプ
それをcontacts.vcfでexport
自作ツールで 文字化けてかpritable以降の
文字列(asciiだけどutf8)を、地球人でも
解るようエンコードした。
ま、excelということもあってwindows上のためか、絵文字が白黒でデザインがしょぼい
が、とにかく、ツールバッチリ

超秘伝だか、超々秘伝の数式だか、あれバッチリ
ちなみに、👻もそれを電話帳(連絡帳)に入力もしたが、バッチリ表示。完璧だぜ。

by 🤡

絵文字が白黒? いまひとつぢゃーーーん
by 🥳

てかさ、windowsのメモ帳ってカラー表示は無理
by 👤

メモ帳、ちゃんとなおせーーーー
by 🥳バカなクレーマー

752 :プロマネのつぶやき:2024/04/28(日) 18:19:51.71 ID:HryHCmVX.net
ま、「サインΘ👻だよ 👤🤡🥳」をexcelに貼り付けると
絵文字は白黒だが、それぞれの文字に任意の色をつけれる。
一文字には、任意の1色だけだが、画像でないのだから、
何か、いい感じ。てか、👤のデザインがイマイチだな。
なんか、カワイイ感じになってる。👤はやはり、ブラック感のある
ワルーーーって感じなんだけど

てか、イタリックやると、👤🥳🤡もイタリック体になる
これは、ナカナカよし。
🟦🟦
🟦🟦 なかなかやるなーーーー てかマイクロソフトのロゴって
青い四角四つにいつの間にか化学変換してるな。気が付かなかった

753 :ランベルト星人の呟き:2024/04/28(日) 22:18:28.10 ID:HryHCmVX.net
👤今回のツール、いろいろテストで不具合発見した
ナカナカ、手間取ったが、デバッグ取り敢えず完了
ぢゃーひと休みいれるかな。
ちなみに、それは、最後の文字が「=」で継続行だ
最後の文字とは改行コードの一つ手前との意味
それに伴う改修だ。vcfにもちゃんとした規格があり
それに忠実にやってるんだな。疲れたぜ

🥳意味がさっぱりわかんないから、ok

754 :752の続き、早朝レビュー:2024/04/29(月) 04:56:50.11 ID:V3l6c++H.net
👤 ワタシは宇宙人。で、「=」はナゾなる制御コードだ
🤡 自称宇宙人、頭大丈夫か?
🥳 ランベルトさん、デバッグしすぎで、頭バグっちゃったーーー
👤 安心しろ。「=」は、その直後に改行でも継続と解釈という意味だ
  RFC何とかという、地球のルール。それは宇宙のスタンダードだ
🤡 ん、てかさ、「=」は、EXCELでは、それが先頭なら、関数
  として解釈しろ。という制御コードぢゃねえーーー?
👤 あ、思い出した。vcfファイルの中身から、コピペして、
  excelのセルへコピペする。トスル
🤡 すると、先頭が「=E0=80=BF」などは、文字列でなく、関数とみなす
👤 そ、あの秘伝のツールは、ホントはon EXCEL って感じ
🤡 入力のセルは文字列って指定しろ。初期設定の標準ではダメ
👤 デバッグ中に気が付き、修正は済んだ。標準でなく文字列とした
🥳 標準なんての従うからバグちゃったのーーー。スタンダード嫌いです
  スタンダード反対。宇宙やるーーーー
🤡 てか、だからヤツは宇宙人なんだぞ

755 :RFC宇宙人初登場:2024/04/29(月) 05:10:29.84 ID:V3l6c++H.net
® ヘーイ、ワタシはRFC宇宙人
宇宙標準てか地球の規格 RFCを貼るぞ

CRLF sequence (U+000D followed by U+000A). Long logical lines of text can be split into a multiple-physical-line representation using the following folding technique. Content lines SHOULD be folded to a maximum width of 75 octets

756 :ランベルト宇宙人、自作自演:2024/04/29(月) 05:24:19.94 ID:V3l6c++H.net
👤 75文字までなら改行不要で76文字で改行しろって規格❓
® そうだけど、ちがうもんねーーーー
👤 漢字10文字程度、改行しまくりだ。こらS⚪nyのスマホの
  vcfのエクスポートするの、ヘンぢゃねーーー
® ソニーさんのは、我がスタンダードRFC通りを守ってるぽぃ
👤 んーー、漢字10文字は、UTF8のPRINTABLEにデコードてか
エンコードすると何文字だ。プロマネ計算しろ
🤡 3BYTE/日本語 で、さらに、PRINTABLEだから、
えーと、一文字は、「=E0=80=BF」って感じの9octed/日本語
多分、®の75 octetsがマックスは75/9だから
漢字八文字超えたら改行しろ。ぢゃない。
ソニーさん教えて下さい。
🥳 単にアンドロイドのツールをパクらせただけだろ
グ⚪グルさんが詳しいんぢゃない。
てか、あのツールはデバッグ済んだし
キニシナイ
👤そうだな。てか地球の、ルールめんどくせー

757 :プロマネ、裏のウラを、読む:2024/04/29(月) 05:35:23.63 ID:V3l6c++H.net
RFCの規格、改行は、暗に、
CRLF sequence を前提に規格書を策定してるのか?
RFCってマイク🟦ソフトなのな?
BY 🤡
プログラム、の憶測って、ウガリすぎーープロマネ🧠バグってるーー
BY 🥳

有能なプロマネともなると、規格のウラのウラまで読み切る事も大切
BY 🤡

地球人に産まれて来なくて良かったぜーー BY👤

あ、自称宇宙人のランベルト宇宙人、バグった言い訳してるーー
BY 🥳

269 KB
新着レスの表示

掲示板に戻る 全部 前100 次100 最新50
名前: E-mail (省略可) :

read.cgi ver.24052200