文字コード総合スレ part14
1 :デフォルトの名無しさん :2023/03/03(金) 15:46:58.08 ID:yKqwMGHT.net Windows NTは初代からUnicodeがネイティブの文字コードです。cp932ではありません。 プログラマーなら一度は煩わされたことのある文字コードについてのスレ。 UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、 合成文字、ソート、TRON、外字コード、その他について語り合いましょう。 各言語での文字列の扱いについての質問もOKです。 基本マッターリ、ささ、茶でもどうぞ。 ■過去スレ 文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/ 文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/ 文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/ 文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/ (スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/ (隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/ 文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/ 文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/ 文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/ 文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/ 文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/ 文字コード総合スレ Part10 http://mevius.2ch.net/test/read.cgi/tech/1444822140/ 文字コード総合スレ Part11 https://mevius.5ch.net/test/read.cgi/tech/1516629503/ 文字コード総合スレ Part12 https://mevius.5ch.net/test/read.cgi/tech/1544931495/ 文字コード総合スレ part13 https://mevius.5ch.net/test/read.cgi/tech/1593777227/
736 :721 :2024/04/26(金) 03:57:38.85 ID:g1wZg0z4.net >>722 のルールに基いて、以下の3つの10進数のバイト列を、 先頭(1バイト目)からチェックしていく時、 最初にルール違反となるのは、何バイト目か? 129 130 120 169 240 159 146 206 184 つまり、ルール違反はエンコードエラーになる。 一般的にはルール違反の文字を除去して、処理を続けるべきではない
737 :朝からレビュー :2024/04/26(金) 08:54:42.48 ID:NalgKhcH.net 🥳721というか735 楽しい その9byteは、ポクのメモ帳は、ANSI左下に表示。してるのに文字が化けてる 🤡 無理やりなら、現ツール UTF8tUNICODE し、 それをキャラクター表示し さらに手作業でおこなった結果は、 👻👻x👻👻👻👻Ϙ である 👻👻x👻👻👻👻 のそれぞれを ascii 1byteとみなし、3byte目のみ 化けずにxと表示 最後の2byteは、 UTF8の2バイト文字と判定 「♀」に似た字体U+03D8 Ϙは、古代ギリシャの文字コッパ 👤解読率 約2割、ダメだな。そのツール 🤡てか、オマエが設計中のだ。
738 :736 :2024/04/26(金) 09:00:29.67 ID:NalgKhcH.net 🤡メモ帳のANSI表示は右下に表示だろ 🥳テヘペロ、右と左は知ってる。タイプミスっただけ
739 :超低レベルなレビュー :2024/04/26(金) 13:16:03.82 ID:NalgKhcH.net 🤡 UTF-8にはサロゲートペアはないぜ 👤 んーー「😊」とかそして「👤」は UTF-8では、4BYTEだろ 🤡 地球ではネットサーフィンで見たら UTF-8にサロゲートペアはありません 👤 でも、「😊」とかそして「👤」は UTF-8変換できるぞ 🥳 そうだ、てか、日本語を半分にして 空いた3byteに「🥳🤡👤」 を割当てろ 👤 んー珠にはいいこというね モピロン、ランベルト星では、 フォントに👤というフォントがあって 日本語等の漢字は全て絵文字に化ける なんてねーーーー 🥳 ひらがななら幼稚園児でも知ってるよ 漢字は幼稚園児なら知らないから、 ランベルト星人のような幼稚園児に バッチリな、フォントだね。 👤 おそらくまだ、地球にはこのフォント は無いと思う。 でも、フォントによっては 白黒ではあるが絵文字だらけのも 見覚えある 🤡 ちゃーんと国語と漢字の勉強しなさーーい by 😅チョー低レベル 失礼しましたーーー
740 :ランベルト星人 :2024/04/26(金) 14:28:51.75 ID:NalgKhcH.net 👤 >>737 の、🤡よ、 オマエは、半手作業「👻👻x👻👻👻👻Ϙ」なんてホザいてるが オレの秘伝の数式での手作業では、 「👻👻x👻👻👻👻θ」だっ ❌ 最後の2byteは、「♀」に似た字体U+03D8 ⭕ 最後の2byteは、「θ」であり、 U+03B8 んー0x20ズレてるな。 ランベルト星の秘伝の数式 >>698 に記載のだが ⭐=64*(🟦-192)+(🟫-128) バッチリだ。 ※UTF8で2byte専用で、絶対にUTF8で2BYTEの文字コードであること ま、不正なコードなら👻が沢山でるが、 とにかく、最後のそれは、θ、θ、θのようだ。 🥳てか、UTF8の2byteのに ンゴ文字ってのがあってさ U+07F7なんだけど、これが先頭文字だと EXCELのセルに貼り付けると、文字の順番が右から左に逆になりやすい てか、U+07F7の字体。カワイイです。てかンゴ文字が 文字化けしても、わからないと思います。 てか、U+07F6は、字体は、2と9が合体してる 🤡はい。てか、無意味なことかくなーーー https://o.5ch.net/232b5.png
741 :突然ですがランベルト星人の呟き :2024/04/26(金) 23:44:38.72 ID:NalgKhcH.net 👤下記のお絵描き UTF-8 on 4byte 1U⚫⚫⚫⚫ ⚪🔵🔵🔵 2U⚫⚪🟤🟤 🟤🟤🟤🟤 3U⚫⚪🟣🟣 🟣🟣🟣🟣 4U⚫⚪🟢🟢 🟢🟢🟢🟢 から 以下のプログラミング設計した オレッて天才❓ elseif F0≦🟦≦F8 THEN if 80h≦🟫≦BF and 80h≦🟪≦BF and 80h≦🟩≦BF then then '4byte ⭐=65536*(4*(🟦-240) +INT((🟫-128)/16)) +256*(16*MOD((🟫-128),16) +INT(((🟪-128)/4))) +(64*MOD((🟪-128),4) +(🟩-128)) UNICHAR(⭐)を表示 n=n+4
742 :プロマネの役 :2024/04/27(土) 00:02:00.10 ID:t7simqGe.net 🤡 ビット積を使わずunicode化かよ ま、地球人から賛否両論てか、地球人にソースレビュー させたら非難の嵐だせ。 👤 ゲラゲラ 地球人が間抜けかどうかわかるな 🤡 ナンデ 👤 ま、プログラミング設計と、文字コード設計、そして その裏の裏まで透視できてくるとわかる、 てか、elseif F0≦🟦≦F8 THENは 暫定的だ。F0≦🟦≦F6辺りにするかな wwww てか、さ、u+10FFFF〜u+1FFFFFには 正当なコードはいくつあると思う 🤡最大のそれは、u+10FFFF だから 簡単だな。1より大きい くは、・・・ 👤ちなみに、UNICHAR(⭐)は、excel関数の意だが ⭐がデカイとエラーとなる ま、u+FFFFでも、その10倍てかF倍より1つ小さい 付近までならokだ。 🤡おれっちのテスト用マシンのexcel windowsは10にupすみだが excelは7の頃のだ unichar関数なんて無いかもしれない 👤んーーーー、その頃は未だutf8はなかったのか 🤡そこそこ国内に浸透してた記憶はある 🥳てかさ、16面のunicodeって何個あるの❓ 👤🤡 夜も老けた。そろそろお休みーーーー 🥳お休みーーーー
743 :デフォルトの名無しさん :2024/04/27(土) 13:53:22.31 ID:t7simqGe.net 👤文字コードで0x00の処理に、ミスは、あった ま、0x00はモチロンasciiコードだが、 話すと長くなるが、文字化けで0x00となっても👻を表示するのは 困難と判断す。ていうか、0x00は文字でない文字だ∵文字の終端だっけか C言語ではそうたよな❓、 🤡入力にバグデータが含まれる文字列は、 出力のその位置には👻は出力して欲しいが、 単なる要望だ。0x00は難しいそうだな。 🥳なんでーーー。カンタンだよな。 🤡👤おそらく、高難易度かもしれん。
744 :プロマネ変なテスト思いつくの巻 :2024/04/27(土) 15:26:45.51 ID:t7simqGe.net 🤡 あっそうだ。0x31 0x32 0x33 0x00 0x35 というファイルをバイナリエディタで作成とする 🥳 で 🤡 メモ帳で開く、ANSIでもUTF8でもキニシナイ 🥳 そりゃ、全部ASCiiだからモチロン文字化けない。 で、「123」 と表示かな 「123 123」かもね 🤡 ま、後者となった覚えがある 🥳 なんだよーー、聞くな。知ってるぢゃーーん 🤡 で、特には編集はしないが、上書き保存する ・・・ 続きは別途
745 :743 :2024/04/27(土) 15:49:40.89 ID:t7simqGe.net 🤡🥳 あっいけね、「123 5」という表示だ 🤡 でさ、メモ帳で編集せず上書き保存してさ、 そのファイルをバイナリエディタで開くと どうなるか、予想してみろ 🥳 0x31 0x32 0x33 0x00 0x35 のまま∵編集してない 🤡 0x31 0x32 0x33 0x20 0x35 だ。 0x00は、0x20に変化した。spaceに変化だ 👤 ┐(´ー`)┌ てか文字列の途中の0x00は0x20に変更 するようにさせるか、そのままでよいかだな 🥳スペースが見えたら病気ですよーーー0x00ってスペース❓ 👤¯\(°_o)/¯
746 :744 :2024/04/27(土) 16:14:24.10 ID:t7simqGe.net 🤡でさ、文字列の途中に0x00あると、魔改造したツールどうなる? 👤想定外だったが、いつの間にか、0x00を無視するロジックを組み込んでた プログラミング設計書からコードに手作業でコーディングするわけだが その時、そのロジックは組み込んでた。ま、コーディング中は頭がいっぱいで 記憶にはないがな。 🤡有能なヤツは、設計書の本質まで考えてコーディングするから いろいろた。設計書にそこまで盛り込むとソースコードの方が見易くなるという 罠にはまる。てか、現状の動作を仕様とする。 👤変更不要という意味か❓ 🤡モピロンだ。 👤ok 🥳0x00を表示するようにしろーーバグぢゃなーーい 👤🤡 ま、見えないものは表示しないのでこれでよいのだーー 🥳これでよいのだーーに賛成
747 :自作自演感想文 :2024/04/28(日) 06:21:33.65 ID:HryHCmVX.net >>708 ズバシーレビュー。オウマイゴッドって感じ ていうか、地球人はそれは、21bit U+10000 〜 U+10FFFF は21bitなんて説を書き込でるサイトが 散見される。この707のお絵描きをみれば、 ホントは、20bit+1文字、が超超正解ぢゃーーーん by 🥳 んーー、サイトによっては、約20bit と記載してる。 敢えて、「約」を入れてる。有効数字を鑑みて 20±0.5bitと意訳できる by 👤 単なる忖度だ ゲラゲラ by 🤡 さすが、地球人のプロマネらしいホントにホントな話しぽぃぢゃーーーん by 🥳幼稚園児よりマシか
748 :デフォルトの名無しさん :2024/04/28(日) 06:43:00.72 ID:HryHCmVX.net CHAR(🟦)を表示でもよいし、 ⭐=🟦、UNICHAR(⭐)を表示でもヨシ だって、Unicodeもutf8もasciiも全部同じ by 🥳 値が128未満なら、値的にはそうだ。 格納のバイト数は、異なるかも by 🤡 0x00等は、値は、128未満 ∵0<128 しかしアプリや言語により動作はことなる by 👤 0x7Fをデスプレーで表示で🕳が開くようしろー 完全なる互換性を継承しろーーー デスプレーが壊れてもヨシ(๑•̀ㅂ•́)و✧ by 🥳バカテスター
749 :デフォルトの名無しさん :2024/04/28(日) 08:53:39.45 ID:rkFAlLnQ.net >>733 別に制御文字がコード上限とかを表す意味ではないから C0やC1がなぜ存在するのか、もう昔話なんだなあ
750 :プロマネ(の役)の呟き :2024/04/28(日) 15:59:34.49 ID:HryHCmVX.net UTF-8 on 4byte 1U⚫⚫⚫⚫ ⚪🔵🔵🔵 2U⚫⚪🟤🟤 🟤🟤🟤🟤 3U⚫⚪🟣🟣 🟣🟣🟣🟣 4U⚫⚪🟢🟢 🟢🟢🟢🟢 ⚫⚪以外は、マルの個数は21個だな そ、UTF8は2の21乗つまり、21bitだ unicodeは2の約20乗だ。utf8の方が約2倍 文字が多い。 なんてワケはない。そこが、とにかく、なんやかんやで、ややこしい UTF8→UNICODEの変換で半分重複する。 なんて、ことはない。ように変換プラグラムを やるのは、結構面倒な予感 てか、もう完成はしたけど、何か後味は悪い BY 🤡 👤気にするな。結構完璧だ 🥳気にするな。動けばいいぢゃーーーん
751 :プロマネの呟き :2024/04/28(日) 18:03:11.53 ID:HryHCmVX.net スマホの連絡帳の氏名に、 UTF8なら2,3,4byte文字混在 「サインΘ👻だよ 👤🤡🥳」をタイプ それをcontacts.vcfでexport 自作ツールで 文字化けてかpritable以降の 文字列(asciiだけどutf8)を、地球人でも 解るようエンコードした。 ま、excelということもあってwindows上のためか、絵文字が白黒でデザインがしょぼい が、とにかく、ツールバッチリ 超秘伝だか、超々秘伝の数式だか、あれバッチリ ちなみに、👻もそれを電話帳(連絡帳)に入力もしたが、バッチリ表示。完璧だぜ。 by 🤡 絵文字が白黒? いまひとつぢゃーーーん by 🥳 てかさ、windowsのメモ帳ってカラー表示は無理 by 👤 メモ帳、ちゃんとなおせーーーー by 🥳バカなクレーマー
752 :プロマネのつぶやき :2024/04/28(日) 18:19:51.71 ID:HryHCmVX.net ま、「サインΘ👻だよ 👤🤡🥳」をexcelに貼り付けると 絵文字は白黒だが、それぞれの文字に任意の色をつけれる。 一文字には、任意の1色だけだが、画像でないのだから、 何か、いい感じ。てか、👤のデザインがイマイチだな。 なんか、カワイイ感じになってる。👤はやはり、ブラック感のある ワルーーーって感じなんだけど てか、イタリックやると、👤🥳🤡もイタリック体になる これは、ナカナカよし。 🟦🟦 🟦🟦 なかなかやるなーーーー てかマイクロソフトのロゴって 青い四角四つにいつの間にか化学変換してるな。気が付かなかった
753 :ランベルト星人の呟き :2024/04/28(日) 22:18:28.10 ID:HryHCmVX.net 👤今回のツール、いろいろテストで不具合発見した ナカナカ、手間取ったが、デバッグ取り敢えず完了 ぢゃーひと休みいれるかな。 ちなみに、それは、最後の文字が「=」で継続行だ 最後の文字とは改行コードの一つ手前との意味 それに伴う改修だ。vcfにもちゃんとした規格があり それに忠実にやってるんだな。疲れたぜ 🥳意味がさっぱりわかんないから、ok
754 :752の続き、早朝レビュー :2024/04/29(月) 04:56:50.11 ID:V3l6c++H.net 👤 ワタシは宇宙人。で、「=」はナゾなる制御コードだ 🤡 自称宇宙人、頭大丈夫か? 🥳 ランベルトさん、デバッグしすぎで、頭バグっちゃったーーー 👤 安心しろ。「=」は、その直後に改行でも継続と解釈という意味だ RFC何とかという、地球のルール。それは宇宙のスタンダードだ 🤡 ん、てかさ、「=」は、EXCELでは、それが先頭なら、関数 として解釈しろ。という制御コードぢゃねえーーー? 👤 あ、思い出した。vcfファイルの中身から、コピペして、 excelのセルへコピペする。トスル 🤡 すると、先頭が「=E0=80=BF」などは、文字列でなく、関数とみなす 👤 そ、あの秘伝のツールは、ホントはon EXCEL って感じ 🤡 入力のセルは文字列って指定しろ。初期設定の標準ではダメ 👤 デバッグ中に気が付き、修正は済んだ。標準でなく文字列とした 🥳 標準なんての従うからバグちゃったのーーー。スタンダード嫌いです スタンダード反対。宇宙やるーーーー 🤡 てか、だからヤツは宇宙人なんだぞ
755 :RFC宇宙人初登場 :2024/04/29(月) 05:10:29.84 ID:V3l6c++H.net ® ヘーイ、ワタシはRFC宇宙人 宇宙標準てか地球の規格 RFCを貼るぞ CRLF sequence (U+000D followed by U+000A). Long logical lines of text can be split into a multiple-physical-line representation using the following folding technique. Content lines SHOULD be folded to a maximum width of 75 octets
756 :ランベルト宇宙人、自作自演 :2024/04/29(月) 05:24:19.94 ID:V3l6c++H.net 👤 75文字までなら改行不要で76文字で改行しろって規格❓ ® そうだけど、ちがうもんねーーーー 👤 漢字10文字程度、改行しまくりだ。こらS⚪nyのスマホの vcfのエクスポートするの、ヘンぢゃねーーー ® ソニーさんのは、我がスタンダードRFC通りを守ってるぽぃ 👤 んーー、漢字10文字は、UTF8のPRINTABLEにデコードてか エンコードすると何文字だ。プロマネ計算しろ 🤡 3BYTE/日本語 で、さらに、PRINTABLEだから、 えーと、一文字は、「=E0=80=BF」って感じの9octed/日本語 多分、®の75 octetsがマックスは75/9だから 漢字八文字超えたら改行しろ。ぢゃない。 ソニーさん教えて下さい。 🥳 単にアンドロイドのツールをパクらせただけだろ グ⚪グルさんが詳しいんぢゃない。 てか、あのツールはデバッグ済んだし キニシナイ 👤そうだな。てか地球の、ルールめんどくせー
757 :プロマネ、裏のウラを、読む :2024/04/29(月) 05:35:23.63 ID:V3l6c++H.net RFCの規格、改行は、暗に、 CRLF sequence を前提に規格書を策定してるのか? RFCってマイク🟦ソフトなのな? BY 🤡 プログラム、の憶測って、ウガリすぎーープロマネ🧠バグってるーー BY 🥳 有能なプロマネともなると、規格のウラのウラまで読み切る事も大切 BY 🤡 地球人に産まれて来なくて良かったぜーー BY👤 あ、自称宇宙人のランベルト宇宙人、バグった言い訳してるーー BY 🥳
758 :完了∴編集後記1 :2024/04/29(月) 08:04:27.22 ID:V3l6c++H.net プログラミング設計 n文字目の先頭🟦とおく※暗に🟦は有 その次のを🟫とおく※無なら0x00が無難 さらに次を🟪とおく※ 〃 その次のを🟩とおく※ 〃 n=1 '先頭をゼロとするなら要改 Repeat until 🟦=0 if 🟦<128 then 'ascii ⭐=🟦 UNICHAR(⭐)を表示 n=n+1 elseif 🟦<192then 'なんちゃってascii 「👻」を表示 n=n+1 elseif 🟦<224 then '2byte if 128≦🟫≦191 then ⭐=64*(🟦-192)+(🟫-128) UNICHAR(⭐)を表示 n=n+2 else 「👻」を表示 n=n+1 ' ∵1byte文字トミナス end if
759 := 継続の記号∵RFC2045? :2024/04/29(月) 08:06:07.54 ID:V3l6c++H.net elseif 🟦<240 then '3byte if 128≦🟫≦191 and 128≦🟪≦191 then then ' ⭐ =256*(16*(🟦-224) +INT((🟫-128)/4)) +64*(MOD((🟫-128),4)) +(🟪-128) UNICHAR(⭐)を表示 n=n+3 else 「👻」を表示 n=n+1 ' ∵1byte文字トミナス end if elseif 🟦<248 THEN if 128≦🟫≦191 and 128≦🟪≦191 and 128≦🟩≦191 then then '4byte ⭐=65536*(4*(🟦-240) +INT((🟫-128)/16)) +256*(16*MOD((🟫-128),16) +INT(((🟪-128)/4))) +(64*MOD((🟪-128),4) +(🟩-128)) UNICHAR(⭐)を表示 n=n+4 else 「👻」を表示 n=n+1 ' ∵1byte文字トミナス end if
760 := :2024/04/29(月) 08:07:48.87 ID:V3l6c++H.net else '5,6byte 「👻」を表示 n=n+1 ' ∵1byte文字トミナス end if end repeat msgbox"やったね∵処理完了\(^o^)/"
761 :=は最後が=なら継続ぢゃないアル :2024/04/29(月) 08:12:06.24 ID:V3l6c++H.net こらーーー if 🟦<128 then 'ascii は、 if 0=🟦 then 'null '何もしない elseif 0<🟦<128 then 'ascii ぢゃなーーーーい てか先頭=は関数とみなすです。∵excel 継続から最後に=ですよ。 で最後は改行CrLf ですよ∵RFC2045? BY 🤡 意味わかんない けどスゴくてヤバイ BY 🥳
762 :memopad man :2024/04/29(月) 14:12:05.17 ID:V3l6c++H.net ❌ if 🟦<128 then 'ascii 🙆 if 0=🟦 then 'null2space ⭐=32 unichar(⭐) n=n+1 elseif 0<🟦<128 then 'ascii ∴ Me is MemoPadMan.✌ ∴ Me is All ®ight. ∵Me is 💯 🤡🥳👤®一同 boo boo voo boo booooooooooo.
763 :プロマネ :2024/04/29(月) 14:22:42.15 ID:V3l6c++H.net if 0=🟦 ってけしからんコードだ 変数は左、定数は右、これが社会人の定式デス ∴ if 🟦 = 0 と記述しなさーーい by 🤡プロマネの役 定数が左。変数は右。地球人にはアリエナイ 極一部の古代ギリシャ文字とかンゴ文字は知らんけど 定数が左。変数は右 代入演算子ではナイ と 地球人でも解る記述だ。モピロン、素晴らしい by 👤ランベルト星人 🟦=0 でも 0=🟦でも、論理式なら どっちも真偽値は同じ。 ポクはモピロン天才数学者より天才だ by 🥳発達障害テスタ
764 :JAVA星人現る :2024/04/29(月) 17:31:13.46 ID:V3l6c++H.net ☕ポクはサンマイ🟤🟤システ🟤のジャバ星人だ。宜しくね。 >>758 のソースコードもどき。地球人らしいコードですね。 ⭐=64*(🟦-192)+(🟫-128) ∧ ⭐=0を満たす整数解 1つでよいので、解いてみろーーー by ☕ポクはJAVA星人 何か、宇宙人。自称だろうけど、沢山やってきた。 なんか、ヤバイ。地球が征服されちゃうの❓ はやく、宇宙人に征服してほしいです。地球のオトコに呆きたところよUFO by 🥳 ピンクレディーのUFOのその歌詞は、 ❌ 地球の男に飽きたところよ ⭕ 地球の男に呆きたところよ なんちゃってーーーーーー BY 🤡 今日はエイプリルフールぢゃなかった。失言しちゃった
765 :ランベルト星人 :2024/04/29(月) 17:38:44.32 ID:V3l6c++H.net 👤 誰だ。ジャバ星人か何か知らんが、お前は絵文字一文字で☕ でよい。www ゲラゲラ てかプロマネ、地球を防衛したなら プロマネが解けよ。てかオレは瞬時に解ったけど 🤡 プロマネってポクのことかな。地球人をバカにするなーー ていうか ⭐=64*(🟦-192)+(🟫-128) ∧ ⭐=0を満たす整数解 1つでよいなら厨房でも、解けるぜ、こらテスター解けよ オレッちの解っちゃった。1つなら楽勝 てか、🟦は192(0xC0)を代入して、あとは、匕・ミ・ッ
766 :地球人ならバカテスターでも解けます :2024/04/29(月) 17:51:54.65 ID:V3l6c++H.net 🥳 数学大好き。てかランベルト星人とかプロマネ 解けないからポクに聞いてるんだな。 無理しやがって、教えて、アゲルと、 数式 ⭐=64*(🟦-192)+(🟫-128) ───1⃣ 1⃣の🟦に192を代入 ─── 2⃣ 1⃣の⭐に0を代入とする。すると、 1⃣は、0=64✕(192-192)+(🟫-128) ───1⃣💨 1⃣💨をfor🟫やると、 🟫=128 ───3⃣ 以上1⃣3⃣より、求めるべき整数解の一つは、 (🟦、🟫)=(192、128) ヤッターー 解けたーーー\(^o^)/ 👤 んで、それでどうしたのかな ☕ 地球人って・・・ 👤 オレは地球人基準で数学パワーが∞ ☕ そりゃ地球人が無限人でも宇宙人から見れば 数学パワーはマイナス無限大だし当然だろ 🥳 よくわかんないけど、地球人を侵略してくれて ホントうにありがとう
767 :デフォルトの名無しさん :2024/04/29(月) 17:57:13.31 ID:V3l6c++H.net ランベルトは、 ⭐=64*(🟦-192)+(🟫-128)=0 の解の一つ (🟦、🟫)=(192、128)を解いたな 数式⭐が、ビット演算に変えても (🟦、🟫)=(192、128)なら⭐はゼロになりそうだ by 🤡地球人代表 自称プロマネ(の役)
768 :ランベルト星人 :2024/04/29(月) 19:42:39.90 ID:V3l6c++H.net elseif 🟦<224 then '2byte if 128≦🟫≦191 then ⭐=64*(🟦-192)+(🟫-128) UNICHAR(⭐)を表示 n=n+2 で、当ロジックは🟦≧192のときに実行される。 故に実質 if 192≦🟦<224 then '2byte if 128≦🟫≦191 then ⭐=64*(🟦-192)+(🟫-128) UNICHAR(⭐)を表示 n=n+2 と同じだ。さてと、一人でソースレビューするか by 👤 地球人ぢゃナイオレも参加させろ。そのレビュー by ☕ジャバ星人
769 :デフォルトの名無しさん :2024/04/29(月) 19:43:33.42 ID:VwlqwQ1k.net CSVやTSVでセル内改行ができない問題は 行の区切りを改行文字ではなくRSやVTにすれば解決しそうだがその方法で問題あるだろうか
770 :デフォルトの名無しさん :2024/04/30(火) 05:42:00.58 ID:6q3HkpC/.net そういえば、エクセルの、ある一つ、一つの、ひとつの、 セル内で文字列[xxxxyyyy]を改行は、 オペレーション的には xxxx [ALT]+[改行] yyyy だったような。 地球の書によると、Lf(ASCIIコード10 スナワチ0x0a)だ。 CSVでセル内改行不能問題は、知らん。失礼m(_ _)m ちな、ンゴ文字をセル内に入れる、文字の表示方向が 逆になったりする事が、よくある。 それは、バグでなく仕様の可能性、かと憶測する。 なお、数字を入れると、右詰めになり、 先頭が=だと関数とみなされることは、多い、 文字化けの要因のひとつ。該当セルを標準でなく文字列に 設定するのもひとつの手段、かな?。 試行錯誤して作成してる、😅
771 :ランベルト星人とプロマネ :2024/04/30(火) 09:07:48.91 ID:6q3HkpC/.net 👤 PRINTABLE:=C0=80 で👻と表示、ヤバ。バグなのか? ☕ ま、いいんぢゃなーーい 🤡 SONYさんのスマホのCNTACTS.VCFはヌル文字なんて入力不可 また、半角数字は123なら =31=32=33 と出力だ 2バイトには変換しないので、 そんな不正なコードは出力しませんよーーー だから、ASCiiは、=C0=B8 なんて出力しません ☕ レビューやーめたーーーー
772 :ランベルト星人の呟き :2024/04/30(火) 10:09:05.00 ID:6q3HkpC/.net ある文字が、UTF8で絶対に絶対に絶対に2BYTE文字の場合、 その下限てか上限は、=C2=80 だ てか、UTF8で0xC280はなんて文字なんだろうか 🤡知らん。けど、変な文字だろ 電話帳にそんなコードは入力しないからどうでもよいので 🥳ポクのスマホの連絡帳てか電話帳の氏名に 絵文字入れても、バッチリ。ツールバッチリ 絵文字とASCII文字だけバッチリなら 他の文字は使用しないから、ツール問題なし てか、絵文字以外かつASCii以外の文字の 入力を禁止しろーーーー 漢字は入力禁止 🤡ちゃんと日本語も難読もSONYさんのcontacts.vcfは RCF2045守ってるのでバッチリ 👤てか、守らなくても、ワリとヘッチャラだよな 🥳絵文字バッチリだから、ヘッチャラ
773 :デフォルトの名無しさん :2024/04/30(火) 10:23:58.61 ID:6q3HkpC/.net ランベルトとかいう、宇宙人の落ちこぼれが UTF8 C280 つまりU+0080がどんな文字が 疑問に思ってるようだ。 どうやら、極めて怪しい制御コードのような 霊感を感じる。それのお絵描きしておく BY ☕ジャバ星人でしたーーーー https://o.5ch.net/233fk.png
774 :デフォルトの名無しさん :2024/04/30(火) 10:39:20.69 ID:6q3HkpC/.net xxx ❓❓❓ PAD だろ xxxはとPADとは全く違う by 👤 xxxは未知だから、PADとかいのでもいいんぢゃない by 🤡 xとPは違う文字である。この2人目がヤバイ by 🥳
775 :バカテスター :2024/04/30(火) 11:12:57.08 ID:6q3HkpC/.net 🥳 それは、Padding Character というヤツ モチロン、非表示の文字らしいです。 だから、Spaceで、表示すべきです。 xxx とか PAD と表示してるサイトが 多々見受けられる。バグですね。ーー BY 🥳発達障害が更に悪化中
776 :ランベルト星人等 :2024/04/30(火) 11:20:15.08 ID:6q3HkpC/.net ちぇっ、👻表示させたかな。by 👤 そんな文字はスマホに入力できないので、 そんな文字をデコードしたのはcontacts.vcfに存在しないので リリース済のは、修正しませーーーん by 🤡 え、リリース済❓👤 デヘヘ🤡
777 :JAVA星人 :2024/04/30(火) 15:27:13.93 ID:6q3HkpC/.net オレッちがソースレビューさせれば、以下のようにするのになあ elseif 🟦<192then 'なんちゃってascii 「👻」を表示 n=n+1 elseif 🟦<224 then '2byte は、 elseif 🟦<192then 'なんちゃってascii 「👻」を表示 n=n+1 elseif 🟦<194then 'なんちゃって2byte 「👻」を表示 n=n+1で容認、n=n+2が理想 elseif 🟦<224 then '2byte by ☕ポクはJAVA星人
778 :ランベルト星人 :2024/04/30(火) 15:35:57.73 ID:6q3HkpC/.net 緊急PGメンテかよ。ま、 elseif 🟦<192then 'なんちゃってascii 「👻」を表示 n=n+1 elseif 🟦<224 then '2byte は、 elseif 🟦<194then 'なんちゃってUTF8 「👻」を表示 n=n+1 elseif 🟦<224 then '2byte で再リリースを検討する。ま、理想は☕星人の通りだが インパクトがわからん。 てかさ、なんちゃってUTF8なんてS⭕NYのCONTACTS.VCFに 出力はされないから、ね。 BY 👤 モピロン、再リリースは何時でもOK BY 🤡 バグっていいぢゃーーん BY 🥳 🤡 PGバグでも運用上はバグぢゃないもんねーーー
779 :バカテスター :2024/04/30(火) 15:46:58.40 ID:6q3HkpC/.net >>778 の緊急PG修正ってコメント除けば 一文字修正するだけぢゃーーーん ❌ elseif 🟦<192then 'なんちゃってascii ⭕ elseif 🟦<194then 'なんちゃってUTF8 192を194にするだけ。1秒で修正するぢゃーーーん プロマネとか自称宇宙人ってバカなの❓ BY 🥳超バカテスターに成りすましてみたー
780 :ランベルト星人 :2024/04/30(火) 16:26:39.63 ID:6q3HkpC/.net 👤再リリース完了 🤡Good job ☕ま、やらかすと思ったわ 👤UTF8では、最初の1バイト目が1100 が2byte なんて地球の書に釣られた ☕そっか、かつてのオレを思い出した 👤んー❓ ☕2BYTE⇒1100 xxxx xxxx xxxx は真か偽だな。 👤地球人には無理だろ。偏差値パワーが有限だからな地球人は ☕オレはかつて地球人だった。オマエも地球人に格下げ寸前だったな 🤡C0 00 〜 C0 7F は、UTF8 ではなんちゃって2BYTEって 地球の書に記載した方がいいか? 👤☕ それは正解だが、反例らしき忖度に満ちた地球の書に 記載しても、何だな。そもそも、地球人は🐴🦌だ。 🥳ちぇ、地球人をバカしたバッドエンディングなの❓ この文学作品したヒトってバカっかぢゃなーーーい 😅AUAUアウアウ
781 :あっいけね :2024/04/30(火) 16:29:13.91 ID:6q3HkpC/.net >>780 ❌C0 00 〜 C0 7F は、UTF8 ではなんちゃって2BYTE ⭕C0 00 〜 C2 7F は、UTF8 ではなんちゃって2BYTE だった。他にもたくさん、ミスってそう。( ・ั﹏・ั)
782 :編集後記 :2024/04/30(火) 18:21:22.96 ID:6q3HkpC/.net 👤プロマネよ。あのさ、ナンデ、UTF8文字列→UNICODE文字列 なんてプログラミングをオレにさせたんだ? 🤡それがさ、6年前の春は、その当時で古いスマホの電話帳 を、その当時で新しいスマホに、vcfファイル経由でコピーしたことに遡る。 👤6年前時点の古いスマホなら、android4.x新しいのなら、android8頃か 🤡んー、多分yes 🥳バージョンが古いから、vcfファイルも、モピロン、文字化けだよね。 🤡いや、vcfを当時のパソコンで開くとちゃんと氏名等の漢字は読める。平文だ その頃はwin8.1のヤツを使用してた。 👤vcfは漢字も平文で読めたのか 🤡yes その当時は。 👤でutf8→unicodeと関係あるんだ 🤡その当時は関係はなし、で、 そして、機種変更した。2年前だ。 ・・・・ 👤vcfが2年前の機種のときに文字化けか 🤡文字化けと思ったが、デコードだな 1文字漢字がascii9文字に化学変化、後はわかるだろ 🥳グーグルので共有でいいぢゃーーーん。 個人情報はグ⚪グルのサーバに保管だね 🤡でも、とにかくPRINTABLE: のをエンコツール自作に至ったわけ
783 :デフォルトの名無しさん :2024/05/01(水) 00:33:47.56 ID:T3vg4v9s.net >>769 >CSVやTSVで、セル内改行ができない問題は Ruby ではクォート文字で囲めば、 行区切り文字・列区切り文字・クォート文字も、データ内に入れられる require 'csv' input = <<"EOT" "a""a","b,b",あ "c c","d\nd" EOT p input_ary = CSV.parse( input ) # 2次元配列 #=> [ ["a\"a", "b,b", "あ"], ["c\nc", "d\nd"] ] # 2次元配列を、CSV 文字列に変換する csv_str = input_ary.map( &:to_csv ).join puts csv_str "a""a","b,b",あ "c c","d d"
784 :デフォルトの名無しさん :2024/05/01(水) 05:45:14.27 ID:ksHbXVNI.net ん、微妙に話しズレるが、新たなるプロジェクト思いついた ・VBAでcontacts.csvをバイナリで読み込ませる ・CR LF などそれが2バイトでも全てLF1byteに変換する ・それをセルの んー例えばC3セルに表示 ・C3セルの一つだけのセルに、contacts.vcfが表示される ・とにかく、vcfのエンコードツールをvbaで開発する by 🤡 それより、プロマネ、プリンタかってーーー ネットプリントめんどくせー by 🥳👤 プロジェクトは延期ーー 🤡
785 :ジャバ星人の呟き :2024/05/01(水) 20:43:19.84 ID:ksHbXVNI.net ☕ 2BYTE⇒1100 xxxx xxxx xxxx の最小値って地球人よ知ってるか❓ 16進で、xC000 だぜ。もし、xC280にしたいならさ、 それを簡易に表現できるパワーが必要だろ。 やたら、言い訳した内容を補足に入れてもよ。 そんなの、理解できねーーーってワケ by ☕ でさ、なんで自称宇宙人のチミはジャバ星人って自称してるの by 👤ランベルト星人 んーーー by☕ ま、ウスウス知ってるけど、JAVAってIBMが開発した言語❓ それとも ・・マイクロソフト ❓ BY 👤 マイクロソフトもIBMもライバルだ ぢゃーバイバイ BY ☕
786 :プロマネの呟き :2024/05/01(水) 21:00:20.23 ID:ksHbXVNI.net ジャバ星人(サンマイクロシステ⚪星人)と、ランベルト星人の やり取り、意味深だな。 てかさ、ISO/IEC 10646 [ISO.10646] に UTF8toUNICODE の極めて具体的なアルゴリズムが 英文で記載されてる。 モピロン、ランベルト星人やジャバ星人が開発したのは その通りに作ってるハズだろ。 地球人の規格か概ね上位互換だ てかそれキニシナイ BY 👤 今の規格でも何か怪しい てかもぅゴリゴリだせを BY ☕ あのさ、ジャバ星人は地球からスピンアウトしたら BY 初登場のミラクル星人
787 :ジャバ星人 :2024/05/02(木) 14:20:08.07 ID:cxxyFm3G.net オラ、いや、ミラクル星人にはナイショだけどよ、 ランベルトとかいう宇宙人の、自称秘伝の数式 ⭐=64*(🟦-192)+(🟫-128) ※UTF8で2byte専用 で⭐が127以下になる全ての🟦、🟫の非負整数解って ま、地球人でも厨房程度の低知能で解けるだろ。 見え貼ってビット積とか使って規格書記載してるから 数式の連立方程式すら失念し、重複するだってワケ 地球人って、地球🌏の中ぢゃ、知能はマシだが、 この宇宙の中ぢゃ、もう恥ずかしくて、宇宙旅行なんて出来ないだろ by ☕ てか、あの規格書、あれが21bitとか記載してるぞ、 20bit + 1文字だよな。地球人ってバカなのか? by 👤 いやいや、地球の数学では、 2^21 = 2^20 + 1なんぢゃねーーー ゲラゲラ by ☕ 矛盾許容の数学を構築したランベルト星の数学ですら アリエネー。てか、isoなんとかってジョークサイトだよな by 👤 ゲラゲラゲラゲラゲラゲラ論理積以前だろスピンアウト正解 by ☕
788 :正常ぽぃ地球人とランベルト星人but自作自演 :2024/05/03(金) 06:35:56.34 ID:00No5FFk.net >>784 でさ、 🤡 > CR LF などが2バイトも全てLF1byteに変換 の記述って、🦩ダチョウ (無駄に長いの意)な表現だよな 👤地球人は知能はバカの一つ覚え。無限個ある欠陥だらけの 文章の、2、3点を修正して、今度は完璧だなんて思い込む 🤡てか、「あのCrLfをLfにする」の何処がダチョウな表現なんだ❓ 👤正解は「Crを無視する」だろ 🤡オマエも地球人並みの知能だな。無限大の知能ってウソぢゃーーん 👤そもそも、Cr単独で改行なんてのは、アリエナイ前提だ モチロン、Lf単独で改行は、Unixとか比較的近年UTF8で 地球で、主流だろ 🤡んー❓ 厳密すればするぼど、やはりダチョウ🦩になる 👤ところで、ゲーデルの不完全性定理ってどう思う 🤡あの辺りは数学ではナゾの密林だ。てか 証明できん事を証明しましたーーー。をアリガタッてるのか 👤知らんが、あの規格書も、6〜7年前から更新ストップだろ 🤡更新すればする程、矛盾にみちた内容になってるかも 👤もはや、矛盾してるかすら解かんないとちゃう? 🤡ノーコメントとする。てかランベルトよ、 「Crを無視する」というロジックは、1行目で真かつ k行目で真と仮定してk+1行目が真を証明が必要だ 👤てかよ、kは整数かつ1以上が必要だろ 🤡どちらかというと十分で微かにダチョウだよ 👤んーー、kは整数かつ2以上が必要 といえば十分か 🤡話しが長いな。てかゲーデル不完全性定理と関係ありそ 👤それ以前に我が星、ランベルト星の数学・論理学は矛盾許容だ 🤡それ、完全性定理ぢゃねーーー? 👤どっちでもok ∵矛盾許容 🥳ポクも宇宙人に産まれ変わりたいデーース
789 :デフォルトの名無しさん :2024/05/04(土) 01:03:55.27 ID:Lsoig7U/.net VTも使うTSV形式はこんな感じか。 行末のCRLFは無くても問題ないが あった方がテキストエディタで開いた時に見やすくなる セルA1␉セルB1␉セルC1␋␍␊ セルA2␉セルB2␉セルC2␋␍␊ ASCIIが想定していたUSやRSの使い方はこんな所だろうか セルA1␟セルB1␟セルC1␞␍␊ セルA2␟セルB2␟セルC2␞␍␊
790 :デフォルトの名無しさん :2024/05/04(土) 08:00:55.56 ID:XF0U8juk.net 🥳 てかプロマネさ、エクセルに CSVの文章貼り付けるときどうしてる? 🤡 んー「,」の半角は tab に置換えてから、コピペ 🥳 「123,ABC」を「123tabABC」 てやって、A1セルに貼付けても A1セルに「123tabABC」って表示されたよ ウッソ付きーーーー! 👤 地球人って・・・ 🤡 地球人でも、かなり、・・・・ 👤 こんな文章を、書き込む奴も・・・・なのか? 🤡 ノーコメントとする。
791 :デフォルトの名無しさん :2024/05/04(土) 13:09:03.98 ID:tY3IcCX2.net 一日一回無料で使える脱衣AI見つけたbb https://mao.5ch.net/test/read.cgi/gymnastics/1240746278/217
792 :デフォルトの名無しさん :2024/05/04(土) 16:13:25.74 ID:Lsoig7U/.net セルの列やセルの行を区切るのに制御文字を使えれば セル内に,や”を入れたり改行することもできるんだよね
793 :単なる呟き :2024/05/04(土) 18:46:03.94 ID:XF0U8juk.net 🤡 多分、タブの制御コードは、␉ って感じだ 🥳 タブはHTなの?、ポクは英語バッチリ [Tab]ぢゃーーーん キーボードにHTなんてマークのキーは見つからん 👤 キーボードの[Tab]にマジックでHTって記入しちゃえー!
794 :デフォルトの名無しさん :2024/05/05(日) 00:28:15.77 ID:DTqCPhPD.net 垂直タブはキャレット記法で^Kだけど PC-98のDOSで↑キーを押すと^Kが入力されたのを思い出した 他には→キーを押すと^Lが入力されたと思う
795 :デフォルトの名無しさん :2024/05/05(日) 14:18:12.85 ID:ufyV/oQQ.net >>788 の自称宇宙人の👤が 「Cr単独で改行アリエナイ∴Cr無視」とか言ってますが ヘンですね。 というか、'xxxxx␍yyyyy'は、ポクの メモ帳で開いたら xxxxx yyyyy でちゃんと改行されて表示ですよ。 改行がCr単独なんてアリエナイ なんて 勝手な前提しちゃいけません。レッテル論法禁止🚫🈲🙅 by 🤡 👤 give up てか今日はバィバィ。さよならーーー
796 :デフォルトの名無しさん :2024/05/05(日) 20:09:04.88 ID:DTqCPhPD.net GUIでCR,LF,HT,BS,DEL以外の制御文字を ソースコードなどに手動で入力して使う事がほとんど無いのは キーボードに専用のキーが無いからなのかね? CUIではCtrlとアルファベットキーの組み合わせで入力できたけど GUIではショートカットキーとして使われていて制御文字は入力できないし C1制御文字に至ってはさらに馴染みがない。 制御文字をもっと活用すればエスケープ文字が図形文字のために その文字を表示するために特別な入力をする必要も無くなるのに。
797 :デフォルトの名無しさん :2024/05/05(日) 21:28:31.49 ID:GQlpZ+4B.net >>796 制御文字のほとんどが機種依存だから。
798 :デフォルトの名無しさん :2024/05/06(月) 04:24:56.29 ID:w6EM8fRb.net >>795 CR 単独は、古いMac だけ
799 :デフォルトの名無しさん :2024/05/06(月) 09:46:14.51 ID:endGOe+7.net >>798 OS9, AppleII, commodore
800 :デフォルトの名無しさん :2024/06/01(土) 00:05:13.54 ID:7lxL4C6A.net IPAmj明朝のIVSって、2017年ので止まってるの?
801 :デフォルトの名無しさん :2024/06/01(土) 11:39:25.67 ID:7lxL4C6A.net あたらしめのIVSを使おうと思ったらグリフがないくさいので
802 :デフォルトの名無しさん :2024/06/02(日) 01:04:43.33 ID:rO+GNz4V.net >>800 は正解くさいので違うフォントを使うことにした。
803 :デフォルトの名無しさん :2024/06/02(日) 11:08:06.07 ID:EnNBM925.net 「IPAmj明朝は、IVD 2017-12-12 Moji_Johoコレクションに準拠してIVSを実装してあります」と説明されているとおりで、他のIVSに対応する目的のものではないから、更新が止まってるとかではないような
804 :デフォルトの名無しさん :2024/06/03(月) 14:37:57.00 ID:UCbPeCZM.net >>803 Moji_Johoコレクションは数年おきにアップデートされている 「IVD 2017-12-12 Moji_Johoコレクションに準拠」という説明は、同時に「2017-12-12版以降 には対応しない」という意味でもあるのかなと思っている
805 :デフォルトの名無しさん :2024/06/03(月) 15:58:23.74 ID:YdsWYYn6.net PowerPointでShift+Enterを押すと垂直タブを入力できるようだけど 他のソフトでも垂直タブがShift+TabやShift+Enterで入力できるのが標準になっていたら 垂直タブはもっと広く普及していただろうか
806 :デフォルトの名無しさん :2024/06/04(火) 15:13:07.31 ID:uznUZQwV.net CSVとTSVを比べるとTSVの方がテキストエディターで開いたときに見やすいから便利だと思うんだけどCSVにはどんな利点がある?
807 :デフォルトの名無しさん :2024/06/04(火) 16:24:20.35 ID:QS4SGGEb.net 文字コードの話じゃねーじゃん
808 :デフォルトの名無しさん :2024/06/04(火) 17:03:57.21 ID:8TlGJtZv.net >>807 いちおうTABもSpaceもcommaもCRもLFも個々に「文字コード」ではある。いわゆる文字符号化手法とか符号化文字集合ではないが。 文字コードは曖昧で意味広すぎ
809 :デフォルトの名無しさん :2024/06/04(火) 17:15:26.05 ID:8TlGJtZv.net >>806 CSV の利点は制御文字(cc)ではなく表示文字を使っている点。TAB はccなので表示系によっては見た目で区別できない場合がある。典型的にはスペースと見間違える(1文字TABはスペースと同じアキになる可能性 常にTABとスペースが正確に区別できる環境ならTSVの方がだんぜん便利だと思うが TAB は普通の文字じゃないことも文字コード設計として念頭においておくべき あと unicode にはスペース類似文字もカンマに似た文字も多過ぎるので、どのみち見た目で区別は駄目という話はある、酷い話だ。
810 :デフォルトの名無しさん :2024/06/04(火) 17:46:25.88 ID:1kTV4q2T.net すげーな 職場でもあんま話通じない人なのかな
811 :デフォルトの名無しさん :2024/06/04(火) 22:21:43.51 ID:GNPHSdGp.net 「慶応」も「コンクリート」も漢字1文字で 〜Unicode標準に新しいブロックが提案中 手書きでしばしば用いられる「部首+カナ」スタイルの略式漢字 https://forest.watch.impress.co.jp/docs/serial/yajiuma/1597030.html
812 :デフォルトの名無しさん :2024/06/04(火) 23:02:09.29 ID:k5yNkVnV.net >>811 そういうのは合字といって昔からある
813 :デフォルトの名無しさん :2024/06/04(火) 23:04:13.30 ID:k5yNkVnV.net UTF-8は日本語だと明確に指示していないと、漢字が中国の漢字が入り込んでしまう。
814 :デフォルトの名無しさん :2024/06/04(火) 23:06:31.80 ID:k5yNkVnV.net UTF-8で記号がたくさん追加定義されて、MS-IMEがめちゃくちゃだから、変な記号を使う日本人が激増した。
815 :デフォルトの名無しさん :2024/06/04(火) 23:12:43.53 ID:A0JJZg9T.net 変体仮名で限界 用例を見たが、それ以上の歴史的重要資料が大量にあって デジタル化の必要性があるとは到底思えない 英字アルファベットも代表的なカリグラフィーを収めて終了 unicode標準は局所的な特定小集団のおもちゃじゃない
816 :デフォルトの名無しさん :2024/06/05(水) 07:49:52.75 ID:Ex4xeIUM.net >>811 従来の漢字、特に中国の簡体字等、読みの同じ部首やつくりで置き換えて文字を 作ったりとかはあるので、発想としては近いものを感じる
817 :デフォルトの名無しさん :2024/06/05(水) 09:34:19.11 ID:TjOdfiQ/.net UnicodeData.txtをあたらないと何を表してるのかさっぱり分からん絵文字よりは まだその手の略字のほうが有意義な気はする
818 :デフォルトの名無しさん :2024/06/05(水) 10:21:36.77 ID:xv3Pbp+3.net >>809 Firefoxだと表示できない文字は□の中に16進コードが書かれた文字が表示されるから 同じようにテキストエディターでも制御文字と空白に見える文字は空白を表示する代わりに 16進のコードが表示されれば分かりやすくなるね
819 :デフォルトの名無しさん :2024/06/05(水) 13:38:49.33 ID:XaSaDlvd.net >>811 標準に滑り込ませて既成事実化するよりも、 草の根で外字フォントを配るのが良いと思う
820 :デフォルトの名無しさん :2024/06/05(水) 15:08:16.04 ID:lcx/EjsX.net >>819 草の根で外字フォントを配ってなんとかなることだったらわざわざ標準化する必要なくね? 外字フォントを配るぐらいにとどめておいた方がいい以上の根拠なし意見でしかないぞ。それ。
821 :デフォルトの名無しさん :2024/06/06(木) 09:50:50.05 ID:GV7aCOF9.net >>819 それを全国の市町村の役所でやって既成事実化できずただただ氾濫して手に負えなくなったんよ
822 :デフォルトの名無しさん :2024/06/06(木) 10:38:50.99 ID:qz5pj6nB.net 役所は文系ばかりなのでとんでもないことを平気でやらかす
823 :デフォルトの名無しさん :2024/06/06(木) 10:46:53.59 ID:qz5pj6nB.net >>794 98に限らず hjklで←↓↑→替わりにしてる環境は割とある
824 :デフォルトの名無しさん :2024/06/06(木) 16:26:25.10 ID:nRDHkFIj.net unicodeだと同じ文字に見えても違うコードポイントの文字が多いから テキストエディタにもコードポイントを表示する機能と バイナリではどう記録されているのか表示する機能が欲しい バイナリエディタでは折り返しが16バイト毎の固定で文章入力しにくいから 折り返しを16バイト毎ではなく0x0D0Aにできるバイナリエディタのような感じかな
825 :デフォルトの名無しさん :2024/06/07(金) 00:30:00.98 ID:KQ6L7vRD.net 絵文字とか異体字セレクタとかもあるし、とりえあえず文字(グラフィームってやつ?)の 境界を見つけるのが面倒だよね 文字境界を探すライブラリとか、今ってそこら辺もちゃんと動く感じ?
826 :デフォルトの名無しさん :2024/06/07(金) 02:08:04.46 ID:4C4NoraV.net >>824 サクラエディタにそんな機能があるな
827 :デフォルトの名無しさん :2024/06/07(金) 20:02:28.27 ID:f1gRwXGz.net Ruby では、 https://qiita.com/QUANON/items/2539feed89cee2290664 couple = '👨👩' p couple.length #=> 3 # \X Unicode 結合文字シーケンス (eXtended grapheme cluster) (?>\P{M}\p{M}*) p couple.scan(/\X/).length #=> 1 # \u{0308} はウムラウト p euml = "e\u{0308}" # "ë"。"〜"で囲む p /\X/.match(euml) #=> #<MatchData "ë"> ウムラウト有り p $&.codepoints #=> [101, 776] # \w 単語構成文字 [a-zA-Z0-9_] # \W 非単語構成文字 [^a-zA-Z0-9_] p /\w/.match(euml) #=> #<MatchData "e"> ウムラウト無し p $&.codepoints #=> [101] p couple.chars #=> ["👨", "", "👩"] p couple.grapheme_clusters #=> ["👨👩"] 書記素クラスタ # U+200D は、Zero Width Joiner (ZWJ: ゼロ幅接合子) couple.each_char { |chr| puts(format('U+%04X', chr.ord)) } # U+1F468, U+200D, U+1F469 (euml + couple).each_grapheme_cluster { |chr| puts(format('U+%04X', chr.ord)) } # U+0065, U+1F468 # つまり先頭文字である、'e👨' だけになる
828 :デフォルトの名無しさん :2024/06/07(金) 21:53:54.62 ID:8MnTJRoZ.net Macなんて日本語でも英語のUTF-8と決めつけるから、SJISですらうまく打てない。
829 :デフォルトの名無しさん :2024/06/07(金) 22:04:15.54 ID:8MnTJRoZ.net >>811 その記事は時代に逆行している変な人間の記事だな 手書き文字を登録しろと言い出すと無限に定義するはめになり、見た目の区別もつかなくなる。
830 :デフォルトの名無しさん :2024/06/07(金) 22:06:42.14 ID:NZ6fOaVt.net JavaScriptの識別子に中黒が使えるようになった https://nanto.asablo.jp/blog/2024/06/07/9690975 JavaScriptの識別子(変数名、関数名、プロパティ名など)の2文字目以降に中黒「・」(U+30FB KATAKANA MIDDLE DOT)が使えるようになりました。以下のコードはChrome 124では構文エラーになりますが、Chrome 125では問題なく実行できます。 const シン・ゴジラ = 2016; 中黒が使えるようになったのは、JavaScript(ECMAScript)の仕様が変わったからではありません。変わったのはUnicodeの仕様のほうです。Unicode 15.1.0(2023年9月)においてOther_ID_Continueプロパティ(を持つ文字の集まり)に中黒が追加されました。
831 :デフォルトの名無しさん :2024/06/07(金) 22:34:26.74 ID:8MnTJRoZ.net >>830 表記の揺れの原因になりやすい記号
832 :デフォルトの名無しさん :2024/06/07(金) 23:59:44.50 ID:2VgcMGPt.net >>829 異体字はこんな風に生まれたんだろうけど と高みたいに両方ともUnicodeで基底文字として扱われてる文字と 異体字として扱われる文字の違いは何なんだろうな
833 :デフォルトの名無しさん :2024/06/08(土) 01:05:00.06 ID:mxKAN8QR.net >>832 中国人/台湾人の辞書や文字コード表に記載されているかどうか。はしご高は台湾漢字由来だったか 日本の異字体はIVS使うことにしたので最近は登録申請すらほとんどしてないけど、中華人民共和国は今もがんがん本体に追加要請してる
834 :デフォルトの名無しさん :2024/06/08(土) 01:39:00.68 ID:h1Q0ar53.net >>833 「異体字」を「異字体」と間違っている時点で説得力なしw
835 :デフォルトの名無しさん :2024/06/08(土) 10:12:44.74 ID:mxKAN8QR.net >>834 この場合は「異−字体」であってるんだよ。「異体−字」は個々の文字を指す。
274 KB
新着レスの表示
掲示板に戻る
全部
前100
次100
最新50
read.cgi ver.24052200
本文 スレッドタイトル 投稿者