0post
2025.11.24〜(48週)
:0% :0% (30代/男性)
人気のポスト ※表示されているRP数は特定時点のものです
これ面白いんだけど、少し怖い話を。
四角囲みの漢字が誤って、くにがまえの漢字として Unicode に登録されてしまった事例がひとつある。
一応仕方ない背景はあって、用例の書籍の中で資料略称を示す記号は原則として丸囲みなのだが、視認性の問題が、問題の記号だけ四角囲みだったのだ。 https://t.co/vJGZ5k44NK December 12, 2025
137RP
中国的现代通信史存在一个罕见的断层
这个断层并非源于技术落后,也并非错过某个关键风口,而是制度结构、语言特性与历史轨迹共同塑造的结果。
正是这一结构性断层,使中国跳过了全球通信史上至关重要的“字符时代”,即由电传打字机与Telex系统主导的自动化通信阶段。
从国家制度到商业规范,从语言体系到技术路径,中国实际上自民国以后一直到改革开放伊始,缺失了长达半个世纪的“字符自动化文明”。
民国的电报体系虽具现代形态,本质上仍是“汉字无法直接进入通信机器”这一现实制约下的过渡产物。
汉字数量庞大、键盘难以承载、编码体系不统一,迫使电报系统依赖于“四位数字电报码”、人工译码以及电报员的记忆与查表能力。
当时外交与军事通信中常见的“艳电(29日)”“马日(21日)”等用语,并非修辞手法,而是系统性的信息压缩规则。
它们揭示了一个根本现实:汉字字符无法直接进入通信链路,必须被转译为机器可读的数字符号,再由人工还原为文本。
1949年以后,长期处于战争动员、政治运动、资源匮乏与基础设施薄弱的环境中。电话、交换机、打字机均未普及,键盘训练体系几乎不存在,汉字打字机的研究也长期停滞。
通信行业在长达三十年的封闭状态中,延续了民国时期的人工电报文化,未能与国际上快速发展的电传技术接轨。
与此同时,西方正不断深化其“字符文明”。Teletype、Telex、Tlx网络、ASCII控制字符、合同自动打印、SWIFT系统的前身、航空调度系统等,本质上都是“键盘—字符—线路—打印机”这一机制的体系化延伸。
这套体系塑造出“字符即法律”“打印件即合同”“终端即办公桌”的制度逻辑。
改革开放之后,中国首次真正接触到Telex系统,但仅限于外贸领域。因此在1980年代,极少数人的名片上会出现“TELEX: xxxx CHINA”的字样。
这成为中国与世界接轨的一道缝隙,但Telex并未因此渗透进中国社会,也未形成制度文化。
一个颇具象征意义的细节是:美国大使馆曾要求中国签证申请人提供“中文电报编码”,并非美方固守旧制,而是他们的全球系统只能处理ASCII,不能接收汉字。
这个看似技术性的要求,实际上暴露了更深层次的问题,中国在字符自动化阶段的缺席,使得我们的语言体系与全球数字系统之间存在根本性的隔阂。(这也为后来早期中国程序员难以理解“回车”“换行”等基础概念埋下了伏笔。)
随后,传真机的普及让中国彻底跳过了整个字符时代。传真技术天生兼容汉字体系:无需编码、直接扫描、以图像形式传输、不依赖字符集。传真机成为东亚语言的完美载体,而Telex则是字母文化的自然延伸。
于是,中国从“民国人工电报”阶段直接跃入“图像传真”时代,字符文化缺席,图像文化无缝衔接。
这就形成了一个在世界通信史上极为特殊的断层:字符终端文化在中国几乎从未存在。
我们没有ASCII文化的积淀,没有控制字符的记忆,没有终端音响的共鸣,没有合同自动打印的惯例,没有“CR/LF”的工程背景,也缺乏“口头不算数,打印才作数”的商业制度环境。(这种缺失直接影响了后来中文编码体系的发展路径,促使中国必须寻找独特的解决方案,后续文章将详细探讨CJK统一表意文字与多字节编码标准的诞生过程。)
制度路径、语言结构和技术节点的三重作用,共同造就了这一结果:中国并非落后,而是沿着另一条阶梯,跃入了数字时代。
今天回望,我们拥有了Unicode、互联网、移动终端和全球最大的数字生态,但我们始终缺乏“字符通信”本身所奠基的文化土壤。
我们是从“数字化的汉字”直接跨入“图像化的纸张”,再跃进“网络化的数据包”。我们绕过了Telex时代,也绕过了由字符技术所塑造的一整套制度经验与社会行为模式。
这个独特的断层,不仅塑造了中国的技术路径,更深刻地影响了我们的数字文化基因,那些在早期互联网建设中显现的理解隔阂,那些在编码标准制定中的艰难抉择,都是这一历史路径的当代回响。 December 12, 2025
71RP
[MIO🦢🫧]
日韓交流フェスティバル目黒元気まつり!
ありがとうございました🙇💗
#UNICODE #目黒元気まつり https://t.co/stGOnwhshY December 12, 2025
10RP
[MIO🦢🫧]
風つよいってば!!!寒いってば!!
でも冬キラキラしてて好き!!!
#UNICODE #MIO https://t.co/68zLPDF07a December 12, 2025
9RP
[MIO🦢🫧]
今日も一日お疲れ様です♡
すでにコディスに会いたすぎる!!!
寒いから暖かくして過ごしてくださいね。
#UNICODE #MIO https://t.co/IMN6wlQmVk December 12, 2025
8RP
[HANA🐢🌻]
日韓フェスティバル 目黒元気祭り‼️
久しぶりの野外で大盛り上がりしてくださり、ありがとうございました❣️
なんと可愛い可愛いうちわを頂きました✨
風邪ひかないように風邪予防しっかりしてくださいね!
#UNICODE #HANA https://t.co/uimyznCaSu December 12, 2025
7RP
好き?🫶
🔗 https://t.co/VPFrYxsQVf
🔗 https://t.co/Z1RBAvSa4y
#UNICODE #MIO #유니코드 #미오 https://t.co/FHWlo7Wz6q December 12, 2025
7RP
[HANA🐢🌻]
Tuneのインタビュー映像見てくれましたか〜??
11月も今日で終わりですね🍂
今年もあと1ヶ月!
風邪に負けず!残り1ヶ月も頑張ろう!
おーーー❤️🔥
#UNICODE #HANA https://t.co/sTtweQqXLC December 12, 2025
5RP
[ERIN🥕🤍]
日韓フェスティバル 目黒元気まつり💪
ありがとうございました🥰
皆さんの熱気で冬の屋外にも関わらず汗だくになりましたʕ ◦`꒳´◦ʔ💦🔥
きっと皆さんは寒かったと思うので暖かくして寝てください‼️"٩(ー̀ꇴー́)💤
#UNICODE #ERIN https://t.co/hZmbqafMMB December 12, 2025
5RP
如何识别AI味账号/内容,给大家一些AI识别技巧:
1、标题(The Title):浮夸与套路
1️⃣ 滥用 Emoji:标题中堆砌大量表情符号(如 ✨、⚡、💡、🚀 等),虽然人类也会用,但 AI 特别喜欢用它们来装饰。
2️⃣ 奇怪的 Unicode 字体:使用花哨的粗体、斜体或手写体字符(如 𝓤𝓷𝓲𝓬𝓸𝓭𝓮 𝓽𝓮𝔁𝓽)来博眼球。
3️⃣ 极端的“标题党”:例如“我们用 [新奇技术] 替换了 [成熟技术],结果震惊全场”或“用 20 行代码重写了 Kafka”。这类标题通常承诺得天花乱坠,实际上内容空洞或纯属编造。
4️⃣ 陈旧技术的“教程”:比如“如何使用 [某个很老的库]”,通常是 AI 对现有网络内容的简单反刍。
2. 预览图(The Preview Image):典型的 AI 审美
1️⃣ 泛滥的 AI 生成图:使用典型的 Midjourney 或 DALL-E 风格生成的图片(通常被戏称为“Boomer Art”),看多了会觉得单调乏味且缺乏意义。
2️⃣ 拼写错误:图片中的文字如果出现明显的拼写错误,基本可以判定为 AI 生成且作者懒得修图。
3️⃣ 毫无逻辑的文字图表:图片中包含类似架构图或文字云的内容,但上面的文字是乱码或毫无逻辑的单词堆砌(Word Salad)。
3. 正文内容(The Article):形式大于内容
1️⃣ AI 文章往往给人一种“吃白面包”的感觉,虽然你吃了很多,但脑子还是觉得空空的。
2️⃣ 具体的细节,缺失的背景:文章开头直接抛出极度具体的工程细节(如“我们的集群在重平衡时卡顿了...”),却完全不交代背景(“我们”是谁?哪家公司?)。这种“无中生有”的叙事是 AI 编造故事的常见特征。
3️⃣ 使用 ASCII 字符画图:相比于使用 Exceldraw 等工具手绘,AI 更倾向于直接生成 ASCII 字符画(由字符组成的流程图),因为这对 LLM 来说更容易输出。
4️⃣ “深”度内容却极短:标题声称要深入探讨复杂技术(如延迟优化、P95 数据),但正文只有寥寥几段,泛泛而谈,看完后你依然不知道具体发生了什么。
5️⃣ 过度的 Bullet Points 和破折号:AI 非常喜欢使用项目符号列表(Bullet points)来组织段落,以及滥用破折号(——)和 Emoji。
6️⃣ 技术神话:过分吹嘘用极低成本(如“一夜之间”、“一个人”)完成了不可能的架构迁移。
4. 作者档案(Author Profile):超人的产出
1️⃣ 如果文章让你起疑,检查一下作者的主页通常能实锤。
2️⃣ 离谱的发文频率:如果一个作者在一周内发布了大量关于完全不同领域(如 Java、Rust、Redis、Scrum 管理)的“深度”文章,那绝对是 AI 生成的。正常人类不可能在短时间内在如此多领域都具备高深经验。
3️⃣ 资历不匹配:如果作者自称是初级工程师或刚毕业,却声称重构了大型生产系统,这通常是 AI 在编造人设。
4️⃣ 无法验证的身份:在 LinkedIn 等专业网络上查无此人,或履历与文章内容严重不符。 December 12, 2025
4RP
UNICODEが4回もリリースイベントを行ったエンタバアキバが本日閉店となります
……長い間!!!
くそお世話になりました!!!
#UNICODE #エンタバアキバ https://t.co/ZAdRYrfpg5 December 12, 2025
3RP
Unicode 最激烈的争斗区域:CJK的撕扯
为阻止数字时代全球语言编码体系的全面分裂,Unicode横空出世。
其精妙之处,不仅在于字符的广泛收录,更在于它将全球文字版图划分为三个清晰的战略区域,让不同文明在各自疆域内完成体系整合。
一、第一战场:ASCII,不可动摇的数字基石
位于0x00–0x7F范围的ASCII区,是数字文明的底层根基。这里承载着英语字母、数字、基础标点及控制字符,更重要的是,整个互联网协议栈、操作系统、文件格式与编程语言都构建于此。
Unicode对此区域的处理原则极为明确:完全保留,绝不改动。
这里没有争论,无需谈判,是所有文明进入数字世界必须接受的既定秩序。
二、第二战场:欧洲语言,高效的区域性整合
欧洲数十种语言曾经深陷于ISO8859系列编码的互不兼容困境。
Unicode在0x0080–0x07FF区间为欧洲构建了统一的解决方案所需的空间。
这个空间足够容纳所有带重音符号的拉丁字母、希腊文和斯拉夫文字。
由于欧洲文字同属字母体系,文化主权争议较小,使得欧洲语言实现了快速、平稳的统一。
欧洲战场成为Unicode中最成功的区域性整合案例,形成了稳定的多文字共存体系。
三、第三战场:CJK平面,东亚文字的艰难共识
真正的挑战出现在0x0800–0xFFFF的东方语言区域。
这里不仅要解决中、日、韩三国汉字体系的编码问题,更要面对跨越历史、三种文化认同的深层冲突。
字形之争:身份认同的体现
中日韩汉字间的字形差异,并非简单的美学选择,而是各国教育体系数十年塑造的文化身份印记。
简繁之争:文明路径的分歧
大陆和台湾的简繁之争,和一对多之争远非笔画多寡的技术问题,而是文字发展路线的根本差异:
主权之争:汉字定义权的博弈
其实最深层的冲突在于谁有权定义“什么是汉字”:中国主张对汉字文明体系的主源解释权,倭国强调本地化汉字的独立性,韩国寻求从汉字话语体系中获得自主地位。
当时各方都有了自己的标准,坚持哪些,互认哪些,放弃哪些都是谈判的内容。
中国大陆手持GB2312:简体字承载着现代扫盲工程的政治正当性
台湾及海外手持BIG5:繁体字代表着文化连续性的守护
倭国JIS 0208:倭国汉字已形成独立体系,不受简繁框架约束
韩国KS 5609:保留的汉字变体
新加坡坐山观虎斗
面对复杂的东亚文字困局,美国的Unicode提议者作出了既残酷又必要的裁决:在编码层面统一,在字形层面自主。这一方案的实质是:
“编码层”保持稳定统一,“字体层”交由各国“各自表述”,最虚的“文化认同层”留给历史发展。这或许是阻止汉字文明在数字时代彻底碎片化的唯一可行路径。
Unicode的成功并非源于技术完美,而在于它为三大文明体系构建了共存框架,彼此隔离却不互相毁灭。
特别是CJK区域的整合过程,深刻揭示了语言、文字、文化与主权之间的复杂关系,而Unicode以最小破坏的方式,将中日韩纳入了统一的字符宇宙。
这套体系为后来的UTF-8编码奠定了坚实基础,使得全球文字能够在互联网时代实现真正的互联互通。 December 12, 2025
2RP
待续。
接下来会慢慢讲5bits的ITA2编码表示能力太弱,美国国家标准委员会搞出来能装入电脑中7bits的ASCII编码,然后再讲欧洲的扩展ASCII编码(8bits)的争夺大战 ,最后是台湾的Big5,中国的GB2312,倭国的JIS,和韩国的KS。这些不能再8bits之内表示的编码,以及东方的CJK字符编码抢夺,最后是Unicode和UTF-8妥协。 December 12, 2025
1RP
マイナ保険証の意義はわかるけど、ICTの人間としては、設計最初からやり直せ!
戸籍をunicodeに全面移行して、そこから住民票を再設計して、ようよくマイナ保険証の話をして欲しい https://t.co/0MNOCwDgSJ December 12, 2025
1RP
东亚先锋倭国的汉字编码革命
用转义符开启的双字节文明世界
当1960年代美国工程师将文字简化为26个字母、10个数字和若干标点时,他们设计的ASCII码128个字符位似乎足以承载英语世界。
然而在东亚,倭国最先意识到:若继续遵循西方的单字节逻辑,日语将永远被挡在计算机时代门外。
日语并非单纯的字母语言,而是一个复杂的文字生态系统:
汉字:数以千计的表意文字(当用汉字,人名汉字)
平假名:46个基础字符及其衍生组合,这是日语的语法骨架
片假名:这是倭国人表达外来语的主要载体
倭国特色的全角标点与(横排版和竖排版)括号:《》、『』、「」
特殊符号:・、ー,再加上全角数字、数学符号和排版线
这些元素共同构成了完整的日语体系。ASCII的世界根本无力容纳如此丰富的文字文明。
ASCII的设计哲学建立在“1字节=1字符”的基础上,128个字符位被视为数字世界的全部。这种设计对英语足够,对日语却远远不足。
面对这种根本性的不兼容,倭国工程师做出了清醒的判断:必须在ASCII之外开辟“第二战场”。
当时,ASCII扩展区(0x80-0xFF)已成为欧洲各国争夺的战场,如果倭国加入这场混战,结果只能是全球范围的乱码加剧。
倭国工程师做出了关键决策:彻底放弃扩展区,将0x80-0xFF留空,所有非ASCII日语字符全部进入全新的“第二世界”。
如何连接原来的ASCII世界和倭国的新世界?倭国从电传打字机的历史中找到了解决方案。
前面文章提到过,ITA2编码通过LTRS/FIGS两个转义符切换文字模式和数字模式。
当时欧洲的ECMA-35标准将这个理念发展为字符集“装载槽”机制,使用ESC字符(十六进制1b,就是原来那个LTRS字符)作为开关,后接字节指示当前字符集。
倭国兼容这套机制创造了独特的切换系统:
只要在字符流中发现三个连续字符:ESC ( B,就切换到ASCII单字节世界,只要发现ESC $ B:切换到JIS X 0208的双字节世界。
ASCII与JIS两个字符世界通过ESC这扇“门”实现自由穿梭。
这种设计的关键在于其动态特性。与后来中国的GB2312、台湾的BIG5等静态双字节编码不同,倭国的JIS编码采用流式处理:
静态编码优势:字符在文件中固定对应字节,支持随机访问,便于数据库索引,编辑器可自由跳转。
动态流式局限:必须使用ESC实现状态切换,字符含义依赖上下文,必须顺序解析全文,难以实现高效索引。
倭国选择的是“通信工程”优先于“文件工程”的路径,这种设计特别适合电子邮件、新闻组和终端通信,却在本地文件处理上存在明显短板。
这一技术路线的选择带来了双重后果:
积极影响:
1. 完全避开了欧洲扩展ASCII的混乱局面
2. 100%保持ASCII兼容性
3. 确保国际通信畅通
4. 倭国邮件系统数十年无乱码问题
5. 完整保存了日语文化传统
消极影响:
1. 本地文件处理复杂
2. 数据库和编辑器开发困难
3. 催生Shift-JIS、EUC-JP等替代方案
4. 最终被Unicode全面取代
尽管如此,倭国创造了东亚编码史上最精巧的解决方案:将本国语言置于“第二战场”,用转义符作为“传送门”,巧妙地避开了西方编码体系的局限。
关键是,倭国借鉴电传时代的“状态切换”哲学,开创了东亚文字数字化的先河,并导致后来中国GB2312、台湾BIG5等静态编码方案的出笼。 December 12, 2025
1RP
@chixichi1014 @Masaaki_NDP @Aktal_Kanji unicodeで変換できます。
𮬆(U+2EB06)
ワカシはネット上で出てくる典拠不明の読み方です。
とこぶし、あわび、ふぐ
といった読み方の用例は見つかっています。
鰒の異体字のような感じですが December 12, 2025
1RP
@ktgi_nsb_ @chixichi1014 @Aktal_Kanji Unicode変換と調査ありがとうございます。
なるほど、典拠不明の読み方なのですね……
Unicodeは盲点でした💦 December 12, 2025
1RP
<ポストの表示について>
本サイトではXの利用規約に沿ってポストを表示させていただいております。ポストの非表示を希望される方はこちらのお問い合わせフォームまでご連絡下さい。こちらのデータはAPIでも販売しております。



