如何写出扩展性良好的前端代码(揭秘前端字符的戏精之路)
如何写出扩展性良好的前端代码(揭秘前端字符的戏精之路)
2024-11-22 06:49:05  作者:尔等平身  网址:https://m.xinb2b.cn/tech/gir493506.html


前言

编码,是每个程序员绕不开的话题。对于前端工程师而言,字符更是会直观地展示在界面上。

提起文字,大部分人的脑中,都会定式为规整排列的字符。但是林子大了什么鸟都有,世界上可是存在着6800 种文字,难免会飞出来一些诡异的鸟…

而号称“万国码”的Unicode,在实现编码与展示的时候,也会不会遇到一些奇葩的事情呢?

事实上,可能你早已见识过了:

x̙͈̝͍͕̙̄͛̽̆͌́̕͟g̘̣̠̝̟̤̥̼̼̽͑͋̈̑̒͟͞q̛̤̦̝̘͎͋̔̋͌͒̆̋̚͡f̵̢̙͇̮̠̋̀͌̅̉̃̔͜͜͠͡r̢̜̩͙̭̲͓͈̈̀͑̆͋̚͢͜m̷̛͙̝̣̲̭͍͉̊̓̾̈̋̿̚͢͟͠s̷̡̩͔̮͈̜̊̽͂̆̈́̃̓͋̏

热҈的҈字҈都҈出҈汗҈了҈

你的屏幕被蓝翔挖掘机给挖坏了不信你看;̷̸̨̀͒̏̃ͦ̈́̾̀́̎͢҉̵̶͚̼͉͖̺̥͔͇̰̹̮͙͉̻̼̭̻͕̮͇ͨͬͪ͗̇̑̽͋̀̋̊͌ͧͨͭ̓̅͐ͥ̂̔̊ͧ͊҉̶̵̷̞̩̦̳̺̳̬̬̩̣̫͇̯̥͖͍͕̠̦̼̗ͯ̽͌̔ͪͯ́́͋̍ͨ̿̿̎͒ͤ̓̅̀͂ͧ͋̏ͫͣ̔͘͜͠͏̶̵̸̧̧̥̺͓̘̺͎̜̥͕͈̝̫͎̺̮̱̤̠̠͖̳̻̥̣̪͍͕͇̮͙̹̪ͮͧͫ͂͒ͤͣ̌̽ͨͪ͒̄̄̉̒̊ͩ̅͆͘̚͘͘̚͟͟͝ͅ

今天我们就来探讨一下这些奇怪的字符。

一、文字可以戴帽子和穿鞋子

提起泰文,很多朋友都会立即想到:萨瓦迪卡(你好)。

但这句话是怎么写的呢?

其实这句你好,男生和女生之间还有差异,男生写法是:สวัสดีครับ,女生则是:สวัสดีค่ะ

不过这并不重要,重要的是,我们发现某些字的上面,还带了特殊的符号。就好像是戴上了帽子。

事实上,泰文字符不仅会“戴帽子”,偶尔还会“穿鞋子”。

比如下面三个字符:ผ ผู ผู้

如果脑洞再大一点,有人就会想,那是不是还可以戴多顶帽子呢?

的确如此…泰文允许你穿一双鞋子,并且戴两顶帽子。完整的形式是这样的:


所以,平时看惯了中英文的我们,需要改变一下思路了。

世界上的文字,并不全是规规整整横向排列的格子,也存在像泰文这种变形金刚组合式的文字。

虽然标准的泰文里,“帽子”和“鞋子”的数量是有限制的,但由于国际码的迷之设计(先卖个关子),在计算机里显示的泰文字符,却可以拥有无数的帽子和鞋子。也就是说,它变成了一款可以在Y轴无限拓展的文字!

并且,咱不光可以往上喷,还可以有一定角度…



还可以


,简直是不讲道理。

(由于一些系统会崩溃,这里使用截图)

二、人与机器的矛盾

然后我们会质问Unicode,你为何不讲道理?

如此的设计,近乎是一个bug;但即使是bug,也应该早就修复了呀。

事实上,这样的设计,是为了解决一个问题:人与机器的矛盾。

首先是存储的矛盾。

如果把每个组合好的泰文用一个编码来表示,那么至少需要44×21×4=3696个编码(实际上可能要比这还多)。用如此多的编码来处理基本元素只有69个的文字是非常浪费的,因此电脑采用一套称为复杂文字编排(CTL)的设计来解决矛盾。

简单的说,泰文的每个基本字符对应一个编码,用户在输入法里依次输入多个基本字符进行拼合,最后敲一个特殊的“结束字符”;这时前面输入的基本字符,就拼合成了一个单独的泰文字符,在屏幕中显示。 这样就解决了存储的空间浪费问题。

但这样就带来了第二个矛盾,识别的问题。

人可以轻松地识别一个泰文合字是否拼写正确、有意义;但机器在显示时却很难进行判断,即使可以也会带来相应的性能问题。

如何解决呢?如今会在输入法上做一些文章,比如打一个声调符号后就不能再输入了。不过,由于泰文这种基于结束标志合成字符的本质,你还是没法避免“艺术家”们使用复制粘贴、手工撰改字符位置等方式去进行创造,只能起到一些限制作用。

其次,在比较新版本的Webkit里,在显示上会阻止这种往上下冒的字符,这样至少不影响排版。所以有部分字符已经不会出现上下叠加的情形了,你可以在不同浏览器,观察一下这个字符的显示:ส็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็

三、萌即正义的颜文字 (ง •̀_•́)ง

也许你觉得泰文奇葩,但它的声调就在文字里,看到就能准确地读出来。这样更容易传播,是不是也没了你读文言文要查字典的烦恼呢?所以文字的设计各有优劣。

这样的设计不止泰文,它只是一个典型的例子。除此之外常见的还有老挝文、藏文。

脑洞大开的艺术家们,又会想到另外一个好玩的事情:我能不能拿老挝文的“帽子”,组合“藏文”的鞋子,合成一个独立的字符呢?

他们赢了。不久,颜文字开始流行。

比如,这个表情:(;´༎ຶД༎ຶ`)

里面有眼睛流泪的一个字符:༎ຶ

它是什么语言呢?

事实上,它并不属于世界上任何一种语言!眼睛部分是老挝文,泪水部分属于藏文。

但是,你在复制它的时候,可以发现它却是一个单独的字符,这就非常的神奇。原因我们在第二部分已经讲过了。

我是如何知道的呢?当然我并不是个语言学家,我们可以转码一下,发现༎ຶ对应的编码是\u0f0e\u0eb6,再到 unicode-table 里去查看就清楚了。

除此之外——

▷ˋε´◁ 中 ε 是希腊字母

ʕ-'ᴥ’-ʔ 中 ʕᴥʔ 是国际音标

(·ཀ·」∠) 中 ཀ 是藏文

(ง •̀_•́ )ง 中 ง 是泰文

罒 д 罒 中 罒 是中文(同网),д 是俄语西里尔字母

看来如果你会发颜文字,就是名副其实的会“十八国语言”了呢 (๑✦ˑ̫✦)✧

四、字体的错位

前面我们一直在谈字符的本质,但字符在屏幕中的展示,还有一个关键的因素:字体。

相同的字符,使用了不同的字体,它们的显示也会有差别。

一行中文,你设置“黑体”或“草书”,它大体来看还是规整的;

但如果你设置一行英文为“草书”,可能就会有问题。

在浏览器里,如果对应编码在字体文件里为空,一般会展示成一个方格,起码不会影响其他正常字符的排版。但我们知道,Unicode的林子实在太大了…

在某些字体里,就会对一些特殊的字符产生错误的排版。

比如:热҈的҈字҈都҈出҈汗҈了҈

把它转义一下,就得到编码是: \u70ed\u0488\u7684\u0488\u5b57\u0488\u90fd\u0488\u51fa\u0488\u6c57\u0488\u4e86\u0488

其中0488就是҈这个字符的编码,它是一个组合用的西里尔文百千符号。

它在大部分常用字体里,都有错位问题;而其他一些字体,比如 Courier New 字体,则是分开的展示:


那么,这两种展示哪种才是正常的呢?其实都不正常。

我们查看西里尔文计数法的wiki,可以看到它只有配合西里尔数字时,才能展示正常:


至于你把它跟其他语言组合在一起时,我们要么看到错位,要么看到分离的展示。而且国际上并没有一个组织,去规定要怎么展示。事实上文字这么多,根本也管不过来,所以这也是混乱的原因。

最后补充一点,另外一小撮别有心裁的艺术家,还习惯使用这个字符去突破敏感词过滤…

五、混乱与创新?

值得一提的是,Unicode是不可阻挡的潮流,它也一直在更新。比如我们常用的Emoji表情,就已经是Unicode的标准字符集。

而前面我们说到,大家在玩这些奇奇怪怪的字符时,都是基于“类似bug”的设定在搞事情。这就有很大的局限性。

那“艺术家”们又会有些大胆的想法:我能不能主动创造一些新字符,就是为了错位和组合呢?

我也不清楚这是创新,还是会带来更多的混乱。但事实是,iOS系统自带的字符,已经有这样的尝试了。并且搜狗输入法在iOS系统提供的诸多符号里,挑选了一些,可供用户去使用。这个功能的名字,叫做花漾字。


还是得感慨艺术家们的视角是多么独特。

既然都这样了…最后,希望我们的国产表情包能有朝一日打入Unicode吧。


免责声明:转载自网络 不用于商业宣传 版权归原作者所有 侵权删

  • 中华v3值得入手吗(曾经月销近两万的爆款)
  • 2024-11-22曾经月销近两万的爆款汽车销量有起有伏,再正常不过不过小编最近发现有一台国产小型SUV,销量起伏有点太诡异自2015年上市以来,销量一路走高,最高单月曾经卖出1.88万辆,可以称得上是爆款但所谓爬得越高,摔得越疼,没想到这。
  • 十七岁写给十八岁自己的一封信(给18岁自己的一封信)
  • 2024-11-22给18岁自己的一封信时间过得很快嘛,我已经来到这个世界的第18个春夏秋冬了回想过去的18年,像电影一样在脑海中放映不管怎么样,先祝自己生日快乐吧!18这个数字的意义还蛮不同的,代表着我已经成年了,也要对自己的人生负责了✅。
  • 上海2824机芯怎样(2824机芯价格和误差)
  • 2024-11-222824机芯价格和误差通常刚接触机械表的表友,最早认识或使用到的机芯不外乎ETA的2824机芯与精工的7S26机芯其中ETA2824机芯有着不错的性能,下面就为大家详细介绍2824机芯2824机芯价格2824是ETA三大著。
  • 普陀山风景名胜区3日游(99元连云港4A孔望山)
  • 2024-11-2299元连云港4A孔望山团期价格10月13/20/27日发团仅此三班!!!99元/人1.2米以下199元(只含车费导服)超值赠送成人报名即送白酒一瓶!!上车地点章丘千禧龙大酒店咨询热线13127138177孔望山★★★因孔子。
  • 睡眠不好需要注意什么(睡眠不好应该注意哪些)
  • 2024-11-22睡眠不好应该注意哪些睡眠不好应该注意不要熬夜,要养成良好作息习惯,早睡早起,睡觉前避免喝浓茶、咖啡等饮品,睡觉时不要胡思乱想平时要劳逸结合,避免过度劳累要注意保持心情愉悦和心态乐观,避免思想压力过大和思虑过度;保证营养均。
  • 事业单位公益岗位是什么(公益岗位和事业单位的岗位有什么不同)
  • 2024-11-22公益岗位和事业单位的岗位有什么不同我们的公益性岗位和事业单位的岗位差别非常大最直观的说公益性岗位一般是大爷大妈们干的活,工资待遇仅仅是最低保障他们的目的是熬到退休,并不追求有更多的职业发展而我们的事业单位岗位都是要对外公开招考,工资待。
  • mfg办公系统(MFG发布四大平台升级企业服务)
  • 2024-11-22MFG发布四大平台升级企业服务市场环境的不确定性叠加新冠疫情的冲击,2022年对于不少企业而言,无疑是充满挑战的一年降本、增效的需求凸显,企业对办公室的选择变得前所未有的谨慎无论是近年来快速发展的互联网、智能制造领域,还是金融、律。
  • 苹果翻新机和组装机有什么区别(iPhone全新机官换机翻新机)
  • 2024-11-22iPhone全新机官换机翻新机我们在购买苹果手机的时候,也未必需要购买官方的,我们可以通过其他渠道也可以购买,比官方的便宜很多例如说未拆封、拆封、激活或者未激活、卡贴机、有锁机、裸机、组装机等等其中除山寨机和组装机之外,其它的仍然。
  • 最新5g订单公告(牵百业促新机F5G和5G有何不同)
  • 2024-11-22牵百业促新机F5G和5G有何不同央广网北京11月3日消息据中央广播电视总台中国之声《新闻超链接》报道,最近,第十八届“中国光谷”国际光电子博览会暨论坛(以下简称光博会)落下帷幕其中,光通信F5G成为了一个热门话题作为国内首个聚焦F5。
  • 白族主要分布在哪个省(白族主要分布在什么省)
  • 2024-11-22白族主要分布在什么省白族是中国第15大少数民族,主要分布在云南、贵州、湖南等省,其中以云南省的白族人口最多,主要聚居在云南省大理白族自治州此外四川省、重庆市等地也有分布白族有本民族语言,白语属汉藏语系藏缅语族彝语支汉文自。
  • 遇到性骚扰我怎么办(我被性骚扰了)
  • 2024-11-22我被性骚扰了>>>点击“我被性骚扰了!”阅读原文你有经历过性骚扰吗?不知道为什么很多女孩都有相类似的经历,不论年龄相貌特别是近几年尤为严重,不知道为什么关于发生性侵事件的新闻越来越多,我被性侵这。