“手持两把锟斤拷，口中疾呼烫烫烫”是什么梗

2024-04-28 12:54:27 来源：163健康

浏览量:

不熟悉编程语言的童鞋可能会说，标题什么鬼？

懂的童鞋大概会抱着看热闹的心态点开文章：难道互联网也乱码了？

没错，标题上让人感觉摸不到头脑的“锟斤拷”和“烫烫烫”都是常见的乱码问题。

有时还会出现“屯屯屯屯屯屯”

这些问题基本上源于字符集之间的转换时出的差错。锟斤拷乱码：源于GBK字符集和Unicode字符集之间的转换问题。Unicode和老编码体系的转化过程中，肯定有一些字，用Unicode是没法表示的，Unicode官方用了一个占位符来表示这些文字，这就是：U+FFFD REPLACEMENT CHARACTER。那么U+FFFD的UTF-8编码出来，恰好是 '\xef\xbf\xbd'。如果这个'\xef\xbf\xbd'，重复多次，例如 '\xef\xbf\xbd\xef\xbf\xbd'，然后放到GBK/CP936/GB2312/GB18030的环境中显示的话，一个汉字2个字节，最终的结果就是：锟斤拷——锟(0xEFBF)，斤（0xBDEF），拷（0xBFBD）。

烫烫烫乱码：

在windows平台下，ms的编译器（也就是vc带的那个）在 Debug 模式下，会把未初始化的栈内存全部填成 0xcc，用字符串来看就是"烫烫烫烫烫烫烫"，未初始化的堆内存全部填成0xcd，字符串看就是“屯屯屯屯屯屯屯屯”。也就是说出现了烫烫烫，赶紧检查初始化吧……

下面给大家介绍常见的字符编码

大家知道，计算机只认识0和1，那么如何让计算机理解我们文字呢？为了解决这个问题，人们就想如果将这些文字赋予特定的编号，然后将编号转化为二进制，计算机就能读懂这些符号，同时通过这些编号，计算机也能够将二进制转化为编号对应的字符再显示给人类去阅读，字符编码就诞生了，本文将为大家介绍常见的字符编码。ASCII

如何让人类语言，比如英文被计算机理解？ASCII诞生，ASCII码使用指定的7位或8位二进制数组合来表示128或256种可能的字符。标准ASCII 码也叫基础ASCII码，使用7 位二进制数（剩下的1位二进制为0）来表示所有的大写和小写字母，数字0 到9、标点符号，以及在美式英语中使用的特殊控制字符。其中：0～31及127(共33个)是控制字符或通信专用字符（其余为可显示字符）。

32～126(共95个)是字符(32是空格），其中48～57为0到9十个阿拉伯数字。

65～90为26个大写英文字母。97～122号为26个小写英文字母，其余为一些标点符号、运算符号等。

后128个称为扩展ASCII码。许多基于x86的系统都支持使用扩展（或“高”）ASCII。扩展ASCII 码允许将每个字符的第8 位用于确定附加的128 个特殊符号字符、外来语字母和图形符号。

GB2312

虽然ASCII码能够解决英文问题，但是中国人也需要用计算机，这时ASII明显不能解决这个问题，于是中国国家标准总局在1980年发布《信息交换用汉字编码字符集》提出了GB2312编码，用于解决汉字处理的问题，1995年又颁布了《汉字编码扩展规范》（GBK）。GBK与GB 2312—1980国家标准所对应的内码标准兼容，同时在字汇一级支持ISO/IEC10646—1和GB 13000—1的全部中、日、韩（CJK）汉字，共计20902字。这样我们就解决了计算机处理汉字的问题了。

Unicode

全球有那么多的国家不仅有英文、中文还有阿拉伯语、西班牙语、日语、韩语等等。难不成每种语言都做一种编码？基于这种情况一种新的编码诞生了：Unicode。Unicode又被称为统一码、万国码；不管你使用的是英文或者中文，日语或者韩语，在Unicode编码中都有收录，且对应唯一的二进制编码。

UTF8

由于Unicode收录了更多的字符，它的解析效率也要大大降低。这时，就出现了一些中间格式的字符集，称为通用转换格式，即UTF（Unicode Transformation Format），最常用的就是UTF-8，我们不去研究UTF-8到底是如何提高效率的，你只需要知道他们之间的关系即可。

总结：

1.为了处理英文字符，产生了ASCII码。2.为了处理中文字符，产生了GB2312。3.为了处理各国字符，产生了Unicode。4.为了提高Unicode存储和传输性能，产生了UTF-8

今天的小课堂就到这里啦，喜欢我们的话就点关注哦

兴趣驱动学习，让学习成为一种习惯

“手持两把锟斤拷，口中疾呼烫烫烫”是什么梗

联系我们

随机看看

热门文章