学习PHP&MYSQL之——字符编码篇（一）

OGeek|极客世界-中国程序员成长平台 › 门户 › 编程› PHP›PHP编程经验

原作者: [db:作者] 来自: [db:来源] 收藏邀请

一、字符编码简介

计算机里，只能用二进制码记录文字、图片、图像、声音等媒体，要想将各式各样的媒体映射为简单的二进制编码（媒体 –> 01），就要将很多01根据多种变化的排列组合来表示这些媒体，这些排列组合的方法就成为了编码，文字、图片、声音都存在各式各样的编码。今天学习一下燕十八PHP公益培训课之——字符编码篇。

1、ASCII

最早的编码——ASCII编码，ASCII编码只能表示键盘上（A-Z、a-z、0-9、+-*/&^%）等不超过127个字符。

1个字节有8位，可以表示256个字符，要表示ASCII码只需要7位就够了，所有最高位始终是0。

0000 0000
1111 1111 --> 共256种值

常用汉字3000多，1个字节不能表示，只能用2个字节表示，可以表示65535个字符，表示汉字够用了。

0000 0000 0000 0000
1111 1111 1111 1111 --> 共65535种值

2、GB2312

最早的中文字符集GB2312，GB2312不占用ASCII的0-127，两个字节组合来用，但是这样的组合就少了很多，例如：

1xxx xxxx 1xxx xxxx --> [129 - 255] [129 - 255]
例如：
130 140     97       95      144 233   （分组前）
      ↓          ↓         ↓           ↓
[130 140] [97]     [95]    [144 233]   (分组后)
      ↓          ↓         ↓           ↓
   [汉字]    [字母]   [字母]    [汉字]

GB2312只收录了6763个汉字,基本满足了常用汉字的需求，但有些汉字没有收录。

3、GBK

GBK编码完全兼容GB2312，GBK还是双字节，理论上第2字节不再局限于129-255，如果第1字节大于128,则带下一个字节组成一个汉字，如果第1个小于128，就直接转ASCII。例如：

1xxx xxxx xxxx xxxx -->   [129 - 255][0 - 255]
例如：
133 22    63      199 22     (分组前)
     ↓         ↓           ↓
[133 22] [63]    [199 22]    (分组后)
     ↓         ↓           ↓
[汉字]   [字母]     [汉字]

实际上，GBK的编码方式，有单字节和双字节编码组成，00-7F范围内只占一位，和ASCII保持一致，此范围内阉割上说有96个字符和32个控制符号。之后的双字节中，前一字节是双字节的第一位。总体上说第一字节的范围是81-FE（也就是不含80和FF），第二字节的一部分领域在40-7E，其他领域在80-FE。收录汉字21003个、符号883个、并提供1894个造字码位。

4、Unicode和UTF-8

Unicode是一个世界通用的码表，它占4个字节,包含2³²，共40多亿字符，但常用的集中在前65535个标号里，2个字节就够用了。Unicode只负责分配编号,而且都用4个字节来分配编号,而真正的实现方式成为Unicode转换格式（Unicode Transformation Format，简称为UTF）

例如，如果一个仅包含基本7位ASCII字符的Unicode文件，如果每个字符都使用2字节的原Unicode编码传输，其第一字节的8位始终为0，这造成了较大的浪费。对于这种情况，可以使用UTF-8编码，这是一种变长编码。它根据一定的算法减小浪费，具体实现如下：

Unicode根据一定算法转为UTF-8
例如：
0000 0000 0000 0000 0000 0000 0000 0041 –> A （Unicode）
↓
0000 0041 –> A （UTF-8）

Unicode与UTF-8的关系就像原文件与压缩文件的关系，具体如下：

UCS-4编码	UTF-8字节流
U+00000000 - U+0000007F	0xxxxxxx
U+00000080 - U+000007FF	110xxxxx 10xxxxxx
U+00000800 - U+0000FFFF	1110xxxx 10xxxxxx 10xxxxxx
U+00010000 - U+001FFFFF	11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
U+00200000 - U+03FFFFFF	111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
U+00040000 - U+7FFFFFFF	1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

UTF-8编码是根据第一字节的高位来决定一个字符占几个字节的，基本规律是：

第一字节高位	占用字节数
0	1个字节
11	2个字节
111	3个字节
1111	4个字节
11111	5个字节
111111	6个字节

二、乱码的形成

乱码产生的原因：

解码时与实际编码不一致（可修复）。
传输过程中，编码不一致，导致字节丢失（不可修复）。

1、解码时与实际编码不一致情况

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
 <head>
  <meta http-equiv="Content-Type" content="text/html;charset=utf-8" />

  <!--  当charset为utf-8时，文档又另存为ansi(GBK)格式,网页就会产生乱码  -->！-- --》

  <title>乱码测试</title>
 </head>
 <body>
  测试
 </body>
</html>

2、传输过程中，编码不一致，导致字节丢失（这种情况将在下一篇见到）

鲜花

握手

雷人

路过

鸡蛋

该文章已有0人参与评论

请发表评论

全部评论

专题导读

More+

10-27 六六分期app的软件客服如何联系？(六六分期

11-06 可心卡盟:win10系统火狐flash插件崩溃怎么

11-06 亲亲特价:怎么删除回收站图标

11-06 济南大学虚拟社区:鲁大师节能降温的具体办

11-06 xlueops.exe:无线网络安装向导

11-06 女斗合众国:win7系统cf与主机连接不稳定怎

11-06 0xc000022-[cf烟雾头]cf怎么调烟雾头

11-06 qizideyouhuo:应用程序无法正常启动0xc0000

11-06 ipz-185:win7系统vcf文件怎么打开

11-06 傻哥蹦迪:win10系统s4怎么打开usb调试

11-06 八神浩树gtaste:回收站清空了怎么恢复

11-06 妖尾之黑色守护:win10系统电脑没有1440x900

11-06 校园至尊魔王小说:win7系统浏览网页时字体

11-06 女斗合众国:win10系统访问共享文件夹提示请

11-06 tokyo hot n0654:恢复win7系统默认字体一招

11-06 雨酷仙境:设置win7系统转移临时文件夹腾出

11-06 阿穆纳伊之杖:win7系统开始菜单在右边还原

11-06 tunespotting:win10系统火狐flash插件总是

11-06 甘尔葛分析师：计谋网站seo关键词暴涨有什

11-06 蔡贵霖: 计谋网站seo关键词暴涨有什么秘密

11-06 博益网首页:ao3网页版进入不了解决方法

11-06 漏斗子专栏: 网站数据分析小白易懂精华篇

11-06 见证双虹怎么做:win7系统开启telnet命令的

11-06 颾狐蝶蜋:系统资源不足无法完成请求的服务

11-06 国光中学校歌:提交网站到alexa查询详细步骤

11-06 西安有情天:静态网页和动态网页的区别

11-06 红木雅尚斋:外部链接构造对网站的好处

11-06 前官礼遇：防止域名劫持–增强域安全性的10

11-06 密传二转答案: 中文分词算法有哪些

11-06 金泉家园邮编:百度快照劫持的表现及应对方

php的session与免登陆问题发布时间：2022-07-12

设置让php能够以root权限来执行exec()或者shell_exec()发布时间：2022-07-12

funny mud pee的意思是什么?

1 dphi-official/Machine_Learning_Bootcamp

dphi-official/Machine_Learning_Bootcamp

阅读：683|2022-08-18

2 EmmyLua/VSCode-EmmyLua: Lua IDE/Debugger

EmmyLua/VSCode-EmmyLua: Lua IDE/Debugger Plugin for VSCode

阅读：208|2022-08-16

3 一个方便有用的Delphi数据库操作类(转)

////在长时间的开发工作中,慢慢做了一些类库,下面这个是一个数据库操作类,欢迎大家交

阅读：387|2022-07-18

4 win7系统注册表编辑器打开的操作方法

win7系统电脑使用过程中有不少朋友表示遇到过win7系统注册表编辑器打开的状况，当出现

阅读：346|2022-11-06

5 CVE-2022-35168

Due to improper input sanitization of XML input in SAP Business One - version 10

阅读：412|2022-07-29

6 CVE-2022-33996

Incorrect permission management in Devolutions Server before 2022.2 allows a new

阅读：1528|2022-07-08

7 devinsays/customizer-library: Customizer

devinsays/customizer-library: Customizer Library

阅读：517|2022-08-15

8 tgreyuk/typedoc-plugin-markdown: A plugi

tgreyuk/typedoc-plugin-markdown: A plugin for TypeDoc that enables TypeScript AP

阅读：381|2022-08-18

9 kaniol-lck/modmanager: A Qt-based mod ma

kaniol-lck/modmanager: A Qt-based mod manager for minecraft.

阅读：170|2022-08-17

10 台湾人说什么话，大连话和台湾腔的魔性对比

台湾人的方言是“台湾话”，官方是“国语”，和普通话一样。小编一直觉得，大连话和台

阅读：167|2022-11-06

客服电话

电子邮件

学习PHP&MYSQL之——字符编码篇（一）

一、字符编码简介

1、ASCII

2、GB2312

3、GBK

4、Unicode和UTF-8

二、乱码的形成

请发表评论

全部评论

上一篇：

下一篇：

dphi-official/Machine_Learning_Bootcamp

juven/maven-bash-completion: Maven Bash

win7系统注册表编辑器打开的操作方法

delphi13位时间戳互转

route101/mastoinker: Quick image view as

funny mud pee的意思是什么?

微信小程序点击显示某个view

CVE-2022-2282

shd101wyy/markdown-preview-enhanced: One

WithSecureLabs/drozer: The Leading Secur

apache/maven-changelog-plugin: Apache Ma

关于我们

产品与服务

解决方案

139-2527-9053

客服电话

电子邮件

学习PHP&amp;MYSQL之——字符编码篇（一）

一、字符编码简介

1、ASCII

2、GB2312

3、GBK

4、Unicode和UTF-8

二、乱码的形成

请发表评论

全部评论

上一篇：

下一篇：

dphi-official/Machine_Learning_Bootcamp

juven/maven-bash-completion: Maven Bash

win7系统注册表编辑器打开的操作方法

delphi13位时间戳互转

route101/mastoinker: Quick image view as

funny mud pee的意思是什么?

微信小程序点击显示某个view

CVE-2022-2282

shd101wyy/markdown-preview-enhanced: One

WithSecureLabs/drozer: The Leading Secur

apache/maven-changelog-plugin: Apache Ma

关于我们

产品与服务

解决方案

139-2527-9053

学习PHP&MYSQL之——字符编码篇（一）