HTTP 看这一篇就够

HTTP 看这一篇就够1. http的发展史
在学习网络之前,了解它的历史能够帮助我们明白为何它会发展为如今这个样子,引发探究网络的兴趣。下面的这张图片就展示了“互联网”诞生至今的发展历程。 2. http是什

1. http的发展史

在学习网络之前,了解它们的历史将帮助您理解它们为何演化成今天的样子,并增加您探索它们的兴趣。下图展示了互联网自诞生以来的发展历程。

2. http是什么?

HyperTextTransferProtocol 字面意思是“超文本传输协议”。

超文本:指文本、图像、视频、音频等的混合体,最常见的是HTML。发送:http是一种“双向协议”,在请求者和响应者之间发送数据,并且不限制请求者和响应者之间的角色。发送过程中可能存在“中间人”。协议:协议是两个或多个参与者之间的通信,协议是指参与者之间的协议和规范。因此http协议可以理解为在计算机之间工作,使用计算机理解的语言来建立计算机之间通信的规范,以及各种相关的控制和错误处理方法。

因此,上述问题可以概括为: HTTP 是用于在计算机世界中的两点之间传输超文本数据(例如文本、图像、音频和视频)的约定和规范。

3. 与http相关的一些概念

浏览器(Web浏览器):浏览器本质上是一个http请求者,使用http协议来获取网络上的各种资源。在HTTP协议中,浏览器的角色被称为“用户代理”。这意味着它充当访问者发起HTTP请求的“代理”。下图展示了一些主流浏览器及其内核。

服务器(网络服务器):硬件是指物理或“云”形式的机器。软件Web 服务器是提供Web 服务的应用程序,通常运行在硬件服务器上。它利用强大的硬件能力来响应大量的客户端HTTP请求并返回动态信息。常见的Web 服务器包括Apache 和Nginx。

CDN(Content Delivery Network):CDN是为了解决长途网络访问速度慢的问题而诞生的网络应用服务。正式名称是“内容分发网络”。 CDN的核心原理是“邻域访问”。利用HTTP协议中的代理和缓存技术,可以让用户在上网时通过访问最近的CDN节点而不是直接访问原始网站,从而节省访问过程中的时间。 费用。 (负载平衡、安全、边缘计算)。

爬虫:一种应用程序,是一种“机器人”形式的用户代理,可以自动访问Web 资源。

HTML(超文本标记语言):超文本标记语言。它用于编写超文本页面,使用标签来定义图像、文本和布局,最终由浏览器呈现。

Web 服务:W3C 定义的使用客户端/服务器主/从架构开发应用程序服务的规范。它是一种基于Web(HTTP)的服务架构技术。

WAF:Web应用程序防火墙是一种位于Web服务器前端的技术,专门检测http流量以保护Web应用程序的安全。它可以防止SQL注入、跨站脚本攻击,并与Apache或Nginx完全集成。

TCP/IP:以TCP和IP协议为中心的一系列网络通信协议的总称。其他包括UDP、ICMP 和ARP,它们共同构成了一个复杂但分层的协议栈。 IP(Internet Protocol)协议主要解决寻址和路由问题以及如何在两点之间发送数据包。 TCP(Transmission Control Protocol)协议全称“传输控制协议”,位于IP协议之上,在IP协议的基础上提供可靠的字节流通信,是HTTP协议实现的基础。 Internet 上的HTTP 协议运行在TCP/IP 之上,因此HTTP 正确地称为“TCP/IP 上的HTTP”。

DNS(域名系统):使用有意义的名称作为IP 地址的等效替代项的域名系统。在DNS 中,“域名”也称为“主机”。域名由“.”分隔成多个单词,从左到右级别递增的称为“顶级域名”。然而,使用TCP/IP协议进行通信时,仍然需要使用IP地址,因此必须将域名转换并“映射”到真实的IP。这就是所谓的“域名”。 “解决”。

URI/URL:URI(统一资源标识符)中文名为统一资源标识符。 DNS和IP地址仅标记Internet上的主机,而URI可以唯一地标记Internet上的资源。另一种更常用的URI 形式是统一资源定位符(URL),也称为“网站地址”,它实际上是URI 的子集,通常不严格区分。

URI 主要由三个基本部分组成。

协议名称:用于访问资源的协议。 主机名:互联网上主机的标记。域名或IP地址。主机上的资源。使用“/”分隔多层目录。

HTTPS:正式名称为“HTTP over SSL/TLS”,是HTTP over SSL/TLS 协议。它是建立在TCP/IP之上的处理加密通信的安全协议,是一种高度可靠的通信协议,也可以作为HTTP的下层,相当于“HTTP+SSL/TLS+TCP/IP”。

代理:是HTTP协议中请求者和响应者之间的链路,充当“中继站”并且能够转发客户端请求和服务器响应。

代理的类型有很多种,但常见的有:

匿名代理:完全“隐藏”代理机器,只留下代理服务器对外界可见。 透明代理:顾名思义,在发送过程中是“透明、公开”的,外界都知道代理服务器和代理服务器。客户端;正向代理:靠近客户端,代表客户端向服务器发送请求。 反向代理:靠近服务器,代表服务器响应客户端请求。

4.网络的分层模型

网络分层模型中的级别从下到上编号。一般来说,我们经常看到的TCP/IP的四层模型是较早的分层模型。

第一层是链路层,负责在底层网络上传输原始数据包,它运行在网卡级别,使用MAC地址来标记网络上的设备,因此分为两层:有时叫。它对应于ISO模型的“数据链路层”。第二层称为互联网层,IP 协议驻留在这一层。 IP协议定义了“IP地址”的概念,因此如果想要找到这个网络中的设备,只需将IP地址转换为MAC,并根据“链接”使用IP地址代替MAC地址即可。层”。地址可以使用。地址。对应ISO模型的“网络层”。第三层称为“传输层”,该层协议的作用是在标有IP 地址的两点之间可靠地发送数据。这是TCP 和UDP 协议工作的层。对应于ISO模型的“传输层”。第四层称为“应用层”,接下来的三层为不同的协议为特定的应用绽放奠定了良好的基础。例如Telnet、SSH、FTP、SMTP,当然还有HTTP。它对应于ISO模型中的“会话层”、“表示层”和“应用层”。

当您使用TCP/IP 协议套件进行网络通信时,您按照分层顺序与通信伙伴进行通信:发送方从应用层向下,接收方从应用层向上。

5.域名

域名具有层次结构,由多个单词组成,以“.”分隔,最右边为“顶级域名”,后面为“二级域名”,以此类推。当您向左移动时,它会减小。最左边是主机名,通常用于指示主机的用途。例如,“www”指提供万维网服务,“mail”指提供电子邮件服务,但这并不是绝对的。

以下示例可帮助您理解协议、主机和域名之间的层次关系。域名与人名相似,因此易于记忆非常重要。域名除了识别身份外,还可以替代IP地址。

6.DNS

虽然我们经常使用域名来访问网站,但IP实际上是在网络搜索项目中用来查找资源的。域名必须解析为IP 地址才能成功检索资源。 DNS 是用于将域名更改为IP 地址的协议。

DNS的核心系统是一个三层的、树状的分布式服务,本质上对应于域名的结构。

根DNS服务器:管理顶级域名服务器,返回“com”、“net”、“cn”等顶级域名服务器的IP地址。 顶级DNS服务器:管理各自域名下的权限。域名服务器,例如cn顶级域名服务器,可以返回http://123.cn域名服务器的IP地址。权威域名服务器(权威DNS服务器):管理自己域下主机的IP地址。如果您指定一个名称,例如http://123.cn,权威域名服务器可以返回http://www.123。

尽管DNS服务在全球范围内广泛普及,并且服务的功能非常强大,但该服务被世界各地的互联网用户使用,这给服务器带来了很大的负载。除了核心的DNS系统之外,还有两种方法可以用来减轻域名解析的负载,更快地获取结果,其基本思想就是“缓存”。

DNS解析结果可以存储在大公司自己的DNS服务器上或者操作系统的缓存或hosts文件中。许多域名解析任务可以在本地或直接在您的计算机上解析,无需向根DNS 服务器发出请求。这样不仅方便,还减少了用户数量,减轻了各级DNS服务器的压力,大大提高了效率。

您可以根据域名和DNS服务器实现重定向。域名代替了IP地址,因此您可以保持外部域名不变,并根据需要更改主机IP。如果您需要使主机脱机或迁移它,您可以更改DNS 记录以将您的域名指向另一台计算机。

我们都听说过负载平衡。 DNS可以在域名解析阶段进行负载均衡操作。

第一种方式是域名解析可以返回多个IP地址,因此客户端收到多个IP地址后,采用轮询算法按顺序向服务器发起请求,可以实现分散化。第二种方法可以通过配置内部策略,使域名解析返回距离客户端最近的主机,或者当前服务质量最高的主机,从而将请求发送到DNS端的不同服务器上即可实现。通过将数据分布到负载均衡

7.HTTP/1.X

如前所述,HTTP 是一种“超文本传输协议”,是用于在计算机世界中的两点之间传输文本、图像、音频和视频等超文本数据的约定和规范。研究了网络的分层模型后,我们还了解到HTTP是一个应用层协议。此链接正式深入HTTP 世界(基于http/1.1)。

HTTP报文

HTTP 协议请求和响应消息的结构基本相同,由三部分组成:

Start line(起始行):描述请求或响应的基本信息。报头字段集(Header): 消息正文(Entity):用于详细说明正在发送的实际数据。它不一定是纯文本,也可以是二进制数据,例如照片或视频。

请求行

请求行通常用于描述客户端想要如何操作服务器的资源,并且通常由三部分组成。它们通常用空格分隔,并需要使用CRLF 来表示结束。

状态行

状态行通常用于描述服务器对客户端请求的响应状态,通常由三部分组成。

头部字段

请求或状态行以及一组标头字段构成了HTTP 消息中完整的请求或响应标头。除了起始行之外,请求和响应标头的结构本质上是相同的。 HTTP 标头字段非常灵活,允许您使用现有标头(例如标准Host 和Connection),以及自由添加自定义标头。但是,在使用标头字段时,应记住以下几点:

例如,字段名称不区分大小写。例如,“Host”也可以写成“host”,但为了便于阅读,第一个字母要大写。字段名称中不允许有空格,但允许使用连字符(-)。但是,不允许使用下划线。例如,“test-name”是合法的字段名称,但“test name”和“test_name”是不正确的字段名称。字段名称后面必须跟“:”(中间不能有空格),并且“:”后面必须跟字段值。字段前面可以有多个空格。字段顺序没有意义,可以任意放置,不影响语义。作为一般规则,除非字段自身的语义允许(例如在Set-Cookie 中),否则字段不能重复。

HTTP请求方法

目前,HTTP/1.1规定了八种方法,并要求单词大写。我们来看看这些方法。

GET:检索资源,理解为读取或下载数据。 POST:向资源发送数据,相当于写入或上传数据。 CONNECT:创建特殊的连接隧道。选项:列出可以在资源上执行的方法。 TRACE:跟踪请求和响应的传输路径。

这些是一些最常用的方法,应该仔细研究。

拿到它然后走

GET 适用于从服务器请求资源,通常通过URL 传输数据。 HEAD 就像GET 请求的简化版本;当服务器收到HEAD 请求时,它只返回响应标头。响应标头与GET 完全相同。

发布和放置

POST 适合向服务器发送数据,通常表示“创建”,PUT 也可以向服务器发送数据,表示“更新”。

GET 和POST 之间的区别

在这里,我想详细写一下GET和POST的区别,这是一个特别常见的问题。以下是我个人的理解

1.大小:GET一般是在URL中嵌入数据,POST是在body中嵌入数据(这是RFC的语义要求;语法上,GET也可以带body发送数据),POST也可以在URL中放入参数)。因此,由于浏览器对URL长度的限制,GET请求中可以传输的数据大小通常不会超过2KB。请注意,Chrome 浏览器URL 长度限制已增加至2MB。但是,出于兼容性原因,URL 长度应基于浏览器最大限制的最小值(IE 浏览器限制为2KB)。除了限制之外,您还应该考虑服务器端限制。

2、安全性:安全性是指请求方式是否影响服务器内部的资源。 GET 方法是只读的,因此除非服务器“误解”客户端的请求,否则服务器上的数据是安全的。 POST 并不安全,因为它在服务器端添加、删除和更改数据。

3.幂等性:幂等性是指一个操作可以重复多次而得到相同的结果。显然,GET方法是幂等的,因为它只对服务器上的资源执行只读操作。 RFC中POST的定义是“追加或发送数据”,不是幂等的,因为多次发送数据会创建多个资源(PUT是“替换或更新数据”,不是幂等的,因为多次发送数据会创建多个资源)。是幂等的,因为它会更新多次)。这样的)。

4. Cache:表示该方法的可缓存性。大多数浏览器实现仅支持GET 缓存。因为GET是读,所以GET请求的数据可以被缓存。 POST 不是幂等的。即不能任意执行多次。因此,它无法被缓存。

URI是什么

URI。统一资源标识符。由于它经常出现在浏览器的地址栏中,因此通常称为“网络地址”,简称为“网站地址”。 URI 与URL 并不完全相同。它包含两部分:URL和URN。 HTTP世界中使用的URL实际上是URL——。然而,由于URL 如此普遍,因此两者通常被简单地认为是等效的。

URI 本质上是一个唯一标记资源位置或名称的字符串。

上图是完整的URI。让我们仔细看看它的结构。

方案协议名称指示应使用哪个协议来访问资源。最常见的当然是“http”,意思是使用HTTP协议。还有“https”。这意味着使用安全、加密的HTTPS 协议。此外,还有一些不太常见的方案,例如ftp、ldap、file 和news。

://方案后面的分隔符必须是三个特定字符“://”,用于将该方案与后续部分分隔开。它没有任何特殊意义。

user:passwd@ ID信息代表登录主机时的用户名和密码。但是,不再建议使用这种格式,因为它会以明文形式暴露敏感信息并带来重大安全风险。

host:port hostname 表示资源所在主机名。通常的格式是“host:port”,即主机名加端口号。

路径表示资源的位置,其表达方式类似于文件系统“目录”,通常以“/”开头。

查询参数以“?”开头,但不包含“?”以指示资源的其他要求。该路径是多个“key=value”字符串。这些字符串通过字符“”连接。浏览器和服务器都可以根据这种格式将长串查询参数解析为有意义的字典或关联数组。

#fragment 片段标识符。这是由URI 标识的资源中的“锚点”,允许您在检索资源后直接跳转到浏览器指向您的位置。然而,片段标识符只能由客户端(例如浏览器)使用,并且对服务器不可见。

URI 中只能使用ASCII 代码。对ASCII 码和特殊字符以外的字符集进行特殊操作,将其转换为与URI 语义不冲突的格式。这在RFC 规范中称为“escape”和“unescape”,通常称为“escape”。 URI 转义的规则有点“简单粗暴”,但是将任何非ASCII 代码或特殊字符直接转换为十六进制字节值,并在前面加上“%”。

状态码

在HTTP 消息部分,我们讨论了HTTP 状态行。在本节中,我们将查看状态行中的状态代码。

状态码是十进制数,RFC标准将状态码分为五类。因此,状态码的实际可用范围是0到99,未使用。状态代码将在100 到599 之间。这五类的具体含义如下:

1:当前协议处理处于中间状态,需要进一步操作的提示信息。 2:成功,消息已成功接收并处理。 3:重定向,资源位置改变。客户端必须重新发送请求。 4:客户端错误,服务器无法处理请求,因为请求消息不正确。 5:Server Error,服务器处理请求时发生内部错误。

1

1 状态码是提示信息,是协议处理的中间状态。实际中很少使用。

当在POST 请求中向服务器发送大文件并询问服务器是否可以接受时,使用“100 Continue”。您必须在请求标头中包含Expect: 100-Continue。这个过程也是POST一词的由来,POST向服务器发送两个TCP数据包。但是,如果客户端在一定时间内没有收到否定响应,则不必等待服务器的响应。数据主体仍传输至服务器。

2

2状态码表示服务器收到客户端的请求并成功处理。这也是客户最想知道的状态码。

“200 OK”是最常见的成功状态代码,表示一切正常并且服务器返回了客户端所期望的内容。对于非HEAD 请求,响应头后面通常有正文数据。

“204 No Content”也是一个非常常见的成功状态代码。其含义与“200 OK”基本相同,但响应头后面没有正文数据。因此,Web服务器必须正确区分200和204。

“206 Partial Content”是HTTP 分块下载或可断点下载的基础。当客户端发送“范围请求”以检索资源的部分数据时出现。服务器已成功处理您的请求。正文其中的数据是资源的一部分,但不是全部。状态代码206 通常伴随着标头字段Content-Range。表示响应消息中的body数据的具体范围,供客户端检查,如“Content-Range: bytes 0-99/2000”。这次我们得到的是总共2000 个字节中的前100 个字节。

3

3状态码表示客户端请求的资源发生了变化,客户端必须重新提交请求才能以新的URI获取资源。这就是俗称的“重定向”,包括著名的301和302跳转。

“301 永久移动”通常称为“永久重定向”,意味着所请求的资源不再存在,必须使用新的URI 再次访问。

描述性短语“302 Found”以前称为“临时移动”,通常称为“临时重定向”。这意味着请求的资源仍然存在,但需要使用不同的URI 临时访问。

“304 Not Modified”是一个有趣的状态码,用于If-Modified-Since等条件请求,表明资源未被修改,并用于缓存控制。这没有通常的跳转含义,而是可以理解为“重定向缓存文件”(即“缓存重定向”)。

4

4状态码表示客户端发送的请求消息不正确,服务器无法处理。这就是“错误代码”的真正含义。

“400 Bad Request”是一个通用错误代码,表示请求消息中存在错误;状态代码没有明确的含义。

“403 Forbidden”实际上并不是客户端请求中的错误,它只是意味着服务器禁止您访问该资源。

“404 Not Found”本质上意味着在该服务器上找不到该资源,无法提供给客户端。但现在只要服务器“不健康”,它就会返回404,并且无法知道它是否真的没有找到或是否有其他原因。如果比403还好那就更烦人了。

5

5状态码表示客户端的请求消息是正确的,但服务器在处理过程中遇到内部错误,无法返回适当的响应数据。这是服务器端的“错误代码”。

“500 Internal Server Error”与400类似,并不会告诉您服务器上发生了什么错误。然而,这对于服务器来说可能是一件好事。通常,内部服务器详细信息(例如错误函数调用堆栈)不应与外界通信。它无助于调试,但可以防止黑客窥探和分析。

“501 Not Implemented”表示尚不支持客户端请求的功能。此错误代码比500“更温和”。这与“请稍候,我们很快就会开业”几乎相同,但很难说具体时间。它“打开”。

“502 Bad Gateway”是服务器作为网关或代理时通常返回的错误代码,意味着服务器本身工作正常,但在访问后端服务器时出现错误,但具体错误原因如下。如下:未知。

“503服务不可用”表示服务器当前正忙,暂时无法响应服务。上网时有时会遇到的“网络服务正忙,请稍后重试”的提示信息就是状态码503。在“暂时”状态下,服务器很可能在几秒钟后变得不那么繁忙,可以继续提供服务,因此503 响应消息通常表明客户端将花费多少时间并有一个“Retry-After”字段。请再次尝试您的问题。

HTTP的特点

灵活性和可扩展性:HTTP 最初创建时,它只支持消息的基本格式,例如分隔单词的空格、分隔字段的换行符以及“标头和正文”。每个消息组件的确切语法和语义可以根据开发人员的需要进行定制。这些RFC文档实际上可以理解为对现有扩展的“认可和标准化”,从而实现良性的“实践到实践”循环。可靠传输: 由于HTTP协议是基于TCP/IP的,而TCP本身就是一个“可靠”的传输协议,HTTP自然继承了这个特性,保证了数据在请求者和响应者之间可以“可靠”地发送。它。应用层协议: HTTP 依赖于一种消息结构,只要性能要求不太高,就可以携带任意标头字段和实体数据,并提供有用且易于使用的功能,例如连接控制和缓存代理。这是一个“通用”协议,允许您发送几乎任何东西,并且可以满足各种需求。请求-响应: 请求-响应模式是HTTP协议最基本的通信模型,通俗地说就是“发送一次,接收一次”。请求/响应模式也明确了HTTP协议中通信双方的地位。这意味着请求者总是先发起连接并请求(这是主动的),但响应者只有在收到请求后才能做出响应(这是被动的)。不是请求。没有任何要求。没有行动。 Stateless : “状态”实际上是存储在客户端或服务器上的一些数据或标志,记录了通信过程中的一些变化信息。请记住,尽管HTTP 没有在整个协议中规定“状态”,但HTTP 是“灵活且可扩展的”。 “状态”不是标准规定的,但可以在协议框架内完全实现。

给它“打个补丁”,增加这个特性(cookie)。明文传输: “明文”意思就是协议里的报文(准确地说是 header 部分)不使用二进制数据,而是用简单可阅读的文本形式。不安全: 安全有很多的方面,明文只是“机密”方面的一个缺点,在“身份认证”和“完整性校验”这两方面 HTTP 也是欠缺的。

HTTP的实体数据

数据类型

Accept

在TCP/IP协议栈里,数据的传输都是Header+body的形式。在传输层协议中,不需要关心数据是什么,但在应用层必须要告诉上层数据的类型,否则上层就不知该如何处理。最早的HTTP协议中,并没有附加的数据类型信息,所有传送的数据都被客户程序解释为HTML文档,而为了支持多媒体数据类型,HTTP协议中就使用了附加在文档之前的MIME(Multipurpose Internet Mail Extensions 多用途互联网邮件扩展类型)指定的数据类型信息来标识数据类型。MINE将数据分为七大类(video、image、application、text、audio、multipart、message),再以type/subtype的格式细分出其下的子类。例如我们常用到的text/html 、text/css 、image/jpeg 、 applaction/json等。

Accept-encoding

此外HTTP协议还制定了数据的压缩格式:

gzip:GNU zip 压缩格式,也是互联网上最流行的压缩格式;deflate:zlib(deflate)压缩格式,流行程度仅次于 gzip;br:一种专门为 HTTP 优化的新压缩算法(Brotli)。

Accept-Language

标记了客户端可理解的自然语言,也允许用“,”做分隔符列出多个类型,例如:Accept-Language: zh-CN, zh, en

数据类型在请求头中的表现

在 HTTP 协议里用 Accept、Accept-Encoding、Accept-Language 等请求头字段进行内容协商的时候,还可以用一种特殊的“q”参数表示权重来设定优先级,这里的“q”是“quality factor”的意思。权重的最大值是 1,最小值是 0.01,默认值是 1,如果值是 0 就表示拒绝。具体的形式是在数据类型或语言代码后面加一个“;”,然后是“q=value”。服务器会在响应头里多加一个 Vary 字段,记录服务器在内容协商时参考的请求头字段。

HTTP如何传输大文件

数据压缩
前面提到的accept-encoding请求头可以算是是一种传输大文件的解决方式,服务器可以选择一种浏览器支持的数据压缩方式放进content-encoding响应头里,再把原数据压缩后返回给客户端。缺点是这种方式只对文本有较好地压缩率,对于图片音频等本身就已经高度压缩的多媒体数据束手无策。分块传输
在HTTP头部表示为Transfer-Encoding: chunked,指报文里的body部分不是一次性发过来的,而是分为许多chunked分块发送。Transfer-Encoding: chunked和Content-Length这两个字段是互斥的,也就是说响应报文里这两个字段不能同时出现,一个响应报文的传输要么是长度已知,要么是长度未知(chunked),这一点你一定要记住。范围请求
如果想获取某个大文件其中的片段,分块传输就没办法满足这样的需求。HTTP协议提出了范围请求这样的概念,允许客户端只获取文件的某一部分。客户端先发个HEAD请求看看服务器是否支持范围请求,服务器必须在Accept-Ranges响应头中告知客户端是否具有范围请求的能力。请求头Ranges是HTTP范围请求的专用字段,值的格式是bytes=x-y表示x ~ y之间的范围。服务端在收到 Ranges请求头时,首先验证x-y的范围是否合法(x和y可以省略,省略x则表示从后往前,省略y则表示从前往后),其次计算读取偏移量,返回206状态码和所读取的文件 ,最后在响应头加上Content-Range表示实际返回的偏移量和总数,格式为bytes x-y/length。
范围请求还支持在一个头里定义多个x-y,这种情况需要一种特殊的MIME类型multipart/byteranges,表示报文是有多段组成。

HTTP连接管理

http的通信过程采取请求/应答模式,在http0.9/1.0时期,每次发起请求都需要建立连接->发送数据->断开连接,由于整个请求的过程非常短暂,早起的http也称为短链接无链接的协议。由于TCP简历连接要经过三次握手四次挥手,整个过程需要3个RTT,而HTTP的一次简单请求通常只需要2个RTT,那么被浪费掉的时间有60%。

Connection:keep-alive

HTTP1.1提出了长连接的概念,也就是Keep-alive。在长连接上建立一次TCP连接可以发送多个HTTP请求。但因为连接是alive的,如果一直不关闭,就会占用大量的服务器资源,导致服务无法及时响应真正的请求,所以我们也需要及时关闭连接。可以通过在客户端请求头添加Connection: close字段主动关闭连接。服务端通常不会主动关闭连接,但我们也可以通过设置时长、请求数等方式约定断开连接的条件。

队头阻塞

基于请求-应答模式的http协议,形成了串行的请求队列(http1.1还提出了管道机制,即在同一个TCP连接上不用等待上一个请求的响应即可发出下个请求,不过客户端还是按照正常顺序接受响应,这种做法并没带来任何性能上的改善,所以默认保持关闭),如果队首的请求处于阻塞状态,那么后面的请求也无法正常响应结果就是更长时间的性能浪费。

并发连接和域名分片是对队头阻塞的针对性优化策略,浏览器限制每个客户端可以并发建立6~8个连接,又可以将多个域名指向同一个服务器,这样实际的连接数量就更多了,是一种用数量解决质量的思路。

重定向

当我们在浏览器输入一个url再按下回车,页面跳转到我们输入的地址中,这种行为就是主动跳转。浏览器还支持被动跳转,也就是HTTP的重定向。

状态码

在前面了解过HTTP状态码,3XX即表示为重定向。下面详细介绍下各个状态码的含义。

301指永久重定向,可能是域名下线,域名迁移等原因,原地址不再维护。此时浏览器在重定向的同时记录重定向后的地址,下次访问该域名就自动访问新的URI了。

302指临时重定向,可能是服务器维护、临时关闭等原因,临时跳转到新的地址上,此时浏览器不会记录重定向的地址,认为原地址还是有效的,下次访问时还是优先访问原地址。

303类似 302,但要求重定向后的请求改为 GET 方法,访问一个结果页面,避免 POST/PUT 重复操作。

307类似 302,但重定向后请求里的方法和实体不允许变动,含义比 302 更明确。

308类似 307,不允许重定向后的请求变动,但它是 301“永久重定向”的含义。

可以在地址栏输入bing.com,浏览器控制台中的状态如下图所示:

客户端是如何处理重定向的

在浏览器地址栏输入bing.con我们可以看到,状态码如下图所示:

我们浏览器收到响应之后根据响应头中的Location字段判断重定向的地址,然后进行被动跳转。

虽然重定向的用途很广,但是随之而来的也有跟多问题。

第一个问题是“性能损耗”。很明显,重定向的机制决定了一个跳转会有两次请求 – 应答,比正常的访问多了一次。虽然 301/302 报文很小,但大量的跳转对服务器的影响也是不可忽视的。站内重定向可以长连接复用,站外重定向就要开两个连接。第二的问题时循环重定向,比如 A->B->C->A,当我们访问A时就会发生无限跳转。所以HTTP协议特别规定,浏览器必须具有检测“循环跳转”的能力,在发现这种情况时应当停止发送请求并给出错误提示。

cookie

HTTP 是“无状态”的,这既是优点也是缺点。优点是服务器没有状态差异,可以很容易地组成集群,而缺点就是无法支持需要记录状态的事务操作。好在 HTTP 协议是可扩展的,后来发明的 Cookie 技术,给 HTTP 增加了“记忆能力”。
cookie同样存在于HTTP头部字段里。服务端可以使用set-cookie标识客户端身份,客户端则在请求时携带cookie告诉服务端自己的信息。cookie字段以key=value的格式保存,浏览器在一个cookie字段里可以存放多对数据,用;分割。

Cookie 主要用于以下三个方面:

会话状态管理(如用户登录状态、购物车、游戏分数或其它需要记录的信息)个性化设置(如用户自定义设置、主题等)浏览器行为跟踪(如跟踪分析用户行为等)

相关属性

生存周期

Expires俗称“过期时间”,用的是绝对时间点,可以理解为“截止日期”(deadline)。

Max-Age用的是相对时间,单位是秒,浏览器用收到报文的时间点再加上 Max-Age,就可以得到失效的绝对时间。

Expires 和 Max-Age 可以同时出现,两者的失效时间不一致时浏览器会优先采用Max-Age计算失效期。如果服务器不设置Max-Age、Expries或者字段值为0指不能缓存cookie,但在会话期间是可用的,浏览器会话关闭之前可以用cookie记录用户的信息。

作用域

Domain和Path指定了 Cookie 所属的域名和路径,浏览器在发送 Cookie 前会从 URI 中提取出 host 和 path 部分,对比 Cookie 的属性。如果不满足条件,就不会在请求头里发送 Cookie。通常 Path 就用一个“/”或者直接省略,表示域名下的任意路径都允许使用 Cookie。

安全性

HttpOnly表示此 Cookie 只能通过浏览器 HTTP 协议传输,禁止其他方式访问。这也是预防“跨站脚本”(XSS)攻击的有效手段。

SameSite可以防范“跨站请求伪造”(XSRF)攻击,SameSite = strict表示禁止cookie在跳转链接时跨域传输。SameSite = lax稍微宽松一点,允许在GET、HEAD等安全请求方式中跨域携带。默认值为none,表示不限制cookie的携带和传输。

Secure表示这个cookie仅能用HTTPS协议加密传输,明文的HTTP协议会禁止发送。但Cookie本身不是加密的,浏览器里还是以明文的形式存在。

HTTP缓存控制

服务器的缓存控制

浏览器在访问页面资源时首先会查找缓存数据,如果没有再发送请求,向服务器获取资源;服务器响应请求,返回资源,同时标记资源的有效期;浏览器缓存资源,等待下次重用。这就是客户端缓存。

服务器标记资源有效期使用的头字段是Cache-Control,里面的值max-age=xxx就是资源的有效时间(与cookie的max-age不同,这里的max-age时间的计算起点是响应报文的创建时刻)。

此外在响应报文里还可以用其他的值来更精确地指示浏览器应该如何使用缓存:
no-store: 不允许缓存,用于某些变化非常频繁的数据,例如秒杀页面;
no-cache: 可以缓存,但在使用之前必须要去服务器验证是否过期;
must-revalidate: 如果缓存不过期就可以继续使用,但过期了就必须去服务器验证。

客户端的缓存控制

浏览器也可以发Cache-Control,也就是说请求 – 应答的双方都可以用这个字段进行缓存控制,互相协商缓存的使用策略。在浏览器前进、后退、重定向时cache-control就生效了,响应头里有from disk cache字样,就说明浏览器未发送请求,而是直接使用了本地缓存。

条件请求

浏览器在刷新页面时相当于在请求头中添加了Cache-Control:no-cache,这样在刷新页面时,还是向服务端发送了请求,并没有很好的利用到缓存。所以HTTP协议又定义了一系列“If”开头的“条件请求”字段,专门用来检查验证资源是否过期。

条件请求一共有 5 个头字段,我们最常用的是if-Modified-Since和If-None-Match这两个。需要第一次的响应报文预先提供Last-modified(最后修改时间)和ETag(资源唯一标识),然后第二次请求时就可以带上缓存里的原值,验证资源是否是最新的。如果资源没有变,服务器就回应一个“304 Not Modified”,表示缓存依然有效,浏览器就可以更新一下有效期,然后放心大胆地使用缓存了。

代理缓存

代理服务器

代理服务器就是客户端和服务端之间的中间商,在中间的位置转发上游的请求和下游的响应。代理服务器在计算机领域有非常重要的功能

负载均衡:面向客户端时屏蔽原服务器,代理服务器可以通过轮询、哈希等算法将流量分发,提高整体的性能。健康检查:使用‘心跳’等机制监控服务器,保证服务器的可用性。安全防护:保护被代理服务端的IP和流量,防止网络攻击或负载问题。加密卸载:对外和对内使用不同的加密策略,节省加密成本内容缓存:暂存/复位服务器的响应。

缓存代理

HTTP的服务端缓存主要由代理服务器来实现,代理服务器收到源服务器的响应之后将报文转发给客户端的同时也存入自己的cache里,下次再有相同的请求就可以直接发送304或者缓存数据,节省源服务器的成本。

因为代理服务器既是服务端,又是客户端的特性,有一些特殊的cache-control属性:

服务端
private: 表示只能客户端缓存,不允许代理服务器上缓存。
punlic:表示完全公开,客户端和代理服务器都可以缓存。
proxy-revalidate:要求代理服务器缓存过期后必须回源验证。
s-maxage: 代理服务器缓存的有效期
no-transform: 不允许代理服务器转换数据格式。

客户端
max-stale: 如果代理上的缓存过期了也可以接受,但不能过期太多,超过 x 秒也会不要。
min-flash: 表示缓存少于x有效期就不要了。
only-if-cached:表示只接受代理缓存的数据,不接受源服务器的响应。如果代理上没有缓存或者缓存过期,就应该给客户端返回一个 504。

8. HTTPS

由于 HTTP 天生“明文”的特点,整个传输过程完全透明,任何人都能够在链路中截获、修改或者伪造请求 / 响应报文,数据不具有可信性。只有具有机密性、完整性、身份认证和不可否认性,我们才认为这个请求是安全的。HTTPS为HTTP增加了以上四个特性。

HTTPS实际上就指的是HTTP over TLS/SSl。是在原本的HTTP协议上加了一层TLS/SSL协议。

SSL/TLS

SSL 即安全套接层(Secure Sockets Layer),在 OSI 模型中处于第 5 层(会话层),由网景公司于 1994 年发明。SSL 发展到 v3 时已经证明了它自身是一个非常好的安全通信协议,于是在 1999 年它改名为 TLS(传输层安全, Transport Layer Security),目前应用的最广泛的 TLS 是 1.2,而之前的协议(TLS1.1/1.0、SSLv3/v2)都已经被认为是不安全的。

机密性(基于TLS1.2)

SSL/TLS通过加密(encrypt)来传输密文(cipher text)保证数据传输的安全性,只有拥有密钥(key)的人才能够通过解密(decrypt)获得明文(plain text/clear text),加密解密的操作过程就是加密算法。所以“密钥”是一长串的数字,约定俗成的度量单位是“位”(bit)。比如,说密钥长度是 128,就是 16 字节的二进制串,密钥长度 1024,就是 128 字节的二进制串。按照密钥的使用方式,加密可以分为两大类:对称加密和非对称加密。

对称加密

顾名思义,加密解密都使用相同的密钥就叫做对称加密。TLS里目前常用的有 AES 和 ChaCha20。

AES 的意思是“高级加密标准”(Advanced Encryption Standard),密钥长度可以是 128、192 或 256。它是 DES 算法的替代者,安全强度很高,性能也很好,而且有的硬件还会做特殊优化,所以非常流行,是应用最广泛的对称加密算法。

ChaCha20 是 Google 设计的另一种加密算法,密钥长度固定为 256 位,纯软件运行性能要超过 AES,曾经在移动客户端上比较流行,但 ARMv8 之后也加入了 AES 硬件优化,所以现在不再具有明显的优势。

非对称加密

对称加密看上去很好的实现了机密性,但是还有一个问题就是如何安全的传输密钥。因为在加密算法中,只要拥有密钥就可以解密,如果密钥在传输过程中被窃取,也就无机密性可言。为了解决这个问题,又有了非对称加密算法。他拥有两个密钥,分别是公钥(public key)和私钥(private key),公钥是公开的,而私钥是严格保密的。公钥和私钥有个特别的“单向”性,虽然都可以用来加密解密,但公钥加密后只能用私钥解密,反过来,私钥加密后也只能用公钥解密。非对称加密可以解决密钥交换的问题。网站秘密保管私钥,在网上任意分发公钥,你想要登录网站只要用公钥加密就行了,密文只能由私钥持有者才能解密。而黑客因为没有私钥,所以就无法破解密文。

非对称加密算法的设计要比对称算法难得多,在 TLS 里只有很少的几种,比如 DH、DSA、RSA、ECC 等。
RSA 可能是其中最著名的一个,几乎可以说是非对称加密的代名词,它的安全性基于“整数分解”的数学难题,使用两个超大素数的乘积作为生成密钥的材料,想要从公钥推算出私钥是非常困难的。

ECC是非对称加密里的“后起之秀”,它基于“椭圆曲线离散对数”的数学难题,使用特定的曲线方程和基点生成公钥和私钥,子算法 ECDHE 用于密钥交换,ECDSA 用于数字签名。相对RSA,ECC在安全和性能上都有更明显的优势,160位的ECC相当于1024位的RSA,260位的ECC相当于2048位的RSA。

混合加密

虽然非对称加密没有密钥交换的难题,但因为它们都是基于复杂的数学难题,运算速度很慢,即使是 ECC 也要比 AES 差上好几个数量级。所以目前TLS使用混合加密,使二者取长补短,既能高效加密解密,又能安全的进行数据传输。

在建立连接之初先使用非对称加密的形式传递密钥,然后用随机数产生对称算法使用的“会话密钥”(session key),再用公钥加密。因为会话密钥很短,通常只有 16 字节或 32 字节,所以慢一点也无所谓。对方拿到密文后用私钥解密,取出会话密钥。这样,双方就实现了对称密钥的安全交换,后续就不再使用非对称加密,全都使用对称加密。

完整性

摘要算法

实现完整性的手段主要是摘要算法(Digest Algorithm),也就是常说的散列函数、哈希函数(Hash Function)。可以把摘要算法近似地理解成一种特殊的加密算法,它能够把任意长度的数据加密成固定长度、而且独一无二的“摘要”字符串,且不能从压缩后的密文中推导出原文。MD5(Message-Digest 5)、SHA-1(Secure Hash Algorithm 1就是最常用的两个摘要算法,能够生成 16 字节和 20 字节长度的数字摘要。但这两个算法的安全强度比较低,不够安全,在 TLS 里已经被禁止使用了。目前TLS使用的是SLA-2。摘要算法保证了“数字摘要”和原文是完全等价的。所以,我们只要在原文后附上它的摘要,就能够保证数据的完整性。不过摘要算法不具有机密性,所以真正的完整性还是需要建立在机密性之上。

身份认证&不可否认

数字签名

数字签名的原理其实很简单,就是把公钥私钥的用法反过来,之前是公钥加密、私钥解密,现在是私钥加密、公钥解密。但又因为非对称加密效率太低,所以私钥只加密原文的摘要,这样运算量就小的多,而且得到的数字签名也很小,方便保管和传输。

数字证书和CA

因为公钥是任何人都可以发布的,所以我们需要引入第三方来保证公钥的可信度,这个“第三方”就是我们常说的 CA(Certificate Authority,证书认证机构),CA 对公钥的签名认证也是有格式的,要包含公钥的序列号、用途、颁发者、有效时间等等,把这些打成一个包再签名,完整地证明公钥关联的各种信息,形成“数字证书”(Certificate)。小一点的 CA 可以让大 CA 签名认证,但链条的最后,也就是 Root CA,就只能自己证明自己了,这个就叫“自签名证书”(Self-Signed Certificate)或者“根证书”(Root Certificate)。你必须相信,否则整个证书信任链就走不下去了。

TLS1.2建立连接的过程

TLS协议的组成

记录协议(Record Protocol): 规定了 TLS 收发数据的基本单位:记录(record)。所有的其他子协议都需要通过记录协议发出,但多个记录数据可以在一个 TCP 包里一次性发出。

警报协议(Alert Protocol): 的职责是向对方发出警报信息,有点像是 HTTP 协议里的状态码。比如,protocol_version 就是不支持旧版本,bad_certificate 就是证书有问题,收到警报后另一方可以选择继续,也可以立即终止连接。

握手协议(Handshake Protocol): 是 TLS 里最复杂的子协议,要比 TCP 的 SYN/ACK 复杂的多,浏览器和服务器会在握手过程中协商 TLS 版本号、随机数、密码套件等信息,然后交换证书和密钥参数,最终双方协商得到会话密钥,用于后续的混合加密系统。
变更密码规范协议(Change Cipher Spec Protocol): 是一个“通知”,告诉对方,后续的数据都将使用加密保护。那么反过来,在它之前,数据都是明文的。

基于ECDHE 的 TLS1.2 握手

TLS1.3

9. HTTP/2

HTTP1.X引入了Cookie解决了无状态的问题、通过引入TLS/SSL解决了明文传输不安全的问题。那接下来HTTP2的发力点就放在性能层面了。Google首先发明了SPDY协议,随后互联网标准化组织IETF以SPDY 为基础发布了HTTP2。HTTP2对于性能上的优化主要由以下几点出发:1. 包头过大 2. 队头阻塞 。

性能优化

包头过大(头部压缩)

在HTTP1.x时期,很多请求请求体和响应体的大小远远小于头部字段的大小,比如GET请求,301/302/204响应。而且很多头部字段是重复的,HTTP/1.x浪费了大量的带宽在传输重复的头字段上,所以,HTTP/2 把“头部压缩”作为性能改进的一个重点。

HPACK算法是专门为压缩 HTTP 头部定制的算法,与 gzip、zlib 等压缩算法不同,它是一个“有状态”的算法,需要客户端和服务器各自维护一份“索引表”,压缩和解压缩就是查表和更新表的操作。为了方便管理和压缩,HTTP/2 废除了原有的起始行概念,把起始行里面的请求方法、URI、状态码等统一转换成了头字段的形式, 为了与“真头字段”区分开来,这些“伪头字段”会在名字前加一个“:”,比如“:authority” “:method” “:status”,分别表示的是域名、请求方法和状态码。废除了起始行里的版本号和错误原因短语。用索引号表示重复的字符串,还釆用哈夫曼编码来压缩整数和字符串,可以达到 50%~90% 的高压缩率。

下面的这个表格列出了“静态表”的一部分,这样只要查表就可以知道字段名和对应的值,比如数字“2”代表“GET”,数字“8”代表状态码 200。

新增的头字段或者值保存在动态表(Dynamic Table)里,它添加在静态表后面,结构相同,但会在编码解码的时候随时更新。比如说,第一次发送请求时的“user-agent”字段长是一百多个字节,用哈夫曼压缩编码发送之后,客户端和服务器都更新自己的动态表,添加一个新的索引号“65”。那么下一次发送的时候就不用再重复发那么多字节了,只要用一个字节发送编号就好。

队头阻塞(二进制分帧、流式传输)

基于请求-应答模式的http协议存在队头阻塞的问题,前面提到的并发连接和域名分片都是牺牲数量解决质量的思路。而HTTP2采用了二进制分帧➕流式传输的方式来解决这个问题。

二进制分帧

HTTP/2把原来的Header+Body的消息“打散”为数个小片的二进制“帧”(Frame),用HEADER帧存放头数据、DATA帧存放实体数据。

流式传输

HTTP/2还定义了一个“流”(Stream)的概念,它是二进制帧的双向传输序列,同一个消息往返的帧会分配一个唯一的流 ID。你可以把它想象成是一个虚拟的“数据流”,在里面流动的是一串有先后顺序的数据帧,这些数据帧按照次序组装起来就是HTTP/1里的请求报文和响应报文。HTTP/2 可以在一个 TCP 连接上用“流”同时发送多个“碎片化”的消息,这就是常说的“多路复用”( Multiplexing),多个往返通信都复用一个连接来处理。在“流”的层面上看,消息是一些有序的“帧”序列,而在“连接”的层面上看,消息却是乱序收发的“帧”。多个请求 / 响应之间没有了顺序关系,不需要排队等待,也就不会再出现“队头阻塞”问题,降低了延迟,大幅度提高了连接的利用率。

帧开头是帧长度(不包含报文头的9个字节),默认上限是2^14,最大是2^24,也就是说 HTTP/2的帧通常不超过16K,最大是 16M。

后面的一个字节是帧类型,大致可以分成数据帧和控制帧两类,HEADERS帧和DATA帧属于数据帧,存放的是 HTTP 报文,而 SETTINGS、PING、PRIORITY 等则是用来管理流的控制帧。

第 5 个字节是非常重要的帧标志信息,可以保存 8 个标志位,携带简单的控制信息。常用的标志位有 END_HEADERS 表示头数据结束,END_STREAM 表示单方向数据发送结束(即 EOS,End of Stream)。

报文头里最后 4 个字节是流标识符,也就是帧所属的“流”,接收方使用它就可以从乱序的帧里识别出具有相同流 ID 的帧序列(在 HTTP/2 连接上,虽然帧是乱序收发的,但只要它们都拥有相同的流 ID,就都属于一个流,而且在这个流里帧不是无序的,而是有着严格的先后顺序。),按顺序组装起来就实现了虚拟的“流”。流标识符虽然有 4 个字节,但最高位被保留不用,所以只有 31 位可以使用,也就是说,流标识符的上限是 2^31,大约是 21 亿。

流的特点

流是可并发的,一个 HTTP/2 连接上可以同时发出多个流传输数据,也就是并发多请求,实现“多路复用”;客户端和服务器都可以创建流,双方互不干扰;流是双向的,一个流里面客户端和服务器都可以发送或接收数据帧,也就是一个“请求 – 应答”来回;流之间没有固定关系,彼此独立,但流内部的帧是有严格顺序的;流可以设置优先级,让服务器优先处理,比如先传 HTML/CSS,后传图片,优化用户体验;流 ID 不能重用,只能顺序递增,客户端发起的 ID 是奇数,服务器端发起的 ID 是偶数;在流上发送“RST_STREAM”帧可以随时终止流,取消接收或发送;第 0 号流比较特殊,不能关闭,也不能发送数据帧,只能发送控制帧,用于流量控制。

协议栈

10.HTTP/3

HTTP/2 虽然使用“帧”、“流”、“多路复用”,没有了“队头阻塞”,但这些手段都是在应用层里,而在 TCP 协议里,还是会发生“队头阻塞”。Google 在推 SPDY 的时候就已经意识到了这个问题,于是就又发明了一个新的QUIC协议,让 HTTP 跑在 QUIC 上而不是 TCP 上。而这个HTTP over QUIC就是 HTTP 协议的下一个大版本,HTTP/3。它在 HTTP/2 的基础上又实现了质的飞跃,真正完美地解决了队头阻塞问题。

QUICK

QUIC 基于 UDP,而 UDP 是“无连接”的,不需要“握手”和“挥手”,所以天生就要比 TCP 快。QUIC 全面采用加密通信,它使用自己的帧“接管”了 TLS 里的“记录”,握手消息、警报消息都不使用 TLS 记录,直接封装成 QUIC 的帧发送,省掉了一次开销。QUIC 的基本数据传输单位是包(packet)和帧(frame),一个包由多个帧组成,包面向的是“连接”,帧面向的是“流”。

QUIC 使用不透明的“连接 ID”来标记通信的两个端点,客户端和服务器可以自行选择一组 ID 来标记自己,这样就解除了 TCP 里连接对“IP 地址 + 端口”(即常说的四元组)的强绑定,支持“连接迁移”(Connection Migration)。

HTTP/3

因为 QUIC 本身就已经支持了加密、流和多路复用,所以HTTP/3不需要定义流,而是直接使用 QUIC 的流。由于流管理被“下放”到了 QUIC,所以 HTTP/3 里帧的结构也变简单了。帧头只有两个字段:类型和长度,而且同样都采用变长编码,最小只需要两个字节。

#以上关于HTTP 看这一篇就够的相关内容来源网络仅供参考,相关信息请以官方公告为准!

原创文章,作者:CSDN,如若转载,请注明出处:https://www.sudun.com/ask/92235.html

(0)
CSDN's avatarCSDN
上一篇 2024年6月26日 下午11:37
下一篇 2024年6月26日 下午11:37

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注