CDN DNS 原理概述

CDN 原理

CDN(Content Delivery Network,内容分发网络)将源站的内容发布到接近用户的网络“边缘”,用户可以就近获取所需数据,不仅降低了网络的拥塞状况、提高请求的响应速度,也能够减少源站的负载压力。

很多同学都比较熟悉 CDN 的作用和功能,但是可能也会像我之前一样,对 CDN 的原理不是十分了解。所以本文旨在对 CDN 的工作原理和核心组件进行简要的描述。

1. 访问源站的过程

为了更加清楚地展示 CDN 的原理,我们首先回顾一下不使用缓存直接到源站请求数据的过程:

img

如上图所示,如果要访问的网站名为:”join.qq.com”,客户端首先会在本机的 hosts 文件和 hosts 缓存中查找该域名对应的 IP 地址;如果本机中没有此信息,则会到我们的本地DNS进行询问该域名对应的 IP 地址;如果本地DNS中仍然没有该域名的 IP 信息时,则会由本地 DNS 依次向根DNS顶级域DNS权威DNS进行询问,最终本地DNS将 IP 地址发送给客户端。客户端通过 IP 地址向远程的源站服务器发出 HTTP 请求并获取相应的数据内容。

以上是通过 DNS 的迭代解析模式获取域名对应的 IP 地址并发送 HTTP 请求的过程。源站的提供商通过配置权威 DNS 将源站的域名与提供服务的服务器主机进行绑定,使客户端通过 DNS 服务可以顺利地获取源站域名对应的 IP 地址并通过 IP 地址与源站进行通信。

DNS 的记录类型

为了方便后续的讨论,需要了解 DNS 是如何对查询请求进行应答的。

在 DNS 系统中,最常见的资源记录方式是 Internet 类记录,该记录由包含4个字段的数据构成:Name、Value、Type、TTL。其中 Name 和 Value 可以理解为一对键值对,但是其具体含义取决于 Type 的类型,TTL 记录了该条记录应当从缓存中删除的时间。在资源记录的类型中中,最为常见且重要的类型 Type 主要有:

  1. A 记录(Address)

    A 记录用于描述目标域名到 IP 地址的映射关系,将目标域名与 A 记录的 Name 字段进行匹配,将成功匹配的记录的 Value 字段的内容(IP 地址)输出到 DNS 回应报文中。

  2. NS 记录(Name Server)

    NS 记录用于描述目标域名到负责解析该域名的 DNS 的映射关系,根据目标域名对 NS 记录的 Name 字段进行匹配,将成功匹配的记录的 Value 字段(负责解析目标域名的 DNS 的 IP 地址)输出到 DNS 回应报文中。

  3. CNAME 记录

    CNAME 记录用于描述目的域名和别名的对应关系,如果说 A 记录可以将目标域名转换为对应主机的 IP 地址,那么 CNAME 记录则可以将一个域名(别名)转换为另一个域名,如果多条 CNAME 记录指向同一个域名,则可以将多个不同的域名的请求指向同一台服务器主机。并且,CNAME 记录通常还对应了一条 A 记录,用于提供被转换的域名的 IP 地址。

2. 通过 CDN 获取缓存内容的过程

在上一章节中主要介绍了通过 DNS 服务直接访问源站的请求响应过程。与其不同的是,CDN 将我们对源站的请求导向了距离用户较近的缓存节点,而非源站。

如图所示是通过 CDN 进行请求响应的过程图。通过图中可以看出,在 DNS 解析域名时新增了一个全局负载均衡系统(GSLB),GSLB 的主要功能是根据用户的本地 DNS 的 IP 地址判断用户的位置,筛选出距离用户较近的本地负载均衡系统(SLB),并将该 SLB 的 IP 地址作为结果返回给本地 DNS。SLB 主要负责判断缓存服务器集群中是否包含用户请求的资源数据,如果缓存服务器中存在请求的资源,则根据缓存服务器集群中节点的健康程度、负载量、连接数等因素筛选出最优的缓存节点,并将 HTTP 请求重定向到最优的缓存节点上。

img

为了更清晰地说明 CDN 的工作原理,下面以客户端发起对”join.qq.com/video.php”的 HTTP 请求为例进行说明:

  1. 用户发起对”join.qq.com/video.php”的 HTTP 请求,首先需要通过本地 DNS 通过”迭代解析”的方式获取域名”join.qq.com”的 IP 地址;
  2. 如果本地 DNS 的缓存中没有该域名的记录,则向根DNS发送 DNS 查询报文;
  3. 根DNS发现域名的前缀为”com”,则给出负责解析com顶级DNS的 IP 地址;
  4. 本地 DNS 向顶级DNS发送 DNS 查询报文;
  5. 顶级DNS发现域名的前缀为”qq.com”,在本地记录中查找负责该前缀的权威DNS的 IP 地址并进行回复;
  6. 本地 DNS 向权威DNS发送 DNS 查询报文;
  7. 权威 DNS 查找到一条 NAME 字段为”join.qq.com”的CNAME记录(由服务提供者配置),该记录的 Value 字段为”join.qq.cdn.com”;并且还找到另一条 NAME 字段为”join.qq.cdn.com”的 A 记录,该记录的 Value 字段为 GSLB 的 IP 地址;
  8. 本地 DNS 向 GSLB 发送 DNS 查询报文;
  9. GSLB 根据本地DNS的 IP 地址判断用户的大致位置为深圳,筛选出位于华南地区且综合考量最优的 SLB 的 IP 地址填入 DNS 回应报文,作为 DNS 查询的最终结果;
  10. 本地 DNS 回复客户端的 DNS 请求,将上一步的 IP 地址作为最终结果回复给客户端;
  11. 客户端根据 IP 地址向 SLB 发送 HTTP 请求:”join.qq.com/video.php“;
  12. SLB 综合考虑缓存服务器集群中各个节点的资源限制条件、健康度、负载情况等因素,筛选出最优的缓存节点后回应客户端的 HTTP 请求(状态码为302,重定向地址为最优缓存节点的 IP 地址);
  13. 客户端接收到 SLB 的 HTTP 回复后,重定向到该缓存节点上;
  14. 缓存节点判断请求的资源是否存在、过期,将缓存的资源直接回复给客户端,否则到源站进行数据更新再回复。

其中较为关键的步骤为 6~9,与普通的 DNS 过程不同的是,这里需要服务提供者(源站)配置它在其权威 DNS 中的记录,将直接指向源站的 A 记录修改为一条 CNAME 记录及其对应的 A 记录,CNAME 记录将目标域名转换为 GSLB 的别名,A 记录又将该别名转换为 GSLB 的 IP 地址。通过这一系列的操作,将解析源站的目标域名的权力交给了 GSLB,以致于 GSLB 可以根据地理位置等信息将用户的请求引导至距离其最近的 “ 缓存节点 “,减缓了源站的负载压力和网络拥塞。

以上主要介绍了目前 CDN 中最为常见的工作方式,这种工作方式利用 CNAME 将域名和目标 IP 之间进行解耦,将目标 IP 的解析权下放到 GSLB 中,方便实现更多自定义的功能,是一种更加灵活的方式。

DNS 原理

参考文章:阮一峰

DNS 是互联网核心协议之一。不管是上网浏览,还是编程开发,都需要了解一点它的知识。

本文详细介绍DNS的原理,以及如何运用工具软件观察它的运作。我的目标是,读完此文后,你就能完全理解DNS。

DNS

1 DNS 是什么?

DNS (Domain Name System) 的作用非常简单,就是根据域名查出IP地址。你可以把它想象成一本巨大的电话本。

举例来说,如果你要访问域名math.stackexchange.com,首先要通过DNS查出它的IP地址是151.101.129.69

如果你不清楚为什么一定要查出IP地址,才能进行网络通信,建议先阅读《互联网协议入门》

2 查询过程

虽然只需要返回一个 IP 地址,但是 DNS 的查询过程非常复杂,分成多个步骤。

工具软件dig可以显示整个查询过程。

$ dig math.stackexchange.com

上面的命令会输出六段信息。

img

第一段是查询参数和统计。

img

第二段是查询内容。

img

上面结果表示,查询域名math.stackexchange.comA记录,A是address的缩写。

第三段是DNS服务器的答复。

img

上面结果显示,math.stackexchange.com有四个A记录,即四个IP地址。600是TTL值(Time to live 的缩写),表示缓存时间,即600秒之内不用重新查询。

第四段显示stackexchange.com的NS记录(Name Server的缩写),即哪些服务器负责管理stackexchange.com的DNS记录。

img

上面结果显示stackexchange.com共有四条NS记录,即四个域名服务器,向其中任一台查询就能知道math.stackexchange.com的IP地址是什么。

第五段是上面四个域名服务器的IP地址,这是随着前一段一起返回的。

img

第六段是DNS服务器的一些传输信息。

img

上面结果显示,本机的DNS服务器是192.168.1.253,查询端口是53(DNS服务器的默认端口),以及回应长度是305字节。

如果不想看到这么多内容,可以使用+short参数。

$ dig +short math.stackexchange.com

151.101.129.69
151.101.65.69
151.101.193.69
151.101.1.69

上面命令只返回math.stackexchange.com对应的4个IP地址(即A记录)。

3 DNS服务器

下面我们根据前面这个例子,一步步还原,本机到底怎么得到域名math.stackexchange.com的IP地址。

首先,本机一定要知道DNS服务器的IP地址,否则上不了网。通过DNS服务器,才能知道某个域名的IP地址到底是什么。

img

DNS服务器的IP地址,有可能是动态的,每次上网时由网关分配,这叫做DHCP机制;也有可能是事先指定的固定地址。Linux系统里面,DNS服务器的IP地址保存在/etc/resolv.conf文件。

上例的DNS服务器是192.168.1.253,这是一个内网地址。有一些公网的DNS服务器,也可以使用,其中最有名的就是Google的8.8.8.8和Level 3的4.2.2.2

本机只向自己的DNS服务器查询,dig命令有一个@参数,显示向其他DNS服务器查询的结果。

$ dig @4.2.2.2 math.stackexchange.com

上面命令指定向DNS服务器4.2.2.2查询。

4 域名的层级

DNS服务器怎么会知道每个域名的IP地址呢?答案是分级查询。

请仔细看前面的例子,每个域名的尾部都多了一个点。

img

比如,域名math.stackexchange.com显示为math.stackexchange.com.。这不是疏忽,而是所有域名的尾部,实际上都有一个根域名。

举例来说,www.example.com真正的域名是www.example.com.root,简写为www.example.com.。因为,根域名.root对于所有域名都是一样的,所以平时是省略的。

根域名的下一级,叫做”顶级域名”(top-level domain,缩写为TLD),比如.com.net;再下一级叫做”次级域名”(second-level domain,缩写为SLD),比如www.example.com里面的.example,这一级域名是用户可以注册的;再下一级是主机名(host),比如www.example.com里面的www,又称为”三级域名”,这是用户在自己的域里面为服务器分配的名称,是用户可以任意分配的。

总结一下,域名的层级结构如下。

主机名.次级域名.顶级域名.根域名

# 即

host.sld.tld.root

5 根域名服务器

DNS服务器根据域名的层级,进行分级查询。

需要明确的是,每一级域名都有自己的NS记录,NS记录指向该级域名的域名服务器。这些服务器知道下一级域名的各种记录。

所谓”分级查询”,就是从根域名开始,依次查询每一级域名的NS记录,直到查到最终的IP地址,过程大致如下。

  1. 从”根域名服务器”查到”顶级域名服务器”的NS记录和A记录(IP地址)
  2. 从”顶级域名服务器”查到”次级域名服务器”的NS记录和A记录(IP地址)
  3. 从”次级域名服务器”查出”主机名”的IP地址

仔细看上面的过程,你可能发现了,没有提到DNS服务器怎么知道”根域名服务器”的IP地址。回答是”根域名服务器”的NS记录和IP地址一般是不会变化的,所以内置在DNS服务器里面。

下面是内置的根域名服务器IP地址的一个例子

img

上面列表中,列出了根域名(.root)的三条NS记录A.ROOT-SERVERS.NETB.ROOT-SERVERS.NETC.ROOT-SERVERS.NET,以及它们的IP地址(即A记录)198.41.0.4192.228.79.201192.33.4.12

另外,可以看到所有记录的TTL值是3600000秒,相当于1000小时。也就是说,每1000小时才查询一次根域名服务器的列表。

目前,世界上一共有十三组根域名服务器,从A.ROOT-SERVERS.NET一直到M.ROOT-SERVERS.NET

6 分级查询的实例

dig命令的+trace参数可以显示DNS的整个分级查询过程。

$ dig +trace math.stackexchange.com

上面命令的第一段列出根域名.的所有NS记录,即所有根域名服务器。

img

根据内置的根域名服务器IP地址,DNS服务器向所有这些IP地址发出查询请求,询问math.stackexchange.com的顶级域名服务器com.的NS记录。最先回复的根域名服务器将被缓存,以后只向这台服务器发请求。

接着是第二段。

img

上面结果显示.com域名的13条NS记录,同时返回的还有每一条记录对应的IP地址。

然后,DNS服务器向这些顶级域名服务器发出查询请求,询问math.stackexchange.com的次级域名stackexchange.com的NS记录。

img

上面结果显示stackexchange.com有四条NS记录,同时返回的还有每一条NS记录对应的IP地址。

然后,DNS服务器向上面这四台NS服务器查询math.stackexchange.com的主机名。

img

上面结果显示,math.stackexchange.com有4条A记录,即这四个IP地址都可以访问到网站。并且还显示,最先返回结果的NS服务器是ns-463.awsdns-57.com,IP地址为205.251.193.207

7 NS 记录的查询

dig命令可以单独查看每一级域名的NS记录。

$ dig ns com
$ dig ns stackexchange.com

+short参数可以显示简化的结果。

$ dig +short ns com
$ dig +short ns stackexchange.com

8 DNS的记录类型

域名与IP之间的对应关系,称为”记录”(record)。根据使用场景,”记录”可以分成不同的类型(type),前面已经看到了有A记录和NS记录。

常见的DNS记录类型如下。

(1) A:地址记录(Address),返回域名指向的IP地址。

(2) NS:域名服务器记录(Name Server),返回保存下一级域名信息的服务器地址。该记录只能设置为域名,不能设置为IP地址。

(3)MX:邮件记录(Mail eXchange),返回接收电子邮件的服务器地址。

(4)CNAME:规范名称记录(Canonical Name),返回另一个域名,即当前查询的域名是另一个域名的跳转,详见下文。

(5)PTR:逆向查询记录(Pointer Record),只用于从IP地址查询域名,详见下文。

一般来说,为了服务的安全可靠,至少应该有两条NS记录,而A记录和MX记录也可以有多条,这样就提供了服务的冗余性,防止出现单点失败。

CNAME记录主要用于域名的内部跳转,为服务器配置提供灵活性,用户感知不到。举例来说,facebook.github.io这个域名就是一个CNAME记录。

$ dig facebook.github.io

...

;; ANSWER SECTION:
facebook.github.io. 3370    IN  CNAME   github.map.fastly.net.
github.map.fastly.net.  600 IN  A   103.245.222.133

上面结果显示,facebook.github.io的CNAME记录指向github.map.fastly.net。也就是说,用户查询facebook.github.io的时候,实际上返回的是github.map.fastly.net的IP地址。这样的好处是,变更服务器IP地址的时候,只要修改github.map.fastly.net这个域名就可以了,用户的facebook.github.io域名不用修改。

由于CNAME记录就是一个替换,所以域名一旦设置CNAME记录以后,就不能再设置其他记录了(比如A记录和MX记录),这是为了防止产生冲突。举例来说,foo.com指向bar.com,而两个域名各有自己的MX记录,如果两者不一致,就会产生问题。由于顶级域名通常要设置MX记录,所以一般不允许用户对顶级域名设置CNAME记录。

PTR记录用于从IP地址反查域名。dig命令的-x参数用于查询PTR记录。

$ dig -x 192.30.252.153

...

;; ANSWER SECTION:
153.252.30.192.in-addr.arpa. 3600 IN    PTR pages.github.com.

上面结果显示,192.30.252.153这台服务器的域名是pages.github.com

逆向查询的一个应用,是可以防止垃圾邮件,即验证发送邮件的IP地址,是否真的有它所声称的域名。

dig命令可以查看指定的记录类型。

$ dig a github.com
$ dig ns github.com
$ dig mx github.com

9 其他DNS工具

除了dig,还有一些其他小工具也可以使用。

(1)host 命令

host命令可以看作dig命令的简化版本,返回当前请求域名的各种记录。

$ host github.com

github.com has address 192.30.252.121
github.com mail is handled by 5 ALT2.ASPMX.L.GOOGLE.COM.
github.com mail is handled by 10 ALT4.ASPMX.L.GOOGLE.COM.
github.com mail is handled by 10 ALT3.ASPMX.L.GOOGLE.COM.
github.com mail is handled by 5 ALT1.ASPMX.L.GOOGLE.COM.
github.com mail is handled by 1 ASPMX.L.GOOGLE.COM.

$ host facebook.github.com

facebook.github.com is an alias for github.map.fastly.net.
github.map.fastly.net has address 103.245.222.133

host命令也可以用于逆向查询,即从IP地址查询域名,等同于dig -x <ip>

$ host 192.30.252.153

153.252.30.192.in-addr.arpa domain name pointer pages.github.com.

(2)nslookup 命令

nslookup命令用于互动式地查询域名记录。

$ nslookup

> facebook.github.io
Server:     192.168.1.253
Address:    192.168.1.253#53

Non-authoritative answer:
facebook.github.io  canonical name = github.map.fastly.net.
Name:   github.map.fastly.net
Address: 103.245.222.133

> 

(3)whois 命令

whois命令用来查看域名的注册情况。

$ whois github.com

10 参考链接


CDN DNS 原理概述
http://lpxz.work/posts/53490/
作者
LPxz
发布于
2021年12月29日
许可协议