网络笔记 | 10. 应用层

卢旺收录于类别机枢织序和系列计算机网络

2025-08-08 2025-08-08 约 9012 字预计阅读 40 分钟

应用层概述

应用层享受其下各层提供的服务，解决通过应用进程的交互来实现特定网络应用的问题
其位于计算机网络结构的最顶层，是设计和监理计算机网络的最终目的，也是计算机网络中发展最快的部分
早期基于文本的应用（电子邮件、远程登录、文件传输、新闻组）
20世纪90年代将因特网带入千家万户的万维网WWW（HTTP协议）
当今流行的即时通信、P2P文件共享及各种音视频应用
计算设备的小型化和“无处不在”，宽带住宅接入和无线接入的日益普及和迅速发展，为未来更多的新型应用提供了广阔的舞台

应用的组织方式

网络应用程序运行在处于网络边缘的不同的端系统上，通过彼此间的通信来共同完成某项任务
开发一种新的网络应用首先要考虑的问题就是网络应用程序在各种端系统上的组织方式和它们之间的关系
目前流行的主要有以下两种：
- 客户-服务器方式（Client/Server，C/S方式）
  - 客户和服务器是指通信中所涉及的两个应用进程
  - 客户/服务器方式所描述的是进程之间服务和被服务的关系
  - 客户是服务请求方，服务器是服务提供方
  - 服务器总是处于运行状态，并等待客户的服务请求
    - 服务器具有固定端口号（例如HTTP服务器的默认端口号为80），而运行服务器的主机也具有固定的IP地址
    - C/S方式是因特网上传统的、同时也是最成熟的方式，很多我们熟悉的网络应用采用的都是C/S方式，包括万维网WWW、电子邮件、文件传输FTP等
  - 基于C/S方式的应用服务通常是服务集中型的，即应用服务集中在网络中比客户计算机少得多的服务器计算机上
    - 由于一台服务器计算机要为多个客户机提供服务，在C/S应用中，常会出现服务器计算机跟不上众多客户机请求的情况
    - 为此，在C/S应用中，常用计算机群集（或服务器场）构建一个强大的虚拟服务器
- 对等方式（Peer-to-Peer，P2P方式）
  - 在P2P方式中，没有固定的服务请求者和服务提供者，分布在网络边缘各端系统中的应用进程是对等的，被称为对等方
  - 对等方相互之间直接通信，每个对等方既是服务的请求者，又是服务的提供者
  - 目前，在因特网上流行的P2P应用主要包括P2P文件共享、即时通信、P2P流媒体、分布式存储等
  - 基于P2P的应用是服务分散型的，因为服务不是集中在少数几个服务器计算机中，而是分散在大量对等计算机中，这些计算机并不为服务提供商所有，而是为个人控制的桌面计算机和笔记本电脑，它们通常位于住宅、校园和办公室中
  - P2P方式的最突出特性之一就是它的可扩展性。因为系统每增加一个对等方，不仅增加的是服务的请求者，同时也增加了服务的提供者，系统性能不会因规模的增大而降低
  - P2P方式具有成本上的优势，因为它通常不需要庞大的服务器设施和服务器带宽。为了降低成本，服务提供商对于将P2P方式用于应用的兴趣越来越大

动态主机配置协议 DHCP

DHCP的作用
DHCP的工作进程
- DHCP服务器运行DHCP服务器进程，端口号为67；客户端计算机运行DHCP客户端进程，端口号为68（两个都是熟知端口）
- DHCP是TCP/IP协议体系应用层中的协议，使用UDP所提供的服务
- 当主机连接到互联网，并启动DHCP客户端进程后，DHCP客户将广播发送DHCP发现报文，封装该报文的源IP地址为0.0.0.0（自己还没有分配到IP地址），目的地址为广播地址255.255.255.255（也不知到DHCP服务器的地址是啥）
- 网络中所有主机都会收到该IP数据报，并进行解封
  - 但是对于普通的DHCP客户，其没有监听67号进程，该数据报会被丢弃
  - 对于DHCP服务器，其收到该数据报后，接收并做出响应
  - 在DHCP发现报文结构比较复杂中，其封装有事务ID、DHCP客户端的MAC地址等
- DHCP服务器收到该报文后，根据其中封装的MAC地址，查找自己的数据库，查看是否有针对该MAC地址的配置信息
  - 如果有，则使用该配置信息来构建并发送DHCP提供报文
  - 如果没有，则采用默认配置信息来构建并发送DHCP提供报文
  - 封装该报文的IP数据报中，源IP地址为DHCP服务器的IP地址，目的地址为广播地址
- 网络中所有计算机都可以收到该报文，DHCP客户可以根据端口号、事务ID等信息来判断该信息是否为自己所请求的报文 #Q#为什么要用事务ID，会不会重复呀？直接用MAC地址不好吗
  - 当DHCP客户收到了多个DHCP提供报文时，通常选择先到的那个作为自己的DHCP服务器，其广播发送DHCP请求报文
  - 在该报文中，其源地址仍旧为0.0.0.0，因为其还并没有向DHCP服务器正式申请该IP地址并得到同意
- 当DHCP服务器收到了DHCP请求报文后，再检查ARP之后，向客户端发送DHCP确认报文，客户端在收到该报文后，主机会通过ARP检测所分配到的地址是否被占用
  - 如果被占用就会向DHCP服务器发送DHCP DECLINE，来撤销IP地址的租约，并重新发送DHCP发现报文
  - 如果没有被占用，就可以启用该地址与网络中的其他主机进行通信了
- 当租用期到达一半时，主机会再次向DHCP服务器发送DHCP请求报文，以便续约
DHCP中继代理
- 若主机和DHCP服务器之间有路由器相隔，其所发布的广播报文会被丢弃
- 解决方法是给该路由器配置DHCP服务器的IP地址，并使之成为中继代理，这样网络中的个主机都可以通过DHCP来自动获取到网络配置信息了
- 当路由器收到广播的DHCP广播报文后，其会单播转发给DHCP服务器
- DHCP中继代理，可以使我们不需要在每一个网络中都设置一个DHCP服务器，降低成本

域名系统 DNS

作用
- 因特网是否可以只使用一台DNS服务器呢？
域名
- 因特网采用层次树状结构的域名结构
  - 域名的结构由若干个分量组成，各分量之间用“点”隔开，分别代表不同级别的域名
    - ….三级域名.二级域名.顶级域名
    - 每一级的域名都由英文字母和数字组成，不超过63个字符，不区分大小写字母
    - 级别最低的域名写在最左边，而级别最高的顶级域名写在最右边
    - 完整的域名不超过255个字符
  - 域名系统既不规定一个域名需要包含多少个下级域名，也不规定每一级的域名代表什么意思
  - 各级域名由其上一级的域名管理机构管理，而最高的顶级域名则由因特网名称与数字地址分配机构ICANN进行管理
- 域名的分类
  - 根域名，用.标识，在地址最后面，一般隐藏不写
  - 顶级域名TLD (Top Level Domain)分为以下三类：
    - 国家顶级域名nTLD
      - 采用IS03166的规定
      - 如cn表示中国，us表示美国，uk表示英国
    - 通用顶级域名gTLD
      - 最常见的通用顶级域名有七个
      - com(公司企业)
      - net(网络服务机构)
      - org(非营利性组织)
      - int(国际组织
      - edu(美国教育结构)
      - gov(美国政府部门)
      - mil(美国军事部门)
    - 反向域arpa
      - 用于反向域名解析，即IP地址反向解析为域名
  - 在国家顶级域名下注册的二级域名均由该国家自行确定
    - 例如，顶级域名为jp的日本，将其教育和企业机构的二级域名定为ac和co，而不用edu和com。
    - 我国则将二级域名划分为以下两类：
      - 类别域名（7个）
        
        ac(科研机构)
        
        com(工、商、金融等企业)
        
        edu(教育机构)
        
        gov(政府部门)
        
        net(提供网络服务的机构)
        
        mil(军事机构)
        
        org(非营利性组织)
      - 行政区域名（34个），
        
        适用于我国的各省、自治区、直辖市
        
        例如：bj为北京市、Sh为上海市、js为江苏省，等等
  - 举例
    - 这种按照等级管理的命名方法便于维护名字的唯一性，并且也容易设计出一种高效的域名查询机制
    - 需要注意的是，域名只是个逻辑概念，并不代表计算机所在的物理地点
域名系统DNS（Domain Name System）
- 域名和IP地址的映射关系，必须保存在域名服务器中，供所有其他应用查询
- 显然，不能将所有信息都存储在一台域名服务器中，DNS使用分布在各地的域名服务器开实现域名到IP地址的转换
- 域名服务器可以划分为以下四种类型
  - 根域名服务器
    - 根域名服务器是最高层次的域名服务器
    - 每个根域名服务器都知道所有的顶级域名服务器的域名及其IP地址
    - 根域名服务器通常并不直接对域名进行解析，而是返回该域名所属顶级域名的顶级域名服务器的IP地址
    - 不管是哪一个本地域名服务器，若要对互联网上任何一个域名进行解析，只要自己无法解析，就首先求助于根域名服务器
    - 若所有的根域名服务器都瘫痪了，整个互联网中的DNS系统就无法工作了
    - 因特网上共有13个不同IP地址的根域名服务器。尽管我们将这13个根域名服务器中的每一个都视为单个的服务器，但“每台服务器”实际上是由许多分布在世界各地的计算机构成的服务器群集
      - IPv4根域名服务器，10个在美国，1个在日本、瑞典、英国
      - 2015年，雪人计划，IPv6共25台DNS服务器，其中有3台主根，分别在中国（1+3）、美国（1+2）、日本（1+0）
    - 当本地域名服务器向根域名服务器发出查询请求时，路由器就把查询请求报文转发到离这个DNS客户最近的一个根域名服务器，这就加快了DNS的查询过程，同时也更合理地利用了因特网的资源
  - 顶级域名服务器（TLD服务器）
    - 这些域名服务器负责管理在该顶级域名服务器注册的所有二级域名
    - 当收到DNS查询请求时就给出相应的回答（可能是最后的结果，也可能是下一级权限域名服务器的P地址)
  - 权限域名服务器
    - 这些域名服务器负责管理某个区（zone）的域名，每一个主机的域名都必须在某个权限域名服务器处注册登记
    - 因此权限域名服务器知道其管辖的域名与IP地址的映射关系
    - 另外，权限域名服务器还知道其下级域名服务器的地址
  - 本地域名服务器（也有人叫他缓存域名服务器）
    - 面向用户的，非常重要
    - 本地域名服务器不属于上述的域名服务器的等级结构
    - 本地域名服务器 = 用户配置的DNS服务器（缓存或转发类型）
    - 当一个主机发出DNS请求报文时，这个报文就首先被送往该主机的本地域名服务器
    - 本地域名服务器起着代理的作用，会将该报文转发到上述的域名服务器的等级结构中
    - 每一个因特网服务提供者SP，一个大学，甚至一个大学里的学院，都可以拥有一个本地域名服务器，它有时也称为默认域名服务器
    - 本地域名服务器离用户较近，一般不超过几个路由器的距离，也有可能就在同一个局域网中
    - 本地域名服务器的IP地址需要直接配置在需要域名解析的主机中
- 服务可靠性
  - DNS域名服务器都把数据复制到几个域名服务器上来保存，其中一个是主域名服务器，其他的是辅助域名服务器
  - 当主域名服务器出现故障时，辅助域名服务器可以保障DNS的查询工作不会中断
  - 主域名服务器定期把数据复制到辅助域名服务器中，而更改数据只能在主域名服务器中进行，保证了数据的一致性
- 域名解析过程
  - 两种查询方式
    - 递归查询（逐级）和迭代查询（踢皮球）
    - 迭代查询主要用于本地域名服务器向根域名服务器查询时使用；当查询时，其也不是绝对返回下一级查询地址，如果其缓存表中存在结果，也会直接返回结果
    - 而主机与本地域名服务器之间，其使用递归查询，不会踢皮球给用户，让用户去自己问
  - 高速缓存
    - 为了提高DNS的查询效率，并减轻根域名服务器的负荷和减少因特网上的DNS查询报文数量，在域名服务器中广泛地使用了高速缓存
    - 高速缓存用来存放最近查询过的域名以及从何处获得域名映射信息的记录
    - 由于域名到IP地址的映射关系并不是永久不变，为保持高速缓存中的内容正确，域名服务器应为每项内容设
      置计时器并删除超过合理时间的项（例如，每个项目只存放两天）
    - 不但在本地域名服务器中需要高速缓存，在用户主机中也很需要
      - 许多用户主机在启动时从本地域名服务器下载域名和IP地址的全部数据库，维护存放自己最近使用的域名的高速缓存，并且只在从缓存中找不到域名时才向域名服务器查询
      - 同理，主机也需要保持高速缓存中内容的正确性
  - 解析过程
    - 首先检查浏览器缓存、然后是hosts文件，完成本地查询
    - 如果没有，递归查找本地域名服务器，其首先查找本地的区域记录或高速缓存，没有的话，需要迭代查询运营商转发器、根域名服务器、权限域名服务器等，直到找到最小结果之后返回给用户
  - 常见解析记录
    - A记录：A(Address)记录是用来指定主机名（或域名）对应的IP地址记录。
    - CNAME记录：通常称别名解析，是主机名到主机名的映射。当需要将域名指向另一个域名，再由另一个域名提供IP地址，就需要添加CNAME记录
    - NS记录：域名服务器记录，如果需要把子域名交给其他DNS服务商解析，就需要添加NS记录 (Name Server，也有翻译为名字服务器的)
      - CDN服务，可以用CNAME或NS记录实现 #Q#
    - AAAA记录：(AAAA record)是用来将域名解析到IPv6地址的DNS记录
    - MX记录：(Mail Exchanger)记录是邮件交换记录，主要用于邮箱解析
    - PTR记录：PTR是pointer的简写，即“反向DNS”,用于将一个IP地址映射到对应的主机名，即通过IP访问域名
    - SRV记录：服务定位(SRV)资源记录，用于定义提供特定服务的服务器的位置，如主机，端口等
    - SOA记录：是起始授权机构记录，说明了在众多NS记录里哪一台才是主要的服务器
    - TXT记录：一般指某个主机名或域名的标识和说明
- 练习
- PS：
  - DNS报文使用运输层UDP格式封装，端口号为53
  - DNS域名污染问题 #Q#

文件传送协议 FTP

将某台计算机中的文件通过网络传送到可能相距很远的另一台计算机中，是一项基本的网络应用，即文件传送
文件传送协议FTP(File Transfer Protocol)是因特网上使用得最广泛的文件传送协议
- FTP提供交互式的访问，允许客户指明文件的类型与格式（如指明是否使用ASC川码），并允许文件具有存取权限（如访问文件的用户必须经过授权，并输入有效的口令）
- FTP屏蔽了各计算机系统的细节，因而适合于在异构网络中任意计算机之间传送文件。
在因特网发展的早期阶段，用FTP传送文件约占整个因特网的通信量的三分之一，而由电子邮件和域名系统所产生的通信量还要小于FTP所产生的通信量。
到了1995年，万维网WWW的通信量才首次超过了FTP
应用举例
- FTP客户可以通过因特网将文件上传到FTP服务器，也可以从中下载文件到本地
- 根据应用需求的不同，FTP服务器可能需要一台高性能和高可靠性的服务器计算机，也可能只需要一台普通的个人计算机即可
- FTP服务的创建可以使用专门的软件，也可以使用系统自带的服务工具
  - 例如Windows系统可以直接添加站点
基本工作原理
练习

电子邮件

基本信息
- 电子邮件(E-mail)是因特网上最早流行的一种应用，并且仍然是当今因特网上最重要、最实用的应用之一
- 传统的电话通信属于实时通信，存在以下两个缺点：
  - 电话通信的主叫和被叫双方必须同时在场
  - 一些不是十分紧迫的电话也常常不必要地打断人们的工作或休息
- 而电子邮件与邮政系统的寄信相似
  - 发件人将邮件发送到自己使用的邮件服务器
  - 发件人的邮件服务器将收到的邮件按其目的地址转发到收件人邮件服务器中的收件人邮箱
  - 收件人在方便的时候访问收件人邮件服务器中自己的邮箱，获取收到的电子邮件
  - 电子邮件使用方便、传递迅速而且费用低廉。它不仅可以传送文字信息，而且还可附上声音和图像
- 由于电子邮件的广泛使用，现在许多国家已经正式取消了电报业务。在我国，电信局的电报业务也因电子邮件的普及而濒临消失
基本结构
- 电子邮件系统采用客户/服务器方式。
- 电子邮件系统的三个主要组成构件：用户代理，邮件服务器，以及电子邮件所需的协议。
  - 用户代理是用户与电子邮件系统的接口，又称为电子邮件客户端软件
  - 邮件服务器是电子邮件系统的基础设施。因特网上所有的ISP（服务提供商）都有邮件服务器，其功能是发送和接收邮件，同时还要负责维护用户的邮箱
  - 协议包括邮件发送协议（如SMTP）和邮件读取协议（如POP3、IMAP）
简单邮件传送协议 SMTP
- 为了简单起见，省备了认证过程
- 应答代码后面一般都跟有简单的描述信息
- 不同的SMTP服务器给出的相同应答代码的描述信息可能不同
电子邮件的信息格式
- 电子邮件的信息格式并不是由SMTP定义的，而是在RFC822中单独定义的。这个RFC文档已在2008年更新为RFC5322
- 一个电子邮件有信封和内容两部分。而内容又由首部和主体两部分构成
  - 首部包括From、To 必填、Cc、Subject 必填
  - 主体
    - SMTP协议只能传送ASCII码文本数据，不能传送可执行文件或其他的二进制对象
    - SMTP不能满足传送多媒体邮件（例如带有图片、音频或视频数据）的需要。并且许多其他非英语国家的文字
      （例如中文、俄文、甚至带有重音符号的法文或德文）也无法用SMTP传送
    - 为解决SMTP传送非ASCII码文本的问题，提出了多用途因特网邮件扩展MIME（Multipurpose Internet Mail Extensions）
      - 增加了5个新的邮件首部字段，这些字段提供了有关邮件主体的信息
      - 定义了许多邮件内容的格式，对多媒体电子邮件的表示方法进行了标准化。
      - 定义了传送编码，可对任何内容格式进行转换，而不会被邮件系统改变
      - 实际上，MIME不仅仅用于SMTP，也用于后来的同样面向ASCII字符的HTTP
常用的邮件读取协议
- 邮局协议POP（Post Office Protocol）
  - POP3是其第三个版本，是因特网正式标准
  - 非常简单、功能有限的邮件读取协议
  - 用户只能以下载并删除方式或下载并保留方式，从邮件服务器下载邮件到用户方计算机
  - 不允许用户在邮件服务器上管理自己的邮件（如创建文件夹、分类管理等）
- 因特网邮件访问协议IMAP（Internet Message Access Protocol）
  - IMAP4 是其第四个版本，目前还只是因特网建议标准
  - 功能比POP3强大的邮件读取协议
  - 用户在自己的计算机上就可以操纵邮件服务器中的邮箱，就像在本地操纵一样，因此IMAP是一个联机协议
- POP3和IMAP4都采用基于TCP连接的客户/服务器方式
  - POP3使用熟知端口110
  - IMAP4使用熟知端口143
基于万维网的电子邮件
- 通过浏览器登录（提供用户名和口令）邮件服务器万维网网站就可以撰写、收发、阅读和管理电子邮件
- 这种工作模式与IIMAP很类似，不同的是用户计算机无需安装专门的用户代理程序，只需要使用通用的万维网浏览器
- 邮件服务器网站通常都提供非常强大和方便的邮件管理功能，用户可以在邮件服务器网站上管理和处理自己的邮件，而不需要将邮件下载到本地进行管理
练习

万维网 WWW

背景
- 万维网WWW(World Wide Web)并非某种特殊的计算机网络。它是一个大规模的、联机式的信息储藏所，是运行在因特网上的一个分布式应用
- 万维网利用网页之间的超链接将不同网站的网页链接成一张逻辑上的信息网
- 万维网是欧洲粒子物理实验室的Tim Berners-Lee最初于1989年3月提出的
浏览器
- 1993年2月，第一个图形界面的浏览器Mosaic
- 1995年著名的Netscape Navigatori浏览器上市
- 常见浏览器
- 浏览器最重要的部分是渲染引擎，也就是浏览器内核。负责对网页内容进行解析和显示
  - 不同的浏览器内核对网页内容的解析也有不同，因此同一网页在不同内核的浏览器里的显示效果可能不同
  - 网页编写者需要在不同内核的浏览器中测试网页显示效果
万维网应用请求过程
- 输入域名并回车后，用户主机向相应的万维网服务器发送请求报文
- 服务器收到后处理，并发回响应报文
- 用户主机收到后，由浏览器解析并渲染响应报文中的内容
统一资源定位符URL
- 为了方便地访问在世界范围的文档，万维网使用统一资源定位符URL来指明因特网上任何种类“资源”的位置
- URL的一般形式由以下四个部分组成
  - <协议>：//<主机>：<端口>/<路径>
万维网文档
- 超文本标记语言HTML(HyperText Markup Language)：使用多种“标签”来描述网页的结构和内容
- 层叠样式表CSS(Cascading Style Sheets) 从：审美的角度来描述网页的样式
- Javascript：一种脚本语言（和Java没有任何关系) 控制网页的行为
超文本传输协议HTTP（HyperText Transfer Protocol）
- HTTP定义了浏览器（即万维网客户进程）怎样向万维网服务器请求万维网文档，以及万维网服务器怎样把万维网文档传送给浏览器
- HTTP/1.0采用非持续连接方式。在该方式下，每次浏览器要请求一个文件都要与服务器建立TCP连接,当收到响应后就立即关闭连接
  - 每请求一个文档就要有两倍的RTT的开销。若一个网页上有很多引用对象（例如图片等），那么请求每一个对象都需要花费2RTT的时间
  - 为了减小时延，浏览器通常会建立多个并行的TCP连接同时请求多个对象
  - 但是，这会大量占用万维网服务器的资源，特别是万维网服务器往往要同时服务于大量客户的请求，这会使其负担很重
- HTTP/1.1采用持续连接方式
  - 在该方式下，万维网服务器在发送响应后仍然保持这条连接，使同一个客户（浏览器）和该服务器可以继续在这条连接上传送后续的HTTP请求报文和响应报文
  - 这并不局限于传送同一个页面上引用的对象，而是只要这些文档都在同一个服务器上就行
  - 为了进一步提高效率，HTTP/1.1的持续连接还可以使用流水线方式工作，即浏览器在收到HTTP的响应报文之前就能够连续发送多个请求报文
  - 这样的一个接一个的请求报文到达服务器后，服务器就发回一个接一个的响应报文
  - 这样就节省了很多个RTT时间，使TCP连接中的空闲时间减少，提高了下载文档的效率
- HTTP服务器默认的端口号为80，HTTPS服务器默认的端口号为443
- HTTP报文格式
  - HTTP是面向文本的，其报文中的每一个字段都是一些ASCII码串，并且每个字段的长度都是不确定的
  - 请求报文
  - 响应报文
使用Cookie在服务器上记录用户信息
- 早期的万维网应用非常简单，仅仅是用户查看存放在不同服务器上的各种静态的文档。因此HTTP被设计为一种无状态的协议。这样可以简化服务器的设计
- 现在，用户可以通过万维网实现各种复杂的应用，如网上购物、电子商务等。这些应用往往需要万维网服务
  器能够识别用户
- Cook提供了一种机制使得万维网服务器能够“记住”用户，而无需用户主动提供用户标识信息。也就是说，Cookie是一种对无状态的HTTP进行状态化的技术
- 运行机制
万维网缓存与代理服务器
- 在万维网中还可以使用缓存机制以提高万维网的效率。
- 万维网缓存又称为Web缓存(Web Cache),可位于客户机，也可位于中间系统上，位于中间系统上的Web缓存又称为代理服务器(Proxy Server)
- Web缓存把最近的一些请求和响应暂存在本地磁盘中。当新请求到达时，若发现这个请求与暂时存放的请求相同，就返回暂存的响应，而不需要按URL的地址再次去因特网访问该资源
- 会有一个有效期的机制来确保数据的一致性
习题