解构数据包：揭秘互联网协议

互联网是全球协作的产物，旨在构建连接数十亿设备的互操作网络，不受国家、区域或制造商限制。这种努力催生了数百种定义设备通信标准的协议，其中互联网协议（IP）最为知名，但自诞生起就伴随着各种误解和阴谋论。

这些误解虽流传甚广却很容易驳斥。IEEE、IETF和ISO等组织已在线发布标准或请求评论（RFC）。这些文档虽充满技术术语却是信息宝库。当前互联网协议标准（RFC 791）发布于1981年。

网络通信的物流比喻

若熟悉实体邮件投递流程，就易于理解网络流量传输原理。例如从纽约搬迁至加州时，物品无法装入单箱，需分装多个箱子并粘贴目的地/退回地址后寄出。

网络数据传输同理。发送邮件或流媒体时，数据借助互联网协议（及其他协议）传输。但传输的是数据报而非家居物品，数据被拆分为数据包而非箱子。

源地址和目标地址均需IP地址。当前使用两种版本：IPv4和IPv6。IPv4地址为四组八位固定格式（如192.168.1.1）。IPv4地址稀缺，当前网络设备数量已超可用地址。网络地址转换（NAT）和IPv6是解决地址枯竭的方案。

NAT常见变体为端口地址转换（PAT）。ISP为家庭分配单公网IP，但用户通常拥有多个联网设备（游戏机、笔记本、手机等）。路由器会为每个设备分配私有IP和端口号，并通过ISP分配的单公网IP传输所有流量。

IPv6旨在完全替代IPv4。IPv4共43亿地址，IPv6约340万亿。虽推广缓慢但采用率持续上升。

当数据报过大无法穿越网络时需进行分片。受包大小限制，IP协议将数据报拆分为可重组片段。

IP包包含两大核心部分：报头和数据。IP报头包含传输与重组指令（IPv4报头结构见图1）。

互联网数字分配机构（IANA）负责跟踪分配有限IPv4地址，将地址块授权给区域互联网注册机构（RIR），再由RIR分配至区域内请求组织（如ISP），最终分配给终端用户。五大区域包括：

IP地址不包含位置坐标信息，仅是随机分配的数字。地理位置数据由第三方公司通过以下方式收集：

2016年堪萨斯家庭因MaxMind将其农场设为6亿IP地址的默认定位而遭遇警方频繁调查，最终诉讼私了。南非家庭也遭遇类似问题。2017年学术研究证实ARIN的城市级定位数据不可信。

理解互联网协议需掌握其复杂机理，本文可作为构建基础知识体系的重要起点。