当前位置:首页 > 物理机 > 正文

如何配置ESXi物理机链路聚合提升网速?

ESXi物理机链路聚合通过将多个物理网卡绑定成一个逻辑通道,实现带宽叠加和冗余备份,有效提升网络性能和可靠性。

在构建高性能、高可用的虚拟化环境时,ESXi 主机物理网络连接的稳定性和带宽至关重要,单个物理网卡(NIC)可能成为瓶颈或单点故障点。链路聚合(Link Aggregation),特别是通过 LACP(Link Aggregation Control Protocol) 实现的动态聚合,是解决这一问题的核心网络技术,本文将深入探讨在 ESXi 物理机上实施链路聚合的原理、配置方法、优势以及最佳实践。

什么是链路聚合?为什么在 ESXi 上需要它?

链路聚合(也称为 NIC Teaming、Port Channel 或 Bonding)是一种将多个物理网络接口组合成一个单一逻辑接口的技术,其主要目的有两个:

  1. 增加带宽: 聚合后的逻辑链路总带宽理论上等于所有成员物理链路带宽之和(2 个 1GbE 网卡聚合后提供 2Gbps 的总带宽)。
  2. 提供冗余: 如果聚合组中的一个物理网卡、网线或交换机端口发生故障,流量会自动、无缝地切换到其他正常工作的成员链路上,保证网络连接的持续可用性。

对于 ESXi 主机,链路聚合尤其重要:

  • 提升虚拟机网络性能: 多个虚拟机共享主机物理网络出口时,聚合链路提供更大的总带宽池,减少拥塞。
  • 保障关键业务连续性: 防止因单块网卡或单条线路故障导致虚拟机网络中断,提升虚拟化平台的可靠性。
  • 优化存储网络: 对于使用 iSCSI 或 NFS 等基于 IP 的存储协议,聚合链路能显著提升存储访问速度和可靠性。
  • 支持 vMotion 等高带宽操作: vMotion 迁移大量内存数据时,聚合链路能缩短迁移时间。

ESXi 链路聚合模式详解

ESXi 支持多种链路聚合或网卡绑定模式,理解它们的区别是正确配置的关键:

  1. 基于源-目的 IP 哈希(Route based on IP hash):

    如何配置ESXi物理机链路聚合提升网速?  第1张

    • 原理: 这是 ESXi 上实现真正链路聚合的模式,它使用源和目标 IP 地址(有时还包括 TCP/UDP 端口号)计算哈希值,根据哈希结果将流量分配到不同的物理链路上。此模式要求交换机端也必须配置为动态链路聚合(LACP)或静态链路聚合。
    • 优点: 能充分利用所有成员链路的带宽(负载均衡),并提供链路级冗余。只有此模式能实现跨物理链路的带宽叠加。
    • 缺点: 配置相对复杂,需要交换机端配合,单个 TCP/UDP 流的流量不会超过单条物理链路的带宽(因为一个流会被哈希到固定的一条链路上)。
    • 适用场景: 需要最大化利用上行带宽和提供高可用性的场景(如 vSphere 标准交换机/vSS 或分布式交换机/vDS 的上行链路组)。
  2. 基于源 MAC 哈希(Route based on source MAC hash):

    • 原理: 根据虚拟机 vNIC 的源 MAC 地址计算哈希值,将流量分配到不同的物理链路上,交换机端无需配置链路聚合,每个物理链路在交换机上是独立端口。
    • 优点: 配置简单,无需交换机配合,能提供一定程度的负载均衡(不同虚拟机的流量走不同链路)和基本的故障切换。
    • 缺点: 不能叠加带宽! 单个虚拟机的流量只会走一条物理链路(其 MAC 哈希固定到某条链路),其最大带宽受限于单条物理链路的带宽,如果大部分流量来自少数几台虚拟机,负载均衡效果不佳。
    • 适用场景: 对带宽叠加要求不高,主要追求冗余和简单配置的场景,或交换机不支持链路聚合时。
  3. 基于明确故障切换(Failover Explicit):

    • 原理: 指定一个活动的上行链路(Active),一个或多个备用上行链路(Standby),只有当活动链路故障时,备用链路才会接管。没有负载均衡功能。
    • 优点: 配置简单,提供冗余。
    • 缺点: 完全不利用备用链路的带宽,资源利用率低。
    • 适用场景: 对带宽要求不高,纯粹追求冗余且活动链路带宽足够的情况。
  4. 基于物理网卡负载(Load-Based Teaming – LBT):

    • 原理: ESXi 会监控物理网卡的负载(利用率),当某条活动链路的负载超过 75% 并持续 30 秒时,系统会自动将一部分流量(新的流)转移到其他利用率较低的活动链路上。交换机端通常无需配置聚合(类似源 MAC 哈希模式)。
    • 优点: 在源 MAC 哈希的基础上,增加了动态的、基于实际负载的流量调整能力,能更好地利用多条链路的带宽潜力,减少拥塞。
    • 缺点: 仍然不是真正的带宽叠加。 单个流的带宽仍受限于单条物理链路,调整有延迟(30秒阈值)。
    • 适用场景: 使用源 MAC 哈希模式,但希望获得更智能负载均衡的场景。

重要结论:

  • 如果目标是同时获得带宽叠加和链路冗余必须选择“基于源-目的 IP 哈希”模式,并同时在 ESXi 和物理交换机上配置链路聚合(推荐使用 LACP)。
  • 其他模式主要提供冗余和有限的负载均衡无法突破单条物理链路的带宽限制

配置 ESXi 物理机链路聚合(LACP 模式)

以下是配置真正链路聚合(基于源-目的 IP 哈希 + LACP)的关键步骤概述:

  1. 物理准备:

    • 在 ESXi 主机上安装至少两块相同速率(推荐相同型号)的物理网卡。
    • 将每块网卡连接到支持 LACP 的物理交换机的不同端口上。
    • 确保物理交换机的端口速率和双工模式设置正确(通常为自动协商或强制为相同速率/全双工)。
  2. 交换机端配置:

    • 登录物理交换机管理界面。
    • 创建一个 LACP 聚合组(Channel Group / Port Channel / Link Aggregation Group – LAG),具体命令因交换机品牌(Cisco, HPE Aruba, Juniper 等)而异。
    • 将连接 ESXi 主机物理网卡的交换机端口添加到这个聚合组中。
    • 配置聚合组模式为 active LACP(推荐)或 passive LACP(ESXi 端配置为 active)。active 模式双方都主动发送 LACP 报文,协商更快更可靠。
    • 配置聚合组的负载均衡算法(如 src-dst-ip, src-dst-mac 等),通常与 ESXi 的“基于源-目的 IP 哈希”配合良好。
    • 保存交换机配置。
  3. ESXi 端配置 (使用 vSphere Client/Web Client):

    • a. 配置分布式交换机 (vDS – 推荐):
      • 创建或编辑一个 vSphere Distributed Switch。
      • 在 vDS 设置中,找到“LACP”配置部分。
      • 点击“添加”创建一个新的 LACP 聚合组。
      • 指定聚合组的名称、模式(活动被动必须与交换机端模式匹配,推荐两端都设为活动)、Uplink 数量(即参与聚合的物理网卡数量)。
      • 保存 vDS 的 LACP 配置。
      • 将 ESXi 主机添加到该 vDS(或确保主机已关联)。
      • 在 vDS 上创建或编辑一个端口组(Port Group),该端口组将用于承载虚拟机流量或 VMkernel 流量(如管理、vMotion、存储)。
      • 在该端口组的“成组和故障切换”策略中,将“负载均衡”设置为“基于 IP 哈希的路由”
      • 在“成组和故障切换”策略的“故障切换顺序”中,确保之前创建的 LACP 聚合组(会显示为一个或多个 Uplink)被标记为“活动适配器”。
      • 将该端口组分配给需要高带宽/高可用网络的虚拟机或 VMkernel 适配器。
    • b. 配置标准交换机 (vSS – 较旧或简单环境):
      • 在 ESXi 主机的“网络”配置视图中,选择“虚拟交换机”选项卡。
      • 编辑或创建一个 vSphere Standard Switch。
      • 在“添加上行链路”步骤,选择要参与聚合的多块物理网卡(vmnicX, vmnicY)。
      • 在 vSS 的“属性”中,找到“成组和故障切换”设置。
      • 将“负载均衡”设置为“基于 IP 哈希的路由”
      • 在“网络适配器”列表中,确保所有参与聚合的物理网卡都处于“活动适配器”状态。
      • 在 vSS 上创建或编辑端口组,同样将其“负载均衡”策略设置为“基于 IP 哈希的路由”
      • 将该端口组分配给虚拟机或 VMkernel 适配器。
      • 注意: vSS 本身不支持直接配置 LACP,设置“基于 IP 哈希的路由”后,必须确保交换机端已经正确配置了静态链路聚合或 LACP 聚合,ESXi 才能成功与交换机协商聚合。
  4. 验证:

    • ESXi 端: 在 vSphere Client 中检查主机的“网络”概览,查看对应 vSS 或 vDS 端口组的上行链路状态,应显示所有物理链路都是活动的,使用 ESXi Shell 命令 esxcli network nic list 查看物理网卡状态,esxcli network vswitch standard list (vSS) 或 esxcli network vswitch dvs vmware list (vDS) 查看交换机配置,确认负载均衡策略。
    • 交换机端: 登录交换机,使用 show lacp neighbor (Cisco) 或类似命令,确认能看到 ESXi 主机发送的 LACP 报文,且聚合组状态为 bndl (bundle) 或 active,使用 show interface port-channel 查看聚合接口状态和流量统计。
    • 流量测试: 使用网络性能测试工具(如 iPerf3)在虚拟机之间或虚拟机与外部主机之间进行大流量传输,观察是否能够利用到聚合的总带宽(注意单个流的限制)。

最佳实践与注意事项

  1. 优先使用 vDS 和 LACP: vDS 提供更精细的管理、集中化配置(跨多主机)、原生 LACP 支持以及 NetFlow 等高级功能,是生产环境的推荐选择。
  2. 成员链路一致性: 参与聚合的物理网卡应尽量型号相同、速率相同,不同速率或型号的网卡虽然可以聚合,但实际可用带宽受限于最慢的成员,且可能引入复杂性。
  3. 交换机端口配置: 参与聚合的交换机端口配置(VLAN、MTU 等)必须完全相同。
  4. LACP 模式匹配: ESXi 和交换机端的 LACP 模式(活动/被动)必须兼容,两端都设为活动是最简单可靠的配置。
  5. MTU (Jumbo Frames): 如果需要在聚合链路上启用巨帧(如用于存储网络),务必在 ESXi (vSS/vDS, VMkernel 端口)、物理网卡驱动、物理交换机聚合接口及相连的所有端口上都统一配置相同的 MTU(通常为 9000)。
  6. VLAN 配置: 如果使用 Trunk 端口承载多个 VLAN,确保 ESXi 端口组和交换机聚合接口的 VLAN 配置(Trunk 允许的 VLAN 列表)一致。
  7. 监控与排错: 定期监控聚合链路的状态和利用率(通过 vCenter 性能图表或交换机 CLI/GUI),出现问题时,检查物理连接、网卡状态、交换机聚合组状态、LACP 协商状态以及配置一致性。
  8. 理解负载均衡限制: 牢记“基于 IP 哈希”模式下,单个 TCP/UDP 流的带宽上限是单条物理链路的带宽,需要多流(如多线程下载、多个并发连接)才能打满聚合总带宽。

在 ESXi 物理机上正确配置链路聚合(特别是结合 LACP 的“基于源-目的 IP 哈希”模式)是构建高性能、高可靠虚拟化网络基础架构的基石,它有效解决了单网卡带宽瓶颈和单点故障问题,为虚拟机业务、vMotion、IP 存储等关键流量提供了坚实的保障,理解不同聚合模式的区别,遵循推荐的配置步骤和最佳实践,并做好验证与监控,是确保链路聚合发挥最大效益的关键,通过实施这一技术,您可以显著提升虚拟化环境的网络服务等级(SLA),为业务系统提供更稳定、更快速的网络连接。


引用说明:

  • 的核心技术原理和配置方法基于 VMware 官方文档关于 vSphere Networking、vSphere Distributed Switch 和 NIC Teaming 的阐述。
  • 具体交换机配置命令和概念参考了主流网络设备厂商(如 Cisco、HPE Aruba、Juniper)关于链路聚合(LACP/EtherChannel)的官方配置指南和技术白皮书。
  • 最佳实践部分综合了 VMware 社区推荐、行业经验以及网络工程基本原理。
0