openstackdvr原理深入分析

author author     2023-02-15     502

关键词:

一、DVR实验环境

一套vlan模式的openstack环境,interface_driver使用openvswitch,并在计算节点添加br-ex,用于计算节点虚拟机出外网。

二、DVR配置

1、控制节点

a、编辑/etc/neutron/neutron.conf
[DEFAULT]
router_distributed = True

b、重启neutron-server服务

2、网络节点

a、编辑/etc/neutron/l3_agent.ini
[DEFAULT]
agent_mode = dvr_snat

b、编辑
/etc/neutron/plugins/ml2/openvswitch_agent.ini
[agent]
enable_distributed_routing = True

c、重启neutron-l3-agent和neutron-openvswitch-agent服务

3、计算节点

a、编辑/etc/sysctl.conf
net.ipv4.ip_forward=1
net.ipv4.conf.all.rp_filter = 0
net.ipv4.conf.default.rp_filter = 0

b、执行命令sysctl –p

c、编辑/etc/neutron/l3_agent.ini
[DEFAULT]
interface_driver=neutron.agent.linux.interface.OVSInterfaceDriver
external_network_bridge =
agent_mode = dvr

d、编辑
/etc/neutron/plugins/ml2/openvswitch_agent.ini
[agent]
enable_distributed_routing = True

e、重启neutron-l3-agent和neutron-openvswitch-agent服务

三、启用dhcp实现metadata功能

1、默认情况下,metadata功能通过l3实现,在dvr模式下,如果使用l3实现的话,需要额外配置metadata agent,为了简化,该实验启用dhcp agent来实现metadata功能。

a、在网络节点上编辑/etc/neutron/dhcp_agent.ini
[DEFAULT]
force_metadata = True

b、重启neutron-dhcp-agent服务。

四、DVR到网关流表分析

1、创建router,关联到test1网络(网关192.168.1.1),并在test1网络内创建instance(192.168.1.9),网络模型如下:

技术分享图片

执行上述操作之后,neutron会在网络节点和计算节点(有instance运行)上都创建一个router的namespace,且配置完全一样。

也就是说,平台中会出现多个相同的router namespace,那么neutron如何实现虚拟机到网关的流量只到本地的router namespace呢?答案是flow table

2、举个例子:

a、在test1内ping网关(192.168.1.1),虚拟机会先发送arp请求去学习网关的mac地址,arp报文会从qvo-xxx端口进入br-int的table0,匹配arp和in_port,根据流表项,resubmit到table24。

b、在table24中匹配arp、in_port和arp_spa,命中之后,resubmit到table25。

c、在table25中匹配in_port和dl_src,命中之后,resubmit到table60。

d、在table60中,命中table-miss flow entry,根据action执行NORMAL。

e、网关地址是配置在router namespace中的qr-xxx上,而qr-xxx是br-int上的。

端口,所以qr-xxx会收到arp请求,并进行相应,arp相应报文会从qr-xxx端口再次进入br-int table0,命中table-miss flow entry,从而进行NORMAL转发,将报文转发给虚拟机的qvo-xxx。

f、虚拟机学到网关的mac地址之后,将icmp报文通过流表,转发给网关,ping流程完成。

3、现在分析neutron如何通过flow table 实现虚拟机到网关的流量只到本地的router namespace。

在上述的d步骤中,命中table-miss flow entry,根据action执行NORMAL,报文可能通过正常转发,到达br-vlan。

a、报文到达br-vlan后,会进入table=0,匹配in_port,命中后,resubmit到table1

b、在table1中,匹配dl_vlan、arp_tpa(arp报文)或者dl_dst,从而把到网关的报文,全部drop。

c、通过上述流表,保证到达网关的报文全部终结在宿主机本地。

五、虚拟机内网通信分析

DVR模式下,虚拟机的内网通信一般有四种场景:同网络同宿主机,同网络不同宿主机,不同网络同宿主机,不同网络不同宿主机,下面将对这四种场景逐一进行分析:

1、同网络同宿主机,不需要通过router,实验模型如下:

技术分享图片

test1和test2运行在同一台宿主上,执行test1 ping test2。

a、test1通过arp学习到test2的mac地址,流表匹配过程和步骤4(DVR到网关流表分析)中arp学习相同,然后封装icmp报文,从qvo-xxx port进入br-int的table0,匹配in_port,命中后,resubmit到table25。

b、在table25中,匹配in_port和dl_src,命中后,resubmit到table60。

c、在table60,命中table-miss,执行NORMAL转发。

d、test2的qvo-yyy port也在br-int上,报文通过qvo-yyy发送到test2,test2回包给test流程和test1到test2相同。ping流程结束。

2、同网络不同宿主机,不需要router,实验模型如下:

技术分享图片

test1和test2运行在不同宿主上,执行test1 ping test2。

此场景下,步骤a,b,c和同网络同宿主机场景步骤完全相同,报文会在br-int的table60执行NORMAL,此处不再赘述。

d、执行NORMAL后,报文会从phy-br-vlan port进入br-vlan的table0,匹配in_port,命中后,resubmit到table1。

e、在table1中,命中table-miss,resubmit table2。

f、在table2中,匹配in_port和dl_vlan,命中后,修改local vlan 1为全局vlan 196,然后执行NORMAL,此时报文会离开宿主机,从业务口发出去。

g、报文会被送到运行test2的宿主机业务口,然后进入br-vlan的table0,命中后,resubmit到table3。

h、在table3中,命中后,执行NORMAL,报文被送到br-int。

i、在br-int的table0中,匹配in_port和dl_vlan,命中后,修改全局vlan 196 为local vlan 1,然后执行NORMAL,报文会从qvo-yyy进入虚拟机test2。

j、test2回包和test1发包过程相同,至此,ping操作完成。

3、不同网络同宿主机,需要router,实验模型如下:

技术分享图片

创建router分别连接两个网络,每个网络上个各创建一台instance,执行上述操作之后,neutron会在网络节点和计算节点(有instance运行)上都创建一个router的namespace,且配置完全一样,qr-设备会被配置上对应网关ip地址。

test1和test2运行在同宿主上,执行test1 ping test2。

a、test1 通过计算知道要到达test2需要走三层,它会先发arp请求,学习网关的mac地址,然后封装icmp报文(目的ip是test2的ip,目的mac是网关的mac地址),通过默认路由,将报文送到本地的router namespace。
(学习网关过程中匹配流表的过程请参考 <4、DVR到网关流表分析>章节)。

b、报文从qr-test1进入router的PREROUTING链,然后查找到test2的路由,命中之后,进入POSTROUTING链,并从qr-test2重新进入br-int的table0。

c、在table0中,命中table-miss,resubmit到table60。

d、在table60中,命中后,执行NORMAL,将报文从qvo-xxx送到test2。

e、test2回包的过程和test1发包过程相同,至此,ping操作完成。

4、不同网络不同宿主机,需要router,实验模型如下:

技术分享图片

test1和test2运行在不同宿主上,执行test1 ping test2。

此场景下,步骤a,b,c和不同网络同宿主机场景步骤完全相同,
报文从qr-test2出来之后,在br-int的table60执行NORMAL,此处不再赘述。

d、在c中执行NORMAL之后,报文通过int-br-vlan port进入br-vlan的table0。

e、在table0中,匹配in_port,命中之后,resubmit到table1。

f、在table1中,匹配dl_vlan和dl_src,命中之后,修改源mac地址为neutron分配给宿主机mac,resubmit到table2。

注:开启DVR之后,neutron会给每个compute节点分配一个唯一的mac地址,避免物理交换机出现mac地址冲突的问题。

g、在table2中,匹配in_port和dl_vlan,命中之后,修改local vlan 2为全局
vlan 148,执行NORMAL,此时报文会从业务口eth1离开宿主机。

h、报文会进入运行test2的宿主机的业务口eth1进入br-vlan的table0。

i、在table0中,命中之后,resubmit到table3。

j、在table3中,匹配dl_src(neutron分配给宿主机的mac),将报文从phy-br-vlan送出给br-int table0。

k、在br-int的table0中,匹配in_port和dl_src(neturon分配给宿主机的mac),resubmit给table2。

l、在table2中,匹配dl_vlan和dl_dst,修改源mac为test2网关的mac,resubmit到table60。

m、在table60中,匹配dl_vlan和dl_dst ,剥去vlan,通过output将报文直接送到test2。

n、test2回包的过程和test1发包过程相同,至此,ping操作完成。

六、虚拟机出外网原理分析

1、创建一个router,并绑定内部网络test1,设置路由器的网关外网为external,在内网,外网上各创建一台虚拟机,用于测试,实验模型如下:

技术分享图片

执行上述操作之后,neutron会在网络节点创建三个namespace:qrouter-xxx、fip-yyy、snat-xxx。

计算节点(instance运行)创建qrouter-xxx、fip-yyy。

ps:各节点的namespace会在接下来的分析中说明其作用。

2、虚拟机test1的报文被送到本宿主机router namespace的qr-xxx设备上(上述已经说明,此处不再赘述),进入PREROUTING链(未命中,不做任何修改),查看策略路由,使用默认路由准备进行转发,然后进入POSTROUTING链(未命中),报文从qr-xxx发出,送往192.168.1.11进行处理(流表全部命中NORMAL)。

3、可能有人会有疑问,这里的192.168.1.11是啥?

事实上这个ip地址是neutron分配给snap-yyy namespace的一个ip,被配置在sg-zzz上,snap-yyy namespace在网络节点上,neutron通过策略路由和sg-zzz port将计算节点router namespace中的报文,转发到网络节点的snat-yyy中。

4、此时报文到达网络节点的snat-yyy namespace中的sg-zzz port上,在路由之前报文会进入PREROUTING链(未命中),然后查找路由。

随后进入POSTROUTING链,进行snat,并做连接跟踪,之后报文进行转发。

5、经过上述操作,虚拟机通过snat-yyy中的qg-设备出外网,通过连接跟踪返回(流表命中NORMAL)。

七、Floating ip原理分析

1、在章节6的基础上,从外网分配一个floating ip(10.100.0.7),并关联到虚拟机test1(192.168.1.9)上,并需要自行配置br-ex,用于虚拟机出外网,实验模型如下:

技术分享图片

执行上述操作之后,neutron会在对应的namespace里面添加若干策略,下面的分析中会逐一说明:

1、虚拟机test1的报文被送到本宿主机router namespace的qr-xxx设备上(上述已经说明,此处不再赘述),进入PREROUTING链(未命中,不做任何修改),查看策略路由。

通过策略路由,将报文通过rfp-6347c62b-2转发给169.254.109.47处理,随后进入POSTROUTING链,做snat修改。

2、到这里,大家可能会有一个疑问,这个rfp-6347c62b-2设备是啥?
事实上这个是veth pair的一端,它的另一端在fip-xxx namespace里面

neutron 使用这对veth pair,将报文从router的namespace里面,通过策略路由,转发到fip-yyy的namespace里。

3、至此,报文到达fip-yyy namespace,进入PREROUTING链(未命中),查看路由。

再进入POSTROUTING链(未命中),从而将报文从fg-7ec56cee-b5设备转发到外网。

4、至此,报文顺利从fg port发送到外网(流表命中NORMAL)。

5、现在开始分析外网设备通过floating ip进入虚拟机的情况。

假设存在一台外网设备external(10.100.0.14)去ping floating ip(10.100.0.7),外网设备首先会通过arp学习10.100.0.7的mac地址,而上述描述中,neutron并没有配置10.100.0.7的ip地址在任何设备上,也就是说,10.100.0.7并不存在,那报文是如何准确的送到fg口的呢?

事实上,neutron在fg port上开启了arp_haproxy功能,相当于进行了arp欺骗,这样,外网设备就将fg的mac地址学习成10.100.0.7的mac,并更新到自己的mac表中。

6、外网报文到达fg口之后,进入PREROUTING链(未命中),查看route表,准备将目的ip为floating ip的报文从fpr-6347c62b-2发送169.254.109.46。

随后进入POSTROUTING链(未命中),报文转发到router的namespace中。

7、报文到达router的namespace中的rfp-6347c62b-2设备,进入PREROUTING链,进行dnat操作。将目的ip从floating ip转换成内部fix ip(192.168.1.9)

随后查看route,准备将报文从qr-xxx port转发。

然后进入POSTROUTING链(未命中),将报文从qr- port转发到虚拟机test1。

8、至此,实现外网设备到内部ip的转发完成。

深入浅出java并发编程指南「原理分析篇」深入分析aqs的工作原理(前传)

查看详情

深入分析volatile的实现原理

引言在多线程并发编程中synchronized和Volatile都扮演着重要的角色,Volatile是轻量级的synchronized,它在多处理器开发中保证了共享变量的“可见性”。可见性的意思是当一个线程修改一个共享变量时,另外一个线程能读到这个修改... 查看详情

深入分析synchronized的实现原理

深入分析synchronized的实现原理 记得刚刚开始学习Java的时候,一遇到多线程情况就是synchronized,相对于当时的我们来说synchronized是这么的神奇而又强大,那个时候我们赋予它一个名字“同步”,也成为了我们解决多线程情况... 查看详情

flutter实践深入分析之——flutteractivity/fragment原理流程分析(代码片段)

文章目录前言FlutterActivity分析FlutterActivityAndFragmentDelegate.Host分析FlutterActivityAndFragmentDelegate分析onAttach方法onStart方法onCreateView方法FlutterSplashView分析FlutterFragment分析FlutterFragmentActivity分析onCrea 查看详情

flutter实践深入分析之——flutteractivity/fragment原理流程分析(代码片段)

文章目录前言FlutterActivity分析FlutterActivityAndFragmentDelegate.Host分析FlutterActivityAndFragmentDelegate分析onAttach方法onStart方法onCreateView方法FlutterSplashView分析FlutterFragment分析FlutterFragmentActivity分析onCrea 查看详情

jvm技术专题深入分析内存布局及gc原理分析「下卷」(代码片段)

...了,详细可见【JVM技术专题】深入分析内存布局及GC原理分析「上卷」)和【JVM技术专题】深入分析内存布局及GC原理分析「中卷」,目前我相信已经会有相关的对GC的原理和虚拟机的运作机制有了一定的了解了,... 查看详情

fork-join原理深入分析(代码片段)

...且较为庞大的框架分成5个小点来分析Fork-Join框架的实现原理,一个个点地理解透Fork-Join的核心原理。1.Frok-Join框架的核心类的结构分析??Fork-Join框架有三个核心类:ForkJoinPool,ForkJoinWorkerThread,ForkJoinTask。下面将分析这三个类的... 查看详情

java并发编程专题系列之深入分析aqs的工作原理(前传)

查看详情

深入浅出java并发编程指南「原理分析篇」从底层分析locksupport原理机制体系(代码片段)

从底层分析LockSupport原理机制知识点LockSupport的介绍LockSupport类是Java6(JSR166-JUC)引入的一个类,提供了基本的线程同步原语。LockSupport实际上是调用了Unsafe类里的函数,归结到Unsafe里,只有两个函数,而仅仅两个简单的接口,就为... 查看详情

深入分析javac编译原理

通常,一个java文件会通过编译器编译成字节码文件.class,再又java虚拟机JVM翻译成计算机可执行的文件。我们所知道的java语言有它自己的语法规范,同样的JVM也有它的语法规范,如何让java的语法规则去适应语法解析规则,这就... 查看详情

深入分析object.finalize方法的实现原理

“物有本末,事有始终。知其先后,则近道矣”finalize如果类中重写了finalize方法,当该类对象被回收时,finalize方法有可能会被触发,下面通过一个例子说明finalize方法对垃圾回收有什么影响。publicclassFinalizeCase{privatestaticB... 查看详情

深入分析zookeeper的实现原理

zookeeper的由来  分布式系统的很多难题,都是由于缺少协调机制造成的。在分布式协调这块做得比较好的,有Google的Chubby以及Apache的Zookeeper。GoogleChubby是一个分布式锁服务,通过Google Chubby来解决分布式协作、Master选举等与... 查看详情

深入浅出spring原理及实战「源码调试分析」结合datasourceregister深入分析importbeandefinitionregistrar的源码运作流程

每日一句人的一生中不可能会一帆风顺,总会遇到一些挫折,当你对生活失去了信心的时候,仔细的看一看、好好回想一下你所遇到的最美好的事情吧,那会让你感觉到生活的美好。注入案例代码如何通过实现SpringBoot框架带有... 查看详情

《深入理解mybatis原理1》mybatis的架构设计以及实例分析

 《深入理解mybatis原理》MyBatis的架构设计以及实例分析MyBatis是目前非常流行的ORM框架,它的功能很强大,然而其实现却比较简单、优雅。本文主要讲述MyBatis的架构设计思路,并且讨论MyBatis的几个核心部件,然后结合一个sele... 查看详情

深入分析synchronized的实现原理

基础概念  synchronized可以保证方法或者代码块在运行时,同一时刻只有一个方法可以进入到临界区,同时可以保证共享变量对内存可见性。   Java中每一个对象都可以作为锁,这是synchronized实现同步的基础:普通同步方... 查看详情

详细深入分析classloader工作机制

...级加载机制Java默认提供的三个ClassLoaderClassLoader加载类的原理原理介绍2为什么要使用双亲委托这种模型呢3 查看详情

jvm技术专题深入分析内存布局及gc原理分析「中卷」(代码片段)

...;希望可以先看一下【JVM技术专题】深入分析内存布局及GC原理分析「上卷」),接下来我们会侧重点去讲解GC回收机制的运作流程以及回收期(暂时不包含最新的ZGC),小 查看详情

深入分析java的编译原理

...机做的,这个过程也叫编译。是更深层次的编译。在编译原理中,把源代码翻译成机器指令,一般要经过以 查看详情