记一次脑残的故障处理-万兆网卡驱动升级

dingtianwei dingtianwei     2023-01-02     351

关键词:

环境

  • centos 6.5 x64
  • 83599ES 万兆网卡
  • 旁路流量送到万兆网卡

升级万兆网卡驱动

重复过一万次的操作,一键搞定;这里有一个小细节,intel官网驱动有版本升级,之前的地址不能用了,重新更改地址,下载最新版的pf_ring

问题

可以看到网卡流量,但是使用tcpdump无法捕获数据包

处理过程

  1. 怀疑pf_ring的模式问题,设置pf_ring模式无果
  2. 为避免干扰,卸掉pf_ring模块
  3. 完全卸载pf_ring
  4. 干掉配置的网卡参数
  5. 卸载驱动,加载原始驱动,正常
  6. 怀疑驱动版本太高,找到老版本安装后,问题依旧
  7. 开始正式对待这个事情,查看驱动支持的系统
  8. 发现问题,因为centos的版本太低,最新驱动早已不支持6.5
  9. 一路查看驱动的Readme,往下找到能兼容的版本
  10. 问题解决

记一次mariadb升级故障

由于做mariadb集群,将版本从自带的5.5升级到10.0.3,升级成功后发现起不来查journallog,只有一行warningcan’tcreatetestfile/var/lib/mysql/core.lower-testgoogle了一下,有两种方案第一是说selinux导致的,但是ucloud的镜像默认就是关闭selinux的,所... 查看详情

记一次存储故障导致数据库坏块处理过程

记一次存储故障导致数据库坏块处理过程线上架构说明:    IBM DS4800存储一套    P560小机HA架构一套    两个数据库资源组平时run在HA架构中的任意一台中,资源组全部使用共享存储... 查看详情

那些年很脑残的bugs

1.老师给了前端界面,我们用java写后台。我改了表单form的action属性,让它跳到自己写的servlet上面去。自己在servlet里面对数据库一顿操作猛如虎,然后让servlet跳回原来页面。但是测试的时候点了页面上的按钮之后,数据库里面... 查看详情

记一次企业级爬虫系统升级改造:文本分析与数据建模规则化处理

...功能等不明白的可先看该系列的第1/2篇文章:    1.记一次企业级爬虫系统升级改造(一)    2.记一次企业级爬虫系统升级改造(二):基于AngleSharp实现的抓取服务  再贴一次博主对这个系统的简要整体规划图: ... 查看详情

记一次网络共享打印机故障

刚开始去到办公室发现电脑之间的环境是XP跟WIN10查看共享主机发现没有监听139和445端口 然后在网卡属性把Microsoft网络客户端和Microsoft网络的文件和打印机共享删除重启 重新安装这两个客户端 发现虽然共享主机有监... 查看详情

记一次kafka故障

故障现象:kafka有3个Partition分别为0,1,2,在实际运行中发现consumer只能收到Partition:0和Partition:1的数据,检查topic状态均正常。查找Partition::2的Leader为92,如下所示:进一步检查92的server.properties配置文件,发现advertised.listeners字段... 查看详情

记一次无法远程故障排查20161211.2111

记一次无法远程故障排查20161211.2111故障说明:客户反馈无法远程连接;本地ping丢包率很大;登陆查看:650)this.width=650;"width="275"height="517"src="/e/u261/themes/default/images/spacer.gif"style="background:url("/e/u261/lang/zh-cn/images/ 查看详情

记一次raid故障磁盘故障恢复

     由于业务服务器中一块硬盘有坏道,用硬盘哨兵检测软件检测,已经提示亮红叉了。650)this.width=650;"src="https://s3.51cto.com/wyfs02/M02/8F/21/wKioL1jUrtmx_yvFAABNQWb54yA639.jpg-wh_500x0-wm_3-wmp_4-s_569723916.jpg 查看详情

记一次ceph日志损坏的分析处理过程

1、故障现象今天下午看到群友在说一个问题,说ceph的某个osd处于down的状态,我大概整理下他的处理过程1、查看OSD的状态2、查看日志信息3、启动对应的ceph-osd服务4、检查集群健康状态2、日志损坏了,如何让osd重新上线思路:... 查看详情

记一次truncate导致的锁表处理

一个不是很大的表,由数据分析部门生成并用于业务。由于代码发了新版需要第一次运行,所以在业务低峰期让数据部门执行了,逻辑是先truncate再insert重建。由于一直以来都没问题,觉得不会出错。结果过一会儿悲剧了,告警... 查看详情

记一次xtrabackup全备恢复故障修复

使用innobackupex--copy-back完全恢复后,启动mysqld_safe--user=mysql&时报错,无法启动[[email protected]~]#df-h Filesystem   Size UsedAvailUse%Mountedon/dev/sda3    19 查看详情

记一次自动恢复的支付故障

故障描述作为一个老牌OTA公司,公司早些年订单主要来源是PC网站和呼叫中心。我在入职公司大约半年后,遇到一次非常诡异的故障。有一天早上,大概也是这个季节,阳光明媚,程序猿刚起床,洗洗涮涮,准备去迎接初恋般的... 查看详情

记一次网络故障——pod间无法通信(代码片段)

一、背景集群是二进制部署部署完成后一起正常,各种资源对象均可正常创建、部署应用后发现无法跨节点通信,且pod的ip都是172.17.0.0段的二、排查过程层查看节点路由,发现docker0网卡居然是172.17.0.0段(what?)查找如下资料:... 查看详情

记一次文件系统故障的修复(代码片段)

1故障起因收到白盒告警:线上机器ip:x.x.x.x文件系统没有挂载(/search/odin)。看来得登上机器排查了。2df-h看下情况[@djt_22_168~]#df-hFilesystemSizeUsedAvailUse%Mountedon/dev/vda140G5.4G32G15%/devtmpfs3.9G03.9G0%/devtmpfs3.9G03.9G0%/dev/shmtmpfs3 查看详情

解bug之路-记一次存储故障的排查过程(代码片段)

解Bug之路-记一次存储故障的排查过程高可用真是一丝细节都不得马虎。平时跑的好好的系统,在相应硬件出现故障时就会引发出潜在的Bug。偏偏这些故障在应用层的表现稀奇古怪,很难让人联想到是硬件出了问题,特别是偶发... 查看详情

记一次排除单点故障的经历

在生产环境中,为了保障业务的连续性,一般会对系统进行高可用性建设,避免单点故障。前段时间排除系统风险的时候发现了一个单点故障的风向,记录下来,希望可以在以后工作中举一反三。一个系统XSystem有两台主备机器A... 查看详情

记一次线上故障处理

前言下面信息裁剪了一些,有的不确定了就拍脑袋定了,大体情况还是和实际相似。整体过程最开始接到告警一个周六的9:00接到钉钉告警A应用线上499数量大量增加,A应用的背景介绍先说下A应用的背景,我们A应用每天上亿次访... 查看详情

记一次端口聚合之牵一发而动全身

背景:用户与市局的骨干连接在去年已经升级到了万兆,但下连防火墙却是千兆连接,近半年来网络流量不断增加,千兆链路几乎跑满,为暂时缓解压力,决定采用两条链路连接防火墙。主演:小山---山石防火墙小思---思科路由... 查看详情