aix常规检查与排错

author author     2022-08-25     744

关键词:

一、AIX系统管理日常健康检查与监控

1.检查文件系统

命令:df -k(或df -m、df -g)

除了/usr文件系统,其他文件系统不应太满,一般不超过80%

如果发现文件系统空间不够,方法有两种

a.找出占用空间最大的文件

命令:du -sk * | sort -r n | head

查找当前目录下占用剑最大的子目录,逐层往下找,删除无用文件,释放空间

b.增加文件系统大小

命令:smit chfs

注意:卷组中要有剩余空间


2.检查系统完整性

命令:

umount filesystem_name

fsck filesystem_name

fsck -y filesystem_name

注意:文件系统必须先umount,再检查和修复,否则可能出错


3.查看卷组信息

命令:lsvg -l vg_name

如果发现有处于stale状态的卷组,尝试使用以下命令同步修复

命令:syncvg -v vg_name

或smit syncvg


4.检查内存交换区(paging space)使用率

命令:lsps -s (或lsps -a)

注意:使用率不要超过70%,如果超过了,要考虑增加交换区或增加内存

查看内存大小的命令:lsattr -El mem0


5.网络检查

命令:netstat -i

作用:查看网卡状态

关注:lerrs/lpkts和Oerrs/Opkts是否>1%

Oerrs:从这个网卡发出去错误包数目的统计

Opkts:从这个网卡发出去的ip包个数的统计


查看路由表

命令:netstat -rn


核对主机名

命令:hostname


查看IP地址

命令:ifconfig -a

用法

ifconfig en0 inet 11.0.0.1 up

ifconfig en0 ns 110:02.60.8c.2c.a4.98 up


查看网卡情况

命令:lsattr El ent0


添加缺省路由

路由信息格式:net,,0,172.16.23.81

命令:chdev -l inet0 -a route=0,172.16.23.81

其中172.16.23.81是网关


删除缺省路由

命令:chdev -l inet0 -a delroute=net,,0,133.16.23.81

如果缺省路由不正确,则先删除,再添加


6.系统故障记录

errdemon进程随系统启动而启动,记录包括硬件、软件及其他操作信息

文件路径:/var/adm/ras/errlog,可备份下来或拷贝到别的机器上分析

修改错误日志存放文件:/usr/lib/errdemon -i /PATH/TO/FILENAME

修改错误日志大小:/usr/lib/errdemon -s logsize

修改内存缓冲区大小:/usr/lib/errdemon -B buffersize


列出简短错误信息

命令:errpt | more

TIMESTAMP:MMDDHHMMYY(月日时分年)

T(类型):P 永久 T 临时   U 未知

C(分类):H 硬件 S 软件   O 用户 U未知

列出所有硬件出错信息:errpt -d H

列出所有软件出错信息:errpt -d S

列出详细出错信息:errpt -aj ERROR_ID(或errpt -A -j ERROR_ID)


二、清除错误日志

1.清除10天以前的所有日志

命令:errclear 10

2.清除所有硬件的错误

命令:errclear -d H 0

3.删除所有资源组为disk的记录

命令:errclear -N disk 0

4.删除所有类型为unknown的记录

命令:errclear -T UNKN 0

5.删除所有记录

命令:errclear 0


三、常用操作

1.查看机器上有几条内存及容量

命令:lscfg -vp | grep Size

命令:lscfg -vp | grep DIMM | wc -l


P570上每个Processor Card上有8个DDR memory DIMM slots,所以可以通过lscfg -vp | grep Processor看有几个Processor Card

命令:lscfg -vp | grep Processor

lscfg -vp | grep -p memory


2.查看每个硬盘(PV)容量的方法

命令:Bootinfo -s hdisk*


3.查看HBA卡的产品数据(VPD)信息

命令:lscfg -vl fcs0


四、故障处理

1.使用errpt查看报错信息

2.查看控制面板上的LES代码

8位代码:通常系统故障灯会同时亮起。某些机型还会同时显示故障设备位置代码。(注:S85正常启动过程中有合法的8位代码)

4位代码:通常是Exxx

3位代码:通常为0yyy,只看后3位

8为和4位代码可查看系统服务手册(Service Guide)

3位代码可查看系统诊断手册(Diagnostic Information for Multiple Bus System)

3.查看磁盘可用状态

命令:lsdev -Cc disk

4.查看物理卷

命令:lspv

5.查看卷组

命令:lsvg vg_name

lsvg -l vg_name

lsvg -p vg_name

5.查看文件组信息

命令:lslpp

例:lslpp -L | grep 23100020

6.查看设备参数设置

命令:lsattr

例:查看网卡参数

lsattr -El ent2

7.查看VPD信息

命令:lscfg

例:lscfg -vl ssa1








ssh排错思路

SSH排错思路:1、检查ifconfig的配置2、检查ssh的rpm包3、检查CRT连接虚拟机时候选择V2版本4、检查selinux,是否setenforce05、检查iptables6、检查/etc/ssh/sshd/sshd_config; 1、第66行PasswordAuthenticationyes  2、第70行ChallengeResponseAuthen 查看详情

exchange监控和排错(代码片段)

Exchange监控检查服务状态应用&服务信息检查标准标准值当前检查结果通过定期检查性能状态获得检查基数,将基数和定期检查时间生成趋势图检查标准:定期性能检查,根据软件厂商提供的标准的性能参数定义:性能基线基... 查看详情

lnmp排错

...法打开网站,无nginx欢迎界面,无法打开指定的HTML页面;检查nginx服务是否启动,iptables是否开放80端口,检查nginx的conf文件server段root指定的目录是否正确;提示502getaway错误检查PHP服务是否启动;检查ngin 查看详情

检查 cron 是不是安装在 AIX 机器上?

】检查cron是不是安装在AIX机器上?【英文标题】:tocheckcronisinstalledonAIXmachineornot?检查cron是否安装在AIX机器上?【发布时间】:2018-07-0817:15:20【问题描述】:我正在使用kshshell开发AIX机器。我只是想知道我的机器上是否安装了cron... 查看详情

2自学——计算机网络学习任务与进度(osi参考模型对网络排错指导)

...层提供服务2、网络出现故障从底层往高层一项项的逐步检查 演示排除故障:1、物理层故障的演示网络故障演示图如果打开浏览器输入网站的网址,访问不了网站,网页打不开,我们应该从物理层入手进行查找物理层故障:... 查看详情

报错解决与排错思路

...的不是static而是dhcp解决:改为dhcp负载均衡访问网站异常排错思路:第一步:负载均衡测试后端web节点服务器是否能够 查看详情

网络排错

...(路由器)6、pingDNS地址7、ping域名(是否正确解析)8、检查IE浏览器,是否启用代理服务器9、打不开某些网站,检查本地C:WindowsSystem32driversetchosts10、ApingB通,BpingA不通,检查防火墙是否开启11、尝试重启设备12、宽带是否欠费13... 查看详情

[转]-spark排错与优化

Spark排错与优化 http://blog.csdn.net/lsshlsw/article/details/49155087 一.运维1.Master挂掉,standby重启也失效Master默认使用512M内存,当集群中运行的任务特别多时,就会挂掉,原因是master会读取每个task的eventlog日志去生成Sparkui,内存不... 查看详情

排错思路

一般访问不通从两方面检查网络连通性(熟知网络调动链路)例如:Keepalived+nginx的访问网络链路(1)客户通过浏览器访问VIP端口,首先流量到Keepalived,然后Keepalived转发给nginx(可用telnet和tcpdump工具)检查浏览器请求是否到Keepa... 查看详情

esrejectedexecutionexception排错与线程池类型

 1、EsRejectedExecutionException异常示例java.util.concurrent.ExecutionException:RemoteTransportException[[node-client10][10.93.21.21:9300][indices:data/write/update]];nested:RemoteTransportException[[ 查看详情

华为——综合排错

...图:原有配置如下:pc1pc2pc3pc4SW1SW2SW3SW4R1R2排错思路:~~1.检查终端设备~~检查IP地址,子网掩码,网关是否配置正确通过上图pc1可以看出,pc1未配置网关;pc2获取IP地址为DHCP获取,而本拓扑中并没有提到设置了DHCP服务器;pc3配置... 查看详情

eslin常规t语法检查(代码片段)

"no-alert":0,//禁止使用alertconfirmprompt"no-array-constructor":2,//禁止使用数组构造器"no-bitwise":0,//禁止使用按位运算符"no-caller":1,//禁止使用arguments.caller或arguments.callee"no-catch-shadow":2,//禁止catch子句参数与外部作用域变量同名"no-c 查看详情

aix环境下odm库同步

...ODM库与rootvg硬盘上数据不同步的情况.使用命令lsvg-ldatavg检查文件系统类型,发现显示为"???"这就表示ODM库中定义与实际不一致.可以使用以下命令来实现rootvg文件系统与ODM库同步,完成后即可使用lsvg-l来检查#synclvodm-Pdatavg#syncvg-vdatavg 查看详情

eigrp的邻居排错

....双方K值相同。5.地址必须要在同一个网段(EIGRP也存在源检查),点到点网络中如果使用地址借用(无符号地址)没有源检查。6.如果单播建立邻居,必须两端同时配置为单播,进程下neighbor21. 查看详情

类与接口定义同一变量排错题

来自尚硅谷视屏/***@autodh*@create2020-03-22-15:09*/interfaceAintx=1;classBintx=2;classCextendsBimplementsApublicvoidrun()//类于接口处于平级,x跟接口A和类B的变量都匹配,无法判读该如何取值,报错System.out.println(x);publicclassTest011publicstaticvoidmain(String[... 查看详情

网络排错与网络命令的理解

 1. 虚拟机中NAT架构的网络结构中,虚拟网卡VMnet8(192.168.134.1)是连接宿主主机。  用虚拟网段中主机(192.168.134.133),ping VMnet8为什么没有响应,说明此网卡不在虚拟网段???  NAT虚拟网段中:  (1)NAT服... 查看详情

windows10-01网络排错

一、检查网络1.1检查电脑网线是否插好如果网线没插好会显示未连接到internet1.2查看IP地址、子网掩码、ping网关1、查看IP地址、子网掩码例子:如果获取的ip地址是以169开头的无效地址,是无法上网的2、ping网关如果ping网关不通... 查看详情

华为设备网络故障排错实验

...;SW3:SW4:R1:R2:排错思路:   从底层终端设备往上检查检查终端设备PC1未配置网关-修改如下PC2为自动获取IP地址,需要改为静态手动写入IP地址,子网掩码,网关修改如下:PC3配置正确,无需修改PC4 查看详情