AIX主机性能评估
对于AIX主机的性能评估,主要从下面的4个方面来逐一介绍:CPU、MEMORY、I/O系统和网络这4个方面来描述。AIX 5.3主机性能评估 2
一、CPU性能评估 2
1、vmstat 2
2、sar 3
3、iostat 5
4、tprof 6
5、ps 8
6、解决CPU占用的惩罚机制nice和renice 9
7、小结 10
二、Memory性能评估 11
1、VMM的管理简介 11
2、使用vmstat确定内存的使用情况 14
3、svmon命令 14
4、内存的调整 15
三、磁盘的I/O性能评估 16
1、iostat查看 17
2、sar –d查看 20
3、使用lslv –l lvname来评估逻辑卷的碎片情况 21
4、lslv –p 评估物理布局 22
5、使用 vmstat 命令评估调页空间的 I/O 23
6、使用filemon命令监控系统I/O 24
7、监视磁盘 I/O 的小结 26
8、案例 26
9、RAID10和RAID5的比较 28
四、NETWORK性能评估 31
1、ping命令查看网络的连通性 31
2、netstat –i检查网络的接口 31
3、netstat –r检查主机的路由情况 32
4、netpmon 34
5、其他一些常用的命令 36
五、补充:关于topas的使用说明 36
六、主机日常检查脚本 39
脚本中包括的内容包括:主机的cpu,memory,io,network检查;ha检查,主机告警日志;数据库表空间,告警日志,job等的检查。
更新:七、结合oracle的一个案例 第一部分目录
一、CPU性能评估 1
1、vmstat 1
2、sar 3
3、iostat 5
4、tprof 5
5、ps 7
6、解决CPU占用的惩罚机制nice和renice 9
7、小结 9 1、vmstat
使用vmstat来进行性能评估,该命令可获得关于系统各种资源之间的相关性能的简要信息。当然我们也主要用它来看CPU的一个负载情况。
下面是我们调用vmstat命令的一个输出结果:
$vmstat 1 2
System configuration: lcpu=16 mem=23552MB
kthr memory page faults cpu
----- ----------- ------------------------ ----------------- -----------
r b avm fre re pi po fr sr cy in sy cs us sy id wa
0 0 3091988 2741152 0 0 0 0 0 0 1849 26129 4907 8 1 88 3
0 0 3091989 2741151 0 0 0 0 0 0 2527 32013 6561 15 2 77 6
对上面的命令解释如下:
Kthr段显示内容
• r列表示可运行的内核线程平均数目,包括正在运行的线程和等待 CPU 的线程。如果这个数字大于 CPU 的数目,则表明有线程需要等待CPU。
• b列表示处在非中断睡眠状态的进程数。包括正在等待文件系统 I/O 的线程,或由于内存装入控制而被挂起的线程。
Memory段显示内容
• avm列表示活动虚拟内存的页面数,每页一般4KB
• fre空闲的页面数,每页一般4KB
Page段显示内容
• re –该列无效
• pi 从磁盘交换到内存的交换页(调页空间)数量,4KB/页。调页空间是驻留在硬盘上的虚拟内存的一部分。当内存使用过量时,会将溢出的工作组页面存储到调页空间中(窃取页)。当进程访问一个窃取页时,就产生了一个缺页故障,而这一页页必须从调页空间中读入到内存中。
• po 从内存交换到磁盘的交换页数量,4KB/页。如果窃取的工作也在调页空间中不存在或者已经作了修改,则写入调页空间中。如果不被再次访问,它会留在调度空间中直到进程终止或者放弃空间。
• fr 根据页面替换算法每秒释放的页数。当VMM页面替换例程扫描页面帧表(Page Frame Table,PFT)时,它会根据一些条件选取需要窃取的页面以补充空闲列表。该条件中包含工作页面和计算页面,释放的页面中,计算页面不产生I/O,工作页面如果数据没有发生修改,也不需要写回磁盘,也不会产生I/O。
• sr 根据页面替换算法每秒所检查的页数。sr值比fr值高的越多,说明替换算法要查找可以替换的页面就越困难。
• cy 每秒页面替换代码扫描了PFT多少次。因为增加空闲列表达到maxfree值,不一定需要完全扫描PFT表,而所有vmstat输出都为整数,所以通常cy列值为0。
Faults段显示内容(其实这段内容不需太多关注)
• in 在该时间间隔中观测到的每秒设备中断数。
• sy 在该时间间隔中观测到的每秒系统调用次数。
• cs 在该时间间隔中观测到的每秒钟上下文切换次数。
Cpu段显示内容
• us 列显示了用户模式所消耗的 CPU 时间。
• sy 列详细显示了 CPU 在系统模式所消耗的 CPU 时间。
• id 列显示了没有未决本地磁盘 I/O 时 CPU 空闲或等待时间的百分比。
• wa 列详细显示了有未决本地磁盘 I/O 时 CPU 空闲的时间百分比。wa 的值如果超过 25%,就表明磁盘子系统可能没有被正确平衡,或者这也可能是磁盘工作负荷很重的结果。
如果在一个单用户系统中,us + sy时间不超过 90%,我们就不认为系统的CPU是受限制的。
如果在一个多用户系统中,us + sy时间超过 80%, 我们就认为系统的CPU是受限的。其中的进程将要花时间在运行队列中等待。响应时间和吞吐量会受损害。
检查cpu,我们主要关注报告中的4个cpu列和2个kthr(内核线程)列。
在上面的示例中,我们可以观察到以下几个主要的信息:
CPU IDLE比较高,比较空闲;r列为0,表明线程不存在等待;
WA值不高,说明I/O压力不大;
free值比较大,pi,po为0,表明内存非常富裕。空闲较多。 2、sar
第二个常用的是 sar命令,但是sar会增加系统的开销。当然有些情况下,我们使用sar比较方便。
sar的输出结果与前面的基本类似,这里不再作详细的介绍,关于命令的语法,也不再作详细的介绍,我们常用的命令格式:
#sar 1 3
AIX jsdxh_db02 3 5 00C2C1EB4C00 10/24/07
System configuration: lcpu=16
17:52:26 %usr %sys %wio %idle physc
17:52:27 19 7 0 75 8.00
17:52:28 19 6 0 75 8.01
17:52:29 19 7 0 75 8.02
Average 19 7 0 75 8.01
在这里,sar命令输出的是一个整体的cpu使用情况的一个统计,统计分项目的内容也比较直观,通过名字就可以理解涵义。这里有一点比较方便的就是,在最后一行有一个汇总的average行,作为上述统计的一个平均。另外,补充说明一点的就是,一般来说,第一行统计信息包含了sar命令本身启动的cpu消耗,所以往往是偏高的,所以导致average值也往往是偏高一点的。当然,这不会对结果产生多大影响。
当我们有多个cpu的时候,而程序采用的是单线程,有时候会出现一种情况,我们检查发现,cpu总体的使用率不高,但是程序响应却比较慢。这里有可能就是单线程只使用了一个cpu,导致这个cpu100%占用,处理不过来,而其他的cpu却闲置。这时可以对cpu分开查询,统计每个cpu的使用情况。
#sar -P ALL 1 2
AIX jsdxh_db02 3 5 00C2C1EB4C00 10/24/07
System configuration: lcpu=16
18:03:30 cpu %usr %sys %wio %idle physc
18:03:31 0 0 69 0 31 0.00
1 50 50 0 0 1.00
2 0 0 0 100 0.52
3 0 0 0 100 0.48
4 0 1 0 99 0.54
5 0 0 0 100 0.46
6 0 0 0 100 0.53
7 0 0 0 100 0.47
8 0 0 0 100 0.53
9 0 0 0 100 0.47
10 0 2 0 98 0.54
11 0 0 0 100 0.46
12 11 58 0 31 0.00
13 100 0 0 0 1.00
14 0 0 0 100 0.53
15 0 0 0 100 0.47
- 19 7 0 75 8.01
18:03:32 0 0 71 0 29 0.00
1 50 50 0 0 1.00
2 0 0 0 100 0.52
3 0 0 0 100 0.48
4 0 1 0 99 0.54
5 0 0 0 100 0.47
6 0 0 0 100 0.52
7 0 0 0 100 0.47
8 0 0 0 100 0.53
9 0 0 0 100 0.47
10 0 2 0 98 0.54
11 0 0 0 100 0.46
12 39 41 0 20 0.00
13 100 0 0 0 1.00
14 0 0 0 100 0.52
15 0 0 0 100 0.47
- 19 7 0 75 7.98
Average 0 0 70 0 30 0.00
1 50 50 0 0 1.00
2 0 0 0 100 0.52
3 0 0 0 100 0.48
4 0 1 0 99 0.54
5 0 0 0 100 0.46
6 0 0 0 100 0.53
7 0 0 0 100 0.47
8 0 0 0 100 0.53
9 0 0 0 100 0.47
10 0 2 0 98 0.54
11 0 0 0 100 0.46
12 28 48 0 24 0.00
13 100 0 0 0 1.00
14 0 0 0 100 0.52
15 0 0 0 100 0.47
- 19 7 0 75 8.00
上面是分cpu统计的情况,结果应该也比较直观吧。
Sar还有其他一些比较特殊的使用方法,比如:
如果希望多个采样和多个报告,可为 sar 命令指定一个输出文件,这样就方便多了。将 sar 命令的标准输出数据定向到 /dev/null,并将 sar 命令作为后台进程运行。具体的命令格式为:
sar -A -o /temp/sar_result.log 5 300 > /dev/null &
关于sar其他的一些使用方法,这里不再详述。 3、iostat
第三个可以用来使用的命令是iostat.
$ iostat -t 2 4
tty: tin tout avg-cpu: % user % sys % idle % iowait
0.0 0.0 0.0 0.1 99.8 0.1
0.0 81.0 0.0 0.1 99.9 0.0
0.0 40.5 0.0 0.0 100.0 0.0
0.0 40.5 0.0 0.1 99.1 0.8
TTY 的两列信息(tin 和 tou)显示了由所有 TTY 设备读写的字符数
CPU 统计信息列(% user、% sys、% idle 和 % iowait)提供了 CPU 的使用情况。
注意:第一份报告为系统启动以来的一个累积值。 4、tprof
使用tprof命令用于统计每个进程的CPU使用情况
# tprof -x sleep 30
该命令的输出结果可查看 __prof.all文件。
此命令运行30秒钟,在当前目录下创建一个名为_prof.all 的文件。30秒钟内, CPU被调度次数约为3000次。__prof.all 文件中的字段Total 为此进程调度到的CPU次数。如果进程所对应的 Total字 段的值为1500,即表示该进程在3000次 CPU调度中占用了1500次,或理解为使用了一半的CPU时间。tprof的输出准确地显示出哪个进程在使用CPU 时间。
在我下面的这一份示例中,可以看到,大部分的cpu时间都是被wait所占用的。这里的wait实际上是idle进程,可以表明这个系统是一个完全空闲的系统。
$ more __prof.all
Process PID TID Total Kernel User Shared Other
======= === === ===== ====== ==== ====== =====
wait 40970 40971 2998 2998 0 0 0
wait 32776 32777 2994 2994 0 0 0
wait 24582 24583 2985 2985 0 0 0
wait 16388 16389 2980 2980 0 0 0
syncd 221254 155707 31 31 0 0 0
caiUxOs 524540 2294015 3 0 0 3 0
netm 73746 73747 1 1 0 0 0
hats_nim 1671242 1220665 1 0 0 1 0
snmpd64 598258 1245291 1 1 0 0 0
rpc.lockd 639212 1728679 1 1 0 0 0
tprof 704622 2277437 1 0 0 1 0
trclogio 360524 2408625 1 1 0 0 0
trace 1523820 2523145 1 0 0 1 0
clinfo 1958102 2760945 1 1 0 0 0
sh 1572938 2285709 1 1 0 0 0
======= === === ===== ====== ==== ====== =====
Total 12000 11994 0 6 0
Process FREQ Total Kernel User Shared Other
======= === ===== ====== ==== ====== =====
wait 4 11957 11957 0 0 0
syncd 1 31 31 0 0 0
caiUxOs 1 3 0 0 3 0
netm 1 1 1 0 0 0
hats_nim 1 1 0 0 1 0
snmpd64 1 1 1 0 0 0
rpc.lockd 1 1 1 0 0 0
tprof 1 1 0 0 1 0
trclogio 1 1 1 0 0 0
trace 1 1 0 0 1 0
clinfo 1 1 1 0 0 0
sh 1 1 1 0 0 0
======= === ===== ====== ==== ====== =====
Total 15 12000 11994 0 6 0
在这里,对wait进程作一点补充说明。
在AIX 5L下,你用ps aux会发现有一些root的wait进程
#ps aux |head -20
USER PID %CPU %MEM SZ RSS TTY STAT STIME TIME COMMAND
oracle 266354 5.7 0.0 50136 27524 - A 15:40:35 0:32 oracleora92 (LOC
root 17214 3.1 0.0 40 40 - A Jul 04 24793:53 wait
root 16946 3.1 0.0 40 40 - A Jul 04 24633:59 wait
root 16678 3.1 0.0 40 40 - A Jul 04 24600:21 wait
root 53274 3.1 0.0 40 40 - A Jul 04 24397:54 wait
root 286 3.1 0.0 40 40 - A Jul 04 24371:55 wait
root 8196 3.0 0.0 40 40 - A Jul 04 24312:40 wait
root 822 3.0 0.0 40 40 - A Jul 04 24303:36 wait
root 554 3.0 0.0 40 40 - A Jul 04 24261:50 wait
root 20776 2.7 0.0 40 40 - A Jul 04 21502:46 wait
root 57372 2.7 0.0 40 40 - A Jul 04 21439:31 wait
root 49176 2.7 0.0 40 40 - A Jul 04 21423:47 wait
root 21044 2.7 0.0 40 40 - A Jul 04 21398:24 wait
root 12848 2.7 0.0 40 40 - A Jul 04 21357:07 wait
root 21312 2.7 0.0 40 40 - A Jul 04 21324:26 wait
root 12580 2.7 0.0 40 40 - A Jul 04 21293:06 wait
root 13116 2.7 0.0 40 40 - A Jul 04 21195:47 wait
oracle 344612 0.3 0.0 57588 34976 - A Jul 04 2663:08 ora_j000_ora92
oracle 430408 0.3 0.0 55908 33296 - A Jul 04 2220:57 ora_j001_ora92
wait就是CPU空闲的时候运行的空闲进程,AIX4上叫kproc。所以这个进程占用越大,表示机器越空闲。Wait进程的数量是由机器上的逻辑CPU的个数决定的,有几个逻辑CPU,就有几个wait进程. 5、ps
这个命令使用本身也比较复杂,在这里只介绍如何查看cpu占用最高的进程。使用举例如下:
#ps aux | head -25
USER PID %CPU %MEM SZ RSS TTY STAT STIME TIME COMMAND
root 17214 3.1 0.0 40 40 - A Jul 04 25578:42 wait
root 16946 3.1 0.0 40 40 - A Jul 04 25415:54 wait
root 16678 3.1 0.0 40 40 - A Jul 04 25377:03 wait
root 53274 3.1 0.0 40 40 - A Jul 04 25170:12 wait
root 286 3.1 0.0 40 40 - A Jul 04 25144:00 wait
root 8196 3.0 0.0 40 40 - A Jul 04 25082:32 wait
root 822 3.0 0.0 40 40 - A Jul 04 25072:25 wait
root 554 3.0 0.0 40 40 - A Jul 04 25034:14 wait
root 20776 2.7 0.0 40 40 - A Jul 04 22181:27 wait
root 57372 2.7 0.0 40 40 - A Jul 04 22118:00 wait
root 49176 2.7 0.0 40 40 - A Jul 04 22102:02 wait
root 21044 2.7 0.0 40 40 - A Jul 04 22077:18 wait
root 12848 2.7 0.0 40 40 - A Jul 04 22036:44 wait
root 21312 2.7 0.0 40 40 - A Jul 04 21998:53 wait
root 12580 2.7 0.0 40 40 - A Jul 04 21967:17 wait
root 13116 2.7 0.0 40 40 - A Jul 04 21865:51 wait
oracle 344612 0.3 0.0 56372 33852 - A Jul 04 2707:30 ora_j000_ora92
oracle 430408 0.3 0.0 55916 33396 - A Jul 04 2266:20 ora_j001_ora92
oracle 365092 0.2 0.0 56184 33664 - A Jul 04 1765:58 ora_j002_ora92
oracle 442430 0.2 0.0 56092 33572 - A Jul 04 1426:40 ora_j003_ora92
oracle 385606 0.1 0.0 55984 33464 - A Jul 05 1159:17 ora_j004_ora92
oracle 413856 0.1 0.0 50520 28000 - A Jul 23 543:31 oracleora92 (LOC
oracle 143668 0.1 0.0 50528 28008 - A Jul 13 833:21 oracleora92 (LOC
oracle 369230 0.1 0.0 56600 34080 - A Jul 05 806:36 ora_j005_ora92
在这个输出结果中,排在前面的是16个root用户的wait进程,这其实是CPU空闲的时候运行的空闲进程,之前已作说明。
所以CPU最高的几个进程其实是下面的ORACLE用户的ora_j00*进程,这是ORACLE的job进程。在这里,这些进程的开销很小。如果ORACLE的进程开销比较大,我们可以用如下的方法来查询具体的进程在干什么事情,例如我们要查询进程ora_j000_ora92,PID=344612,可以使用下面的方法:
$su – oracle
SQL>sqlplus “/as sysdba”
SQL>oradebug setospid 344612
SQL>oradebug event 10046 trace name context forever, level 8
SQL>oradebug tracefile_name –这个命令我们获得输出文件的绝对路径和文件名
SQL>oradebug event 10046 trace name context off
$tkprof /opt/oracle/app/oracle/admin/ora92/bdump/ora92_j000_344612.trc tracepid.txt
$more tracepid.txt
在tracepid.txt中,我们就可以看到这个进程中具体运行的语句、过程等,以及所有的SQL的cpu消耗、物理读、逻辑读、执行计划等信息。
另外,我们也可以执行下面的语句查看进程具体运行的SQL语句的文本:
SELECT /*+ ORDERED */ sql_text FROM v$sqltext a
WHERE (a.hash_value, a.address) IN (
SELECT DECODE (sql_hash_value,0, prev_hash_value,sql_hash_value),
DECODE (sql_hash_value,0, prev_sql_addr, sql_address)
FROM v$session b
WHERE b.paddr = (SELECT addr
FROM v$process c
WHERE c.spid = '&pid'))
ORDER BY piece ASC 6、解决CPU占用的惩罚机制nice和renice
指定和修改命令的优先级。
系统中运行的每个进程都有一个优先级,我们可以用ps命令看到,这个优先级为PRI,PRI的值越小,优先级越高,能占用更多的CPU时间片。系统默认的PRI为60,我们可以通过nice命令和renice命令来改变一个进程的优先级,从而控制进程对CPU时间片的占用。
任何一个用户都可以使用nice命令来使他的进程以低于系统默认的pri运行。但是只有root用户才可以使进程以高于默认的pri运行。
我们先来看一下nice命令的使用方法:
#nice –n -5 vmstat 2 10 >vmstat.out
# ps -el
F S UID PID PPID C PRI NI ADDR SZ WCHAN TTY TIME CMD
200001 A 0 704738 1523728 0 55 15 aee1400 544 f100009e63c23e30 pts/1 0:00 vmstat
指定程序以nice值-5开始运行。程序开始后,nice的值为15,PRI的值为55。
nice命令可以指定的范围为-20 (最高优先级)到 20 (最低优先级)。在AIX5.3中,默认的nice为20。
# vmstat 2 10 >vmstat.out
# ps -el
F S UID PID PPID C PRI NI ADDR SZ WCHAN TTY TIME CMD
200001 A 0 704740 1523728 0 60 20 32ec6400 472 f100009e63c23e30 pts/1 0:00 vmstat64
可以看到默认的情况下,系统使用的nice=20,pri=60 。
实际上,在使用nice指定的时候,我们也可以使用超出闭区间[-20,20]的值,比如:
nice –n -33 vmstat 2 10 >vmstat.out
# ps -el
F S UID PID PPID C PRI NI ADDR SZ WCHAN TTY TIME CMD
200001 A 0 319652 1523728 0 40 0 82ef0400 544 f100009e63c23e30 pts/1 0:00 vmstat64
上例中,我们指定的nice小于-20,得到最高的优先级(pri=40)。反之,如果我们指定nice的值超过20,比如nice=21,我们将得到最低的优先级值pri=100。
renice不能在具有固定优先级的进程上使用。非root用户可以在一个或多个运行进程的nice值上加一个指定的值,但不能从中减去指定的值。也就是只能降低进程的优先级,而不能增加优先级。
renice -n -10 pidnumber ,将指定的进程nice值减小10。
renice -n +5 pidnumber ,将指定的进程nice值增加5。
根据nice值的不同取值,这里renice的值可以取值的范围是闭区间[-40,40 ]。为什么取值范围是这个呢?我们可以这样来理解,通过ps –l命令,我们可以看到NI的取值范围是闭区间[0,40],我们使用renice需要改变的也就是整个值,考虑两个极端的情况,假如现在为0,我们要把它改到40,就必须得renice –n 40,如果现在是40,我们要把它改为0,则renice的值就得是-40了。
当然,跟nice一样,在这里renice的值在命中使用的时候也可以超出这个闭区间,不会报错,但有效的结果只落在这个闭区间内。
# ps l 1630282
FSUID PID PPID C PRI NI ADDR SZ RSS WCHAN TTY TIME CMD
200001 A 0 1630282 680062 0 100 40 413e8400 472 484 EVENT pts/1 0:00 v
# renice -n -30 1630282
# ps l 1630282
FSUID PID PPID C PRI NI ADDR SZ RSS WCHAN TTY TIME CMD
200001 A 0 1630282 680062 0 50 10 413e8400 472 484 EVENT pts/1 0:00 v
我们可以总结一下,pri值的取值公式大概如下:
优先级值(PRI)= 基本优先级(60)+nice损失 + 基于最近CPU使用情况的CPU损失
总的来说nice值越小,进程的优先级越高,能分配到更多的cpu时间片。反之,也成立。 7、小结
对于系统cpu的监控,建议:
1)使用vmstat进行分析
2)sar –P ALL 1 10 分析,多个cpu间的负载是否平衡
3)ps aux 查看
4)tprof查看更详细的信息 第二部分
二、Memory性能评估 11
1、VMM的管理简介 11
2、使用vmstat确定内存的使用情况 14
3、svmon命令 14
4、内存的调整 15 1、VMM的管理简介
首先,还是简单讲解一下内存以及的VMM的一点工作原理。
内存和交换空间一般都是用页面来进行分配和管理的。在内存中存在两种类型的页面:计算页面(一般为可执行文件段中的页面)和文件页面(存储的数据文件的页面)。当我们执行程序或者读入数据的时候,内存中的页面就逐渐被占用。当空闲的内存只剩maxfree的时候,vmm的调页就被唤醒,通过调页算法,将内存中的页面转移到交换空间中。一直到空闲内存达到maxfree,才停止调页。
在这里,我们涉及到两个参数:
1) Minfree:最小空闲页链表尺寸。一旦低于该值,系统偷页以填充页链表,保证有足够的内存页面。偷页就是将不常用的页面替换出去。
2) Maxfree:最大空闲页链表尺寸。一旦高于该值,系统停止偷页。
如果发现空闲列表不足,可以用下面的方法增加minfree参数
#vmo -o minfree=1000 -o maxfree=1008
Setting maxfree to 1008
Setting minfree to 1000
#vmo –o minfree=1000 –o maxfree=1008 –P # -P参数使修改永久生效
一般情况下,minfree和maxfree通过下面的公式得到:
maxfree=minmum(memory/128,128) ,minfree=maxfree-8
注意:在AIX 5.2之前的版本请使用/usr/samples/kernel/vmtune命令。
#/usr/samples/kernel/vmtune –f 1000 –F 1008
另外,关于内存的使用,我们还有两个经常碰到的参数需要关注:
Minperm:用户I/O文件访问的最小缓冲区页数
Maxperm:用户I/O文件访问的最大缓冲区页数
Minperm和maxperm这两个参数的默认值分别为20%和80%。在这里主要与性能相关的是maxperm参数。maxperm参数指定了文件页面可以占用内存的上限,因为文件页面不主动释放,所以很容易造成内存的文件页面过高的占用,导致其他的应用内存使用紧张。调整参数值的方法如下:
#vmo -o maxperm%=80 -o minperm%=20
Setting minperm% to 20
Setting maxperm% to 80
在AIX 5.2之前的版本请使用/usr/samples/kernel/vmtune命令。
#/usr/samples/kernel/vmtune -p 20–P 80 将min和max的值分别设置为20%和80%。
查看当前的参数设置方法如下:
1)vmo –a 显示当前所有的参数设置
在AIX 5.2之前的版本请使用 # /usr/samples/kernel/vmtune 显示当前所有的参数设置
#vmo -a
cpu_scale_memp = 8
data_stagger_interval = 161
defps = 1
force_relalias_lite = 0
framesets = 2
htabscale = n/a
kernel_heap_psize = 4096
large_page_heap_size = 0
lgpg_regions = 0
lgpg_size = 0
low_ps_handling = 1
lru_file_repage = 1
lru_poll_interval = 10
lrubucket = 131072
maxclient% = 80
maxfree = 1088
maxperm = 4587812
maxperm% = 80
maxpin = 4881650
maxpin% = 80
mbuf_heap_psize = 4096
memory_affinity = 1
memory_frames = 6029312
memplace_data = 2
memplace_mapped_file = 2
memplace_shm_anonymous = 2
memplace_shm_named = 2
memplace_stack = 2
memplace_text = 2
memplace_unmapped_file = 2
mempools = 4
minfree = 960
minperm = 1146952
minperm% = 20
nokilluid = 0
npskill = 49152
npsrpgmax = 393216
npsrpgmin = 294912
npsscrubmax = 393216
npsscrubmin = 294912
npswarn = 196608
num_spec_dataseg = 0
numpsblks = 6291456
page_steal_method = 0
pagecoloring = n/a
pinnable_frames = 5601758
pta_balance_threshold = n/a
relalias_percentage = 0
rpgclean = 0
rpgcontrol = 2
scrub = 0
scrubclean = 0
soft_min_lgpgs_vmpool = 0
spec_dataseg_int = 512
strict_maxclient = 1
strict_maxperm = 0
v_pinshm = 0
vm_modlist_threshold = -1
vmm_fork_policy = 1
vmm_mpsize_support = 1
2)vmstat -v
# vmstat -v
6029312 memory pages
5734766 lruable pages
2801540 free pages
4 memory pools
406918 pinned pages
80.0 maxpin percentage
20.0 minperm percentage
80.0 maxperm percentage
2.3 numperm percentage
135417 file pages
0.0 compressed percentage
0 compressed pages
0.0 numclient percentage
80.0 maxclient percentage
0 client pages
0 remote pageouts scheduled
312417 pending disk I/Os blocked with no pbuf
0 paging space I/Os blocked with no psbuf
2878 filesystem I/Os blocked with no fsbuf
0 client filesystem I/Os blocked with no fsbuf
0 external pager filesystem I/Os blocked with no fsbuf
显示minperm和maxperm和numperm的值。numperm值给出的使内存中文件页数。
如果系统在向调页空间调出页面,可能使因为内存中的文件页数低于maxperm,从而也调出了部分的计算页面以达到maxperm的要求。在这种情况下,可以考虑把maxperm降低到低于numperm的某个值,从而阻止计算页面的调出。
maxclient通常应该设置为一个小于或者等于maxperm的值。
增强JFS文件系统为它的缓冲区高速缓存使用客户机文件,这不受maxperm和minperm的影像。为了在限制增强JFS文件系统使用高速缓存,可以指定maxclient的值,避免在它进行页面替换的时候,替换其他类型的页。 2、使用vmstat确定内存的使用情况
主要检查vmstat输出的 memory和pages列和faults列。详细的说明见前一节cpu评估说明。 4、内存的调整
具体调整需要结合系统运行的应用程序对症下药,如调整minperm/maxperm将改变内存与PAGING SPACE之间的交换算法,调整minpgahead/maxpgahead将改变内存块请求机制,调整minfree/maxfree将改变内存紧张时的内存清理刷新机制,等等。如果数据库使用裸设备,并且没有太多其他的应用,因为裸设备不需要文件系统的缓存,所以可以降低minperm,maxperm,maxclient的默认值,降低操作系统对内存的不必要的占用。
案例:
计费数据库数据库响应变慢,内存16G,裸设备,却存在很多的PI,PO情况。
在检查与内存相关的系统参数,发现如下问题:
minperm% = 20, maxperm% = 80, maxclient% = 80
说明:以上三个参数为系统缺省配置,其表示,使用文件系统时,最多可使用80% * 16G=10.8G,用于缓存所访问的文件。
结论:由于以上参数采用系统缺省配置,文件系统缓存最大可以达到10.8G,在执行大量的文件cp操作后,系统的可用内存量迅速下降,在其后的计费过程中,由于大量page in/page out操作引起系统严重性能瓶颈。
优化:
将maxperm% = 30 ,maxclient% = 30
#vmo –o maxperm%=30 –P
#vmo –o maxclient%=30 –P
5.2以前版本
/usr/samples/kernel/vmtune –p 20 –P 30
/usr/samples/kernel/vmtune –t 30 三、磁盘的I/O性能评估 17
1、iostat查看 18
2、sar –d查看 20
3、使用lslv –l lvname来评估逻辑卷的碎片情况 22
4、lslv –p 评估物理布局 23
5、使用filemon命令监控系统I/O 24
6、监视磁盘 I/O 的小结 26
7、案例 27
8、RAID10和RAID5的比较 28 三、磁盘的I/O性能评估
对磁盘IO的性能考虑:
1) 将频繁访问的文件系统和裸设备应尽可能放置在不同的磁盘上。
2) 在建立逻辑卷时尽可能使用mklv的命令开关给不同的文件系统和裸设备赋予不同的内策略。
3) 使用磁盘设备驱动适配器的功能属性构建合适的RAID方式,以获得更高的数据安全性和存取性能。一般考虑采用RAID5或者RAID10方式,对于写要求比较高的系统,一般建议采用RAID10方式;关于RAID10 与RAID 5的比较,可以见piner的文章,作为补充我会在后面贴出。
4) 尽可能利用内存读写带宽远比直接磁盘I/O操作性能优越的特点,使频繁访问的文件或数据置于内存中进行操作处理;
在这里,顺带提一下裸设备以及文件系统的对比。
裸设备的优点:
1) 由于旁路了文件系统缓冲器而进行直接读写,从而具有更好的性能。对硬盘的直接读写就意味着取消了硬盘与文件系统的同步需求。这一点对于纯OLTP系统非常有用,因为在这种系统中,读写的随机性非常大以至于一旦数据被读写之后,它们在今后较长的一段时间内不会得到再次使用。除了OLTP,raw设备还能够从以下几个方面改善DSS应用程序的性能:
排序:对于DSS环境中大量存在的排序需求,raw设备所提供的直接写功能也非常有用,因为对临时表空间的写动作速度更快。
序列化访问:raw设备非常适合于序列化I/O动作。同样地,DSS中常见的序列化I/O(表/索引的完全扫描)使得raw设备更加适用于这种应用程序。
2) 直接读写,不需要经过OS级的缓存。节约了内存资源,在一定程度上避免了内存的争用。
3) 避免了操作系统的cache预读功能,减少了I/O。
4) 采用裸设备避免了文件系统的开销。比如维护I-node,空闲块等。
5) 在裸设备上可以更方便的应用磁盘内策略。
裸设备的缺点:
1、裸设备的空间大小管理不灵活。在放置裸设备的时候,需要预先规划好裸设备上的空间使用。还应当保留一部分裸设备以应付突发情况。这也是对空间的浪费。
2、很多备份工具软件对裸设备的支持不足,导致备份等的操作和方法比较原始、麻烦。 1、iostat查看
#iostat 1 3
System configuration: lcpu=16 drives=11 paths=4 vdisks=0
tty: tin tout avg-cpu: % user % sys % idle % iowait
0.0 59.7 30.4 17.0 25.6 27.1
Disks: % tm_act Kbps tps Kb_read Kb_wrtn
hdisk1 1.0 4.0 1.0 0 4
hdisk0 0.0 4.0 1.0 0 4
hdisk2 0.0 0.0 0.0 0 0
hdisk3 0.0 0.0 0.0 0 0
dac0 0.0 14477.7 1513.4 3072 11469
dac0-utm 0.0 0.0 0.0 0 0
dac1 0.0 0.0 0.0 0 0
dac1-utm 0.0 0.0 0.0 0 0
hdisk4 74.7 4968.3 440.1 1728 3262
hdisk5 99.6 9508.4 1073.3 1344 8206
cd0 0.0 0.0 0.0 0 0
tty: tin tout avg-cpu: % user % sys % idle % iowait
0.0 904.0 29.3 10.6 28.9 31.1
Disks: % tm_act Kbps tps Kb_read Kb_wrtn
hdisk1 0.0 0.0 0.0 0 0
hdisk0 0.0 0.0 0.0 0 0
hdisk2 0.0 0.0 0.0 0 0
hdisk3 0.0 0.0 0.0 0 0
dac0 0.0 5956.0 492.0 1832 4124
dac0-utm 0.0 0.0 0.0 0 0
dac1 0.0 0.0 0.0 0 0
dac1-utm 0.0 0.0 0.0 0 0
hdisk4 49.0 2840.0 221.0 512 2328
hdisk5 100.0 3116.0 271.0 1320 1796
cd0 0.0 0.0 0.0 0 0
tty: tin tout avg-cpu: % user % sys % idle % iowait
0.0 898.2 41.6 8.9 21.2 28.3
Disks: % tm_act Kbps tps Kb_read Kb_wrtn
hdisk1 0.0 0.0 0.0 0 0
hdisk0 0.0 0.0 0.0 0 0
hdisk2 0.0 0.0 0.0 0 0
hdisk3 0.0 0.0 0.0 0 0
dac0 0.0 25695.7 2306.8 2344 23432
dac0-utm 0.0 0.0 0.0 0 0
dac1 0.0 0.0 0.0 0 0
dac1-utm 0.0 0.0 0.0 0 0
hdisk4 67.8 7908.3 542.3 712 7221
hdisk5 99.7 17787.4 1764.5 1632 16211
cd0 0.0 0.0 0.0 0 0
注意:第一个报告代表自系统启动以来所有的活动。
下面对输出的结果说明如下:
• tty TTY 的两列信息(tin 和 tou)显示了由所有 TTY 设备读写的字符数。
• avg-cpu CPU 统计信息列(% user、% sys、% idle 和 % iowait)提供了 CPU 的使用故障。如果 iostat 命令表明 CPU 受限的情况不存在,并且 % iowait 时间大于 20%,则可能出现 I/O 或磁盘受限情况。这一情况可能在缺少实内存的情况下由过多调页产生。也有可能是由于不平衡的磁盘负载、碎片数据或应用模式而产生。
• % tm_act 指示物理磁盘活动所占总时间的百分比(磁盘的带宽利用率),或者换句话说,磁盘请求的总时间未达到。驱动器在数据传送和处理命令时是活动的,例如寻道至新的位置。“磁盘活动时间”百分比正比于资源争用,反比于性能。当磁盘使用率增加时,性能就下降并且响应时间就增加。一般来说,当利用率超过 70% 时,进程将等待的时间会比完成 I/O 所必需的时间更长,因为大多数 UNIX 进程在等待它们的 I/O 请求完成时会阻塞(或休眠)。查找相对空闲驱动器来说繁忙的驱动器。把数据从繁忙的驱动器中移到空闲驱动器里可以帮助减轻磁盘的瓶颈。在磁盘中调入调出页面会使 I/O 负载增加。
• Kbps指示了每秒钟多少 KB 的数据被传送(读或写)。这是在系统报告时间间隔内 Kb_read 加上 Kb_wrtn 的总和并除以的这段时间间隔的总数的结果。
• tps 指示了每秒钟物理磁盘传送的次数。一次传送是设备驱动程序级别到物理磁盘的一次 I/O 处理请求。多重逻辑请求可以组合成单一的磁盘 I/O 请求。传送的大小是不确定的。
• Kb_read报告了在测量间隔中总的从物理卷中读取的数据量(以 KB 为单位)。
• Kb_wrtn显示了在测量间隔中总的写入物理卷中的数据量(以 KB 为单位)。
我们也可以针对适配器作性能评估。想知道某个适配器是否饱和,使用 iostat 命令并且把所有连接到这个适配器上的磁盘的 Kbps 数量加起来。为了获得最大的聚集性能,总的传送率(Kbps)必须在磁盘适配器的吞吐量之下。在大多数情况下,使用 70% 的吞吐量,-a 或 -A 选项会显示这些信息。
#iostat -a 1 1
System configuration: lcpu=16 drives=11 paths=4 vdisks=0
tty: tin tout avg-cpu: % user % sys % idle % iowait
0.0 59.8 20.8 7.8 34.9 36.5
Adapter: Kbps tps Kb_read Kb_wrtn
sisscsia2 0.0 0.0 0 0
Disks: % tm_act Kbps tps Kb_read Kb_wrtn
hdisk1 0.0 0.0 0.0 0 0
hdisk0 0.0 0.0 0.0 0 0
Adapter: Kbps tps Kb_read Kb_wrtn
sisscsia4 0.0 0.0 0 0
Disks: % tm_act Kbps tps Kb_read Kb_wrtn
hdisk2 0.0 0.0 0.0 0 0
hdisk3 0.0 0.0 0.0 0 0
Adapter: Kbps tps Kb_read Kb_wrtn
fcs0 12614.7 1338.0 2160 10502
Disks: % tm_act Kbps tps Kb_read Kb_wrtn
dac0 0.0 12615.7 1338.0 2160 10503
hdisk4 59.8 4255.0 405.5 752 3519
hdisk5 99.6 8359.7 932.5 1408 6983
Adapter: Kbps tps Kb_read Kb_wrtn
vsa0 0.0 0.0 0 0
Disks: % tm_act Kbps tps Kb_read Kb_wrtn
dac0-utm 0.0 0.0 0.0 0 0
dac1-utm 0.0 0.0 0.0 0 0
Adapter: Kbps tps Kb_read Kb_wrtn
fcs2 0.0 0.0 0 0
Disks: % tm_act Kbps tps Kb_read Kb_wrtn
dac1 0.0 0.0 0.0 0 0
Adapter: Kbps tps Kb_read Kb_wrtn
ide0 0.0 0.0 0 0
Disks: % tm_act Kbps tps Kb_read Kb_wrtn
cd0 0.0 0.0 0.0 0 0 2、sar –d查看
#sar -d 1 2
AIX jsdxh_db01 3 5 00C2C1BB4C00 10/24/07
System configuration: lcpu=16 drives=11
21:05:38 device %busy avque r+w/s Kbs/s avwait avserv
21:05:39 hdisk1 0 0.0 0 0 0.0 0.0
hdisk0 0 0.0 0 0 0.0 0.0
hdisk2 0 0.0 0 0 0.0 0.0
hdisk3 0 0.0 0 0 0.0 0.0
dac0 0 0.0 2051 20360 20.1 5.7
dac0-utm 0 0.0 0 0 0.0 0.0
dac1 0 0.0 0 0 0.0 0.0
dac1-utm 0 0.0 0 0 0.0 0.0
hdisk4 80 0.0 514 6137 1.2 5.3
hdisk5 100 2.6 1536 14223 26.4 5.9
cd0 0 0.0 0 0 0.0 0.0
21:05:40 hdisk1 0 0.0 0 0 0.0 0.0
hdisk0 0 0.0 0 0 0.0 0.0
hdisk2 0 0.0 0 0 0.0 0.0
hdisk3 0 0.0 0 0 0.0 0.0
dac0 0 0.0 1100 9835 34.0 11.8
dac0-utm 0 0.0 0 0 0.0 0.0
dac1 0 0.0 0 0 0.0 0.0
dac1-utm 0 0.0 0 0 0.0 0.0
hdisk4 84 0.1 270 2763 7.7 14.2
hdisk5 100 3.2 830 7072 42.6 11.0
cd0 0 0.0 0 0 0.0 0.0
Average hdisk1 0 0.0 0 0 0.0 0.0
hdisk0 0 0.0 0 0 0.0 0.0
hdisk2 0 0.0 0 0 0.0 0.0
hdisk3 0 0.0 0 0 0.0 0.0
dac0 0 0.0 1575 15097 27.1 8.7
dac0-utm 0 0.0 0 0 0.0 0.0
dac1 0 0.0 0 0 0.0 0.0
dac1-utm 0 0.0 0 0 0.0 0.0
hdisk4 82 0.1 392 4450 4.5 9.7
hdisk5 100 2.9 1183 10647 34.5 8.4
cd0 0 0.0 0 0 0.0 0.0
输出结果说明:
• device 设备的类型
• %busy 报告设备忙于执行传输请求所用的时间
• avque 该段时间内未完成的请求的平均值。
• r+w/s 进车设备的读/写传送次数。
• blks/s 以512字节为单元的传送数
• avwait 不执行,总是设置为 0.0
• avserv 不执行,总是设置为 0.0 3、使用lslv –l lvname来评估逻辑卷的碎片情况
# lslv -l hd2
hd2:/usr
PV COPIES IN BAND DISTRIBUTION
hdisk0 114:000:000 22% 000:042:026:000:046
输出字段说明:
• PV 物理卷名称
• Copies三个字段分别代表
在物理卷上至少包含一个物理分区(没有副本)的逻辑分区的数量
在物理卷上至少包含两个物理分区(一个副本)的逻辑分区的数量
在物理卷上至少包含三个物理分区(两个副本)的逻辑分区的数量
• In band center分配策略占用的百分比。
• Distribution 分配在物理卷每个区域内:物理卷的外部边缘、外部中间、中间、中心和内部边缘的物理分区的数目
对于该例中的结果说明如下:
copies显示逻辑卷hd2只复制了一份。IN BAND显示了内策略是如何遵循的。这个百分比越高,分配效率就越好。在这个示例中,有总共114个逻辑分区(LP),42个位于中部,26个位于中心,还有46个位于内边缘。in band占用22%(26/(42+26+46))。DISTRIBUTION显示物理分区的具体的内策略部署,格式如下:
outer-edge : outer-middle : center : inner-middle : inner-edge
关于物理卷内分配策略说明:
指定物理卷上选择物理分区时使用何种策略。五种常用的策略时边缘、内层边缘、中部、内层中部和中心。鉴于磁盘的读取方式,数据写入磁盘中心部分的寻道时间比写入外部边缘的寻道时间短。 4、lslv –p 评估物理布局
可以使用lslv –p hdiskN来查看在物理磁盘上的数据存储分布情况,同时也可以看到使用该内策略的逻辑卷以及挂载的文件系统。
#lspv -p hdisk3
hdisk3:
PP RANGE STATE REGION LV NAME TYPE MOUNT POINT
1-30 free outer edge
31-110 used outer edge ocsapplv jfs /ocsapp
111-206 used outer middle paging00 paging N/A
207-219 free outer middle
220-328 free center
329-437 free inner middle
438-546 free inner edge 6、使用filemon命令监控系统I/O
filemon 命令监控文件系统和 I/O系统事件的跟踪,并且报告一个周期内的文件和 I/O 的访问性能。监视文件系统的性能,并且报告代表逻辑文件、虚拟内存段、逻辑卷和物理卷的 I/O 活动。
语法:
filemon [ -d ] [ -i Trace_File -n Gennames_File] [ -o File] [ -O Levels] [ -P ] [ -T n] [ -u ] [ -v ]
例如:
# filemon -o fm.out -O all ; sleep 30 ; trcstop
Enter the "trcstop" command to complete filemon processing
[filemon: Reporting started]
nlist failed.
# more fm.out
Wed Oct 24 21:23:56 2007
System: AIX oracle1 Node: 5 Machine: 0058D25D4C00
Cpu utilization: 4.7%
Most Active Files
------------------------------------------------------------------------
#MBs #opns #rds #wrs file volume:inode
------------------------------------------------------------------------
0.2 1 51 0 unix /dev/hd2:30816
0.0 5 10 0 ksh.cat /dev/hd2:109023
0.0 1 2 0 cmdtrace.cat /dev/hd2:108887
0.0 1 2 0 hosts /dev/hd4:24621
0.0 1 1 0 vmstat.cat /dev/hd2:109265
输出结果保存在fm.out 中。输出字段说明如下:
最活跃的文件
• #MBs 此文件在测量间隔时间内的传送量(以 MBs 为单位)。各行按照此字段降序排列。
• #opns 在测量周期内的文件的打开次数。
• #rds 文件读取调用的次数
• #wrs 文件写入调用的次数
• file 文件名称(文件路径全称在详细报告中)。
• volume:inode 文件驻留的逻辑卷和在相连文件系统总的 i-node 数目。此字段可以被用来把文件和在详细的 VM 段报告中显示的其相应的永久段关联起来。此字段对在执行过程中创建和删除的临时文件可以为空。
最活跃的段
• #MBs 此段在测量间隔时间内的传送量(以 MBs 为单位)。各行按照此字段降序排列。
• #rpgs 从磁盘读入段中大小为 4-KB 的页面数
• #wpgs 从段中写入磁盘大小为 4-KB 的页面数(page out)
• #segid 内存段的 VMM 标识
• segtype段的类型:工作段、永久段(本地文件)、客户机段(远程文件)、页表段、系统段或者包含文件系统数据的指定永久段。
• volume:inode 对永久段来说,包含相关文件的逻辑卷名称和文件的 i-node 数目。此字段可以被用来把段和在详细的文件状态报告中显示的其相应的文件关联起来。对非永久段来说,此字段为空。
最活跃的逻辑卷
• util 逻辑卷使用率。
• #rblk 从逻辑卷读取的大小为 512 字节的块数。
• #wblk 写入逻辑卷大小为 512 字节的块数。
• KB/s 每秒钟平均传送速率,单位 KB。
• volume 逻辑卷名称。
• description 文件系统安装点或是逻辑卷类型(paging, jfslog, boot, or sysdump)。例如,逻辑卷 /dev/hd2 是 /usr类型;/dev/hd6 是 paging 类型以及 /dev/hd8 是 jfslog 类型。有时也可能出现被压缩的这个字眼。这意味着所有的数据在被写入磁盘前都会以 Lempel-Zev(LZ)压缩技术自动压缩,在从磁盘读取时则自动解压缩。
最活跃的物理卷
• util 物理卷使用率。
注:逻辑卷 I/O 请求在物理卷 I/O 请求前后启动。总的逻辑卷使用率将会看起来比总的物理卷使用率高。使用率用百分比表示,0.10 是指 10% 的物理卷在测量时间间隔内繁忙。
• #rblk 从物理卷读取的大小为 512 字节的块数。
• #wblk 写入物理卷大小为 512 字节的块数。
• KB/s 每秒钟平均传送速率,单位 KB。
• volume 物理卷名称。
• description 有关物理卷类型的简单描述,例如, SCSI 多媒体 CD-ROM 驱动器或 16位 SCSI 磁盘驱动器。
文件系统的安装点(mount point)及文件的i节点(inode)可与命令ncheck一起使用,来找出相对应的文件。 7、监视磁盘 I/O 的小结
一般来说,高的 % iowait 表明系统存在一个应用程序问题、缺少内存问题或低效的 I/O 子系统配置。例如,应用程序的问题可能是由于许多 I/O 请求,而不是处理许多数据。理解 I/O 瓶颈并且要清楚解决瓶颈问题的关键在于提高 I/O 子系统的效率。磁盘的灵敏度可以以几种方式出现,并具有不同的解决方法。一些典型的解决方案可能包括:
• 限制在特定的物理磁盘上活动逻辑卷和文件系统的数目。该方法是为了在所有的物理磁盘驱动器中平衡文件 I/O。
• 在多个物理磁盘间展开逻辑卷。该方法在当有一些不同的文件被存取时特别有用。
• 为一个卷组创建多个 Journaled 文件系统(JFS)日志并且把它们分配到特定的文件系统中(最好在快速写高速缓存驱动器中)。这对应用程序创建、删除或者修改大量文件特别是临时文件来说十分有益。
• 如果 iostat 命令的输出结果表明您的负载的 I/O 活动没有被均衡地分配到系统磁盘驱动器中,并且一个或多个磁盘驱动器的使用率经常在 70-80 之间或更高,您就得考虑重组文件系统,例如备份和恢复文件系统以便减少碎片。碎片将引起驱动器过多地搜索并且可能产生大部分响应时间过长。
• 如果很大,I/O 增强的后台作业将涉及和相应时间交互,您可能希望激活I/O 调步。
• 如果有迹象表明一小部分文件被一次又一次地读取,您可以考虑附加的实存是否允许那些文件更加有效地缓存。
• 如果负载的存取模式是随机占主导地位,您可能要考虑增加磁盘并把按那些随机存取的文件分布到更多的磁盘中。
• 如果负载的存取模式是顺序占主导地位并且涉及多个磁盘驱动器,您可能要考虑增加一个或多个磁盘适配器。您也可以适当地考虑构建一个条带状逻辑卷来适应大型并且性能关键的顺序文件。
• 使用快速写高速缓存设备。
• 使用异步 I/O。 8、案例
说明:这个案例不是我的,不记得在哪里找的:
# sar 1 5
01:24:21 %usr %sys %wio %idle
01:24:51 46 5 28 21
01:25:21 46 5 29 20
01:25:51 47 5 30 20
01:26:21 44 5 29 22
01:26:51 45 5 28 22
Average 46 5 29 21
在CPU资源尚未耗尽的情况下,有近1/3的CPU时间在等待磁盘I/O,可以肯定系统资源调度中I/O存在瓶颈;进而监控I/O使用情况:
# iostat –d hdisk3 1 10
Disks: % tm_act Kbps tps Kb_read Kb_wrtn
hdisk3 52.1 1086.9 262.6 1025224 1967060
hdisk3 93.0 4704.0 1121.0 636 4068
hdisk3 98.0 1236.0 294.0 400 836
hdisk3 92.0 1556.0 386.0 780 776
hdisk3 81.0 760.0 178.0 696 64
hdisk3 89.0 1032.0 252.0 824 208
hdisk3 92.0 1376.0 329.0 708 668
hdisk3 99.0 1888.0 457.0 292 1596
hdisk3 98.0 1436.0 356.0 660 776
hdisk3 94.0 1624.0 403.0 852 772
hdisk3 99.0 2412.0 589.0 724 1688
可以发现hdisk3平均访问率非常高,几乎在90%以上,但从数据传输量来看其真正的数据量并不大,约为1500Kbps,而且读写均衡,说明运行的应用程序的对磁盘访问有小数据量频繁存取的特点(其实即为电信应用中话务呼叫的应用特点);这里可以肯定的是系统整体性能的瓶颈在于hdisk3的过度访问. 更进一步分析,使用系统监控命令filemon 或 lvmstat可以获得以下信息:
#filemon –o filemon.out; sleep 30; trcstop
#vi filemon.out(部分截取)
util #rblk #wblk KB/s volume description
------------------------------------------------------------------------
1.00 91080 108112 1561.1 /dev/workdbslv1 raw
0.00 0 4072 31.9 /dev/logiclogdbslv raw
0.00 8 4384 34.4 /dev/tcom_filelv /tcom_file
0.00 0 120 0.9 /dev/hd4 /
0.00 0 144 1.1 /dev/hd2 /usr
0.00 0 88 0.7 /dev/loglv01 jfslog
0.00 0 272 2.1 /dev/tcomlv /tcom
0.00 0 32 0.3 /dev/hd8 jfslog
0.00 0 104 0.8 /dev/loglv00 jfslog
0.00 0 8 0.1 /dev/hd3 /tmp
Most Active Physical Volumes
------------------------------------------------------------------------
util #rblk #wblk KB/s volume description
------------------------------------------------------------------------
0.91 91088 116672 1628.2 /dev/hdisk3 SSA Logical Disk Drive
0.00 0 304 2.4 /dev/hdisk0 N/A
0.00 0 360 2.8 /dev/hdisk4 SSA Logical Disk Drive
hdisk3的过分繁忙是由于其中的用于放置数据库表的/dev/workdbslv1裸设备过度繁忙造成的,至此我们可以通过调整裸设备的放置策略和数据库配置参数获得更好的I/O性能:
1.建立workdbslv1时裸设备时使用如下命令调整:
# mklv -y workdbslv1 -t raw –a’c’ datavg 128 hdisk3 hdisk4
hdisk3和hdisk4为属于同一个卷组的两个7133RAID逻辑盘。指定内分配策略。 9、RAID10和RAID5的比较
这篇是piner写的,我稍微增加了点点内容。
为了方便对比,这里拿同样多驱动器的磁盘来做对比,RAID5选择3D+1P的RAID方案,RAID10选择2D+2D的RAID方案,如图:
1、安全性方面的比较
其实在安全性方面,勿须质疑,肯定是RAID10的安全性高于RAID5。我们也可以从简单的分析来得出。当盘1损坏时,对于RAID10,只有当盘1对应的镜象盘损坏,才导致RAID失效。但是对于RAID5,剩下的3块盘中,任何一块盘故障,都将导致RAID失效。
在恢复的时候,RAID10恢复的速度也快于RAID5。
2、空间利用率的比较
RAID10的利用率是50%,RAID5的利用率是75%。硬盘数量越多,RAID5的空间利用率越高。
3、读写性能方面的比较
主要分析分析如下三个过程:读,连续写,离散写。
在介绍这三个过程之前,先介绍一个特别重要的概念:cache。
cache已经是整个存储的核心所在,就是中低端存储,也有很大的cache存在,包括最简单的raid卡,一般都包含有几十,甚至几百兆的raid cache。
cache的主要作用是什么呢?体现在读与写两个不同的方面,如果作为写,一般存储阵列只要求写到cache就算完成了写操作,所以,阵列的写是非常快速的,在写cache的数据积累到一定程度,阵列才把数据刷到磁盘,可以实现批量的写入,至于cache数据的保护,一般都依赖于镜相与电池(或者是UPS)。
cache的读一样不可忽视,因为如果读能在cache中命中的话,将减少磁盘的寻道,因为磁盘从寻道开始到找到数据,一般都在6ms以上,而这个时间,对于那些密集型io的应用可能不是太理想。但是,如果cache能命中,一般响应时间则可以在1ms以内。两者应该相差3个数量级(1000倍)。
1)读操作方面的性能差异
RAID10可供读取有效数据的磁盘个数为4,RAID5可供读取有效数据的磁盘个数也为4个(校验信息分布在所有的盘上),所以两者的读的性能应该是基本一致的。
2)连续写方面的性能差异
在连续写操作过程,如果有写cache存在,并且算法没有问题的话,RAID5比RAID10甚至会更好一些,虽然也许并没有太大的差别。(这里要假定存储有一定大小足够的写cache,而且计算校验的cpu不会出现瓶颈)。
因为这个时候的RAID校验是在cache中完成,如4块盘的RAID5,可以先在内存中计算好校验,同时写入3个数据+1个校验。而RAID10只能同时写入2个数据+2个镜相。
如上图所示,4块盘的RAID5可以在同时间写入1、2、3到cache,并且在cache计算好校验之后,这里假定是6,同时把三个数据写到磁盘。而4块盘的RAID10不管cache是否存在,写的时候,都是同时写2个数据与2个镜相。
根据前面对缓存原理的介绍,写cache是可以缓存写操作的,等到缓存写数据积累到一定时期再写到磁盘。但是,写到磁盘阵列的过程是迟早也要发生的,所以RAID5与RAID10在连续写的情况下,从缓存到磁盘的写操作速度会有较小的区别。不过,如果不是连续性的强连续写,只要不达到磁盘的写极限,差别并不是太大。
3)离散写方面的性能差异
例如oracle 数据库每次写一个数据块的数据,如8K;由于每次写入的量不是很大,而且写入的次数非常频繁,因此联机日志看起来会像是连续写。但是因为不保证能够添满RAID5的一个条带,比如32K(保证每张盘都能写入),所以很多时候更加偏向于离散写入(写入到已存在数据的条带中)。
我们从上图看一下离散写的时候,RAID5与RAID10工作方式有什么不同。如上图:我们假定要把一个数字2变成数字4,那么对于RAID5,实际发生了4次io:先读出2与校验6,可能发生读命中然后在cache中计算新的校验写入新的数字4与新的校验8。
如上图我们可以看到:对于RAID10,同样的单个操作,最终RAID10只需要2个io,而RAID5需要4个io.
这里我忽略了RAID5在那两个读操作的时候,可能会发生读命中操作的情况。也就是说,如果需要读取的数据已经在cache中,可能是不需要4个io的。这也证明了cache对RAID5 的重要性,不仅仅是计算校验需要,而且对性能的提升尤为重要。
当然,并不是说cache对RAID10就不重要了,因为写缓冲,读命中等,都是提高速度的关键所在,只不过RAID10对cache的依赖性没有RAID5那么明显而已。
4)磁盘的IOPS对比
假定一个case,业务的iops是10000,读cache命中率是30%,读iops为60%,写iops为40%,磁盘个数为120,那么分别计算在raid5与raid10的情况下,每个磁盘的iops为多少。
raid5:
单块盘的iops = (10000*(1-0.3)*0.6 + 4 * (10000*0.4))/120
= (4200 + 16000)/120
= 168
这里的10000*(1-0.3)*0.6表示是读的iops,比例是0.6,除掉cache命中,实际只有4200个iops。
4 * (10000*0.4) 表示写的iops,因为每一个写,在raid5中,实际发生了4个io,所以写的iops为16000个
为了考虑raid5在写操作的时候,那2个读操作也可能发生命中,所以更精确的计算为:
单块盘的iops = (10000*(1-0.3)*0.6 + 2 * (10000*0.4)*(1-0.3) + 2 * (10000*0.4))/120
= (4200 + 5600 + 8000)/120
= 148
计算出来单个盘的iops为148个,基本达到磁盘极限
raid10
单块盘的iops = (10000*(1-0.3)*0.6 + 2 * (10000*0.4))/120
= (4200 + 8000)/120
= 102
可以看到,因为raid10对于一个写操作,只发生2次io,所以,同样的压力,同样的磁盘,每个盘的iops只有102个,还远远低于磁盘的极限iops。
4、小结
所以要求较高的空间利用率,对安全性要求不是特别高、大文件存储的系统采用RAID5比较好。
相反,安全性要求很高,不计成本,小数据量频繁写入的系统采用RAID10的方式比较好。
__________________
页:
[1]