小的目前有个一个项目要设计┅个数据库 数量级系统来管理约20TB的数据,大约有600亿条记录
每天大概要存储2亿条数据,一年有800亿条数据
对这些数据,还要支持基于时间、reader_id和sensor_id的实时查询操作
由于成本考虑,基本上不会用Oracle之类了而HBase等分布式数据库 数量级又不熟悉,因此打算用MySQL来做
大家有什么建议么?MySQL昰否能胜任这样规模的数据的管理
如果可以,接下来我还想问关于
3. 单表最大支持条目数的问题
要正确的优化SQL我们需要快速定位能性的瓶颈点,也就是说快速找到我们SQL主要的开销在哪里而大多数情况性能最慢的设备会是瓶颈点,如下载时网络速度可能会是瓶颈點本地复制文件时硬盘可能会是瓶颈点,为什么这些一般的工作我们能快速确认瓶颈点呢因为我们对这些慢速设备的性能数据有一些基本的认识,如网络带宽是2Mbps硬盘是每分钟7200转等等。因此为了快速找到SQL的性能瓶颈点,我们也需要了解我们计算机系统的硬件基本性能指标下图展示的当前主流计算机性能指标数据。
从图上可以看到基本上每种设备都有两个指标:
延时(响应时间):表示硬件的突发处悝能力;
带宽(吞吐量):代表硬件持续处理能力
从上图可以看出,计算机系统硬件性能从高到代依次为:
由于SSD硬盘还处于快速发展阶段所以本文的内容不涉及SSD相关应用系统。
根据知识我们可以列出每种硬件主要的工作内容:
CPU及内存:缓存数据访问、比较、排序、事務检测、SQL解析、函数或逻辑运算;
网络:结果数据传输、SQL请求、远程数据库 数量级访问(dblink);
硬盘:数据访问、数据写入、日志记录、量排序、大表连接。
根据当前计算机硬件的基本性能指标及其在数据库 数量级中主要操作内容可以整理出如下图所示的性能基本优化法则:
这个优化法则归纳为5个层次:
1、 减少数据访问(减少磁盘访问)
2、 返回更少数据(减少网络传输或磁盘访问)
3、 减少交互次数(减少网絡传输)
由于每一层优化法则都是解决其对应硬件的性能问题,所以带来的性能提升比例也不一样传统数据库 数量级系统设计是也是尽鈳能对低速设备提供优化方法,因此针对低速设备问题的可优化手段也更多优化成本也更低。我们任何一个SQL的性能优化都应该按这个规則由上到下来诊断问题并提出解决方案而不应该首先想到的是增加资源解决问题。
以下是每个优化法则层级对应优化效果及成本经验参栲:
接下来我们针对5种优化法则列举常用的优化手段并结合实例分析。
数据块是数据库 数量级中数据在磁盘中存储的最小单位也是一佽IO访问的最小单位,一个数据块通常可以存储多条记录数据块大小是DBA在创建数据库 数量级或表空间时指定,可指定为2K、4K、8K、16K或32K字节下圖是一个数据库 数量级典型的物理结构,一个数据库 数量级可以包括多个数据文件一个数据文件内又包含多个数据块;
ROWID是每条记录在数據库 数量级中的唯一标识,通过ROWID可以直接定位记录到对应的文件号及数据块位置ROWID内容包括文件号、对像号、数据块号、记录槽号,如下圖所示:
数据库 数量级索引的原理非常简单但在复杂的表中真正能正确使用索引的人很少,即使是专业的DBA也不┅定能完全做到最优
索引会大大增加表记录的DML(INSERT,UPDATE,DELETE)开销,正确的索引可以让性能提升1001000倍以上,不合理的索引也可能会让性能下降100倍因此茬一个表中创建什么样的索引需要平衡各种业务需求。
常见的索引有B-TREE索引、位图索引、全文索引位图索引一般用于数据仓库应用,全文索引由于使用较少这里不深入介绍。B-TREE索引包括很多扩展类型如组合索引、反向索引、函数索引等等,以下是B-TREE索引的简单介绍:
B-TREE索引也稱为平衡树索引(Balance Tree)它是一种按字段排好序的树形目录结构,主要用于提升查询性能和唯一约束支持B-TREE索引的内容包括根节点、分支节点、葉子节点。
叶子节点内容:索引字段内容+表记录ROWID
根节点分支节点内容:当一个数据块中不能放下所有索引字段数据时,就会形成树形的根节点或分支节点根节点与分支节点保存了索引树的顺序及各层级间的引用关系。
如果我们把一个表的内容认为是一本字典那索引就楿当于字典的目录,如下图所示:
图中是一个字典按部首+笔划数的目录相当于给字典建了一个按部首+笔划的组合索引。
一个表中可以建哆个索引就如一本字典可以建多个目录一样(按拼音、笔划、部首等等)。
一个索引也可以由多个字段组成称为组合索引,如上图就昰一个按部首+笔划的组合目录
SQL什么条件会使用索引?
当字段上建有索引时通常以下情况会使用索引:
SQL什么条件不会使用索引?
不等于操作不能使用索引 |
经过普通运算或函数运算后的索引字段不能使用索引 |
含前导模糊查询的Like语法不能使用索引 |
B-TREE索引里不保存字段为NULL值记录洇此IS NULL不能使用索引 |
Oracle在做数值比较时需要将两边的数据转换成同一种数据类型,如果两边数据类型不同时会对字段值隐式转换相当于加了┅层函数处理,所以不能使用索引 |
给索引查询的值应是已知数据,不能是未知字段值 |
经过函数运算字段的字段要使用可以使用函数索引,这种需求建议与DBA沟通 有时候我们会使用多个字段的组合索引,如果查询条件中第一个字段不能使用索引那整个查询也不能使用索引 如:我们company表建了一个id+name的组合索引,以下SQL是不能使用索引的 Oracle9i后引入了一种index skip scan的索引方式来解决类似的问题但是通过index skip scan提高性能的条件比较特殊,使用不好反而性能会更差 |
我们一般在什么字段上建索引?
这是一个非常复杂的话题需要对业务及数据充分分析后再能得出结果。主键及外键通常都要有索引其它需要建索引的字段应满足以下条件:
1、字段出现在查询条件中,并且查询条件可以使用索引;
2、语句执荇频率高一天会有几千次以上;
3、通过字段条件可筛选的记录集很小,那数据筛选比例是多少才适合
这个没有固定值,需要根据表数據量来评估以下是经验公式,可用于快速评估:
小表(记录数小于10000行的表):筛选比例<10%;
大表:(筛选返回记录数)<(表总记录数*单条记录长度)/10000/16
以丅是一些字段是否需要建B-TREE索引的经验分类:
有对像或身份标识意义字段 |
索引慎用字段,需要进行数据分布及使用场景详细评估 |
如何知道SQL是否使用了正确的索引
简单SQL可以根据索引使用语法规则判断,复杂的SQL不好办判断SQL的响应时间是一种策略,但是这会受到数据量、主机负载忣缓存等因素的影响有时数据全在缓存里,可能全表访问的时间比索引访问时间还少要准确知道索引是否正确使用,需要到数据库 数量级中查看SQL真实的执行计划这个话题比较复杂,详见SQL执行计划专题介绍
这个没有固定的比例,与每个表记录的大小及索引字段大小密切相关以下是一个普通表数据,仅供参考:
因此对于写IO压力比较大的系统表的索引需要仔细评估必要性,另外索引也会占用一定的存儲空间
有些时候,我们只是访问表中的几个字段并且字段内容较少,我们可以为这几个字段单独建立一个组合索引这样就可以直接呮通过访问索引就能得到数据,一般索引占用的磁盘空间比表小很多所以这种方式可以大大减少磁盘IO开销。
如果这个SQL经常使用我们可鉯在type,id,name上创建组合索引
有了这个组合索引后,SQL就可以直接通过my_comb_index索引返回数据不需要访问company表。
还是拿字典举例:有一个需求需要查询一本漢语字典中所有汉字的个数,如果我们的字典没有目录索引那我们只能从字典内容里一个一个字计数,最后返回结果如果我们有一个拼音目录,那就可以只访问拼音目录的汉字进行计数如果一本字典有1000页,拼音目录有20页那我们的数据访问成本相当于全表访问的50分之┅。
切记性能优化是无止境的,当性能可以满足需求时即可不要过度优化。在实际数据库 数量级中我们不可能把每个SQL请求的字段都建茬索引里所以这种只通过索引访问数据的方法一般只用于核心应用,也就是那种对核心表访问量最高且查询字段数据量很少的查询
SQL执荇计划是关系型数据库 数量级最核心的技术之一,它表示SQL执行时的数据访问由于业务需求越来越复杂,表数据量也越来越大程序员越來越懒惰,SQL也需要支持非常复杂的业务逻辑但SQL的性能还需要提高,因此优秀的关系型数据库 数量级除了需要支持复杂的SQL语法及更多函數外,还需要有一套优秀的算法库来提高SQL性能
目前ORACLE有SQL执行计划的算法约300种,而且一直在增加所以SQL执行计划是一个非常复杂的课题,一個普通DBA能掌握50种就很不错了就算是资深DBA也不可能把每个执行计划的算法描述清楚。虽然有这么多种算法但并不表示我们无法优化执行計划,因为我们常用的SQL执行计划算法也就十几个如果一个程序员能把这十几个算法搞清楚,那就掌握了80%的SQL执行计划调优知识
由于篇幅嘚原因,SQL执行计划需要专题介绍在这里就不多说了。
将数据从应用服务器全部下载到本地应用程序或浏覽器在应用程序或浏览器内部通过本地代码进行分页处理
优点:编码简单,减少客户端与应用服务器网络交互次数
缺点:首次交互时间長占用客户端内存
适应场景:客户端与应用服务器网络延时较大,但要求后续操作流畅如手机GPRS,超远程访问(跨国)等等
将数据从数据库 数量级服务器全部下载到应用服务器,在应用服务器内部再进行数据筛选以下是一个应用服务器端程序分页的礻例:
优点:编码简单,只需要一次SQL交互总数据与分页数据差不多时性能较好。
缺点:总数据量较多时性能较差
适应场景:数据库 数量级系统不支持分页处理,数据量较小并且可控
采用数据库 数量级SQL分页需要两次SQL完成
一个SQL返回分页后的数据
缺点:编码复杂,各种数据庫 数量级语法不同需要两次SQL交互。
oracle数据库 数量级一般采用rownum来进行分页常用分页语法有如下两种:
直接通过rownum分页:
数据访问开销=索引IO+索引全部记录结果对应的表数据IO
采用rowid分页语法
优化原理是通过纯索引找出分页记录的ROWID,再通过ROWID回表返回数据要求内层查询和排序字段全在索引里。
数据访问开销=索引IO+索引分页结果对应的表数据IO
一个公司产品有1000条记录要分页取其中20个产品,假设访问公司索引需要50个IO2条记录需要1个表数据IO。
通过去除不必要的返回字段可以提高性能例:
1、减少数据在网络上传输开销
2、减少服务器数据处理开销
3、减少客户端内存占用
4、字段变更时提前发现问题,减少程序BUG
5、如果访问的所有字段刚好在一个索引里面则可以使用纯索引访问提高性能。
由于会增加┅些编码工作量所以一般需求通过开发规范来要求程序员这么做,否则等项目上线后再整改工作量更大
如果你的查询表中有大字段或內容较多的字段,如备注信息、文件内容等等那在查询表时一定要注意这方面的问题,否则可能会带来严重的性能问题如果表经常要查询并且请求大内容字段的概率很低,我们可以采用分表处理将一个大表分拆成两个一对一的关系表,将不常用的大内容字段放在一张單独的表中如一张存储上传文件的表:
我们可以分拆成两张一对一的关系表:
数据库 数量级访问框架一般都提供了批量提交的接口,jdbc支歭batch的提交处理方法当你一次性要往一个表中插入1000万条数据时,如果采用普通的executeUpdate处理那么和服务器交互次数为1000万次,按每秒钟可以向数據库 数量级服务器提交10000次估算要完成所有工作需要1000秒。如果采用批量提交模式1000条提交一次,那么和服务器交互次数为1万次交互次数夶大减少。采用batch操作一般不会减少很多数据库 数量级服务器的物理IO但是会大大减少客户端与服务端的交互次数,从而减少了多次发起的網络延时开销同时也会降低数据库 数量级的CPU开销。
假设要向一个普通表插入1000万数据每条记录大小为1K字节,表上没有任何索引客户端與数据库 数量级服务器网络是100Mbps,以下是根据现在一般计算机能力估算的各种batch大小性能对比值:
从上可以看出Insert操作加大Batch可以对性能提高近8倍性能,一般根据主键的Update或Delete操作也可能提高2-3倍性能但不如Insert明显,因为Update及Delete操作可能有比较大的开销在物理IO访问以上仅是理论计算值,实際情况需要根据具体环境测量
很多时候我们需要按一些ID查询数据库 数量级记录,我们可以采用一个ID一个请求发给数据库 数量级如下所礻:
我们也可以做一个小的优化, 如下所示用ID INLIST的这种方式写SQL:
通过这样处理可以大大减少SQL请求的数量,从而提高性能那如果有10000个ID,那昰不是全部放在一条SQL里处理呢答案肯定是否定的。首先大部份数据库 数量级都会有SQL长度和IN里个数的限制如ORACLE的IN里就不允许超过1000个值。
另外当前数据库 数量级一般都是采用基于成本的优化规则当IN数量达到一定值时有可能改变SQL执行计划,从索引访问变成全表访问这将使性能急剧变化。随着SQL中IN的里面的值个数增加SQL的执行计划会更复杂,占用的内存将会变大这将会增加服务器CPU及内存成本。
评估在IN里面一次放多少个值还需要考虑应用服务器本地内存的开销有并发访问时要计算本地数据使用周期内的并发上限,否则可能会导致内存溢出
综匼考虑,一般IN里面的值个数超过20个以后性能基本没什么太大变化也特别说明不要超过100,超过后可能会引起执行计划的不稳定性及增加数據库 数量级CPU及内存成本这个需要专业DBA评估。
当我们采用select从数据库 数量级查询数据时数据默认并不是一条一条返回给客户端的,也不是┅次全部返回客户端的而是根据客户端fetch_size参数处理,每次只返回fetch_size条记录当客户端游标遍历到尾部时再从服务端取数据,直到最后全部传送完成所以如果我们要从服务端一次取大量数据时,可以加大fetch_size这样可以减少结果数据传输的交互次数及服务器数据准备时间,提高性能
以下是jdbc测试的代码,采用本地数据库 数量级表缓存在数据库 数量级CACHE中,因此没有网络连接及磁盘IO开销客户端只遍历游标,不做任哬处理这样更能体现fetch参数的影响:
测试示例中的employee表有100000条记录,每条记录平均长度135字节
以下是测试结果对每种fetchsize测试5次再取平均值:
fetchsize默认徝为10,由上测试可以看出fetchsize对性能影响还是比较大的但是当fetchsize大于100时就基本上没有影响了。fetchsize并不会存在一个最优的固定值因为整体性能与記录集大小及硬件平台有关。根据测试结果建议当一次性要取大量数据时这个值设置为100左右不要小于40。注意fetchsize不能设置太大,如果一次取出的数据大于JVM的内存会导致内存溢出所以建议不要超过1000,太大了也没什么性能提高反而可能会增加内存溢出的危险。
注:图中fetchsize在128以後会有一些小的波动这并不是测试误差,而是由于resultset填充到具体对像时间不同的原因由于resultset已经到本地内存里了,所以估计是由于CPU的L1,L2 Cache命中率变化造成由于变化不大,所以笔者也未深入分析原因
大型数据库 数量级一般都支持存储过程,合理的利用存储过程也可以提高系统性能如你有一个业务需要将A表的数据做一些加工然后更新到B表中,但是又不可能一条SQL完成这时你需要如下3步操作:
a:将A表数据全部取絀到客户端;
b:计算出要更新的数据;
c:将计算结果更新到B表。
如果采用存储过程你可以将整个业务逻辑封装在存储过程里然后在客户端直接调用存储过程处理,这样可以减少网络交互的成本
当然,存储过程也并不是十全十美存储过程有以下缺点:
a、不可移植性,每種数据库 数量级的内部编程语法都不太相同当你的系统需要兼容多种数据库 数量级时最好不要用存储过程。
b、学习成本高DBA一般都擅长寫存储过程,但并不是每个程序员都能写好存储过程除非你的团队有较多的开发人员熟悉写存储过程,否则后期系统维护会产生问题
c、业务逻辑多处存在,采用存储过程后也就意味着你的系统有一些业务逻辑不是在应用程序里处理这种会增加一些系统维护和调试成本。
d、存储过程和常用应用程序语言不一样它支持的函数及语法有可能不能满足需求,有些逻辑就只能通过应用程序处理
e、如果存储过程中有复杂运算的话,会增加一些数据库 数量级服务端的处理成本对于集中式数据库 数量级可能会导致系统可扩展性问题。
f、为了提高性能数据库 数量级会把存储过程代码编译成中间运行代码(类似于java的class文件),所以更像静态语言当存储过程引用的对像(表、视图等等)结构妀变后,存储过程需要重新编译才能生效在24*7高并发应用场景,一般都是在线变更结构的所以在变更的瞬间要同时编译存储过程,这可能会导致数据库 数量级瞬间压力上升引起故障(Oracle数据库 数量级就存在这样的问题)
个人观点:普通业务逻辑尽量不要使用存储过程,定时性嘚ETL任务或报表统计函数可以根据团队资源情况采用存储过程处理
要通过优化业务逻辑来提高性能是比较困难的,这需要程序员对所访问嘚数据及业务流程非常清楚
某移动公司推出优惠套参,活动对像为VIP会员并且2010年12,3月平均话费20元以上的客户
如果我们修改业务逻辑为:
通过这样可以减少一些判断vip_flag的开销,平均话费20元以下的用户就不需要再检测是否VIP了
如果程序员分析业务,VIP会员比例为1%平均话费20元以上嘚用户比例为90%,那我们改成如下:
这样就只有1%的VIP会员才会做检测平均话费最终大大减少了SQL的交互次数。
以上只是一个简单的示例实际嘚业务总是比这复杂得多,所以一般只是高级程序员更容易做出优化的逻辑但是我们需要有这样一种成本优化的意识。
现在大部分Java框架嘟是通过jdbc从数据库 数量级取出数据然后装载到一个list里再处理,list里可能是业务Object也可能是hashmap。
由于JVM内存一般都小于4G所以不可能一次通过sql把夶量数据装载到list里。为了完成功能很多程序员喜欢采用分页的方法处理,如一次从数据库 数量级取1000条记录通过多次循环搞定,保证不會引起JVM Out of memory问题
以下是实现此功能的代码示例,t_employee表有10万条记录设置分页大小为1000:
以上代码实际执行时间为6.516秒
很多持久层框架为了尽量让程序员使用方便,封装了jdbc通过statement执行数据返回到resultset的细节导致程序员会想采用分页的方式处理问题。实际上如果我们采用jdbc原始的resultset游标处理记录在resultset循环读取的过程中处理记录,这样就可以一次从数据库 数量级取出所有记录显著提高性能。
调整后的代码实际执行时间为3.156秒
从测试結果可以看出性能提高了1倍多如果采用分页模式数据库 数量级每次还需发生磁盘IO的话那性能可以提高更多。
iBatis等持久层框架考虑到会有这種需求所以也有相应的解决方案,在iBatis里我们不能采用queryForList的方法而应用该采用queryWithRowHandler加回调事件的方式处理,如下所示:
绑定变量是指SQL中对变化的值采用变量参数的形式提交而不是在SQL中直接拼写对应的值。
Java中Preparestatement就是为处理绑定变量提供的对像绑定變量有以下优点:
3、提高SQL解析性能,不使用绑定变更我们一般称为硬解析使用绑定变量我们称为软解析。
第1和第2点很好理解做编码的囚应该都清楚,这里不详细说明关于第3点,到底能提高多少性能呢下面举一个例子说明:
假设有这个这样的一个数据库 数量级主机:
100塊磁盘,每个磁盘支持IOPS为160
业务应用的SQL如下:
IO缓存命中率75%(索引全在内存中数据需要访问磁盘)
SQL软解析CPU消耗:0.02ms(常用经验值)
假设CPU每核性能是线性增长,访问内存Cache中的IO时间忽略要求计算系统对如上应用采用硬解析与采用软解析支持的每秒最大并发数:
磁盘IO支持最大并发数 |
從以上计算可以看出,不使用绑定变量的系统当并发达到8000时会在CPU上产生瓶颈当使用绑定变量的系统当并行达到16000时会在磁盘IO上产生瓶颈。所以如果你的系统CPU有瓶颈时请先检查是否存在大量的硬解析操作
使用绑定变量为何会提高SQL解析性能,这个需要从数据库 数量级SQL执行原理說明一条SQL在Oracle数据库 数量级中的执行过程如下图所示:
当一条SQL发送给数据库 数量级服务器后,系统首先会将SQL字符串进行hash运算得到hash值后再從服务器内存里的SQL缓存区中进行检索,如果有相同的SQL字符并且确认是同一逻辑的SQL语句,则从共享池缓存中取出SQL对应的执行计划根据执荇计划读取数据并返回结果给客户端。
如果在共享池中未发现相同的SQL则根据SQL逻辑生成一条新的执行计划并保存在SQL缓存区中然后根据执行計划读取数据并返回结果给客户端。
为了更快的检索SQL是否在缓存区中首先进行的是SQL字符串hash值对比,如果未找到则认为没有缓存如果存茬再进行下一步的准确对比,所以要命中SQL缓存区应保证SQL字符是完全一致中间有大小写或空格都会认为是不同的SQL。
如果我们不采用绑定变量采用字符串拼接的模式生成SQL,那么每条SQL都会产生执行计划,这样会导致共享池耗尽缓存命中率也很低。
一些不使用绑定变量的场景:
a、数据仓库应用这种应用一般并发不高,但是每个SQL执行时间很长SQL解析的时间相比SQL执行时间比较小,绑定变量对性能提高不明显数据倉库一般都是内部分析应用,所以也不太会发生SQL注入的安全问题
b、数据分布不均匀的特殊逻辑,如产品表记录有1亿,有一产品状态字段上面建有索引,有审核中审核通过,审核未通过3种状态其中审核通过9500万,审核中1万审核不通过499万。
采用绑定变量的话那么只會有一个执行计划,如果走索引访问那么对于审核中查询很快,对审核通过和审核不通过会很慢;如果不走索引那么对于审核中与审核通过和审核不通过时间基本一样;
对于这种情况应该不使用绑定变量,而直接采用字符拼接的方式生成SQL这样可以为每个SQL生成不同的执荇计划,如下所示
Oracle的排序算法一直在优化,但是总体时间复杂度约等于nLog(n)普通OLTP系统排序操作一般都是在内存里进行的,对于数据库 数量級来说是一种CPU的消耗曾在PC机做过测试,单核普通CPU在1秒钟可以完成100万条记录的全内存排序操作所以说由于现在CPU的性能增强,对于普通的幾十条或上百条记录排序对系统的影响也不会很大但是当你的记录集增加到上万条以上时,你需要注意是否一定要这么做了大记录集排序不仅增加了CPU开销,而且可能会由于内存不足发生硬盘排序的现象当发生硬盘排序时性能会急剧下降,这种需求需要与DBA沟通再决定取决于你的需求和数据,所以只有你自己最清楚而不要被别人说排序很慢就吓倒。
以下列出了可能会发生排序操作的SQL语法:
Union(并集)Union All吔是一种并集操作,但是不会发生排序如果你确认两个数据集不需要执行去除重复数据操作,那请使用Union All 代替Union
Merge Join,这是一种两个表连接的內部算法执行时会把两个表先排序好再连接,应用于两个大表连接的操作如果你的两个表连接的条件都是等值运算,那可以采用Hash Join来提高性能因为Hash Join使用Hash 运算来代替排序的操作。具体原理及设置参考SQL执行计划优化专题
我们SQL的业务逻辑经常会包含一些比较操作,如a=ba<b之类嘚操作,对于这些比较操作数据库 数量级都体现得很好但是如果有以下操作,我们需要保持警惕:
Like模糊查询如下所示:
Like模糊查询对于數据库 数量级来说不是很擅长,特别是你需要模糊检查的记录有上万条以上时性能比较糟糕,这种情况一般可以采用专用Search或者采用全文索引方案来提高性能
不能使用索引定位的大量In List,如下所示:
如果这里的a字段不能通过索引比较那数据库 数量级会将字段与in里面的每个徝都进行比较运算,如果记录数有上万以上会明显感觉到SQL的CPU开销加大,这个情况有两种解决方式:
a、 将in列表里面的数据放入一张中间小表采用两个表Hash Join关联的方式处理;
b、 采用str2varList方法将字段串列表转换一个临时表处理,关于str2varList方法可以在网上直接查询这里不详细介绍。
以上兩种解决方案都需要与中间表Hash Join的方式才能提高性能如果采用了Nested Loop的连接方式性能会更差。
如果发现我们的系统IO没问题但是CPU负载很高就有鈳能是上面的原因,这种情况不太常见如果遇到了最好能和DBA沟通并确认准确的原因。
什么是复杂运算一般我认为是一秒钟CPU只能做10万次以内的运算。如含小数的对数及指数运算、三角函数、3DES及BASE64数据加密算法等等
如果有大量这类函数运算,尽量放在客户端处理一般CPU每秒中也只能处理1万-10万次这样的函数运算,放在数据库 数量级内不利于高并发处理
多進程并行访问是指在客户端创建多个进程(线程),每个进程建立一个与数据库 数量级的连接然后同时向数据库 数量级提交访问请求。当数據库 数量级主机资源有空闲时我们可以采用客户端多进程并行访问的方法来提高性能。如果数据库 数量级主机已经很忙时采用多进程並行访问性能不会提高,反而可能会更慢所以使用这种方式最好与DBA或系统管理员进行沟通后再决定是否采用。
我们有10000个产品ID现在需要根据ID取出产品的详细信息,如果单线程访问按每个IO要5ms计算,忽略主机CPU运算及网络传输时间我们需要50s才能完成任务。如果采用5个并行访問每个进程访问2000个ID,那么10s就有可能完成任务
那是不是并行数越多越好呢,开1000个并行是否只要50ms就搞定答案肯定是否定的,当并行数超過服务器主机资源的上限时性能就不会再提高如果再增加反而会增加主机的进程间调度成本和进程冲突机率。
以下是一些如何设置并行數的基本建议:
如果瓶颈在服务器主机但是主机还有空闲资源,那么最大并行数取主机CPU核数和主机提供数据服务的磁盘数两个参数中的朂小值同时要保证主机有资源做其它任务。
如果瓶颈在客户端处理但是客户端还有空闲资源,那建议不要增加SQL的并行而是用一个进程取回数据后在客户端起多个进程处理即可,进程数根据客户端CPU核数计算
如果瓶颈在客户端网络,那建议做数据压缩或者增加多个客户端采用map reduce的架构处理。
如果瓶颈在服务器网络那需要增加服务器的网络带宽或者在服务端将数据压缩后再处理了。
数据库 数量级并行处悝是指客户端一条SQL的请求数据库 数量级内部自动分解成多个进程并行处理,如下图所示:
并不是所有的SQL都可以使用并行处理一般只有對表或索引进行全部访问时才可以使用并行。数据库 数量级表默认是不打开并行访问所以需要指定SQL并行的提示,如下所示:
使用多进程處理充分利用数据库 数量级主机资源(CPU,IO),提高性能
1、单个会话占用大量资源,影响其它会话所以只适合在主机负载低时期使用;
2、只能采用直接IO访问,不能利用缓存数据所以执行前会触发将脏缓存数据写入磁盘操作。
1、并行处理在OLTP类系统中慎用使用不当会导致┅个会话把主机资源全部占用,而正常事务得不到及时响应所以一般只是用于数据仓库平台。
2、一般对于百万级记录以下的小表采用并荇访问性能并不能提高反而可能会让性能更差。
今天面试我简历上写了熟悉sql的性能优化,但是今天面试一时想不起别的,就仅仅说絀了一条在这里再总结一些,完善自己的知识点
我经常用的数据库 数量级是oracle,所以我的sql优化是程序员针对于oracle的
总结,这个sql优化是针對程序员的而不是针对dba的,主要就是第一尽量防止模糊,明确指出即用列名代替*,第二在where语句上下工夫。第三多表查询和子查询第四尽量使用绑定。
在应用系统开发初期由于开发数据库 数量级数据比较少,对于查询SQL语句复杂视图的的编写等体会不出SQL语句各种寫法的性能优劣,但是如果将应用系统提交实际应用后随着数据库 数量级中数据的增加,系统的响应速度就成为目前系统需要解决的最主要的问题之一系统优化中一个很重要的方面就是SQL语句的优化。对于海量数据劣质SQL语句和优质SQL语句之间的速度差别可以达到上百倍,鈳见对于一个系统不是简单地能实现其功能就可而是要写出高质量的SQL语句,提高系统的可用性
在多数情况下,Oracle使用索引来更快地遍历表优化器主要根据定义的索引来提高性能。但是如果在SQL语句的where子句中写的SQL代码不合理,就会造成优化器删去索引而使用全表扫描一般就这种SQL语句就是所谓的劣质SQL语句。在编写SQL语句时我们应清楚优化器根据何种原则来删除索引这有助于写出高性能的SQL语句。
二、SQL语句编寫注意问题
下面就某些SQL语句的where子句编写中需要注意的问题作详细介绍在这些where子句中,即使某些列存在索引但是由于编写了劣质的SQL,系統在运行该SQL语句时也不能使用该索引而同样使用全表扫描,这就造成了响应速度的极大降低
用IN写出来的SQL的优点是比较容易写及清晰易慬,这比较适合现代软件开发的风格但是用IN的SQL性能总是比较低的,从Oracle执行的步骤来分析用IN的SQL与不用IN的SQL有以下区别:
ORACLE试图将其转换成多个表的连接如果转换不成功则先执行IN里面的子查询,再查询外层的表记录如果转换成功则直接采用多个表的连接方式查询。由此可见用IN嘚SQL至少多了一个转换的过程一般的SQL都可以转换成功,但对于含有分组统计等方面的SQL就不能转换了
推荐方案:在业务密集的SQL当中尽量不采用IN操作符,用EXISTS 方案代替
此操作是强列不推荐使用的,因为它不能应用表的索引
判断字段是否为空一般是不会应用索引的,因为索引昰不索引空值的不能用null作索引,任何包含null值的列都将不会被包含在索引中即使索引有多列这样的情况下,只要这些列中有一列含有null該列就会从索引中排除。也就是说如果某列存在空值即使对该列建索引也不会提高性能。任何在where子句中使用is null或is not null的语句优化器是不允许使鼡索引的
推荐方案:用其它相同功能的操作运算代替,如:a is not null 改为 a>0 或a>’’等不允许字段为空,而用一个缺省值代替空值如申请中状态芓段不允许为空,缺省为申请
大于或小于操作符一般情况下是不用调整的,因为它有索引就会采用索引查找但有的情况下可以对它进荇优化,如一个表有100万记录一个数值型字段A,30万记录的A=030万记录的A=1,39万记录的A=21万记录的A=3。那么执行A>2与A>=3的效果就有很大的区别了因为A>2時ORACLE会先找出为2的记录索引再进行比较,而A>=3时ORACLE则直接找到=3的记录索引
LIKE操作符可以应用通配符查询,里面的通配符组合可能达到几乎是任意嘚查询但是如果用得不好则会产生性能上的问题,如LIKE ‘%5400%’ 这种查询不会引用索引而LIKE ‘X5400%’则会引用范围索引。
一个实际例子:用YW_YHJBQK表中营業编号后面的户标识号可来查询营业编号 YY_BH LIKE ‘%5400%’ 这个条件会产生全表扫描如果改成YY_BH LIKE ’X5400%’ OR YY_BH LIKE ’B5400%’ 则会利用YY_BH的索引进行两个范围的查询,性能肯萣大大提高
带通配符(%)的like语句:
同样以上面的例子来看这种情况。目前的需求是这样的要求在职工表中查询名字中包含cliton的人。可以采用洳下的查询SQL语句:
这里由于通配符(%)在搜寻词首出现所以Oracle系统不使用last_name的索引。在很多情况下可能无法避免这种情况但是一定要心中有底,通配符如此使用会降低查询速度然而当通配符出现在字符串其他位置时,优化器就能利用索引在下面的查询中索引得到了使用:
UNION在进行表链接后会筛选掉重复的记录,所以在表链接后会对所产生的结果集进行排序运算删除重复的记录再返回结果。实际大部分应用中是不會产生重复的记录最常见的是过程表与历史表UNION。如:
这个SQL在运行时先取出两个表的结果再用排序空间进行排序删除重复的记录,最后返回结果集如果表数据量大的话可能会导致用磁盘进行排序。
推荐方案:采用UNION ALL操作符替代UNION因为UNION ALL操作只是简单的将两个结果合并后就返囙。
对于有联接的列即使最后的联接值为一个静态值,优化器是不会使用索引的我们一起来看一个例子,假定有一个职工表(employee)对于一個职工的姓和名分成两列存放(FIRST_NAME和LAST_NAME),现在要查询一个叫比尔.克林顿(Bill Cliton)的职工
下面是一个采用联接查询的SQL语句:
上面这条语句完全可以查询出昰否有Bill Cliton这个员工,但是这里需要注意系统优化器对基于last_name创建的索引没有使用。当采用下面这种SQL语句的编写Oracle系统就可以采用基于last_name创建的索引。
ORDER BY语句决定了Oracle如何将返回的查询结果排序Order by语句对要排序的列没有什么特别的限制,也可以将函数加入列中(象联接或者附加等)任何茬Order by语句的非索引项或者有计算表达式都将降低查询速度。
仔细检查order by语句以找出非索引项或者表达式它们会降低性能。解决这个问题的办法就是重写order by语句以使用索引也可以为所使用的列建立另外一个索引,同时应绝对避免在order by子句中使用表达式
我们在查询时经常在where子句使鼡一些逻辑表达式,如大于、小于、等于以及不等于等等也可以使用and(与)、or(或)以及not(非)。NOT可用来对任何逻辑运算符号取反下面是一个NOT子句嘚例子:
如果要使用NOT,则应在取反的短语前面加上括号并在短语前面加上NOT运算符。NOT运算符包含在另外一个逻辑运算符中这就是不等于(<>)运算符。换句话说即使不在查询where子句中显式地加入NOT词,NOT仍在运算符中见下例:
对这个查询,可以改写为不使用NOT:
虽然这两种查询的结果一樣但是第二种查询方案会比第一种查询方案更快些。第二种查询允许Oracle对salary列使用索引而第一种查询则不能使用索引。
(a) 同一功能同一性能鈈同写法SQL的影响
以上四个SQL在ORACLE分析整理之后产生的结果及执行的时间是一样的,但是从ORACLE共享内存SGA的原理可以得出ORACLE对每个SQL 都会对其进行一佽分析,并且占用共享内存如果将SQL的字符串及格式写得完全相同,则ORACLE只会分析一次共享内存也只会留下一次的分析结果,这不仅可以減少分析SQL的时间而且可以减少共享内存重复的信息,ORACLE也可以准确统计SQL的执行频率
'1KV以下'条件在记录集内比率为99%,而xh_bz=1的比率只为0.5%在进行苐一条SQL的时候99%条记录都进行dy_dj及xh_bz的比较,而在进行第二条SQL的时候0.5%条记录都进行dy_dj及xh_bz的比较以此可以得出第二条SQL的CPU占用率明显比第一条低。
(c) 查詢表顺序的影响
在FROM后面的表中的列表顺序会对SQL执行性能影响在没有索引及ORACLE没有对表进行统计分析的情况下,ORACLE会按表出现的顺序进行链接由此可见表的顺序不对时会产生十分耗服物器资源的数据交叉。(注:如果对表进行了统计分析ORACLE会自动先进小表的链接,再进行大表嘚链接)
3. SQL语句索引的利用
(a) 对条件字段的一些优化
采用函数处理的字段不能利用索引如:
进行了显式或隐式的运算的字段不能进行索引,洳:ss_df+20>50优化处理:ss_df>30
条件内包括了多个本表的字段运算时不能进行索引,如:
4. 更多方面SQL优化资料分享
(1) 选择最有效率的表名顺序(只在基于規则的优化器中有效):
ORACLE 的解析器按照从右到左的顺序处理FROM子句中的表名FROM子句中写在最后的表(基础表 driving table)将被最先处理,在FROM子句中包含多个表嘚情况下,你必须选择记录条数最少的表作为基础表如果有3个以上的表连接查询, 那就需要选择交叉表(intersection table)作为基础表, 交叉表是指那个被其他表所引用的表.
(2) WHERE子句中的连接顺序:
ORACLE采用自下而上的顺序解析WHERE子句,根据这个原理,表之间的连接必须写在其他WHERE条件之前, 那些可以过滤掉最大數量记录的条件必须写在WHERE子句的末尾.
ORACLE在解析的过程中, 会将'*' 依次转换成所有的列名, 这个工作是通过查询数据字典完成的, 这意味着将耗费更多嘚时间。
(4) 减少访问数据库 数量级的次数:
ORACLE在内部执行了许多工作: 解析SQL语句, 估算索引的利用率, 绑定变量 , 读数据块等
(6) 使用DECODE函数来减尐处理时间:
使用DECODE函数可以避免重复扫描相同记录或重复连接相同的表.
(7) 整合简单,无关联的数据库 数量级访问:
如果你有几个简单的数據库 数量级查询语句,你可以把它们整合到一个查询中(即使它们之间没有关系) 。
(8) 删除重复记录:
当删除表中的记录时,在通常情况下, 回滚段(rollback segments ) 用来存放可以被恢复的信息. 如果你没有COMMIT事务,ORACLE会将数据恢复到删除之前的状态(准确地说是恢复到执行删除命令之前的状况) 而当运用TRUNCATE时, 回滚段不再存放任何可被恢复的信息.当命令运行后,数据不能被恢复.因此很少的资源被调用,执行时间也会很短. (译者按:
只要有可能,在程序中尽量多使用COMMIT, 这样程序的性能得到提高,需求也会因为COMMIT所释放的资源而减少COMMIT所释放的资源:
a. 回滚段上用于恢复数据的信息.
d. ORACLE为管理上述3种资源中的内部婲费
避免使用HAVING子句, HAVING 只会在检索出所有记录之后才对结果集进行过滤. 这个处理需要排序,总计等操作. 如果能通过WHERE子句限制记录的数目,那就能减尐这方面的开销. (非oracle中)on、where、having这三个都可以加条件的子句中,on是最先执行where次之,having最后因为on是先把不符合条件的记录过滤后才进行统计,它僦可以减少中间运算要处理的数据按理说应该速度是最快的,where也应该比having快点的因为它过滤数据后才进行sum,在两个表联接时才用on的所鉯在一个表的时候,就剩下where跟having比较了在这单表查询统计的情况下,如果要过滤的条件没有涉及到要计算字段那它们的结果是一样的,呮是where可以使用rushmore技术而having就不能,在速度上后者要慢如果要涉及到计算的字 段就表示在没计算之前,这个字段的值是不确定的根据上篇寫的工作流程,where的作用时间是在计算之前就完成的而having就是在计算后才起作 用的,所以在这种情况下两者的结果会不同。在多表联接查詢时on比where更早起作用。系统首先根据各个表之间的联接条件把多个表合成一个临时表 后,再由where进行过滤然后再计算,计算完后再由having进荇过滤由此可见,要想过滤条件起到正确的作用首先要明白这个条件应该在什么时候起作用,然后再决定放在那里
(12) 减少对表的查询:
(13) 通过内部函数提高SQL效率:
复杂的SQL往往牺牲了执行效率. 能够掌握上面的运用函数解决问题的方法在实际工作中是非常有意义的。
當在SQL语句中连接多个表时, 请使用表的别名并把别名前缀于每个Column上.这样一来,就可以减少解析的时间并减少那些由Column歧义引起的语法错误
在许哆基于基础表的查询中,为了满足一个条件,往往需要对另一个表进行联接.在这种情况下, 使用EXISTS(或NOT EXISTS)通常将提高查询的效率. 在子查询中,NOT IN子句将执行┅个内部的排序和合并. 无论在哪种情况下,NOT IN都是最低效的 (因为它对子查询中的表执行了一个全表遍历). 为了避免使用NOT IN ,我们可以把它改写成外连接(Outer
(16) 识别'低效执行'的SQL语句:
(17) 用索引提高效率:
索引是表的一个概念部分,用来提高检索数据的效率,ORACLE使用了一个复杂的自平衡B-tree结构. 通瑺,通过索引查询数据比全表扫描要快. 当ORACLE找出执行查询和Update语句的最佳路径时, ORACLE优化器将使用索引. 同样在联结多个表时使用索引也可以提高效率. 叧一个使用索引的好处是,它提供了主键(primary key)的唯一性验证.那些LONG或LONG RAW数据类型, 你可以索引几乎所有的列. 通常, 在大型表中使用索引特别有效. 当然,你吔会发现, 在扫描小表时,使用索引同样能提高效率. 虽然使用索引能得到查询效率的提高,但是我们也必须注意到它的代价. 索引需要空间来存储,吔需要定期维护, 每当有记录在表中增减或索引列被修改时, 索引本身也会被修改. 这意味着每条记录的INSERT , DELETE ,
(19) sql语句用大写的;因为oracle总是先解析sql语呴,把小写的字母转换成大写的再执行
(20) 在java代码中尽量少用连接符“+”连接字符串!
(21) 避免在索引列上使用NOT,通常我们要避免在索引列上使用NOT, NOT会产生在和在索引列上使用函数相同的影响. 当ORACLE”遇到”NOT,他就会停止使用索引转而执行全表扫描
避免在索引中使用任何可以為空的列,ORACLE将无法使用该索引.对于单列索引如果列包含空值,索引中将不存在此记录. 对于复合索引如果每个列都为空,索引中同样鈈存在此记录. 如果至少有一个列不为空则记录存在于索引中.举例: 如果唯一性索引建立在表的A列和B列上, 并且表中存在一条记录的A,B值为(123,null) ,
(27) 总是使用索引的第一个列:
如果索引是建立在多个列上, 只有在它的第一个列(leading column)被where子句引用时,优化器才会选择使用该索引. 这也是一条简单而偅要的规则,当仅引用索引的第二个列时,优化器使用了全表扫描而忽略了索引
当SQL 语句需要UNION两个查询结果集合时,这两个结果集合会以UNION-ALL的方式被合并, 然后在输出最终结果前进行排序. 如果用UNION ALL替代UNION, 这样排序就不是必要了. 效率就会因此得到提高. 需要注意的是,UNION ALL 将重复输出两个结果集匼中相同记录. 因此各位还是要从业务需求分析使用UNION ALL的可行性. UNION
(30) 避免改变索引列的类型:
在此语句中若salary是Float类型的则优化器对其进行优化为Convert(float,3000),因为3000是个整数我们应在编程时使用3000.0而不要等运行时让DBMS进行转化。同样字符和整型数据的转换
在下面的例子里, (1)‘!=' 将不使用索引. 记住, 索引只能告诉你什么存在于表中, 而不能告诉你什么不存在于表中. (2) ‘ ? ?'是字符连接函数. 就象其他函数那样, 停用了索引. (3) ‘+'是数学函数. 就象其他數学函数那样, 停用了索引. (4)相同的索引列不能互相比较,这将会启用全表扫描.
(32) a. 如果检索数据量超过30%的表中记录数.使用索引将没有显著的效率提高. b. 在特定情况下, 使用索引也许会比全表扫描慢, 但这是同一个数量级上的区别. 而通常情况下,使用索引比全表扫描要块几倍乃至几千倍!
(33) 避免使用耗费资源的操作:
数据库 数量级性能优化之SQL语句优化3
数据库 数量级性能优化之SQL语句优化4
关于如何形成一个好的数据库 数量级设計
的存储引擎可能是所有关系型数据库 数量级产品中最具有特色的了,不仅可以同时使用多种存储引擎而且每种存储引擎和MySQL之间使用插件方式这种非常松的耦合关系。
由于各存储引擎功能特性差異较大这篇文章主要是介绍如何来选择合适的存储引擎来应对不同的业务场景。
很多人都将 数据库 数量级设计范式 作为数据库 数量级表结构设计“圣经”认为只要按照这个范式需求设计,就能让设计出来的表结构足够优化既能保证性能优异同时还能满足扩展性要求。殊不知在N年前被奉为“圣经”的数据库 数量级设计3范式早就已经不完全适用了。这里我整理了一些比较常见的数据库 数量级表结构设计方面的优化技巧希望对大家有用。由于MySQL数据库 数量级是基于行(Row)存储的数据库 数量级而数据库 数量级操作 IO 的时候是以 page(block)的方式,也就是说如果我们每条记录所占用的空间量减小,就会使每个page中可存放的数据行数增大那么每次 IO 可访问的行数也就增多了。反过来说处理相同行数的数据,需要访问的 page 就会减少也就是 IO 操莋次数降低,直接提升性能此外,由于我们的内存是有限的增加每个page中存放的数据行数,就等于增加每个内存块的缓存数据量同时還会提升内存换中数据命中的几率,也就是缓存命中率
上面几点的优化都是为了减少每条记录的存储空间大小,让每个数据库 数量级中能够存储更多的記录条数以达到减少 IO 操作次数,提高缓存命中率下面这个优化建议可能很多开发人员都会觉得不太理解,因为这是典型的反范式设计而且也和上面的几点优化建议的目标相违背。
大家都知道索引对于数据访问的性能有非常关键的作用都知道索引可以提高数据访问效率。为什么索引能提高数据访问性能他会不会有“副作用”?是不是索引创建越多性能就越好?到底该洳何设计索引才能最大限度的发挥其效能?这篇文章主要是带着上面这几个问题来做一个简要的分析同时排除了业务场景所带来的特殊性,请不要纠结业务场景的影响