﻿<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:trackback="http://madskills.com/public/xml/rss/module/trackback/" xmlns:wfw="http://wellformedweb.org/CommentAPI/" xmlns:slash="http://purl.org/rss/1.0/modules/slash/"><channel><title>IT博客-玄铁剑-文章分类-收藏的文章</title><link>http://www.cnitblog.com/MartinYao/category/4532.html</link><description>成功的途径：抄，创造，研究，发明...</description><language>zh-cn</language><lastBuildDate>Mon, 26 Sep 2011 13:53:05 GMT</lastBuildDate><pubDate>Mon, 26 Sep 2011 13:53:05 GMT</pubDate><ttl>60</ttl><item><title>2010年10大热门的开源NoSQL服务器软件</title><link>http://www.cnitblog.com/MartinYao/articles/72562.html</link><dc:creator>玄铁剑</dc:creator><author>玄铁剑</author><pubDate>Fri, 31 Dec 2010 08:45:00 GMT</pubDate><guid>http://www.cnitblog.com/MartinYao/articles/72562.html</guid><description><![CDATA[<div class=blkCont>
<p>
<p>NoSQL，就是反SQL，是一项全新的数据库革新运动，特别是在 2010 年得以迅猛发展。而各种开源的 NoSQL 软件突然间涌现在你面前。目前似乎没有对 NoSQL 给出一个标准的定义，也没有相应的规范，但从这些软件可以看出 NoSQL 软件的共同点：独立运行、K/V存储结构，这之前有人称之为集中式缓存服务，其实你可以把二者等同起来。</p>
<p>那么多的 NoSQL 软件，到底哪些更受欢迎呢？为此，开源中国社区为你评选出10款2010年最受关注的 NoSQL 软件。</p>
<p><strong>1. Cassandra</strong></p>
<p>Cassandra 在 2010 年出尽风头，但最终都以失败告终，包括 Twitter 以及 Digg 的案例使我们不得不对 NoSQL 技术是否成熟，是否能在大规模系统中应用产生了怀疑。但这并不影响 Cassandra 拔得头筹，因为还有 Facebook 的支持。</p>
<p>Apache Cassandra 是一套开源分布式Key-Value存储系统。它最初由Facebook开发，用于储存特别大的数据。Facebook目前在使用此系统。</p>
<p>主要特性：</p>
<p>分布式</p>
<p>基于column的结构化</p>
<p>高伸展性</p>
<p>Cassandra 采用 Java 开发，Apache 授权协议。</p>
<p><strong>2. memcached</strong></p>
<p>memcached 是老牌的独立缓存服务的领头羊，目前国内使用该系统的网站非常的多，在这基础上还有国内开发的 memcachedb 是 memcached 支持持久化存储。</p>
<p>memcached 是一套分布式的快取系统，当初是Danga Interactive为了LiveJournal所发展的，但目前被许多软件（如MediaWiki）所使用。不过，memcached 缺乏认证以及安全管制</p>
<p>memcached 采用 C 语言开发，可在 Linux 系统下使用，采用 BSD 授权。</p>
<p><strong>3. Membase</strong></p>
<p>Membase 是 NoSQL 家族的一个新的重量级的成员，其完全兼容 memcached 的方式，有望笼络 memcached 的用户群。Membase 的可伸缩性、集群、复制以及管理方便等特性又是 memcached 无法匹敌的。</p>
<p style="TEXT-ALIGN: center"><img style="CURSOR: pointer" onclick="window.open('http://articles.csdn.net/uploads/allimg/101231/79_101231092757_1.png')" border=0 alt="" src="http://articles.csdn.net/uploads/allimg/101231/79_101231092757_1.png" width=400 height=338></p>
<p style="TEXT-ALIGN: left">Membase 同样采用 C 语言开发，支持 Windows 和 Linux 系统，使用 Apache 授权协议。</p>
<p>接下来介绍两款国产的 NoSQL 软件：</p>
<p><strong>4. Tair</strong></p>
<p>Tair 是由淘宝网自主开发的分布式Key/Value结构数据存储系统，在淘宝网有着大规模的应用。您在登录淘宝、查看商品详情页面或者在淘江湖和好友&#8220;捣浆糊&#8221;的时候，都在直接或间接地和Tair交互。</p>
<p style="TEXT-ALIGN: center"><img style="CURSOR: pointer" onclick="window.open('http://articles.csdn.net/uploads/allimg/101231/79_101231092813_1.jpg')" border=0 alt="" src="http://articles.csdn.net/uploads/allimg/101231/79_101231092813_1.jpg" width=554 height=284></p>
<p style="TEXT-ALIGN: left">Tair 采用 C 语言开发，支持 Linux 系统，使用 GPLv2 授权协议。</p>
<p><strong>5. BeansDB</strong></p>
<p>BeansDB 是豆瓣网开发的一个主要针对大数据量、高可用性的分布式Key Value存储系统，采用HashTree和简化的版本号来快速同步保证最终一致性（弱），一个简化版的 Dynamo。</p>
<p>它采用类似memcached的去中心化结构，在客户端实现数据路由。目前只提供了 Python版本的客户端，其它语言的客户端可以由memcached的客户端稍加改造得到。</p>
<p>主要特性包括：</p>
<p>高可用：通过多个可读写的用于备份实现高可用；</p>
<p>最终一致性：通过哈希树实现快速完整数据同步（短时间内数据可能不一致）；</p>
<p>容易扩展：可以在不中断服务的情况下进行容量扩展；</p>
<p>高性能：异步IO和高性能的Key Value数据Tokyo Cabinet；</p>
<p>可配置的可用性和一致性：通过N,W,R进行配置；</p>
<p>简单协议：Memcached兼容协议，大量可用客户端。</p>
<p>BeansDB 采用 Python 语言开发，支持 Linux 系统，使用 BSD 授权协议。</p>
<p><strong>6. Redis</strong></p>
<p>Redis 是一个高性能的key-value数据库。 redis的 出现，很大程度补偿了memcached这类keyvalue存储的不足，在部分场合可以对关系数据库起到很好的补充作用。它提供了Python，Ruby，Erlang，PHP客户端，使用很方便。</p>
<p>Redis 的短板：</p>
<p>这个项目还很新，可能还不足够稳定，而且没有在实际的一些大型系统应用的实例。</p>
<p>缺乏mc中批量get也是比较大的问题，始终批量获取跟多次获取的网络开销是不一样的。</p>
<p>Redis 采用 C 语言开发，支持 Linux 系统，使用 BSD 授权协议。</p>
<p><strong>7. CouchDB </strong></p>
<p>Apache CouchDB 是一个面向文档的数据库管理系统。它提供以 JSON 作为数据格式的 REST 接口来对其进行操作，并可以通过视图来操纵文档的组织和呈现。 CouchDB 是 Apache 基金会的顶级开源项目。</p>
<p>CouchDB落实到最底层的数据结构就是两类B+Tree 。</p>
<p style="TEXT-ALIGN: center"><img style="CURSOR: pointer" onclick="window.open('http://articles.csdn.net/uploads/allimg/101231/79_101231092911_1.png')" border=0 alt="" src="http://articles.csdn.net/uploads/allimg/101231/79_101231092911_1.png" width=292 height=340></p>
<p style="TEXT-ALIGN: left">不过最近有消息说 CouchDB 将走一条不同于 NoSQL 的路子，具体情况如何我们只能拭目以待。</p>
<p>CouchDB 是用 ErLang 开发的哦，跨平台支持，Apache 授权协议。</p>
<p><strong>8. Tokyo Cabinet</strong></p>
<p style="TEXT-ALIGN: center"><img style="CURSOR: pointer" onclick="window.open('http://articles.csdn.net/uploads/allimg/101231/79_101231092925_1.png')" border=0 alt="" src="http://articles.csdn.net/uploads/allimg/101231/79_101231092925_1.png" width=300 height=110></p>
<p style="TEXT-ALIGN: left">Tokyo Cabinet 是一个DBM的实现。这里的数据库由一系列key-value对的记录构成。key和value都可以是任意长度的字节序列，既可以是二进制也可以是字符串。这里没有数据类型和数据表的概念。</p>
<p>当做为Hash表数据库使用时，每个key必须是不同的，因此无法存储两个key相同的值。提供了以下访问方法:提供key，value参数来存储，按 key删除记录，按key来读取记录，另外，遍历key也被支持，虽然顺序是任意的不能被保证。这些方法跟Unix标准的DBM,例如GDBM,NDBM 等等是相同的，但是比它们的性能要好得多（因此可以替代它们)</p>
<p>当按B+树来存储时，拥用相同key的记录也能被存储。像hash表一 样的读取，存储，删除函数也都有提供。记录按照用户提供的比较函数来存储。可以采用顺序或倒序的游标来读取每一条记录。依照这个原理，向前的字符串匹配搜 索和整数区间搜索也实现了。另外，B＋树的事务也是可用的。</p>
<p>Tokyo Cabinet 采用 C 语言开发，支持 Linux 系统，使用 LGPL 授权协议。</p>
<p><strong>9. OrientDB</strong></p>
<p>Orient DB 是一个可伸缩的文档数据库，支持 ACID 事务处理。使用 Java 5 实现。OrientDB 最强的一个地方是可以使用 类 SQL 的查询语句进行数据查询。</p>
<p>OrientDB 采用 Java 语言开发，跨平台支持，使用 Apache 授权协议。</p>
<p><strong>10. Hibari </strong></p>
<p>Hibari （在日语中意思为&#8220;云雀&#8221;）是一个专为高可靠性和大数据存储的数据库引擎，可用于云计算环境中，例如 webmail、SNS 和其他要求T/P级数据存储的环境中。Hibari 支持 Java, C/C++， Python, Ruby， 和 Erlang 语言的客户端。</p>
<p>Hibari 并不是一个关系数据库，主要是通过 key-value 的方法进行数据存储。</p>
<p>Hibari 使用 ErLang 语言开发，支持 Linux/BSD 系统，Apache 授权协议</p>
<p>本文转载自：http://www.oschina.net/news/14209/2010-top-10-nosql-projects</p>
</div>
<img src ="http://www.cnitblog.com/MartinYao/aggbug/72562.html" width = "1" height = "1" /><br><br><div align=right><a style="text-decoration:none;" href="http://www.cnitblog.com/MartinYao/" target="_blank">玄铁剑</a> 2010-12-31 16:45 <a href="http://www.cnitblog.com/MartinYao/articles/72562.html#Feedback" target="_blank" style="text-decoration:none;">发表评论</a></div>]]></description></item><item><title>.NET开源项目介绍及资源推荐：数据持久层 </title><link>http://www.cnitblog.com/MartinYao/articles/36003.html</link><dc:creator>玄铁剑</dc:creator><author>玄铁剑</author><pubDate>Thu, 08 Nov 2007 01:12:00 GMT</pubDate><guid>http://www.cnitblog.com/MartinYao/articles/36003.html</guid><wfw:comment>http://www.cnitblog.com/MartinYao/comments/36003.html</wfw:comment><comments>http://www.cnitblog.com/MartinYao/articles/36003.html#Feedback</comments><slash:comments>1</slash:comments><wfw:commentRss>http://www.cnitblog.com/MartinYao/comments/commentRss/36003.html</wfw:commentRss><trackback:ping>http://www.cnitblog.com/MartinYao/services/trackbacks/36003.html</trackback:ping><description><![CDATA[&nbsp;&nbsp;&nbsp;&nbsp; 摘要: 在.NET平台下，关于数据持久层框架非常多，本文主要对如下几种做简要的介绍并推荐一些学习的资源：1．NHibernate2．NBear3．Castle ActiveRecord4．iBATIS.NET5．DAAB附加介绍：DLinq&nbsp;一．NHibernate提起NHibernate，相信大家都不陌生，NHibernate来源于非常优秀的基于Java的H...&nbsp;&nbsp;<a href='http://www.cnitblog.com/MartinYao/articles/36003.html'>阅读全文</a><img src ="http://www.cnitblog.com/MartinYao/aggbug/36003.html" width = "1" height = "1" /><br><br><div align=right><a style="text-decoration:none;" href="http://www.cnitblog.com/MartinYao/" target="_blank">玄铁剑</a> 2007-11-08 09:12 <a href="http://www.cnitblog.com/MartinYao/articles/36003.html#Feedback" target="_blank" style="text-decoration:none;">发表评论</a></div>]]></description></item><item><title>asp.net 2.0权限权的控制</title><link>http://www.cnitblog.com/MartinYao/articles/20825.html</link><dc:creator>玄铁剑</dc:creator><author>玄铁剑</author><pubDate>Tue, 19 Dec 2006 15:03:00 GMT</pubDate><guid>http://www.cnitblog.com/MartinYao/articles/20825.html</guid><wfw:comment>http://www.cnitblog.com/MartinYao/comments/20825.html</wfw:comment><comments>http://www.cnitblog.com/MartinYao/articles/20825.html#Feedback</comments><slash:comments>0</slash:comments><wfw:commentRss>http://www.cnitblog.com/MartinYao/comments/commentRss/20825.html</wfw:commentRss><trackback:ping>http://www.cnitblog.com/MartinYao/services/trackbacks/20825.html</trackback:ping><description><![CDATA[&nbsp;&nbsp;&nbsp;&nbsp; 摘要: asp.net 2.0 权限树的控制(转载)				            做权限的时候,主要实现如下功能            1、该节点可以访问，则他的父节点也必能访问；　　   2、该节点可以访问，则他的子节点也都能访问；　　   3、该节点不可访问，则他的子节点也不能访问。         使用带CheckBox的数型结构能得到很好的用户体验,可是编程的难度也是有点增加,如果全部有...&nbsp;&nbsp;<a href='http://www.cnitblog.com/MartinYao/articles/20825.html'>阅读全文</a><img src ="http://www.cnitblog.com/MartinYao/aggbug/20825.html" width = "1" height = "1" /><br><br><div align=right><a style="text-decoration:none;" href="http://www.cnitblog.com/MartinYao/" target="_blank">玄铁剑</a> 2006-12-19 23:03 <a href="http://www.cnitblog.com/MartinYao/articles/20825.html#Feedback" target="_blank" style="text-decoration:none;">发表评论</a></div>]]></description></item><item><title>海量数据库的查询优化及分页算法方案</title><link>http://www.cnitblog.com/MartinYao/articles/20824.html</link><dc:creator>玄铁剑</dc:creator><author>玄铁剑</author><pubDate>Tue, 19 Dec 2006 15:01:00 GMT</pubDate><guid>http://www.cnitblog.com/MartinYao/articles/20824.html</guid><wfw:comment>http://www.cnitblog.com/MartinYao/comments/20824.html</wfw:comment><comments>http://www.cnitblog.com/MartinYao/articles/20824.html#Feedback</comments><slash:comments>0</slash:comments><wfw:commentRss>http://www.cnitblog.com/MartinYao/comments/commentRss/20824.html</wfw:commentRss><trackback:ping>http://www.cnitblog.com/MartinYao/services/trackbacks/20824.html</trackback:ping><description><![CDATA[
		<h2>
				<font size="1">海量数据库的查询优化及分页算法方案（转载）</font>
		</h2>
		<div class="postbody">
				<p>在以下的文章中，我将以“办公自动化”系统为例，探讨如何在有着1000万条数据的MS SQL SERVER数据库中实现快速的数据提取和数据分页。以下代码说明了我们实例中数据库的“红头文件”一表的部分数据结构：</p>
				<p>CREATE TABLE [dbo].[TGongwen] (    --TGongwen是红头文件表名</p>
				<p>   [Gid] [int] IDENTITY (1, 1) NOT NULL ,<br />--本表的id号，也是主键</p>
				<p>   [title] [varchar] (80) COLLATE Chinese_PRC_CI_AS NULL ,  <br />--红头文件的标题</p>
				<p>   [fariqi] [datetime] NULL ,<br />--发布日期</p>
				<p>   [neibuYonghu] [varchar] (70) COLLATE Chinese_PRC_CI_AS NULL ,<br />--发布用户</p>
				<p>   [reader] [varchar] (900) COLLATE Chinese_PRC_CI_AS NULL ,</p>
				<p>--需要浏览的用户。每个用户中间用分隔符“,”分开</p>
				<p>) ON [PRIMARY] TEXTIMAGE_ON [PRIMARY]</p>
				<p>GO</p>
				<p> </p>
				<p>下面，我们来往数据库中添加1000万条数据：</p>
				<p>declare @i int</p>
				<p>set @i=1</p>
				<p>while @i&lt;=250000</p>
				<p>begin</p>
				<p>    insert into Tgongwen(fariqi,neibuyonghu,reader,title) values('2004-2-5','通信科','通信科,办公室,王局长,刘局长,张局长,admin,刑侦支队,特勤支队,交巡警支队,经侦支队,户政科,治安支队,外事科','这是最先的25万条记录')</p>
				<p>    set @i=@i+1</p>
				<p>end</p>
				<p>GO</p>
				<p> </p>
				<p>declare @i int</p>
				<p>set @i=1</p>
				<p>while @i&lt;=250000</p>
				<p>begin</p>
				<p>    insert into Tgongwen(fariqi,neibuyonghu,reader,title) values('2004-9-16','办公室','办公室,通信科,王局长,刘局长,张局长,admin,刑侦支队,特勤支队,交巡警支队,经侦支队,户政科,外事科','这是中间的25万条记录')</p>
				<p>    set @i=@i+1</p>
				<p>end</p>
				<p>GO</p>
				<p> </p>
				<p>declare @h int</p>
				<p>set @h=1</p>
				<p>while @h&lt;=100</p>
				<p>begin</p>
				<p>declare @i int</p>
				<p>set @i=2002</p>
				<p>while @i&lt;=2003</p>
				<p>begin</p>
				<p>declare @j int</p>
				<p>        set @j=0</p>
				<p>        while @j&lt;50</p>
				<p>            begin</p>
				<p>declare @k int</p>
				<p>            set @k=0</p>
				<p>            while @k&lt;50</p>
				<p>            begin</p>
				<p>    insert into Tgongwen(fariqi,neibuyonghu,reader,title) values(cast(@i as varchar(4))+'-8-15 3:'+cast(@j as varchar(2))+':'+cast(@j as varchar(2)),'通信科','办公室,通信科,王局长,刘局长,张局长,admin,刑侦支队,特勤支队,交巡警支队,经侦支队,户政科,外事科','这是最后的50万条记录')</p>
				<p>            set @k=@k+1</p>
				<p>            end</p>
				<p>set @j=@j+1</p>
				<p>        end</p>
				<p>set @i=@i+1</p>
				<p>end</p>
				<p>set @h=@h+1</p>
				<p>end</p>
				<p>GO</p>
				<p> </p>
				<p>declare @i int</p>
				<p>set @i=1</p>
				<p>while @i&lt;=9000000</p>
				<p>begin</p>
				<p>    insert into Tgongwen(fariqi,neibuyonghu,reader,title) values('2004-5-5','通信科','通信科,办公室,王局长,刘局长,张局长,admin,刑侦支队,特勤支队,交巡警支队,经侦支队,户政科,治安支队,外事科','这是最后添加的900万条记录')</p>
				<p>    set @i=@i+1000000</p>
				<p>end</p>
				<p>GO</p>
				<p>通过以上语句，我们创建了25万条由通信科于2004年2月5日发布的记录，25万条由办公室于2004年9月6日发布的记录，2002年和2003年各100个2500条相同日期、不同分秒的由通信科发布的记录（共50万条），还有由通信科于2004年5月5日发布的900万条记录，合计1000万条。</p>
				<p> </p>
				<p>一、因情制宜，建立“适当”的索引</p>
				<p>建立“适当”的索引是实现查询优化的首要前提。</p>
				<p>索引（index）是除表之外另一重要的、用户定义的存储在物理介质上的数据结构。当根据索引码的值搜索数据时，索引提供了对数据的快速访问。事实上，没有索引,数据库也能根据SELECT语句成功地检索到结果，但随着表变得越来越大，使用“适当”的索引的效果就越来越明显。注意，在这句话中，我们用了“适当”这个词，这是因为，如果使用索引时不认真考虑其实现过程，索引既可以提高也会破坏数据库的工作性能。</p>
				<p>（一）深入浅出理解索引结构</p>
				<p>实际上，您可以把索引理解为一种特殊的目录。微软的SQL SERVER提供了两种索引：聚集索引（clustered index，也称聚类索引、簇集索引）和非聚集索引（nonclustered index，也称非聚类索引、非簇集索引）。下面，我们举例来说明一下聚集索引和非聚集索引的区别：</p>
				<p>其实，我们的汉语字典的正文本身就是一个聚集索引。比如，我们要查“安”字，就会很自然地翻开字典的前几页，因为“安”的拼音是“an”，而按照拼音排序汉字的字典是以英文字母“a”开头并以“z”结尾的，那么“安”字就自然地排在字典的前部。如果您翻完了所有以“a”开头的部分仍然找不到这个字，那么就说明您的字典中没有这个字；同样的，如果查“张”字，那您也会将您的字典翻到最后部分，因为“张”的拼音是“zhang”。也就是说，字典的正文部分本身就是一个目录，您不需要再去查其他目录来找到您需要找的内容。</p>
				<p>我们把这种正文内容本身就是一种按照一定规则排列的目录称为“聚集索引”。</p>
				<p>如果您认识某个字，您可以快速地从自动中查到这个字。但您也可能会遇到您不认识的字，不知道它的发音，这时候，您就不能按照刚才的方法找到您要查的字，而需要去根据“偏旁部首”查到您要找的字，然后根据这个字后的页码直接翻到某页来找到您要找的字。但您结合“部首目录”和“检字表”而查到的字的排序并不是真正的正文的排序方法，比如您查“张”字，我们可以看到在查部首之后的检字表中“张”的页码是672页，检字表中“张”的上面是“驰”字，但页码却是63页，“张”的下面是“弩”字，页面是390页。很显然，这些字并不是真正的分别位于“张”字的上下方，现在您看到的连续的“驰、张、弩”三字实际上就是他们在非聚集索引中的排序，是字典正文中的字在非聚集索引中的映射。我们可以通过这种方式来找到您所需要的字，但它需要两个过程，先找到目录中的结果，然后再翻到您所需要的页码。</p>
				<p>我们把这种目录纯粹是目录，正文纯粹是正文的排序方式称为“非聚集索引”。</p>
				<p>通过以上例子，我们可以理解到什么是“聚集索引”和“非聚集索引”。</p>
				<p>进一步引申一下，我们可以很容易的理解：每个表只能有一个聚集索引，因为目录只能按照一种方法进行排序。</p>
				<p>（二）何时使用聚集索引或非聚集索引</p>
				<p>下面的表总结了何时使用聚集索引或非聚集索引（很重要）。</p>
				<p>动作描述<br /> 使用聚集索引<br /> 使用非聚集索引<br /> <br />列经常被分组排序<br /> 应<br /> 应<br /> <br />返回某范围内的数据<br /> 应<br /> 不应<br /> <br />一个或极少不同值<br /> 不应<br /> 不应<br /> <br />小数目的不同值<br /> 应<br /> 不应<br /> <br />大数目的不同值<br /> 不应<br /> 应<br /> <br />频繁更新的列<br /> 不应<br /> 应<br /> <br />外键列<br /> 应<br /> 应<br /> <br />主键列<br /> 应<br /> 应<br /> <br />频繁修改索引列<br /> 不应<br /> 应<br /> </p>
				<p>事实上，我们可以通过前面聚集索引和非聚集索引的定义的例子来理解上表。如：返回某范围内的数据一项。比如您的某个表有一个时间列，恰好您把聚合索引建立在了该列，这时您查询2004年1月1日至2004年10月1日之间的全部数据时，这个速度就将是很快的，因为您的这本字典正文是按日期进行排序的，聚类索引只需要找到要检索的所有数据中的开头和结尾数据即可；而不像非聚集索引，必须先查到目录中查到每一项数据对应的页码，然后再根据页码查到具体内容。</p>
				<p>（三）结合实际，谈索引使用的误区</p>
				<p>理论的目的是应用。虽然我们刚才列出了何时应使用聚集索引或非聚集索引，但在实践中以上规则却很容易被忽视或不能根据实际情况进行综合分析。下面我们将根据在实践中遇到的实际问题来谈一下索引使用的误区，以便于大家掌握索引建立的方法。</p>
				<p>1、主键就是聚集索引</p>
				<p>这种想法笔者认为是极端错误的，是对聚集索引的一种浪费。虽然SQL SERVER默认是在主键上建立聚集索引的。</p>
				<p>通常，我们会在每个表中都建立一个ID列，以区分每条数据，并且这个ID列是自动增大的，步长一般为1。我们的这个办公自动化的实例中的列Gid就是如此。此时，如果我们将这个列设为主键，SQL SERVER会将此列默认为聚集索引。这样做有好处，就是可以让您的数据在数据库中按照ID进行物理排序，但笔者认为这样做意义不大。</p>
				<p>显而易见，聚集索引的优势是很明显的，而每个表中只能有一个聚集索引的规则，这使得聚集索引变得更加珍贵。</p>
				<p>从我们前面谈到的聚集索引的定义我们可以看出，使用聚集索引的最大好处就是能够根据查询要求，迅速缩小查询范围，避免全表扫描。在实际应用中，因为ID号是自动生成的，我们并不知道每条记录的ID号，所以我们很难在实践中用ID号来进行查询。这就使让ID号这个主键作为聚集索引成为一种资源浪费。其次，让每个ID号都不同的字段作为聚集索引也不符合“大数目的不同值情况下不应建立聚合索引”规则；当然，这种情况只是针对用户经常修改记录内容，特别是索引项的时候会负作用，但对于查询速度并没有影响。</p>
				<p>在办公自动化系统中，无论是系统首页显示的需要用户签收的文件、会议还是用户进行文件查询等任何情况下进行数据查询都离不开字段的是“日期”还有用户本身的“用户名”。</p>
				<p>通常，办公自动化的首页会显示每个用户尚未签收的文件或会议。虽然我们的where语句可以仅仅限制当前用户尚未签收的情况，但如果您的系统已建立了很长时间，并且数据量很大，那么，每次每个用户打开首页的时候都进行一次全表扫描，这样做意义是不大的，绝大多数的用户1个月前的文件都已经浏览过了，这样做只能徒增数据库的开销而已。事实上，我们完全可以让用户打开系统首页时，数据库仅仅查询这个用户近3个月来未阅览的文件，通过“日期”这个字段来限制表扫描，提高查询速度。如果您的办公自动化系统已经建立的2年，那么您的首页显示速度理论上将是原来速度8倍，甚至更快。</p>
				<p>在这里之所以提到“理论上”三字，是因为如果您的聚集索引还是盲目地建在ID这个主键上时，您的查询速度是没有这么高的，即使您在“日期”这个字段上建立的索引（非聚合索引）。下面我们就来看一下在1000万条数据量的情况下各种查询的速度表现（3个月内的数据为25万条）：</p>
				<p>（1）仅在主键上建立聚集索引，并且不划分时间段：</p>
				<p>Select gid,fariqi,neibuyonghu,title from tgongwen</p>
				<p>用时：128470毫秒（即：128秒）</p>
				<p>（2）在主键上建立聚集索引，在fariq上建立非聚集索引：</p>
				<p>select gid,fariqi,neibuyonghu,title from Tgongwen</p>
				<p>where fariqi&gt; dateadd(day,-90,getdate())</p>
				<p>用时：53763毫秒（54秒）</p>
				<p>（3）将聚合索引建立在日期列（fariqi）上：</p>
				<p>select gid,fariqi,neibuyonghu,title from Tgongwen</p>
				<p>where fariqi&gt; dateadd(day,-90,getdate())</p>
				<p>用时：2423毫秒（2秒）</p>
				<p>虽然每条语句提取出来的都是25万条数据，各种情况的差异却是巨大的，特别是将聚集索引建立在日期列时的差异。事实上，如果您的数据库真的有1000万容量的话，把主键建立在ID列上，就像以上的第1、2种情况，在网页上的表现就是超时，根本就无法显示。这也是我摒弃ID列作为聚集索引的一个最重要的因素。</p>
				<p>得出以上速度的方法是：在各个select语句前加：declare @d datetime</p>
				<p>set @d=getdate()</p>
				<p>并在select语句后加：</p>
				<p>select [语句执行花费时间(毫秒)]=datediff(ms,@d,getdate())</p>
				<p>2、只要建立索引就能显著提高查询速度</p>
				<p>事实上，我们可以发现上面的例子中，第2、3条语句完全相同，且建立索引的字段也相同；不同的仅是前者在fariqi字段上建立的是非聚合索引，后者在此字段上建立的是聚合索引，但查询速度却有着天壤之别。所以，并非是在任何字段上简单地建立索引就能提高查询速度。</p>
				<p>从建表的语句中，我们可以看到这个有着1000万数据的表中fariqi字段有5003个不同记录。在此字段上建立聚合索引是再合适不过了。在现实中，我们每天都会发几个文件，这几个文件的发文日期就相同，这完全符合建立聚集索引要求的：“既不能绝大多数都相同，又不能只有极少数相同”的规则。由此看来，我们建立“适当”的聚合索引对于我们提高查询速度是非常重要的。</p>
				<p>3、把所有需要提高查询速度的字段都加进聚集索引，以提高查询速度</p>
				<p>上面已经谈到：在进行数据查询时都离不开字段的是“日期”还有用户本身的“用户名”。既然这两个字段都是如此的重要，我们可以把他们合并起来，建立一个复合索引（compound index）。</p>
				<p>很多人认为只要把任何字段加进聚集索引，就能提高查询速度，也有人感到迷惑：如果把复合的聚集索引字段分开查询，那么查询速度会减慢吗？带着这个问题，我们来看一下以下的查询速度（结果集都是25万条数据）：（日期列fariqi首先排在复合聚集索引的起始列，用户名neibuyonghu排在后列）</p>
				<p>（1）select gid,fariqi,neibuyonghu,title from Tgongwen where fariqi&gt;'2004-5-5' </p>
				<p>查询速度：2513毫秒</p>
				<p>（2）select gid,fariqi,neibuyonghu,title from Tgongwen where fariqi&gt;'2004-5-5' and neibuyonghu='办公室'</p>
				<p>查询速度：2516毫秒</p>
				<p>（3）select gid,fariqi,neibuyonghu,title from Tgongwen where neibuyonghu='办公室'</p>
				<p>查询速度：60280毫秒</p>
				<p>从以上试验中，我们可以看到如果仅用聚集索引的起始列作为查询条件和同时用到复合聚集索引的全部列的查询速度是几乎一样的，甚至比用上全部的复合索引列还要略快（在查询结果集数目一样的情况下）；而如果仅用复合聚集索引的非起始列作为查询条件的话，这个索引是不起任何作用的。当然，语句1、2的查询速度一样是因为查询的条目数一样，如果复合索引的所有列都用上，而且查询结果少的话，这样就会形成“索引覆盖”，因而性能可以达到最优。同时，请记住：无论您是否经常使用聚合索引的其他列，但其前导列一定要是使用最频繁的列。</p>
				<p>（四）其他书上没有的索引使用经验总结</p>
				<p>1、用聚合索引比用不是聚合索引的主键速度快</p>
				<p>下面是实例语句：（都是提取25万条数据）</p>
				<p>select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi='2004-9-16'</p>
				<p>使用时间：3326毫秒</p>
				<p>select gid,fariqi,neibuyonghu,reader,title from Tgongwen where gid&lt;=250000</p>
				<p>使用时间：4470毫秒</p>
				<p>这里，用聚合索引比用不是聚合索引的主键速度快了近1/4。</p>
				<p>2、用聚合索引比用一般的主键作order by时速度快，特别是在小数据量情况下</p>
				<p>select gid,fariqi,neibuyonghu,reader,title from Tgongwen order by fariqi</p>
				<p>用时：12936</p>
				<p>select gid,fariqi,neibuyonghu,reader,title from Tgongwen order by gid</p>
				<p>用时：18843</p>
				<p>这里，用聚合索引比用一般的主键作order by时，速度快了3/10。事实上，如果数据量很小的话，用聚集索引作为排序列要比使用非聚集索引速度快得明显的多；而数据量如果很大的话，如10万以上，则二者的速度差别不明显。</p>
				<p>3、使用聚合索引内的时间段，搜索时间会按数据占整个数据表的百分比成比例减少，而无论聚合索引使用了多少个</p>
				<p>select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi&gt;'2004-1-1'</p>
				<p>用时：6343毫秒（提取100万条） </p>
				<p>select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi&gt;'2004-6-6'</p>
				<p>用时：3170毫秒（提取50万条）</p>
				<p>select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi='2004-9-16'</p>
				<p>用时：3326毫秒（和上句的结果一模一样。如果采集的数量一样，那么用大于号和等于号是一样的）</p>
				<p>select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi&gt;'2004-1-1' and fariqi&lt;'2004-6-6'</p>
				<p>用时：3280毫秒</p>
				<p>4 、日期列不会因为有分秒的输入而减慢查询速度</p>
				<p>下面的例子中，共有100万条数据，2004年1月1日以后的数据有50万条，但只有两个不同的日期，日期精确到日；之前有数据50万条，有5000个不同的日期，日期精确到秒。</p>
				<p>select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi&gt;'2004-1-1' order by fariqi</p>
				<p>用时：6390毫秒</p>
				<p>select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi&lt;'2004-1-1' order by fariqi</p>
				<p>用时：6453毫秒</p>
				<p>（五）其他注意事项</p>
				<p>“水可载舟，亦可覆舟”，索引也一样。索引有助于提高检索性能，但过多或不当的索引也会导致系统低效。因为用户在表中每加进一个索引，数据库就要做更多的工作。过多的索引甚至会导致索引碎片。</p>
				<p>所以说，我们要建立一个“适当”的索引体系，特别是对聚合索引的创建，更应精益求精，以使您的数据库能得到高性能的发挥。</p>
				<p>当然，在实践中，作为一个尽职的数据库管理员，您还要多测试一些方案，找出哪种方案效率最高、最为有效。</p>
				<p> </p>
				<p>二、改善SQL语句</p>
				<p>很多人不知道SQL语句在SQL SERVER中是如何执行的，他们担心自己所写的SQL语句会被SQL SERVER误解。比如：</p>
				<p>select * from table1 where name='zhangsan' and tID &gt; 10000</p>
				<p>和执行:</p>
				<p>select * from table1 where tID &gt; 10000 and name='zhangsan'</p>
				<p>一些人不知道以上两条语句的执行效率是否一样，因为如果简单的从语句先后上看，这两个语句的确是不一样，如果tID是一个聚合索引，那么后一句仅仅从表的10000条以后的记录中查找就行了；而前一句则要先从全表中查找看有几个name='zhangsan'的，而后再根据限制条件条件tID&gt;10000来提出查询结果。</p>
				<p>事实上，这样的担心是不必要的。SQL SERVER中有一个“查询分析优化器”，它可以计算出where子句中的搜索条件并确定哪个索引能缩小表扫描的搜索空间，也就是说，它能实现自动优化。</p>
				<p>虽然查询优化器可以根据where子句自动的进行查询优化，但大家仍然有必要了解一下“查询优化器”的工作原理，如非这样，有时查询优化器就会不按照您的本意进行快速查询。</p>
				<p>在查询分析阶段，查询优化器查看查询的每个阶段并决定限制需要扫描的数据量是否有用。如果一个阶段可以被用作一个扫描参数（SARG），那么就称之为可优化的，并且可以利用索引快速获得所需数据。</p>
				<p>SARG的定义：用于限制搜索的一个操作，因为它通常是指一个特定的匹配，一个值得范围内的匹配或者两个以上条件的AND连接。形式如下：</p>
				<p>列名 操作符 &lt;常数 或 变量&gt;</p>
				<p>或</p>
				<p>&lt;常数 或 变量&gt; 操作符列名</p>
				<p>列名可以出现在操作符的一边，而常数或变量出现在操作符的另一边。如：</p>
				<p>Name=’张三’</p>
				<p>价格&gt;5000</p>
				<p>5000&lt;价格</p>
				<p>Name=’张三’ and 价格&gt;5000</p>
				<p>如果一个表达式不能满足SARG的形式，那它就无法限制搜索的范围了，也就是SQL SERVER必须对每一行都判断它是否满足WHERE子句中的所有条件。所以一个索引对于不满足SARG形式的表达式来说是无用的。</p>
				<p>介绍完SARG后，我们来总结一下使用SARG以及在实践中遇到的和某些资料上结论不同的经验：</p>
				<p>1、Like语句是否属于SARG取决于所使用的通配符的类型</p>
				<p>如：name like ‘张%’ ，这就属于SARG</p>
				<p>而：name like ‘%张’ ,就不属于SARG。</p>
				<p>原因是通配符%在字符串的开通使得索引无法使用。</p>
				<p>2、or 会引起全表扫描</p>
				<p>Name=’张三’ and 价格&gt;5000 符号SARG，而：Name=’张三’ or 价格&gt;5000 则不符合SARG。使用or会引起全表扫描。</p>
				<p>3、非操作符、函数引起的不满足SARG形式的语句</p>
				<p>不满足SARG形式的语句最典型的情况就是包括非操作符的语句，如：NOT、!=、&lt;&gt;、!&lt;、!&gt;、NOT EXISTS、NOT IN、NOT LIKE等，另外还有函数。下面就是几个不满足SARG形式的例子：</p>
				<p>ABS(价格)&lt;5000</p>
				<p>Name like ‘%三’</p>
				<p>有些表达式，如：</p>
				<p>WHERE 价格*2&gt;5000</p>
				<p>SQL SERVER也会认为是SARG，SQL SERVER会将此式转化为：</p>
				<p>WHERE 价格&gt;2500/2</p>
				<p>但我们不推荐这样使用，因为有时SQL SERVER不能保证这种转化与原始表达式是完全等价的。</p>
				<p>4、IN 的作用相当与OR</p>
				<p>语句：</p>
				<p>Select * from table1 where tid in (2,3)</p>
				<p>和</p>
				<p>Select * from table1 where tid=2 or tid=3</p>
				<p>是一样的，都会引起全表扫描，如果tid上有索引，其索引也会失效。</p>
				<p>5、尽量少用NOT</p>
				<p>6、exists 和 in 的执行效率是一样的</p>
				<p>很多资料上都显示说，exists要比in的执行效率要高，同时应尽可能的用not exists来代替not in。但事实上，我试验了一下，发现二者无论是前面带不带not，二者之间的执行效率都是一样的。因为涉及子查询，我们试验这次用SQL SERVER自带的pubs数据库。运行前我们可以把SQL SERVER的statistics I/O状态打开。</p>
				<p>（1）select title,price from titles where title_id in (select title_id from sales where qty&gt;30)</p>
				<p>该句的执行结果为：</p>
				<p>表 'sales'。扫描计数 18，逻辑读 56 次，物理读 0 次，预读 0 次。</p>
				<p>表 'titles'。扫描计数 1，逻辑读 2 次，物理读 0 次，预读 0 次。</p>
				<p>    </p>
				<p>（2）select title,price from titles where exists (select * from sales where sales.title_id=titles.title_id and qty&gt;30)</p>
				<p>第二句的执行结果为：</p>
				<p>表 'sales'。扫描计数 18，逻辑读 56 次，物理读 0 次，预读 0 次。</p>
				<p>表 'titles'。扫描计数 1，逻辑读 2 次，物理读 0 次，预读 0 次。</p>
				<p>我们从此可以看到用exists和用in的执行效率是一样的。</p>
				<p>7、用函数charindex()和前面加通配符%的LIKE执行效率一样</p>
				<p>前面，我们谈到，如果在LIKE前面加上通配符%，那么将会引起全表扫描，所以其执行效率是低下的。但有的资料介绍说，用函数charindex()来代替LIKE速度会有大的提升，经我试验，发现这种说明也是错误的：</p>
				<p>select gid,title,fariqi,reader from tgongwen where charindex('刑侦支队',reader)&gt;0 and fariqi&gt;'2004-5-5'</p>
				<p>用时：7秒，另外：扫描计数 4，逻辑读 7155 次，物理读 0 次，预读 0 次。</p>
				<p>select gid,title,fariqi,reader from tgongwen where reader like '%' + '刑侦支队' + '%' and fariqi&gt;'2004-5-5'</p>
				<p>用时：7秒，另外：扫描计数 4，逻辑读 7155 次，物理读 0 次，预读 0 次。</p>
				<p>8、union并不绝对比or的执行效率高</p>
				<p>我们前面已经谈到了在where子句中使用or会引起全表扫描，一般的，我所见过的资料都是推荐这里用union来代替or。事实证明，这种说法对于大部分都是适用的。</p>
				<p>select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi='2004-9-16' or gid&gt;9990000</p>
				<p>用时：68秒。扫描计数 1，逻辑读 404008 次，物理读 283 次，预读 392163 次。</p>
				<p>select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi='2004-9-16' </p>
				<p>union</p>
				<p>select gid,fariqi,neibuyonghu,reader,title from Tgongwen where gid&gt;9990000</p>
				<p>用时：9秒。扫描计数 8，逻辑读 67489 次，物理读 216 次，预读 7499 次。</p>
				<p>看来，用union在通常情况下比用or的效率要高的多。</p>
				<p>但经过试验，笔者发现如果or两边的查询列是一样的话，那么用union则反倒和用or的执行速度差很多，虽然这里union扫描的是索引，而or扫描的是全表。</p>
				<p>select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi='2004-9-16' or fariqi='2004-2-5'</p>
				<p>用时：6423毫秒。扫描计数 2，逻辑读 14726 次，物理读 1 次，预读 7176 次。</p>
				<p>select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi='2004-9-16' </p>
				<p>union</p>
				<p>select gid,fariqi,neibuyonghu,reader,title from Tgongwen where  fariqi='2004-2-5'</p>
				<p>用时：11640毫秒。扫描计数 8，逻辑读 14806 次，物理读 108 次，预读 1144 次。</p>
				<p>9、字段提取要按照“需多少、提多少”的原则，避免“select *”</p>
				<p>我们来做一个试验：</p>
				<p>select top 10000 gid,fariqi,reader,title from tgongwen order by gid desc</p>
				<p>用时：4673毫秒</p>
				<p>select top 10000 gid,fariqi,title from tgongwen order by gid desc</p>
				<p>用时：1376毫秒</p>
				<p>select top 10000 gid,fariqi from tgongwen order by gid desc</p>
				<p>用时：80毫秒</p>
				<p>由此看来，我们每少提取一个字段，数据的提取速度就会有相应的提升。提升的速度还要看您舍弃的字段的大小来判断。</p>
				<p>10、count(*)不比count(字段)慢</p>
				<p>某些资料上说：用*会统计所有列，显然要比一个世界的列名效率低。这种说法其实是没有根据的。我们来看：</p>
				<p>select count(*) from Tgongwen</p>
				<p>用时：1500毫秒</p>
				<p>select count(gid) from Tgongwen </p>
				<p>用时：1483毫秒</p>
				<p>select count(fariqi) from Tgongwen</p>
				<p>用时：3140毫秒</p>
				<p>select count(title) from Tgongwen</p>
				<p>用时：52050毫秒</p>
				<p>从以上可以看出，如果用count(*)和用count(主键)的速度是相当的，而count(*)却比其他任何除主键以外的字段汇总速度要快，而且字段越长，汇总的速度就越慢。我想，如果用count(*)， SQL SERVER可能会自动查找最小字段来汇总的。当然，如果您直接写count(主键)将会来的更直接些。</p>
				<p>11、order by按聚集索引列排序效率最高</p>
				<p>我们来看：（gid是主键，fariqi是聚合索引列）</p>
				<p>select top 10000 gid,fariqi,reader,title from tgongwen</p>
				<p>用时：196 毫秒。 扫描计数 1，逻辑读 289 次，物理读 1 次，预读 1527 次。</p>
				<p>select top 10000 gid,fariqi,reader,title from tgongwen order by gid asc</p>
				<p>用时：4720毫秒。 扫描计数 1，逻辑读 41956 次，物理读 0 次，预读 1287 次。</p>
				<p>select top 10000 gid,fariqi,reader,title from tgongwen order by gid desc</p>
				<p>用时：4736毫秒。 扫描计数 1，逻辑读 55350 次，物理读 10 次，预读 775 次。</p>
				<p>select top 10000 gid,fariqi,reader,title from tgongwen order by fariqi asc</p>
				<p>用时：173毫秒。 扫描计数 1，逻辑读 290 次，物理读 0 次，预读 0 次。</p>
				<p>select top 10000 gid,fariqi,reader,title from tgongwen order by fariqi desc</p>
				<p>用时：156毫秒。 扫描计数 1，逻辑读 289 次，物理读 0 次，预读 0 次。</p>
				<p>从以上我们可以看出，不排序的速度以及逻辑读次数都是和“order by 聚集索引列” 的速度是相当的，但这些都比“order by 非聚集索引列”的查询速度是快得多的。</p>
				<p>同时，按照某个字段进行排序的时候，无论是正序还是倒序，速度是基本相当的。</p>
				<p>12、高效的TOP</p>
				<p>事实上，在查询和提取超大容量的数据集时，影响数据库响应时间的最大因素不是数据查找，而是物理的I/0操作。如：</p>
				<p>select top 10 * from (</p>
				<p>select top 10000 gid,fariqi,title from tgongwen</p>
				<p>where neibuyonghu='办公室'</p>
				<p>order by gid desc) as a</p>
				<p>order by gid asc</p>
				<p>这条语句，从理论上讲，整条语句的执行时间应该比子句的执行时间长，但事实相反。因为，子句执行后返回的是10000条记录，而整条语句仅返回10条语句，所以影响数据库响应时间最大的因素是物理I/O操作。而限制物理I/O操作此处的最有效方法之一就是使用TOP关键词了。TOP关键词是SQL SERVER中经过系统优化过的一个用来提取前几条或前几个百分比数据的词。经笔者在实践中的应用，发现TOP确实很好用，效率也很高。但这个词在另外一个大型数据库ORACLE中却没有，这不能说不是一个遗憾，虽然在ORACLE中可以用其他方法（如：rownumber）来解决。在以后的关于“实现千万级数据的分页显示存储过程”的讨论中，我们就将用到TOP这个关键词。</p>
				<p> </p>
				<p>到此为止，我们上面讨论了如何实现从大容量的数据库中快速地查询出您所需要的数据方法。当然，我们介绍的这些方法都是“软”方法，在实践中，我们还要考虑各种“硬”因素，如：网络性能、服务器的性能、操作系统的性能，甚至网卡、交换机等。</p>
				<p> </p>
				<p>三、实现小数据量和海量数据的通用分页显示存储过程</p>
				<p>建立一个web 应用，分页浏览功能必不可少。这个问题是数据库处理中十分常见的问题。经典的数据分页方法是:ADO 纪录集分页法，也就是利用ADO自带的分页功能（利用游标）来实现分页。但这种分页方法仅适用于较小数据量的情形，因为游标本身有缺点：游标是存放在内存中，很费内存。游标一建立，就将相关的记录锁住，直到取消游标。游标提供了对特定集合中逐行扫描的手段，一般使用游标来逐行遍历数据，根据取出数据条件的不同进行不同的操作。而对于多表和大表中定义的游标（大的数据集合）循环很容易使程序进入一个漫长的等待甚至死机。</p>
				<p>更重要的是，对于非常大的数据模型而言，分页检索时，如果按照传统的每次都加载整个数据源的方法是非常浪费资源的。现在流行的分页方法一般是检索页面大小的块区的数据，而非检索所有的数据，然后单步执行当前行。</p>
				<p>    最早较好地实现这种根据页面大小和页码来提取数据的方法大概就是“俄罗斯存储过程”。这个存储过程用了游标，由于游标的局限性，所以这个方法并没有得到大家的普遍认可。</p>
				<p>后来，网上有人改造了此存储过程，下面的存储过程就是结合我们的办公自动化实例写的分页存储过程：</p>
				<p>CREATE procedure pagination1</p>
				<p>(@pagesize int,  --页面大小，如每页存储20条记录</p>
				<p>@pageindex int   --当前页码</p>
				<p>)</p>
				<p>as</p>
				<p>set nocount on</p>
				<p>begin</p>
				<p>declare @indextable table(id int identity(1,1),nid int)  --定义表变量</p>
				<p>declare @PageLowerBound int  --定义此页的底码</p>
				<p>declare @PageUpperBound int  --定义此页的顶码</p>
				<p>set @PageLowerBound=(@pageindex-1)*@pagesize</p>
				<p>set @PageUpperBound=@PageLowerBound+@pagesize</p>
				<p>set rowcount @PageUpperBound</p>
				<p>insert into @indextable(nid) select gid from TGongwen where fariqi &gt;dateadd(day,-365,getdate()) order by fariqi desc</p>
				<p>select O.gid,O.mid,O.title,O.fadanwei,O.fariqi from TGongwen O,@indextable t where O.gid=t.nid</p>
				<p>and t.id&gt;@PageLowerBound and t.id&lt;<a href="mailto:=@PageUpperBound">=@PageUpperBound</a> order by t.id</p>
				<p>end</p>
				<p>set nocount off</p>
				<p>以上存储过程运用了SQL SERVER的最新技术――表变量。应该说这个存储过程也是一个非常优秀的分页存储过程。当然，在这个过程中，您也可以把其中的表变量写成临时表：CREATE TABLE #Temp。但很明显，在SQL SERVER中，用临时表是没有用表变量快的。所以笔者刚开始使用这个存储过程时，感觉非常的不错，速度也比原来的ADO的好。但后来，我又发现了比此方法更好的方法。</p>
				<p>笔者曾在网上看到了一篇小短文《从数据表中取出第n条到第m条的记录的方法》，全文如下：</p>
				<p>从publish 表中取出第 n 条到第 m 条的记录： <br />SELECT TOP m-n+1 * <br />FROM publish <br />WHERE (id NOT IN <br />　　　　(SELECT TOP n-1 id <br />　　　　 FROM publish)) </p>
				<p>id 为publish 表的关键字 </p>
				<p>我当时看到这篇文章的时候，真的是精神为之一振，觉得思路非常得好。等到后来，我在作办公自动化系统（ASP.NET+ C#＋SQL SERVER）的时候，忽然想起了这篇文章，我想如果把这个语句改造一下，这就可能是一个非常好的分页存储过程。于是我就满网上找这篇文章，没想到，文章还没找到，却找到了一篇根据此语句写的一个分页存储过程，这个存储过程也是目前较为流行的一种分页存储过程，我很后悔没有争先把这段文字改造成存储过程：</p>
				<p>CREATE PROCEDURE pagination2<br />(<br /> @SQL nVARCHAR(4000),    --不带排序语句的SQL语句<br /> @Page int,              --页码<br /> @RecsPerPage int,       --每页容纳的记录数<br /> @ID VARCHAR(255),       --需要排序的不重复的ID号<br /> @Sort VARCHAR(255)      --排序字段及规则<br />)<br />AS</p>
				<p>DECLARE @Str nVARCHAR(4000)</p>
				<p>SET @Str='SELECT   TOP '+CAST(@RecsPerPage AS VARCHAR(20))+' * FROM (<a href="mailto:'+@SQL+'">'+@SQL+'</a>) T WHERE <a href="mailto:T.'+@ID+'NOT">T.'+@ID+'NOT</a> IN <br />(SELECT   TOP '+CAST((@RecsPerPage*(@Page-1)) AS VARCHAR(20))+' <a href="mailto:'+@ID+'">'+@ID+'</a> FROM (<a href="mailto:'+@SQL+'">'+@SQL+'</a>) T9 ORDER BY <a href="mailto:'+@Sort+'">'+@Sort+'</a>) ORDER BY <a href="mailto:'+@Sort">'+@Sort</a></p>
				<p>PRINT @Str</p>
				<p>EXEC sp_ExecuteSql @Str<br />GO</p>
				<p>其实，以上语句可以简化为：</p>
				<p>SELECT TOP 页大小 *</p>
				<p>FROM Table1</p>
				<p>WHERE (ID NOT IN</p>
				<p>          (SELECT TOP 页大小*页数 id</p>
				<p>         FROM 表</p>
				<p>         ORDER BY id))</p>
				<p>ORDER BY ID</p>
				<p>但这个存储过程有一个致命的缺点，就是它含有NOT IN字样。虽然我可以把它改造为：</p>
				<p>SELECT TOP 页大小 *</p>
				<p>FROM Table1</p>
				<p>WHERE not exists</p>
				<p>(select * from (select top (页大小*页数) * from table1 order by id) b where b.id=a.id )</p>
				<p>order by id</p>
				<p>即，用not exists来代替not in，但我们前面已经谈过了，二者的执行效率实际上是没有区别的。</p>
				<p>既便如此，用TOP 结合NOT IN的这个方法还是比用游标要来得快一些。</p>
				<p>虽然用not exists并不能挽救上个存储过程的效率，但使用SQL SERVER中的TOP关键字却是一个非常明智的选择。因为分页优化的最终目的就是避免产生过大的记录集，而我们在前面也已经提到了TOP的优势，通过TOP 即可实现对数据量的控制。</p>
				<p>在分页算法中，影响我们查询速度的关键因素有两点：TOP和NOT IN。TOP可以提高我们的查询速度，而NOT IN会减慢我们的查询速度，所以要提高我们整个分页算法的速度，就要彻底改造NOT IN，同其他方法来替代它。</p>
				<p>我们知道，几乎任何字段，我们都可以通过max(字段)或min(字段)来提取某个字段中的最大或最小值，所以如果这个字段不重复，那么就可以利用这些不重复的字段的max或min作为分水岭，使其成为分页算法中分开每页的参照物。在这里，我们可以用操作符“&gt;”或“&lt;”号来完成这个使命，使查询语句符合SARG形式。如：</p>
				<p>Select top 10 * from table1 where id&gt;200</p>
				<p>于是就有了如下分页方案：</p>
				<p>select top 页大小 *</p>
				<p>from table1 </p>
				<p>where id&gt;</p>
				<p>      (select max (id) from </p>
				<p>      (select top ((页码-1)*页大小) id from table1 order by id) as T</p>
				<p>       )     </p>
				<p>  order by id</p>
				<p>在选择即不重复值，又容易分辨大小的列时，我们通常会选择主键。下表列出了笔者用有着1000万数据的办公自动化系统中的表，在以GID（GID是主键，但并不是聚集索引。）为排序列、提取gid,fariqi,title字段，分别以第1、10、100、500、1000、1万、10万、25万、50万页为例，测试以上三种分页方案的执行速度：（单位：毫秒）</p>
				<p>页  码<br /> 方案1<br /> 方案2<br /> 方案3<br /> <br />1<br /> 60<br /> 30<br /> 76<br /> <br />10<br /> 46<br /> 16<br /> 63<br /> <br />100<br /> 1076<br /> 720<br /> 130<br /> <br />500<br /> 540<br /> 12943<br /> 83<br /> <br />1000<br /> 17110<br /> 470<br /> 250<br /> <br />1万<br /> 24796<br /> 4500<br /> 140<br /> <br />10万<br /> 38326<br /> 42283<br /> 1553<br /> <br />25万<br /> 28140<br /> 128720<br /> 2330<br /> <br />50万<br /> 121686<br /> 127846<br /> 7168<br /> </p>
				<p>从上表中，我们可以看出，三种存储过程在执行100页以下的分页命令时，都是可以信任的，速度都很好。但第一种方案在执行分页1000页以上后，速度就降了下来。第二种方案大约是在执行分页1万页以上后速度开始降了下来。而第三种方案却始终没有大的降势，后劲仍然很足。</p>
				<p>在确定了第三种分页方案后，我们可以据此写一个存储过程。大家知道SQL SERVER的存储过程是事先编译好的SQL语句，它的执行效率要比通过WEB页面传来的SQL语句的执行效率要高。下面的存储过程不仅含有分页方案，还会根据页面传来的参数来确定是否进行数据总数统计。</p>
				<p>-- 获取指定页的数据</p>
				<p>CREATE PROCEDURE pagination3</p>
				<p>@tblName   varchar(255),       -- 表名</p>
				<p>@strGetFields varchar(1000) = '*',  -- 需要返回的列 </p>
				<p>@fldName varchar(255)='',      -- 排序的字段名</p>
				<p>@PageSize   int = 10,          -- 页尺寸</p>
				<p>@PageIndex  int = 1,           -- 页码</p>
				<p>@doCount  bit = 0,   -- 返回记录总数, 非 0 值则返回</p>
				<p>@OrderType bit = 0,  -- 设置排序类型, 非 0 值则降序</p>
				<p>@strWhere  varchar(1500) = ''  -- 查询条件 (注意: 不要加 where)</p>
				<p>AS</p>
				<p>declare @strSQL   varchar(5000)       -- 主语句</p>
				<p>declare @strTmp   varchar(110)        -- 临时变量</p>
				<p>declare @strOrder varchar(400)        -- 排序类型</p>
				<p> </p>
				<p>if @doCount != 0</p>
				<p>  begin</p>
				<p>    if @strWhere !=''</p>
				<p>    set @strSQL = "select count(*) as Total from [" + @tblName + "] where "<a href="mailto:+@strWhere">+@strWhere</a></p>
				<p>    else</p>
				<p>    set @strSQL = "select count(*) as Total from [" + @tblName + "]"</p>
				<p>end  </p>
				<p>--以上代码的意思是如果@doCount传递过来的不是0，就执行总数统计。以下的所有代码都是@doCount为0的情况</p>
				<p>else</p>
				<p>begin</p>
				<p> </p>
				<p>if @OrderType != 0</p>
				<p>begin</p>
				<p>    set @strTmp = "&lt;(select min"</p>
				<p>set @strOrder = " order by [" + @fldName +"] desc"</p>
				<p>--如果@OrderType不是0，就执行降序，这句很重要！</p>
				<p>end</p>
				<p>else</p>
				<p>begin</p>
				<p>    set @strTmp = "&gt;(select max"</p>
				<p>    set @strOrder = " order by [" + @fldName +"] asc"</p>
				<p>end</p>
				<p> </p>
				<p>if @PageIndex = 1</p>
				<p>begin</p>
				<p>    if @strWhere != ''   </p>
				<p>    set @strSQL = "select top " + str(@PageSize) +" "<a href="mailto:+@strGetFields">+@strGetFields</a>+ "  from [" + @tblName + "] where " + @strWhere + " " + @strOrder</p>
				<p>     else</p>
				<p>     set @strSQL = "select top " + str(@PageSize) +" "<a href="mailto:+@strGetFields">+@strGetFields</a>+ "  from ["+ @tblName + "] "+ @strOrder</p>
				<p>--如果是第一页就执行以上代码，这样会加快执行速度</p>
				<p>end</p>
				<p>else</p>
				<p>begin</p>
				<p>--以下代码赋予了@strSQL以真正执行的SQL代码</p>
				<p>set @strSQL = "select top " + str(@PageSize) +" "<a href="mailto:+@strGetFields">+@strGetFields</a>+ "  from ["</p>
				<p>    + @tblName + "] where [" + @fldName + "]" + @strTmp + "(["+ @fldName + "]) from (select top " + str((@PageIndex-1)*@PageSize) + " ["+ @fldName + "] from [" + @tblName + "]" + @strOrder + ") as tblTmp)"+ @strOrder</p>
				<p> </p>
				<p>if @strWhere != ''</p>
				<p>    set @strSQL = "select top " + str(@PageSize) +" "<a href="mailto:+@strGetFields">+@strGetFields</a>+ "  from ["</p>
				<p>        + @tblName + "] where [" + @fldName + "]" + @strTmp + "(["</p>
				<p>        + @fldName + "]) from (select top " + str((@PageIndex-1)*@PageSize) + " ["</p>
				<p>        + @fldName + "] from [" + @tblName + "] where " + @strWhere + " "</p>
				<p>        + @strOrder + ") as tblTmp) and " + @strWhere + " " + @strOrder</p>
				<p>end </p>
				<p>end   </p>
				<p>exec (@strSQL)</p>
				<p>GO</p>
				<p>上面的这个存储过程是一个通用的存储过程，其注释已写在其中了。</p>
				<p>在大数据量的情况下，特别是在查询最后几页的时候，查询时间一般不会超过9秒；而用其他存储过程，在实践中就会导致超时，所以这个存储过程非常适用于大容量数据库的查询。</p>
				<p>笔者希望能够通过对以上存储过程的解析，能给大家带来一定的启示，并给工作带来一定的效率提升，同时希望同行提出更优秀的实时数据分页算法。</p>
				<p> </p>
				<p>四、聚集索引的重要性和如何选择聚集索引</p>
				<p>在上一节的标题中，笔者写的是：实现小数据量和海量数据的通用分页显示存储过程。这是因为在将本存储过程应用于“办公自动化”系统的实践中时，笔者发现这第三种存储过程在小数据量的情况下，有如下现象：</p>
				<p>1、分页速度一般维持在1秒和3秒之间。</p>
				<p>2、在查询最后一页时，速度一般为5秒至8秒，哪怕分页总数只有3页或30万页。</p>
				<p>虽然在超大容量情况下，这个分页的实现过程是很快的，但在分前几页时，这个1－3秒的速度比起第一种甚至没有经过优化的分页方法速度还要慢，借用户的话说就是“还没有ACCESS数据库速度快”，这个认识足以导致用户放弃使用您开发的系统。</p>
				<p>笔者就此分析了一下，原来产生这种现象的症结是如此的简单，但又如此的重要：排序的字段不是聚集索引！</p>
				<p>本篇文章的题目是：“查询优化及分页算法方案”。笔者只所以把“查询优化”和“分页算法”这两个联系不是很大的论题放在一起，就是因为二者都需要一个非常重要的东西――聚集索引。</p>
				<p>在前面的讨论中我们已经提到了，聚集索引有两个最大的优势：</p>
				<p>1、以最快的速度缩小查询范围。</p>
				<p>2、以最快的速度进行字段排序。</p>
				<p>第1条多用在查询优化时，而第2条多用在进行分页时的数据排序。</p>
				<p>而聚集索引在每个表内又只能建立一个，这使得聚集索引显得更加的重要。聚集索引的挑选可以说是实现“查询优化”和“高效分页”的最关键因素。</p>
				<p>但要既使聚集索引列既符合查询列的需要，又符合排序列的需要，这通常是一个矛盾。</p>
				<p>笔者前面“索引”的讨论中，将fariqi，即用户发文日期作为了聚集索引的起始列，日期的精确度为“日”。这种作法的优点，前面已经提到了，在进行划时间段的快速查询中，比用ID主键列有很大的优势。</p>
				<p>但在分页时，由于这个聚集索引列存在着重复记录，所以无法使用max或min来最为分页的参照物，进而无法实现更为高效的排序。而如果将ID主键列作为聚集索引，那么聚集索引除了用以排序之外，没有任何用处，实际上是浪费了聚集索引这个宝贵的资源。</p>
				<p>为解决这个矛盾，笔者后来又添加了一个日期列，其默认值为getdate()。用户在写入记录时，这个列自动写入当时的时间，时间精确到毫秒。即使这样，为了避免可能性很小的重合，还要在此列上创建UNIQUE约束。将此日期列作为聚集索引列。</p>
				<p>有了这个时间型聚集索引列之后，用户就既可以用这个列查找用户在插入数据时的某个时间段的查询，又可以作为唯一列来实现max或min，成为分页算法的参照物。</p>
				<p>经过这样的优化，笔者发现，无论是大数据量的情况下还是小数据量的情况下，分页速度一般都是几十毫秒，甚至0毫秒。而用日期段缩小范围的查询速度比原来也没有任何迟钝。</p>
				<p>聚集索引是如此的重要和珍贵，所以笔者总结了一下，一定要将聚集索引建立在：</p>
				<p>1、您最频繁使用的、用以缩小查询范围的字段上；</p>
				<p>2、您最频繁使用的、需要排序的字段上。</p>
		</div>
<img src ="http://www.cnitblog.com/MartinYao/aggbug/20824.html" width = "1" height = "1" /><br><br><div align=right><a style="text-decoration:none;" href="http://www.cnitblog.com/MartinYao/" target="_blank">玄铁剑</a> 2006-12-19 23:01 <a href="http://www.cnitblog.com/MartinYao/articles/20824.html#Feedback" target="_blank" style="text-decoration:none;">发表评论</a></div>]]></description></item><item><title>FireBird介绍</title><link>http://www.cnitblog.com/MartinYao/articles/20823.html</link><dc:creator>玄铁剑</dc:creator><author>玄铁剑</author><pubDate>Tue, 19 Dec 2006 14:59:00 GMT</pubDate><guid>http://www.cnitblog.com/MartinYao/articles/20823.html</guid><wfw:comment>http://www.cnitblog.com/MartinYao/comments/20823.html</wfw:comment><comments>http://www.cnitblog.com/MartinYao/articles/20823.html#Feedback</comments><slash:comments>4</slash:comments><wfw:commentRss>http://www.cnitblog.com/MartinYao/comments/commentRss/20823.html</wfw:commentRss><trackback:ping>http://www.cnitblog.com/MartinYao/services/trackbacks/20823.html</trackback:ping><description><![CDATA[
		<div class="postTitle">
				<font color="#646464" size="2">体验开源关系型数据库系统Firebird(FB)的威力之入门</font>
		</div>
		<p>之前介绍了Firebird(以下简称为“FB”)的一些基本情况： <br /><br />1、支持大部分操作系统，在winnt系统中还可以用super server模式，任意多线程，特别适合超大型应用。它的sql是psql，procedural sql，特色就是存储过程式的，语法有点学delphi+basic，功能超强得不得了 <br /><br />2、最有特色就是其sql了，不过其它特色也很激动人心。sql可以调用大部分语言写的功能库，而且有不少免费强大的dba工具，我用得很爽。比其ms sql，fb可以跟上它。在psql中，你可以调用外部third party写的功能库的函数，就像ibm 的cloudscape中直接调用任何java函数一样！ibm 的cloudscape本事就是java写的，调用不难，但fb的psql更牛。举个例子：我用vc++写了功能库，里面有个特别的函数TestFunction，然后在fb中注册，在写psql的时候，就可以调用该函数： <br />SELECT * FROM MyTable WHERE TestFunction( 某些参数 ) <br />这意味着，我进行多数据库的交互，也是件很轻松的事。不过fb的sql有些特别的跟ansi sql 92不兼容，我看了大量的文章后发现其很多独特之处 <br /><br /><br />正题： <br /><br />□入门 <br />1、官方网站：<a href="http://www.firebirdsql.org/"><font color="#6fbc4c">http://www.firebirdsql.org/</font></a><br />2、快速入门：<a href="http://firebird.sourceforge.net/pdfmanual/Firebird-1.5-QuickStart.pdf"><font color="#6fbc4c">http://firebird.sourceforge.net/pdfmanual/Firebird-1.5-QuickStart.pdf</font></a><br />3、其它：<a href="http://firebird.sourceforge.net/index.php?op=guide"><font color="#6fbc4c">http://firebird.sourceforge.net/index.php?op=guide</font></a><br /><br />□DBA工具 <br /><br />dbtools的dbmanager，是企业管理器与查询分析器的混合体，支持大部分开源数据库系统，个人专业免费版本支持常见的开源数据库：mysql、firebird、postgresql、sqlite、xbase、interbase，企业商业版本则可以支持ms sql server、oracle、db2等；内含大量可视化编辑器，显示的时候用html渲染出来，UI特别友好。 <br /><br />1、下载：<a href="http://www.dbtools.com.br/EN/downloads.php"><font color="#6fbc4c">http://www.dbtools.com.br/EN/downloads.php</font></a>，需要你输入电子邮件和国家； <br />2、安装：安装过程可以选择要支持哪些开源数据库； <br />3、菜单会与传统有点不一样，一下子你会不习惯：tools-&gt;server-&gt;db manager，数据库类型选择firebird，然后password输入"masterkey"，然后database选择“C:\Program Files\Firebird\Firebird_1_5\examples\EMPLOYEE.FDB”，然后“test connection”,如果成功，就确定，就添加了新的数据库，操作跟企业管理器差不多。 <br /><br />其它更好的工具，基本上都是商业软件，如IBExpert、EMS InterBase &amp; FireBird Manager等。 <br /><br />□.NET驱动：C#编写，提供高效的FB访问，不需要客户端，官方网站为：<a href="http://www.dotnetfirebird.org/"><font color="#6fbc4c">http://www.dotnetfirebird.org/</font></a>，这个官方网站提供了大量的.NET相关技术文档，强力推荐。这里下载：<a href="http://firebird.sourceforge.net/index.php?op=devel&amp;sub=netprovider"><font color="#6fbc4c">http://firebird.sourceforge.net/index.php?op=devel&amp;sub=netprovider</font></a>，使用之前需要安装NAnt，并运行\FirebirdNETProvider-1.7-Beta3\FirebirdNETProvider-1.7-Beta3-Src\NETProvider\NETProvider_17\builds\win32\ado.net\下面的build.bat生成程序集。我成功用VB.NET测试访问并操作数据。 <br /><br />□对比 <br />我没有测试过其效率，也没有发现其具体的官方数字，有待发现，但有以下官方简单对比测试： <br /></p>
		<li>
				<a href="http://www.dotnetfirebird.org/blog/2005/02/embedded-firebird-and-microsoft-sql.html">
						<font color="#0000ff">Firebird vs. Microsoft SQL Server 2005 Express</font>
				</a>
		</li>
		<li>
				<a href="http://www.dotnetfirebird.org/blog/2005/01/embedded-firebird-and-msde-2000.html">
						<font color="#0000ff">Firebird vs. Microsoft MSDE 2000</font>
				</a>
		</li>
		<li>
				<a href="http://www.dotnetfirebird.org/blog/2005/01/firebird-and-microsoft-jet-feature.html">
						<font color="#0000ff">Firebird vs. Microsoft Jet 4.0</font>
				</a>
				<br />
				<br />□其它资源： 
</li>
		<li>
				<a href="http://wiki.sunyear.com.tw/index.php?title=FirebirdSQL">
						<font color="#6fbc4c">http://wiki.sunyear.com.tw/index.php?title=FirebirdSQL</font>
				</a> (繁体中文，非常详细，强烈推荐) </li>
<img src ="http://www.cnitblog.com/MartinYao/aggbug/20823.html" width = "1" height = "1" /><br><br><div align=right><a style="text-decoration:none;" href="http://www.cnitblog.com/MartinYao/" target="_blank">玄铁剑</a> 2006-12-19 22:59 <a href="http://www.cnitblog.com/MartinYao/articles/20823.html#Feedback" target="_blank" style="text-decoration:none;">发表评论</a></div>]]></description></item></channel></rss>