查找算法--中文百科全书

概念

用关键字标识一个数据元素，查找时根据给定的某个值，在表中确定一个关键字的值等于给定值的记录或数据元素。在计算机中进行查找的方法是根据表中的记录的组织结构确定的。顺序查找也称为线形查找，从数据结构线形表的一端开始，顺序扫描，依次将扫描到的结点关键字与给定值k相比较，若相等则表示查找成功；若扫描结束仍没有找到关键字等于k的结点，表示查找失败。二分查找要求线形表中的结点按关键字值升序或降序排列，用给定值k先与中间结点的关键字比较，中间结点把线形表分成两个子表，若相等则查找成功；若不相等，再根据k与该中间结点关键字的比较结果确定下一步查找哪个子表，这样递归进行，直到查找到或查找结束髮现表中没有这样的结点。分块查找也称为索引查找，把线形分成若干块，在每一块中的数据元素的存储顺序是任意的，但要求块与块之间须按关键字值的大小有序排列，还要建立一个按关键字值递增顺序排列的索引表，索引表中的一项对应线形表中的一块，索引项包括两个内容：① 键域存放相应块的最大关键字；② 链域存放指向本块第一个结点的指针。分块查找分两步进行，先确定待查找的结点属于哪一块，然后在块内查找结点。哈希表查找是通过对记录的关键字值进行运算，直接求出结点的地址，是关键字到地址的直接转换方法，不用反覆比较。假设f包含n个结点，Ri为其中某个结点（1≤i≤n），keyi是其关键字值，在keyi与Ri的地址之间建立某种函式关係，可以通过这个函式把关键字值转换成相应结点的地址，有：addr(Ri)=H(keyi)，addr(Ri)为哈希函式。

顺序查找

顺序查找过程：从表中的最后一个记录开始，逐个进行记录的关键字与给定值进行比较，若某个记录的关键字与给定值相等，则查找成功，找到所查的记录；反之，若直到第一个记录，其关键字和给定值比较都不相等，则表明表中没有所查的记录，查找失败。算法描述为int Search(int d,int a[],int n){/*在数组a[]中查找等于D元素，若找到，则函式返回d在数组中的位置，否则为0。其中n为数组长度*/int i ；/*从后往前查找*/for(i=n-1;a!=d;--i)　　return i ;　　/*如果找不到，则i为0*/　　}

二分查找

二分查找又称折半查找，它是一种效率较高的查找方法。

【二分查找要求】：1.必须採用顺序存储结构2.必须按关键字大小有序排列。

【优缺点】折半查找法的优点是比较次数少，查找速度快，平均性能好;其缺点是要求待查表为有序表，且插入删除困难。因此，折半查找方法适用于不经常变动而查找频繁的有序列表。【算法思想】首先，将表中间位置记录的关键字与查找关键字比较，如果两者相等，则查找成功；否则利用中间位置记录将表分成前、后两个子表，如果中间位置记录的关键字大于查找关键字，则进一步查找前一子表，否则进一步查找后一子表。重複以上过程，直到找到满足条件的记录，使查找成功，或直到子表不存在为止，此时查找不成功。【算法複杂度】假设其数组长度为n，其算法複杂度为o（log（n））

下面提供一段二分查找实现的伪代码:

BinarySearch(max,min,des)

mid-des thenmax=mid-1elsemin=mid+1return max

折半查找法也称为二分查找法，它充分利用了元素间的次序关係，採用分治策略，可在最坏的情况下用O(log n)完成搜寻任务。它的基本思想是，将n个元素分成个数大致相同的两半，取a[n/2]与欲查找的x作比较，如果x=a[n/2]则找到x，算法终止。如果xa[n/2]，则我们只要在数组a的右半部继续搜寻x。

分块查找

分块查找又称索引顺序查找，它是顺序查找的一种改进方法。方法描述：将n个数据元素按块有序划分为m块（m ≤ n）。每一块中的结点不必有序，但块与块之间必须按块有序；即第1块中任一元素的关键字都必须小于第2块中任一元素的关键字；而第2块中任一元素又都必须小于第3块中的任一元素，……。操作步骤：step1 先选取各块中的最大关键字构成一个索引表；step2 查找分两个部分：先对索引表进行二分查找或顺序查找，以确定待查记录在哪一块中；然后，在已确定的块中用顺序法进行查找。

哈希表查找

1 基本原理

我们使用一个下标範围比较大的数组来存储元素。可以设计一个函式（哈希函式，也叫做散列函式），使得每个元素的关键字都与一个函式值（即数组下标）相对应，于是用这个数组单元来存储这个元素；也可以简单的理解为，按照关键字为每一个元素分类，然后将这个元素存储在相应类所对应的地方。

但是，不能够保证每个元素的关键字与函式值是一一对应的，因此极有可能出现对于不同的元素，却计算出了相同的函式值，这样就产生了冲突，换句话说，就是把不同的元素分在了相同的类之中。后面我们将看到一种解决冲突的简便做法。

总的来说，直接定址与解决冲突是哈希表的两大特点。

2 函式构造

构造函式的常用方法（下面为了叙述简洁，设 h(k) 表示关键字为 k 的元素所对应的函式值）：

a) 除余法：

选择一个适当的正整数 p ，令 h(k ) = k mod p这里， p 如果选取的是比较大的素数，效果比较好。而且此法非常容易实现，因此是最常用的方法。

b) 数字选择法：

如果关键字的位数比较多，超过长整型範围而无法直接运算，可以选择其中数字分布比较均匀的若干位，所组成的新的值作为关键字或者直接作为函式值。

3冲突处理

线性重新散列技术易于实现且可以较好的达到目的。令数组元素个数为 S ，则当 h(k) 已经存储了元素的时候，依次探查 (h(k)+i) mod S , i=1,2,3…… ，直到找到空的存储单元为止（或者从头到尾扫描一圈仍未发现空单元，这就是哈希表已经满了，发生了错误。当然这是可以通过扩大数组範围避免的）。

4 支持运算

哈希表支持的运算主要有：初始化(makenull)、哈希函式值的运算(h(x))、插入元素(insert)、查找元素(member)。设插入的元素的关键字为 x ，A 为存储的数组。初始化比较容易，例如const empty=maxlongint; // 用非常大的整数代表这个位置没有存储元素p=9997; // 表的大小procedure makenull;var i:integer;beginfor i:=0 to p-1 doA:=empty;　　End;

哈希函式值的运算根据函式的不同而变化，例如除余法的一个例子：function h(x:longint):Integer;beginh:= x mod p;end;

我们注意到，插入和查找首先都需要对这个元素定位，即如果这个元素若存在，它应该存储在什么位置，因此加入一个定位的函式 locatefunction locate(x:longint):integer;var orig,i:integer;beginorig:=h(x);i:=0;while (ix)and(A[(orig+i)mod S]empty) doinc(i);//当这个循环停下来时，要么找到一个空的存储单元，要么找到这个元//素存储的单元，要么表已经满了locate:=(orig+i) mod S;end;插入元素procedure insert(x:longint);var posi:integer;beginposi:=locate(x); //定位函式的返回值if A[posi]=empty then A[posi]:=xelse error; //error 即为发生了错误，当然这是可以避免的end;

查找元素是否已经在表中procedure member(x:longint):boolean;var posi:integer;beginposi:=locate(x);if A[posi]=x then member:=trueelse member:=false;end;