IT博客-搜索引擎-文章分类-搜索引擎

OpenSource: AI

专心练剑 — Fri, 14 Dec 2007 07:58:00 GMT

RapidMiner (YALE) -- Java Data Mining

(aka YALE) data mining, machine learning, knowledge discovery, business intelligence in Java. 400+ operators: data mining incl. Weka,learning,preprocessing,validation,visualization. GUI,API,XML,analysis,knowledge discovery,databases,business intelligence

Java Object Oriented Neural Engine

Joone is a neural net framework written in Java. It's composed by a core engine, a GUI editor and a distributed training environment and can be extended by writing new modules to implement new algorithms or architectures starting from base components

Sesame

Sesame is a Java framework for storing, querying and inferencing for RDF. It can be deployed as a web server or used as a Java library. Features include several query languages (SeRQL and SPARQL), inferencing support, and RAM, disk, or RDBMS storage.

JGAP

JGAP is a Genetic Algorithms and Genetic Programming package written in Java. It is designed to require minimum effort to use, but is also designed to be highly modular. JGAP features grid functionality and a lot of examples. Many unit tests included.

Mandarax

Mandarax is a pure Java implementation of a rule engine. It supports mutiples types of facts and rules based on reflection, databases, EJB etc, supporting XML standards (RuleML 0.8). It provides a J2EE compliant inference engine using backward chaining.

OWL API

A Java interface and implementation for the W3C Web Ontology Language (OWL), used to represent Semantic Web ontologies. The API is focused towards OWL Lite, OWL DL and OWL 1.1 and offers an interface to inference engines and validation functionality.

Bayesian Network tools in Java (BNJ)

Bayesian Network tools in Java (BNJ) is an open-source suite of software tools for research and development using graphical models of probability. It is published by the Kansas State University Laboratory for Knowledge Discovery in Databases (KDD).

JAGA - Java API for Genetic Algorithms

Java API for implementing any kind of Genetic Algorithm and Genetic Programming applications quickly and easily. Contains a wide range of ready-to-use GA and GP algorithms and operators to be plugged-in or extended. Includes Tutorials and Examples.

RebeccaAIML, Enterprise AIML platform

RebeccaAIML is an enterprise cross platform open source AIML development platform. RebeccaAIML supports C++, Java,C#, and Python as well as many other programming languages and AIML development out of the box with Eclipse.

Neural Network Utility

nn-utility is a neural network library for C++ and Java. Its aim is to simplify the tedious programming of neural networks, while allowing programmers to have maximum flexibility in terms of defining functions and network topology.

Algernon-J

Algernon is a rule-based reasoning engine written in Java. It allows forward and backward chaining across Protege knowledge bases. In addition to traversing the KB, rules can call Java functions and LISP functions (from an embedded LISP interpreter)

jason

Jason is a fully-fledged interpreter for an extended version of AgentSpeak, a BDI agent-oriented logic programming language, and is implemented in Java. Using SACI or JADE, a multi-agent system can be distributed over a network effortlessly.

nlpFarm

The nlpFarm is a Natural Language Processing (NLP) resource where early research prototypes (Java) can evolve into robust and useful open source. Our farmstead collaborates under the OpenNLP initiative, in order to make NLP software publically available.

robotrader

Simulation platform for automated stock exchange trading. It delivers statistics to analyse performance on historic data and allows comparison between trading strategies, that can be coded in Java.

专心练剑 2007-12-14 15:58 发表评论

分类算法概述

专心练剑 — Wed, 14 Nov 2007 04:38:00 GMT

摘要：分类是数据挖掘、机器学习和模式识别中一个重要的研究领域。通过对当前数据挖掘中具有代表性的优秀分类算法进行分析和比较，总结出了各种算法的特性，为使用者选择算法或研究者改进算法提供了依据。

1 概述

分类是一种重要的数据挖掘技术。分类的目的是根据数据集的特点构造一个分类函数或分类模型（也常常称作分类器），该模型能把未知类别的样本映射到给定类别中的某一个。分类和回归都可以用于预测。和回归方法不同的是，分类的输出是离散的类别值，而回归的输出是连续或有序值。本文只讨论分类。

构造模型的过程一般分为训练和测试两个阶段。在构造模型之前，要求将数据集随机地分为训练数据集和测试数据集。在训练阶段，使用训练数据集，通过分析由属性描述的数据库元组来构造模型，假定每个元组属于一个预定义的类，由一个称作类标号属性的属性来确定。训练数据集中的单个元组也称作训练样本，一个具体样本的形式可为：（u1,u2,……un;c）；其中ui表示属性值，c表示类别。由于提供了每个训练样本的类标号，该阶段也称为有指导的学习，通常，模型用分类规则、判定树或数学公式的形式提供。在测试阶段，使用测试数据集来评估模型的分类准确率，如果认为模型的准确率可以接受，就可以用该模型对其它数据元组进行分类。一般来说，测试阶段的代价远远低于训练阶段。

为了提高分类的准确性、有效性和可伸缩性，在进行分类之前，通常要对数据进行预处理，包括：

(1) 数据清理。其目的是消除或减少数据噪声，处理空缺值。

(2) 相关性分析。由于数据集中的许多属性可能与分类任务不相关，若包含这些属性将减慢和可能误导学习过程。相关性分析的目的就是删除这些不相关或冗余的属性。

(3) 数据变换。数据可以概化到较高层概念。比如，连续值属性“收入”的数值可以概化为离散值：低，中，高。又比如，标称值属性“市”可概化到高层概念“省”。此外,数据也可以规范化,规范化将给定属性的值按比例缩放,落入较小的区间,比如[0,1]等。

2 分类算法的种类及特性

分类模型的构造方法有决策树、统计方法、机器学习方法、神经网络方法等。按大的方向分类主要有：决策树，关联规则，贝叶斯，神经网络，规则学习，k－临近法，遗传算法，粗糙集以及模糊逻辑技术。

2.1 决策树（decision tree）分类算法

决策树是以实例为基础的归纳学习算法。它从一组无次序、无规则的元组中推理出决策树表示形式的分类规则。它采用自顶向下的递归方式，在决策树的内部结点进行属性值的比较，并根据不同的属性值从该结点向下分支，叶结点是要学习划分的类。从根到叶结点的一条路径就对应着一条合取规则，整个决策树就对应着一组析取表达式规则。1986年

Quinlan提出了著名的ID3算法。在ID3算法的基础上，1993年Quinlan又提出了C4.5算法。为了适应处理大规模数据集的需要，后来又提出了若干改进的算法，其中SLIQ (super-vised learning in quest)和SPRINT (scalable parallelizableinduction of decision trees)是比较有代表性的两个算法。

       (1) ID3算法

ID3算法的核心是：在决策树各级结点上选择属性时，用信息增益（information gain）作为属性的选择标准，以使得在每一个非叶结点进行测试时，能获得关于被测试记录最大的类别信息。其具体方法是：检测所有的属性，选择信息增益最大的属性产生决策树结点，由该属性的不同取值建立分支，再对各分支的子集递归调用该方法建立决策树结点的分支，直到所有子集仅包含同一类别的数据为止。最后得到一棵决策树，它可以用来对新的样本进行分类。

某属性的信息增益按下列方法计算。通过计算每个属性的信息增益，并比较它们的大小，就不难获得具有最大信息增益的属性。

设S是s个数据样本的集合。假定类标号属性具有m个不同值，定义m个不同类Ci(i=1,…,m)。设si是类Ci中的样本数。对一个给定的样本分类所需的期望信息由下式给出：

其中pi=si/s是任意样本属于Ci的概率。注意，对数函数以2为底，其原因是信息用二进制编码。

       设属性A具有v个不同值{a1,a2,……,av}。可以用属性A将S划分为v个子集{S1,S2,……,Sv}，其中Sj中的样本在属性A上具有相同的值aj（j=1,2,……,v）。设sij是子集Sj中类Ci的样本数。由A划分成子集的熵或信息期望由下式给出：



熵值越小，子集划分的纯度越高。对于给定的子集Sj，其信息期望为

其中pij=sij/sj 是Sj中样本属于Ci的概率。在属性A上分枝将获得的信息增益是

Gain(A)= I(s1, s2, …,sm)-E(A)

ID3算法的优点是：算法的理论清晰，方法简单，学习能力较强。其缺点是：只对比较小的数据集有效，且对噪声比较敏感，当训练数据集加大时，决策树可能会随之改变。

(2) C4.5算法

C4.5算法继承了ID3算法的优点，并在以下几方面对ID3算法进行了改进：

1) 用信息增益率来选择属性，克服了用信息增益选择属性时偏向选择取值多的属性的不足；

2) 在树构造过程中进行剪枝；

3) 能够完成对连续属性的离散化处理；

4) 能够对不完整数据进行处理。

C4.5算法与其它分类算法如统计方法、神经网络等比较起来有如下优点：产生的分类规则易于理解，准确率较高。其缺点是：在构造树的过程中，需要对数据集进行多次的顺序扫描和排序，因而导致算法的低效。此外，C4.5只适合于能够驻留于内存的数据集，当训练集大得无法在内存容纳时程序无法运行。

(3) SLIQ算法

SLIQ算法对C4.5决策树分类算法的实现方法进行了改进，在决策树的构造过程中采用了“预排序”和“广度优先策略”两种技术。

1) 预排序。对于连续属性在每个内部结点寻找其最优分裂标准时，都需要对训练集按照该属性的取值进行排序，而排序是很浪费时间的操作。为此，SLIQ算法采用了预排序技术。所谓预排序，就是针对每个属性的取值，把所有的记录按照从小到大的顺序进行排序，以消除在决策树的每个结点对数据集进行的排序。具体实现时，需要为训练数据集的每个属性创建一个属性列表，为类别属性创建一个类别列表。

2) 广度优先策略。在C4.5算法中，树的构造是按照深度优先策略完成的，需要对每个属性列表在每个结点处都进行一遍扫描，费时很多，为此，SLIQ采用广度优先策略构造决策树，即在决策树的每一层只需对每个属性列表扫描一次，就可以为当前决策树中每个叶子结点找到最优分裂标准。

SLIQ算法由于采用了上述两种技术，使得该算法能够处理比C4.5大得多的训练集，在一定范围内具有良好的随记录个数和属性个数增长的可伸缩性。

然而它仍然存在如下缺点：

1)由于需要将类别列表存放于内存,而类别列表的元组数与训练集的元组数是相同的,这就一定程度上限制了可以处理的数据集的大小。

2) 由于采用了预排序技术，而排序算法的复杂度本身并不是与记录个数成线性关系，因此，使得SLIQ算法不可能达到随记录数目增长的线性可伸缩性。

(4) SPRINT算法

为了减少驻留于内存的数据量，SPRINT算法进一步改进了决策树算法的数据结构，去掉了在SLIQ中需要驻留于内存的类别列表，将它的类别列合并到每个属性列表中。这样，在遍历每个属性列表寻找当前结点的最优分裂标准时，不必参照其他信息，将对结点的分裂表现在对属性列表的分裂，即将每个属性列表分成两个，分别存放属于各个结点的记录。

SPRINT算法的优点是在寻找每个结点的最优分裂标准时变得更简单。其缺点是对非分裂属性的属性列表进行分裂变得很困难。解决的办法是对分裂属性进行分裂时用哈希表记录下每个记录属于哪个孩子结点，若内存能够容纳下整个哈希表，其他属性列表的分裂只需参照该哈希表即可。由于哈希表的大小与训练集的大小成正比，当训练集很大时，哈希表可能无法在内存容纳，此时分裂只能分批执行，这使得SPRINT算法的可伸缩性仍然不是很好。

贝叶斯分类是统计学分类方法，它是一类利用概率统计知识进行分类的算法。在许多场合，朴素贝叶斯(Na?ve Bayes，NB)分类算法可以与决策树和神经网络分类算法相媲美，该算法能运用到大型数据库中，且方法简单、分类准确率高、速度快。由于贝叶斯定理假设一个属性值对给定类的影响独立于其它属性的值，而此假设在实际情况中经常是不成立的，因此其分类准确率可能会下降。为此，就出现了许多降低独立性假设的贝叶斯分类算法，如TAN(tree augmented Bayes network)算法。

(1) 朴素贝叶斯算法

设每个数据样本用一个n维特征向量来描述n个属性的值，即：X={x1，x2，…，xn}，假定有m个类，分别用C1, C2,…，Cm表示。给定一个未知的数据样本X（即没有类标号），若朴素贝叶斯分类法将未知的样本X分配给类Ci，则一定是

P(Ci|X)>P(Cj|X) 1≤j≤m，j≠i

根据贝叶斯定理

由于P(X)对于所有类为常数，最大化后验概率P(Ci|X)可转化为最大化先验概率P(X|Ci)P(Ci)。如果训练数据集有许多属性和元组，计算P(X|Ci)的开销可能非常大，为此，通常假设各属性的取值互相独立，这样

先验概率P(x1|Ci)，P(x2|Ci)，…，P(xn|Ci)可以从训练数据集求得。

根据此方法，对一个未知类别的样本X，可以先分别计算出X属于每一个类别Ci的概率P(X|Ci)P(Ci)，然后选择其中概率最大的类别作为其类别。

朴素贝叶斯算法成立的前提是各属性之间互相独立。当数据集满足这种独立性假设时,分类的准确度较高，否则可能较低。另外，该算法没有分类规则输出。

(2) TAN算法

TAN算法通过发现属性对之间的依赖关系来降低NB中任意属性之间独立的假设。它是在NB网络结构的基础上增加属性对之间的关联(边)来实现的。

实现方法是：用结点表示属性，用有向边表示属性之间的依赖关系，把类别属性作为根结点，其余所有属性都作为它的子节点。通常，用虚线代表NB所需的边，用实线代表新增的边。属性Ai与Aj之间的边意味着属性Ai对类别变量C的影响还取决于属性Aj的取值。

这些增加的边需满足下列条件：类别变量没有双亲结点，每个属性有一个类别变量双亲结点和最多另外一个属性作为其双亲结点。

找到这组关联边之后，就可以计算一组随机变量的联合概率分布如下：

其中ΠAi代表的是Ai的双亲结点。由于在TAN算法中考虑了n个属性中(n-1)个两两属性之间的关联性，该算法对属性之间独立性的假设有了一定程度的降低，但是属性之间可能存

在更多其它的关联性仍没有考虑，因此其适用范围仍然受到限制。

2.3 基于关联规则的分类算法

关联规则挖掘是数据挖掘研究的一个重要的、高度活跃的领域。近年来，数据挖掘技术己将关联规则挖掘用于分类问题，取得了很好的效果。

ARCS(Association Rule Clustering System)基于聚类挖掘关联规则，然后使用规则进行分类。将关联规则画在2-D栅格上，算法扫描栅格，搜索规则的矩形聚类。实践发现，当数据中存在孤立点时，ARCS比C4.5稍微精确一点。ARCS的准确性与离散化程度有关。从可伸缩性来说，不论数据库多大，ARCS需要的存储容量为常数。

CBA(classification based on association)是基于关联规则发现方法的分类算法。该算法分两个步骤构造分类器。第一步：发现所有形如xi1∧x => Ci 的关联规则，即右部为类别属性值的类别关联规则(classification association rules，CAR)。第二步：从已发现的CAR中选择高优先度的规则来覆盖训练集，也就是说，如果有多条关联规则的左部相同，而右部为不同的类，则选择具有最高置信度的规则作为可能规则。文献[4]对该过程进行了较深入的研究，使得算法在此步骤不需要对训练数据集进行过多的扫描。

CBA算法的优点是其分类准确度较高，在许多数据集上比C4.5更精确。此外，上述两步都具有线性可伸缩性。

CBA(Classification Based on Association)是关联分类。此算法把分类规则挖掘和关联规则挖掘整合到一起。与CART和C4.5只产生部分规则不同的是,CBA产生所有的类关联规则CARs(Class Association Rules)，然后选择最好的规则去覆盖训练集。另外，在此算法的框架中，数据库可以驻留在磁盘中

CAEP使用项集支持度挖掘HV露模式(Emerging Pattern), 而EP用于构造分类。CAEP找出满足给定支持度和增长率阈值的EP。己经发现，在许多数据集上，CAEP比C4.5和基于关联的分类更精确。一种替代的、基于跳跃的HV露模式JEP(Jnmping Emerging Pattern)是一种特殊类型的EP，项集的支持度由在一个数据集中的0陡峭地增长到另一个数据集中的非0。在一此大的多维数据库中，JEP性能优于CAEP, 但在一些小型数据库中，CAEP比JEP优，这二种分类法被认为是互补的。

ADT(Association Decision Trec)分二步实现以精确度驱动为基础的过度适合规则的剪枝。第一步，运用置信度规则建立分类器。主要是采用某种置信度的单调性建立基于置信度的剪枝策略。第二步，为实现精确性，用关联规则建立一种平衡于DT(Dccision Tree)归纳的精确度驱动剪枝。这样的结果就是ADT(Association Based Decision Trec)。它联合了大量的关联规则和DT归纳精确性驱动剪枝技术。

基于多维关联规则的分类算法CMAR(Classification Based on Multiple Class-Association Rules)是利用FP-Growth算法挖掘关联规则，建立类关联分布树FP－树。采用CR－树(Classification Rulc Trcc)结构有效地存储关联规则。基于置信度、相关性和数据库覆盖来剪枝。分类的具体执行采用加权厂来分析。与CBA和C 4.5相比，CMAR性能优异且伸缩性较好。但CMAR优先生成的是长规则，对数据库的覆盖效果较差;利用加权x2统计量进行分类，会造成x2统计量的失真，致使分类值的准确程度降低。CPAR(Classification Based on Predictive Association Rules)整合了关联规则分类和传统的基于规则分类的优点。为避免过度适合，在规则生成时采用贪心算法，这比产生所有候选项集的效率高;采用一种动态方法避免在规则生成时的重复计算;采用顶期精确性评价规则，并在预测时应用最优的规则，避免产生冗余的规则。另外，MSR(Minimnm Set Rule)针对基于关联规则分类算法中产生的关联规则集可能太大的问题，在分类中运用最小关联规则集。在此算法中，CARS并不是通过置信度首先排序，因为高置信度规则对噪声是很敏感的。采用早期剪枝力方法可减少关联规则的数量，并保证在最小集中没有不相关的规则。实验证实，MSR比C45和CBA的错误率要低得多。

虽然数据挖掘的创始人主要是数据库领域的研究人员，然而提出的大多数算法则没有利用数据库的相关技术。在分类算法中，致力于解决此问题的算法有MIND （mining in database）和GAC-RDB（grouping and counting-relational database）。
(1) MIND算法
MIND 算法是采用数据库中用户定义的函数(user-defined function，UDF)实现发现分类规则的算法。MIND采用典型的决策树构造方法构建分类器。具体步骤与SLIQ类似。其主要区别在于它采用数据库提供的UDF方法和SQL语句实现树的构造。简而言之，就是在树的每一层，为每一个属性建立一个维表，存放各属性的每个取值属于各个类别的个数以及所属的结点编号。根据这些信息可以为当前结点计算每种分裂标准的值，选出最优的分裂标准，然后据此对结点进行分裂，修改维表中结点编号列的值。在上述过程中，对维表的创建和修改需要进行多次，若用SQL实现，耗时很多，因此用UDF实现。而分类标准的寻找过程则通过创建若干表和视图，利用连接查询实现。
该算法的优点是通过采用UDF实现决策树的构造过程使得分类算法易于与数据库系统集成。其缺点是算法用UDF完成主要的计算任务，而UDF一般是由用户利用高级语言实现的，无法使用数据库系统提供的查询处理机制，无法利用查询优化方法，且UDF的编写和维护相当复杂。此外，MIND中用SQL语句实现的那部分功能本身就是比较简单的操作，而采用SQL实现的方法却显得相当复杂。
(2) GAC-RDB算法
GAC -RDB算法是一种利用SQL语句实现的分类算法。该算法采用一种基于分组计数的方法统计训练数据集中各个属性取值组合的类别分布信息，通过最小置信度和最小支持度两个阈值找出有意义的分类规则。在该算法中，首先利用SQL语句计算每个属性进行类别判定的信息量，从而选择一个最优的分裂属性，并且按照信息量的大小对属性进行排序，随后重复地进行属性的选择、候选分类表的生成、剪裁以及分类误差的计算，直到满足结束条件为止，比如，直到小于误差阈值和误差没有改变为止。
该算法的优点是具有与现有的其他分类器相同的分类准确度，执行速度有较大提高，而且具有良好的伸缩性，应用程序易于与数据库系统集成。其缺点是参数的取值需用户完成等。

专心练剑 2007-11-14 12:38 发表评论

Lucene学习笔记二：Searcher基本class

专心练剑 — Wed, 31 Oct 2007 12:06:00 GMT

      1. IndexSearcher IndexSearcher is to searching what IndexWriter is to indexing. You can
      think of IndexSearcher as a class that opens an index in a read-only mode.

      2. Term A Term consists of a pair of string elements: the name of the field and the value
      of that field.

      3. Query Lucene comes with a number of concrete Query subclasses. Query is the common,
      abstract parent class. It contains several utility methods, the most interesting of which is
      setBoost(float), described in section 3.5.9.

      BooleanQuery, BoostingQuery, ConstantScoreQuery, ConstantScoreRangeQuery,
      CustomScoreQuery, DisjunctionMaxQuery, FilteredQuery, FuzzyLikeThisQuery,
      MatchAllDocsQuery, MoreLikeThisQuery, MultiPhraseQuery, MultiTermQuery, PhraseQuery,
      PrefixQuery, RangeQuery, SpanQuery, TermQuery, ValueSourceQuery, FuzzyQuery,
      RegexQuery, WildcardQuery

      4. TermQuery It’s used for matching documents that contain fields with specific values,

      5. Hits The Hits class is a simple container of pointers to ranked search results—documents
      that match a given query. For performance reasons, Hits instances don’t load from the index
      all documents that match a query, but only a small portion of them at a time.

专心练剑 2007-10-31 20:06 发表评论

Lucene学习笔记一：Indexer基本class

专心练剑 — Wed, 31 Oct 2007 12:05:00 GMT

   1. IndexWriter

       IndexWriter is the central component of the indexing process. This class creates
       a new index and adds documents to an existing index. You can think of Index-Writer
       as an object that gives you write access to the index but doesn’t let you read
       or search it.
       variables:
         Directory directory - where the index directory
         Analyzer analyzer - how to analyze text
       methods:
         addDocument(Document, Analyzer )
         addIndexes(Directory[] dirs)     merge another index

    2. Directory
       The Directory class represents the location of a Lucene index. an abstract class
       that allows its subclasses (two of which are included in Lucene) to store the index
       as they see fit.
       Lucene has 5 concrete implementation of this abstract class.

       CompoundFileReader - for accessing a compound stream.
       DbDirectory - a Berkeley DB 4.3 based implementation
       FSDirectory - Straightforward implementation of Directory as a directory of files
       JEDirectory - Port of Andi Vajda's DbDirectory to to Java Edition of Berkeley Database
       RAMDirectory - A memory-resident Directory implementation.

    3. Analyzer
       The abstract class Analyzer is in charge of extracting tokens out of text to be indexed
       and eliminating the rest. Analyzers are an important part of Lucene and can be used for
       much more than simple input filtering.Lucene comes with several implementations of it.
       BrazilianAnalyzer - br
       ChineseAnalyzer   - cn
       CJKAnalyzer       - cjk
       CzechAnalyzer     - cz
       DutchAnalyzer     - nl
       FrenchAnalyzer    - fr
       GermanAnalyzer    - de
       GreekAnalyzer     - el
       RussianAnalyzer   - ru
       ThaiAnalyzer      - th
       KeywordAnalyzer   - "Tokenizes" the entire stream as a single token.
       PatternAnalyzer   -
       PerFieldAnalyzerWrapper - used to facilitate scenarios where different fields require
                                 different analysis techniques.
       SimpleAnalyzer    - filters LetterTokenizer with LowerCaseFilter.
       SnowballAnalyzer - Filters StandardTokenizer with StandardFilter->LowerCaseFilter
                         ->StopFilter->SnowballFilter
       StandardAnalyzer - using a list of English stop words
       StopAnalyzer      - Filters LetterTokenizer with LowerCaseFilter and StopFilter
       WhitespaceAnalyzer - An Analyzer that uses WhitespaceTokenizer

    4. Document
       Documents are the unit of indexing and search. It represents a collection of fields.
       Fields of a document represent the document or meta-data associated with that document.
       The meta-data such as author, title, subject, date modified, and so on, are indexed
       and stored separately as fields of a document.

       Variables:
           List fields;
           float boost;

    5. Field
       Each field corresponds to a piece of data that is either queried against or retrieved
       from the index during search.

       Lucene offers four different types of fields:

       Keyword — Isn’t analyzed, but is indexed and stored in the index verbatim. This type
       is suitable for fields whose original value should be preserved in its entirety, such
       as URLs, file system paths, dates, personal names, Social Security numbers, telephone
       numbers, and so on.

       UnIndexed — Is neither analyzed nor indexed, but its value is stored in the index as
       is. This type is suitable for fields that you need to display with search results, but
       whose values you’ll never search directly.

       UnStored — The opposite of UnIndexed. This field type is analyzed and indexed but isn’t
       stored in the index. It’s suitable for indexing a large amount of text that doesn’t
       need to be retrieved in its original form, such as bodies of web pages, or any other type
       of text document.

       Text — Is analyzed, and is indexed. This implies that fields of this type can be
       searched against, but be cautious about the field size. If the data indexed is a String,
       it’s also stored; but if the data (as in our Indexer example) is from a Reader, it isn’t
       stored

       Finally, UnStored and Text fields can be used to create term vectors (an advanced topic,
       covered in section 5.7).

专心练剑 2007-10-31 20:05 发表评论

垂直搜索的经济帐：开发一个垂直搜索需要多少钱？[转]

专心练剑 — Wed, 10 Oct 2007 06:11:00 GMT

A.关于路

a.1专门从事技术，以技术和方案出售为主。

客户：有内容数据库的单位，想实现情报检索或内部检索。一定程度上说，这叫企业搜索。

矛盾1：政府单位，企业，国营单位容易购买。商业企业不容易购买。

矛盾2：技术需要验证，并不是自己说了算。google,baidu当初也只能拿检索的数据结果来出售，并不能出售技术本身。因为买来技术要运转，费用会远远高于购入技术的成本。比如我们化100W买一个ERP系统，公司可能需要投入1000W的人力，物力，时间来运行它。

a.2运营一个垂直搜索

客户：开发式web查询客户，或专业数据库查询用户

矛盾：收费很难，现金流不容易出现。访问量无法拿上去。青黄不接的周期长，资金链崩溃。

b.3弄个模型，学习和技术积累

目的：只求学习，但有玉米可以测试

B.费用

a.1专门从事技术，以技术和方案出售为主：

假设聘请10个工程师，每月薪水7000元，其它开销3000元。人力开销120W/年。按三年技术成熟，约总计400W。

算第三年开始出售自己的技术。必须销售50W/套的系统或方案12套。方可在第三年持平。出现盈利。如果系统价值低于50W，从数量上来看无法盈利。因为数量增长很困难。

a.2运营一个垂直搜索：

聘请5个工程师开发，周期三年，每月薪水6000元，其它开销1000元，人力开销42W/年。按三年技术成熟，约总计150W。

期间：从第一年的后四个月，服务器，线下计算部分需要硬件投入。假设线上部分投入6台服务器，每台成本3W，则是20W元。如果只有两台占用带宽(web server)，其它是检索或数据库，则平均算4000/台年，托管需要24000/年。线下部分如果用入门级服务器10台(性能相关部分)和40台pc 处理。共需要成本32W元。三年的总费用约40W.

考虑人工开销，总计200W。

作为一个运营的垂直搜索，主要的在于技术提供的同时，必须作推广。这个投入的金额是无法估计的。我们初步估计为300W，公司其它开销100W。

则粗略估计，需要运营一个垂直搜索，前三年需要资金600W元。但并不像作硬件买卖。这个是纯粹的开发投入，很可能就是无法收回的。

而对垂直搜索的运营获利，我们不想去估计，因为前三年靠广告或反佣取得的一些利益，平时就花掉了。

b.3弄个模型，学习和技术积累：

服务器件一台3w,托管三年共18000元，线下10台pc,2W元，电费三年4000元。宽带费用5000元。技术开发反正是搞着玩，不花钱。

共计：77000元。

C.启动资金是多少

很多人关心这个，如果是web2.0的社区，我们讲，倒是不在技术而在社区居民的热情释放。

搜索依赖的带宽，服务器价格，存储介质，存储容量在今天的技术条件下是不成问题了，但我想google当年的第一张支票的金额仍然是需要的。那就是100W 人民币。而且，参与开发的人除了吃饭，不要考虑拿一分钱。而且个个还得是天才，否则没有人伸出援手，当然更不能靠购买技术了(笑一下)。

yuetiantian估算，如果能提供玉米的模型网站供人访问，需要10W元。差不多。不过我的模型只花15000元，怎么组成呢。暂时保密。

D.结论。

很多还在做梦的人，早一点醒悟，早早的放弃这个想法。当然，你如果依靠技术给别人开发，那是不受到这个文章评估的影响的。但如果把问题想得简单的话，只能算无知的行为。

专心练剑 2007-10-10 14:11 发表评论

中文垂直搜索引擎、行业搜索引擎大全(最新计137家) (转贴)

专心练剑 — Wed, 10 Oct 2007 05:06:00 GMT

原文作者不详。

排名不分先后，肯定还有很多新的搜索引擎未能搜集齐全，欢迎补充。此处主要针对新涌现的行业搜索、垂直搜索引擎。累计137家（不包括传统搜索及其分类搜索），这应该是目前最全面的整理结果。

行业搜索：搜索对象针对所在的行业，采用类似传统通用搜索引擎的分词索引技术，返回关键词最匹配的结果。

垂直搜索：搜索对象针对所在的行业，采用数据采集、数据挖掘、数据整理等技术，返回经过加工处理的结果。

一、综合搜索

酷讯www.kooxoo.com ：招聘、房产、汽车、火车票、机票、餐饮、交友、购物、旅游

奇虎www.qihoo.com ：论坛、博客、新闻、招聘、房产、视频、音乐、图片、火车票、餐饮、经验？、折扣

cgogo搜个够www.cgogo.com ：社区、招聘、票务、住房、视频、本地（地图）、博客、无线

我酷网 www.wooqoo.com （五花八门，该有都有）

开拓搜索www.kaitoo.com （五花八门，该有都有）

每步搜索 http://cnc.meibu.com/ （综合）

八百搜www.800so.com （五花八门，该有都有，站内搜索和站外搜索并列）

酷爱 www.koooi.com （网页 MP3 房产餐饮交友搜人资源）

soso88 www.soso88.net （政府采购人才职位房源地产建材装饰）

二、求职招聘：（18）

职友集 www.jobbui.com

搜职网 www.globehr.com

南京搜职网 www.sozhi.cn

托托搜索 www.totojob.com

1010job精英招聘 www.1010job.com

牛耳搜职网 www.newerjob.com

数字英才（职通车） www.01hr.com

深度搜索 www.deepdo.com

淘职网 www.go2work.com.cn

我搜网 www.alsox.com

校园招聘 www.zhaopinbbs.com

易聘 www.yipin.cc

找工作 www.meijob.com

热职工作引擎 www.rezhi.com

职场快线 www.jobems.com

职脉搜索 www.jobmet.com

高八斗 www.gao8dou.com 区域搜索引擎联合，在各地都有独立一级域名，单一数据库。

安徽人才总网 www.ah668.com/rc/ （安徽区域搜索）

三、房屋房产（9）

搜房引擎 search.soufun.com

房老大 www.fanglaoda.com

焦点房产seek.focus.cn ？

家家看网 www.jjto.com

我住网 www.wozhu.com

搜房网 www.sofang.com.cn

寻捕房 www.xpfang.com

房网搜索 www.house163.com

百房 www.100fang.com

四：商务商机、人文（20）

联络家 http://www.linkist.com/

优库 www.ucloo.com （搜人公司学校）

Anyso商业搜索引擎 www.anyso.com

accoona www.accoona.cn

国通网 www.guton.com

享者 www.hengzhe.com

品搜 www.pinsou.com

品通 www.joingoo.com

搜商 www.bseek.cn

商搜 www.shangsou.com

商宝 www.b2b8.com

jow http://jqw.com/

企业门户 www.yie.cn ？

搜库网 www.souku.com.cn

伊索 http://china.eceel.com/

天网商搜 http://china.eceel.com/

信援 www.xinsos.com

一呼百应 www.youboy.com

易购搜索 www.ego321.com

浙搜 http://zhesou.com/ （区域性搜索）

五、生活、购物消费（17）

8848（比较购物）http://esearch.8848.com/

丫丫比较购物 http://askyaya.com/

大拿网（比较购物） http://www.danawa.com.cn/

普加 Pojaa http://www.pojaa.com/

搜狗 http://shopping.sogou.com/

购物搜索www.gobygo.com
中搜http://shopping.zhongsou.com/

Soaso http://www.soaso.com/

搜评网 http://www.souping.com/

无忧城市网 http://www.51city.com

亿起搜 http://www.eqiso.com/

365.com www.365.com （生活搜索综合）

快搜测评网 www.ksou.com.cn （IT硬件相关）

搜教网 www.soojoo.cn （教育资源相关）

乐逊外卖搜索 www.lexun.com.cn

友买网 www.uobuy.com

马可波罗 www.makepolo.com/

易购搜索 www.ego321.com

六、地图公交、出行（15）

公交查询 http://www.8684.cn/

瘦驴旅游搜索引擎 http://www.souluu.com/

E都市 http://www.edushi.com/

Mapabc地图 http://www.mapabc.com/

图吧 http://main.mapbar.com/

UUMAP http://www.uumap.com/

城市通 http://www.52tong.com/

华夏图网 http://www.map2china.com/

都市圈－三维地图 http://www.o.cn/

第1搜 http://www.d1so.com/

都市吧 http://www.city8.com/

活图网 http://www.livemap.cn/

我要地图 http://www.51ditu.com/

丁丁地图 www.ddmap.com

坐车网 http://www1.zuoche.com/ （广州区域搜索）

google、百度、搜狗、MSN虚拟地球http://virtualearth.msn.com/

七、医疗健康

康Q www.kangq.com

Souvv http://search.souvv.com/

医搜 http://www.yiso.cc/

放心医苑网 http://www.120so.com/

博睿 http://search.chinamtcm.com

八、图书搜索

爱搜书网 http://www.isoshu.com/

读秀知识库 http://www.duxiu.com/

九、分类信息

国通网http://www.guton.com

十、手机搜索引擎

悠悠村 http://www.uucun.com/

儒豹手机搜索 http://www.roboo.com/

十一、软件IT、BT资源

迅雷资源搜索 http://so.xunlei.com

BT联盟搜索引擎 http://search.btchina.net/

BT全球搜索 http://bt.it.com.cn/

BT特工 http://bt.souyo.com/

飞客BT搜索 http://bt.fkee.com/

天天BT 电影 http://www.ttbt.cn/

网游搜索 www.37ss.com

FTP搜索引擎 www.tooooold.com

十二、娱乐综合、电影、音乐等

搜刮 http://www.sogua.com/

易搜 http://bt.souyo.com/ （娱乐综合、软件IT、游戏、电影）

狗载社区 http://www.ppgou.com/

OpenV开放视频 http://www.openv.tv/

第九频道 www.tvix.cn

动漫搜索 http://share.greedland.net/

奇客网 http://v.qirss.com/

CCTV视频搜索 http://vsearch.cctv.com/

优酷视频搜索 http://www.youku.com/

十三、电视节目

电视猫 www.tvmao.com

e准 - 电视节目预告 www.ezhun.com

搜视网 http://www.tvsou.com/

我爱电视剧 http://www.5idsj.com/ （剧情搜索）

十四、博客、论坛搜索

贴易 http://search.teein.com/

Souyo http://www.souyo.com/

博狗 http://www.blogool.com/

大旗 http://search.chinabbs.com/

博客查号台 http://www.blog114.com.cn/

博搜 http://www.booso.com/

中文RSS搜索 http://www.booso.com/

名人博客 http://www.starlogs.com/

中国博客网搜索 http://search.blogcn.com/

十五、其它

搜农 www.sounong.net （来自安徽的和农业相关综合搜索引擎）

农搜 www.agrisou.com

性搜 http://www.sinsoo.com/

中国建筑黄页 www.agoo.com.cn

搜网（图片搜索） http://home.souwang.com/

金聚网（游戏搜索） http://www.jj160.com/

游戏网（搜索引擎？）http://ks.pcgames.com.cn/

乐虎网（手机图片） http://www.joyhoo.com/

全国驾校搜索 www.jxedt.com
个性搜索 www.deyeb.cn

专心练剑 2007-10-10 13:06 发表评论

Nutch学习笔记之四：部署搜索服务(Tomcat)

专心练剑 — Thu, 04 Oct 2007 15:01:00 GMT

crawl完成后，就可以部署到tomcat，提供搜索引擎服务了。步骤如下：

1. 安装WAR文件
   将WAR文件$nutch$/nutch-*.war拷贝到目录$tomcat$/webapps/,
   cp $nutch$/nutch-*.war $tomcat$/webapps/nutch.war
   这样就可以通过URL: http://127.0.0.1:8080/nutch 来打开搜索主页面

   如果是保存为ROOT.war, 对应的URL为http://127.0.0.1:8080
   cp $nutch$/nutch-*.war $tomcat$/webapps/ROOT.war

2. 指定搜索数据目录
   需要为搜索服务程序指定数据文件的位置。
   假设WAR文件保存为nutch.war，重启动Tomcat，解压缩成目录$tomcat$/webapps/nutch/。
   打开文件$tomcat$/webapps/nutch/WEB-INF/classes/nutch-site.xml，添加searcher.dir
   属性，例如数据文件保存在/local/nutch/crawl目录中，则添加：

      searcher.dir
      /local/nutch/crawl

   这样search.jsp就知道数据文件的在哪里了。

3. 让Tomcat支持中文输入
   如果要用中文词汇做为关键词来搜索，Tomcat必须要支持中文输入。为此必须修改tomcat的
   配置文件$tomcat$/conf/server.xml, 在端口8080上的Connector中加入两个属性URIEncoding
   和useBodyEncodingForURI。代码如下：

                   maxThreads="150" minSpareThreads="25" maxSpareThreads="75"
               enableLookups="false" redirectPort="8443" acceptCount="100"
               connectionTimeout="20000" disableUploadTimeout="true"
               URIEncoding="UTF-8" useBodyEncodingForURI="true"/>

4. 如果要搜索大型网站，例如网络门户，还需要修改一些配置，因为缺省配置是搜索intranet的。
修改db.max.outlinks.per.page，它定义一个网页的最大link数，超过此数的链接都要被忽略掉。缺省是100，改为1000足够了。

db.max.outlinks.per.page
1000
The maximum number of outlinks that we'll process for a page.
If this value is nonnegative (>=0), at most db.max.outlinks.per.page outlinks
will be processed for a page; otherwise, all outlinks will be processed.

修改urlfilter.order，指定URL过滤器的顺序。作者比较喜欢用正则表达式，所以设置为org.apache.nutch.urlfilter.regex.RegexURLFilter。

urlfilter.order
org.apache.nutch.urlfilter.regex.RegexURLFilter
The order by which url filters are applied.
If empty, all available url filters (as dictated by properties
plugin-includes and plugin-excludes above) are loaded and applied in system
defined order. If not empty, only named filters are loaded and applied
in given order. For example, if this property has value:
org.apache.nutch.urlfilter.regex.RegexURLFilter org.apache.nutch.urlfilter.prefix.PrefixURLFilter
then RegexURLFilter is applied first, and PrefixURLFilter second.
Since all filters are AND'ed, filter ordering does not have impact
on end result, but it may have performance implication, depending
on relative expensiveness of filters.

5. 再次重启Tomcat
用浏览器打开URL: "http://127.0.0.1:8080/nutch", 大功告成，现在开始enjoy nutch。

专心练剑 2007-10-04 23:01 发表评论

商业搜索无处不在

专心练剑 — Thu, 04 Oct 2007 05:27:00 GMT

企业搜索市场在迅速膨胀，据国际数据公司（IDC）数据，这一市场去年增长了39%，已达到14亿美元。而这一市场上的产品，其价格和特性也相距甚远，从国际商业机器公司（IBM）免费的OmniFind Yahoo Edition到成本高达几十万美元的系统，无所不包。

对于只有几个文档的内容仓库或者低流量的网站等轻量级搜索而言，OmniFind Yahoo Edition或起价为1,995美元的谷歌 Mini Search Appliance足以胜任。而那些拥有上千名员工的大公司，所有员工日常工作几乎都要用到搜索功能，比如法律部门就需要使用电子搜索（E-Discovery）服务，这些公司需要的可能就是Autonomy公司、Fast Search & Transfer公司（下称Fast）、或者Endeca公司的高端搜索系统。“人们需要不同的工具解决不同的问题。”IDC分析师苏珊·费尔德曼（Susan Feldman）一言以敝之。

Web搜索工具与企业级搜索产品往往在公司中同时存在，面对Web，企业员工会使用精选的浏览器搜索工具；而在访问企业防火墙内的数据库时，他们又会选择公司提供的搜索应用软件。

安装OmniFind Yahoo Edition，只需点击三下鼠标，以选择要搜索的内容仓库和内部站点。另一方面，如果某家公司希望根据员工岗位而对搜索进行个性化设置，增加安全层，对搜索结果进行分类，并直接给出问题的答案，那其用来部署这一项目的时间可能长达几个月。

现在，企业级搜索工具栏已无处不在。Fast产品与微软公司（Microsoft，下称微软）的SharePoint之间建有连接程序；Autonomy公司也将其搜索引擎与微软的Outlook工具栏和思爱普公司（SAP）的应用软件集成在一起；客户关系管理（CRM）软件和工作流应用软件中也开始出现搜索框，而那通常是软件厂商自己设置的。

现在的产品已能够对越来越多的商业信息进行搜索，包括PDF格式文件、SQL Server数据库、以及文件系统等在内。荷兰WCC公司等专业厂商甚至可以将指纹搜索与其他数据结合起来，以发现与目标身份相符的人。

搜索将日益成为用户的好帮手，既可以自动地利用内容仓库中的信息完成填表操作，奥多比公司（Adobe）的Intelligent Document Platform即有此功能；亦可对法律文档进行扫描，以自动创建律师档案，就像Recommind公司的MindServer Legal所做的那样。

专心练剑 2007-10-04 13:27 发表评论

不知搜索向何方，但他们已经上路

专心练剑 — Thu, 04 Oct 2007 05:24:00 GMT

以下这篇文章是InformationWeek美国的记者兄弟花大力气采访的结果，生动地描述了一些该领域探索者的兴奋心情。看到以后，忍不住做了一些附加采访和解释，加上赵红权的翻译，希望这些文字能够揭示当前搜索技术在商业道路上探索的一些方向，记录这个领域的今天，让它们给未来研究信息检索历史的人提供一些参考，至少证明人们一度在多么愉快地探索这个领域，探索自己的语言文字和计算的关系，让计算工具更好地理解不同的语言和文化的需求。

信息检索不是特别容易被商业化的技术和学术方向，但是它对于满足信息用户好奇心的同时，让人类对它本身产生了更大的好奇心。微软，雅虎，百度和Google有很多研究者在不断地尝试破解一些新的文字检索规律。其中很多人的努力并不是完全为了明天的商业回报，而是为了几年甚至是几十年后更伟大的信息检索领域的发现。

借此文向这些人，以及UPenn、香港两个大学、以及北大等学府中多年来默默无闻地处理着语料，建立这个领域基石的学者们表示感谢。

劢闻

不知搜索向何方，但他们已经上路

文/J. Nicholas Hoover，Zhang Maiwen (章劢闻)

译/赵红权

搜索引擎，也就是那个浏览器里的应用，你在其中输入一个词，并点击回车，之后就满怀希望开始等待，可它返回的往往是数百万个毫不相关的互联网地址。微软公司（Microsoft，下称微软）称，人们平均要花11分钟的时间才能找到所需内容，而且还有一半的人在达成此目标之前即中途放弃搜索。据高德纳公司（Gartner）估计，由于访问者根本无法找到所需内容，有一半的潜在Web销售因此而丧失掉了。

谷歌公司（Google）、微软、雅虎公司（Yahoo）、以及其他数十家专业搜索公司，其中也包括那些专注于商业领域的搜索公司在内，已开始展开新一代搜索技术的开发竞赛，以帮助人们更高效地获取所需信息。有了这些新兴的搜索工具，人们无需再使用混合语言一遍又一遍地简化搜索。他们可以用英语或其他语言查询问题，或者根本不提出任何问题，只是基于其以前的查询或所用的应用软件，就能自动收到查询结果。

专注于中文搜索的百度公司（Baidu，下称百度）虽然没有就下一代搜索的话题表态，但是根据百度现有的一系列产品，从百度贴吧、百度知道、百度百科到百度空间等服务，不难看出这家公司正在利用用户生成内容（UGC）提高自身对于用户兴趣点捕捉的精确度。

除了文字内容之外，用户实际得到的搜索结果还将包括音频和视频文件、PowerPoint幻灯和其他信息图表、以及结构化数据，这些信息全部精选自Web、PC、以及公司数据库，并最终汇成统一的信息流。假以时日，图像搜索甚至能在图像中检测信息，而无需对元数据进行解析。

搜索结果将更加精确，并经过自动归纳总结，按照个人偏好依相关程度进行排序。聚簇、标签云（Tag Cloud）等可根据参数扩大或缩小搜索的新表达方法以及自动分类，可以简化对搜索结果的处理。同时，采用标签服务、社会性书签服务（Social Bookmarking）以及共享搜索等方式，充分发挥人类智慧特别是群体智慧的力量，搜索引擎将得到极大改进。

而且，我们无需翘首以盼，等待这些高速搜索引擎的出现。如下一些高级功能已随处可见。

语义搜索

当今多数搜索引擎都要求使用速记语言，也就是某些人称作Keywordese的语言。“那就像跟一个2岁小孩说话。” Powerset公司首席执行官（CEO）巴尼·佩尔（Barney Pell）形容道。Powerset是一家将自然语言处理技术应用于搜索领域的初创公司。未来10年，佩尔指出，搜索引擎“理解人类语言”的能力会更为强大。

早在2000年，百度就曾经大力协助当时的ChinaRen公司推出了一个名为“孙悟空搜索”的提问式搜索引擎。“我当时使用过孙悟空搜索，感觉它对中文语义的理解已达到了相当的深度，虽然那时的技术可能还比较粗浅。”李鹏在接受《信息周刊》采访时回忆道。李鹏是加拿大英属哥伦比亚大学（University of British Columbia）计算机专业的在读博士，同时也是微软位于美国华盛顿州雷德蒙德园区（Redmond）的实习研究人员，专注于语义网（Semantic Web）的研究。

现在，Powerset公司、Hakia公司、以及其他一些公司已开始开发新的搜索引擎，这些搜索引擎应用语言学解释问题，分析Web内容，并且必要时，还通过与用户的互动来优化搜索结果。Hakia公司CEO里萨·博坎（Riza Berkan）憧憬说，未来搜索引擎会成为“知识渊博的工具，如果我们能教会它们如何讲话、如何理会用户的意思。 ”

语义搜索引擎对语言进行解析，就像学生学英文一样，用字典和辞典来解释字的意思，并依据句法的基本规则将之连起来。比如，“国际商业机器公司（IBM）于1996年斥资7.43亿美元买下了Tivoli公司”这句话，包括了购买、购买的主语、购买的时间、以及买入价等几个概念。

在理解问题之后，基于语义网的搜索引擎将会给出智能的回答。“比如，你表示要预约一个牙医，”李鹏给出了一个例子，“搜索引擎有可能从你的Outlook找出你的时间表，然后从你牙医的网站上找出他或她的时间安排情况，最后归纳出共同的时间点，再给你提出精确的预约建议。”

迄今为止，尽管Hakia公司的搜索引擎已能够利用语言提示在它自己甚至都不能领会的概念中发现大致意思，但人们应用语言规则，并对分类进行定义，以缩小搜索范围的做法仍然有助于推进搜索引擎的开发。“如果它能做到完全自动化，我们就能宣告自己创造了新的物种，”博坎调侃道。谷歌和雅虎等在开发Web搜索引擎时也都会雇佣语言学家，尽管他们的搜索引擎还远不能与Hakia或Powerset的语义搜索相提并论。谷歌的搜索引擎能进行拼写检查，并返回所搜索的单词的同义词和变体，但并不能始终准确地解答问题。

联邦保存研究所（Federal Preservation Institute）的历史保存学习门户（Historic Preservation Learning Portal）采用的是企业搜索公司Autonomy公司的技术。该网站存有大量记录保存规则和保存方法的文档，研究所应用语义搜索帮助那些非专家类的用户发现其所需信息。“他们应用这些工具，用普通语言即可提问，而其问题中无需带有关键词可能会含的技术术语。”该研究所总监康斯坦丝·拉米雷（Constance Ramirez）介绍说。比如说，有个网站访问者可能会询问加里福尼亚州红屋顶房屋的保存情况，“看到返问的各类结果都是相关的，那种感觉真是妙不可言。”拉米雷回味道。

IBM也在致力于医疗卫生和政府等领域的专业文本分析研究。客户利用其名为OmniFind Analytics的搜索引擎，甚至可以分辨诸如情绪这样的细枝末节之处，而且不管搜索到的文档对某个主题的记录或分析是积极的还是消极的，客户还可对公司内使用的专业词汇、概念、以及专有名词进行定义。

“但是，基于精确语义的搜索有一个前提，那就是信息来源必须基于资源描述框架（RDF）、Web本体语言（Web Ontology Language，OWL ）等信息格式。”李鹏指出，“信息源的格式化需要得到提供者的认可和规范，这本身就需要相当长的时间，是一个渐进的发展过程。”

无关键词搜索

好运难遇。目前仍处于开发阶段的这类搜索引擎无需提示，即会根据你以前的查询替你完成搜索；否则它们可能会在背景中搜索，根据Word文档或Excel电子表中的上下文内容提供相关信息。苹果公司（Apple）的iTunes项目与此类似，如果听者从硬盘中播放了一部音乐作品，iTunes Store即会显示相关的其他音乐。

说着容易，做起来难。“在搜索领域，遭遇意外的好运比登天还难。”国际数据公司（IDC）分析师苏珊·费尔德曼（Susan Feldman）指出。在这种计算密集型的环境中，设计接口着实不易，她补充道。

MediaRiver公司开发了一种可下载的搜索工具，这款名为Watson的产品，无需用户发出查询请求，即可利用Web浏览器或PC应用程序中的信息对Web进行搜索，并返回结果。这是一款出色的产品，可不是一项好生意，MediaRiver的CEO阿尔·瓦塞尔博格（Al Wasserberger）总结说。但是，Watson在MediaRiver的ClickSurge Widget中找到了用武之地，终于可以再现活力，后者负责确定网页上的重要概念，并将相关链接嵌入到网页的其他位置。Blinkx公司有款与此近似的产品Pico，但在该公司的网站上，Pico却居于次要地位，因为这家公司要全情贯注于视频搜索领域。

尽管如此，无关键词搜索的前景依然一片光明。谷歌和雅虎长期以来一直在不断提醒用户，他们可以订阅搜索，当有新结果产生时他们即会收到电子邮件。用户只需轻轻点击一下StumbleUpon和Google Dice等浏览器工具栏按钮，系统即可根据Web历史记录将之带到推荐的站点上。雅虎的Y!Q服务和Mozilla公司的火狐浏览器（Firefox）都具备在网页上突出显示某个字或词的功能，用户只需于其上点击一下，即可执行搜索。

雅虎的这项服务可以增强搜索页上下文的关联性。比如，在有关大学橄榄球的网页上搜索“佛罗里达鳄鱼队（Florida Gators）”，返回的结果肯定不会跟大沼泽国家公园（Everglades）中的那类爬虫有关。

个性化搜索

“内战”这个词，在不同的人心中会激起完全不同的情感，其含义也大相竞庭。在美国历史上，它意味着一个国家的诞生；而在利比亚，它是武装冲突的代名词；它还是枪与玫瑰乐队的一首歌的名字。搜索引擎对搜索者了解得越多，它对搜索者意图的猜测也才会越有根据。

从用户数量来看，谷歌的个性化主页iGoogle是该公司旗下成长最为迅速的产品。谷歌明白用户需要什么，并通过RSS种子和谷歌Gadgets来体现其对用户需求的理解。而且，用户也能在谷歌的首页上创建推荐（Recommendations）标签，谷歌搜索系统可据这些用户以前的搜索提供相关信息，并置入该标签内。

拥有谷歌账户的用户均有机会将其曾进行的搜索保存起来，“疑问因而解除”，谷歌个性化部门技术负责人塞普·卡姆瓦尔（Sep Kamvar）指出。比如，有个女子对计算机感兴趣，而且她会定期搜索“苹果”这个词，这说明与其说她对计算机有兴趣，不如说她对计算机厂商的兴趣更大。利用存档数据，谷歌可通过浏览器工具栏按钮、iGoogle标签或者网络搜索历史（Web History）页面自动为用户推荐所需信息。

大量与搜索相关的信息保存在谷歌的数据库中这一事实，引发了有关隐私的担忧；基于同样的原因，雅虎等谷歌竞争对手也不再无畏地长驱直入个性化搜索领域。谷歌争辩说，它在使用历史搜索数据时所公开的透明度，恰是其为避免引起用户激烈反对而采取的关键措施。“如果我们打算使用你搜索过的某些内容，我们希望你能了解这一点，而且你有权做出决定。”卡姆瓦尔表示。

商业环境中也需要个性化。例如，Vivisimo公司搜索产品的管理程序给招聘人员的人事文档的赋值，比如说，就可以比给销售人员的高。“内部网的一个优势在于，人们无需再以匿名的形式存在。”IBM OmniFind搜索平台部门杰出工程师（Distinguished Engineer）兼产品经理迈克·莫兰（Mike Moran）指出。OmniFind搜索平台有4个版本：企业版、分析版、可在搜索结果中添加原文链接的版本、以及与雅虎共同开发的免费版。出版商锐德商讯集团（Reed Business）搜索部门首席运营官（COO）格雷伊姆·麦克雷肯（Graeme McCracken）强调说，事实表明，经常使用搜索的用户最需要个性化特性，而那些偶尔一用网络的访问者通常也对个性化没什么兴趣。

社会搜索

网络出现伊始，搜索即有其社会性的一面。雅虎创立之初，其网站不过是个链接列表，只是列出了公司创始人认为有趣的网站链接。谷歌的PageRank算法，其原理某种程度上也只是以网站上一个页面通向其他页的链接数量为基础。随着Web 2.0技术的兴起，搜索引擎也开始进一步推动社会搜索与社会性书签服务、标签服务、共享搜索、以及功能随用户数量增加而改善的搜索系统等概念的融合。

雅虎的战略将因其社会特性而显得卓而不群，雅虎搜索副总裁提姆·梅尔（Tim Mayer）指出。Yahoo Answers可针对Web查询提供人性化的解答，最近该服务已开始出现在常规搜索结果中。此外，雅虎收购了社会性书签站点Deli.cio.us，此举也可能会给雅虎带来一些变化，比如将社会性书签服务变为雅虎网站的一个标准特性。

微软已经拥有名为Collections的共享搜索特性，人们可利用该特性共享注释图。目前，微软也在寻求解决办法，以在Web范围内部署可视的、用户生成的“标签云”，该公司搜索和广告部门高级副总裁萨特亚·内德拉（Satya Nadella）介绍说。企业搜索公司Vivisimo公司也在对一项特性进行测试，公司员工利用该项特性，可以给搜索结果打标签、评级、分类、并做评注。而Connectbeam公司则将标签和社会性书签技术作为其他企业搜索产品上的一个层来销售。

标签云和社会性书签服务也有局限性。标签太多会降低搜索的可靠性，太少又有可能导致相关信息的大量堆积，Autonomy公司CEO迈克·林奇（Mike Lynch）分析道。领导着谷歌反垃圾团队的高级工程师马特·卡茨（Matt Cutts）表示，标签和社会性书签服务是垃圾邮件制造者和搜索引擎优化滥用者攻击的主要目标。

无论如何，谷歌已开始推进社会搜索服务。在iGoogle服务中，“魔术标签”可基于其他谷歌用户创建的标签，提供与搜索查询（比如说“旅行”一词）相关的谷歌小工具（Gadgets）和Feeds菜单。“我太喜欢这种算法了，因为它提供的Gadgets并不包括‘旅行’这个词本身在内，但却极为相关。”卡姆瓦尔表示。

Collarity公司则在其Relevance Engine中，运用“协同过滤”将上述概念又推进了一步。福克斯新闻网（FoxNews.com）即使用该个性化搜索引擎。如果某人在该站点上搜索“伊拉克”，这一搜索引擎会根据以前其他人在搜索“伊拉克”这个词之后的行为，列出推荐的链接清单。尽管如此，搜索引擎最终只能将那些在伊拉克新闻上花费大量时间的用户的浏览习惯纳入推荐引擎，因为这些人代表着对伊克拉有高度兴趣，而且应该也具备更多相关知识的一群人。“我们认为，最要紧的是在相关领域内，找到能最好地解答你的问题的人。” Collarity公司市场总监鲍勃·拉斯塔德（Rob Rustad）表示。

结果导向

“谁说一个编辑框外加10个蓝色链接就是搜索引擎了？”微软的内德拉质疑道。这个问题提得好，但在搜索的新世界里，它就显得不那么重要了。现在，人们已发现了用于显示搜索结果的新办法，从自动化聚簇和分类到对问题的实际解答，各种都有。在微软的Live Search中，键入“西雅图交通”几个字，就会有一幅地图弹出来，上面绘有公路，并用色码标示出路面上车辆的行驶速度。与此近似，在谷歌网站上键入“亚伯拉罕·林肯的生日”，第一个搜索结果会显示实际日期——1809年2月12日，后面跟着一系列相关地址链接。

Vivisimo公司同时也运行着一个名为Clusty的消费者搜索引擎，该网站可通读网页的文本内容，并通过语义理解，在搜索返回的前200个文档中，迅速建立分类。

Vivisimo的Clustering Engine可以确定诸如“漂亮”和“华丽”这样的词，其意思之间存在关联性，然后根据这类共性对搜索结果进行分组。“主题可帮助人们根据上下文进一步理解数据的含义，并且大致明白信息是如何被组织到一起的。”该公司市场副总裁丽贝卡·汤姆逊（Rebecca Thompson）介绍道。

在商业环境中，计算机生成的聚簇显得尤为重要。因为在商业环境中，用户不能根据某个站点的流行程度来确定其相关性。与Vivisimo一样，Endeca公司也使用自动分类的办法，并采用“导航”的方式，他们这样做基于如下理论：人们通常不对特定的内容进行搜索，而其期望搜索引擎能帮助发现的内容，往往是他们不知道如何清楚、准确地提问的。

美国最大的家具建材零售商家得宝公司（Home Depot）的网站即采用Endeca技术，从中可管窥Endeca前述想法在实践中的应用。例如，对“冰箱”一词的搜索会产生大量信息，并依类别、价格、以及品牌等进行分组，而且对于每一组都能进一步进行搜索。分类通常以每个搜索条目的元数据为基础。“未来的设想是，对信息进行归纳总结，整理成用户期望看到的形式。” Endeca公司战略拓展与市场副总裁马特·艾什纳（Matt Eichner）介绍说。

Factiva公司的搜索工具采用Fast Search & Transfer公司的技术，用于发现发表在网络日志、媒体站点上有关某个品牌的任何内容，并将这些内容分为喜欢的和不喜欢的，还对之进行相应的量化，辅以线图，以显示人们的认识随时间而改变的过程。

另外一个较早利用搜索引擎收集新知识的例子是谷歌Trends。它是谷歌实验室（Google Labs）的一个项目，可以几乎同时满足搜索者完全不同的兴趣[比如太浩湖（Lake Tahoe）和雪橇]。“如果计算机能进一步理解这个世界，那又会是怎样的情形？”卡茨自问自答地说，“如果你能解决这个问题，你就能真正理解人们在搜索些什么。”

多样化搜索

今天的Web搜索引擎可以对基于超文本链接标记语言（HTML）的文件、PDF格式文件、Office文件、以及音频、视频和图像元数据进行筛选。而未来的搜索引擎不仅可摆脱对元数据的依赖，可对图像、音频、以及视频直接进行搜索，还能在其他搜索结果中纳入这些形式的内容。“你不会看到分别面向音频、视频、以及文本的不同系统。” Autonomy公司CEO林奇简捷地总结道。

尽管并非总能面向不同数据类型建立恰当的关联模型，谷歌的通用搜索仍可谓这一领域的开先河者；其他进展还包括：Autonomy技术可察觉情景的变化，并将视频分配到可搜索的内容中。而且，Autonomy公司、Sonic Foundry公司、以及Nexidia公司的搜索引擎都具备对视频或音频的音轨进行搜索的能力。

衣服和服饰销售站点like.com，算得上说明图像搜索技术发展方向的一个典型例子。利用该网站提供的类似搜索（Likeness Search），用户可依各自的尺寸，从颜色、外形、以及款式等方面提供个人的设计参考意见。目前，微软和谷歌都已开发出了针对人的面孔的搜索技术。

尽管如此，图像搜索还远不能与文本搜索相提并论，IBM的莫兰指出。在搜索引擎习惯观看图片并能用语言对之进行描述之前，在相当长一段时间内，人们还得继续给图像和视频添加文本标签。

无论如何，在需求的推动下，搜索创新仍不断涌现。随着网络上和公司数据库中信息成PB（Petabyte，1Peta=1015）的增加，用于帮助人们发现所需的工具也必须得随之改变。

专心练剑 2007-10-04 13:24 发表评论

搜索引擎之比拚

专心练剑 — Thu, 04 Oct 2007 04:42:00 GMT

领先者

Autonomy公司企业搜索产品支持归纳、聚簇、以及分析等功能。

Fast公司企业搜索平台提供移动搜索、个人搜索选择。

谷歌公司最新关注点在于个性化的搜索结果，并提供用于商业市场的搜索工具。

微软公司除了PC和Web搜索，还推出了Live Search Maps、Live Search for Mobile等服务。

雅虎公司通过收购Del.icio.us，大力推进社会性搜索，同时也推出了Yahoo Answers服务。

挑战者

Collarity公司 Relevance Engine根据其他人曾经搜索的内容对搜索结果进行过滤。

Endeca公司信息访问平台（Information Access Platform）自动对搜索结果进行分类。

Hakia公司语义网搜索引擎目前处于Beta版测试中。

国际商业机器公司 OmniFind平台有企业版和分析版、以及与雅虎共同发起的免费版。

Like.com 可视搜索引擎处于测试中。

MediaRiver公司 ClickSurge平台利用网页内容进行搜索或推荐相关内容。

Powerset公司目前与施乐帕洛阿尔托研究中心（Xerox PARC）一道，共同开发自然语言Web搜索引擎。

Vivisimo公司 Velocity企业搜索引擎在聚簇中对结果进行分类。

专心练剑 2007-10-04 12:42 发表评论

Nutch学习笔记之三：命令行

专心练剑 — Wed, 03 Oct 2007 15:32:00 GMT

1. A complete crawl procedure can be presented by the following pseudo-code:

inject: pass links of urls file to webDB
for (i = 0; i < depth; i++) {
    generate: creat a new segment and generate a fetchlist from the WebDB;
    fetch: fetch content from URLs in the new fetchlist;
    parse: parse content of the new segment;
    updatedb: add new links in the crawldb according to the new segment;
}
invertlinks: create the linkdb, listing incoming links for each url;
index: create indexes for segments;
dedup: delete duplicate documents for each indexes segment;
merge: merge all indexes into single index corresponding;

2. Nutch provide a set of utility commands, there are:

for webDB:
readdb: Read utility
mergedb: merger
convdb: old version converter
for linkdb:
readlinkdb: Read utility
mergelinkdb: merger
for segment:
readseg: Read utility
mergesegs: merger

3. Besides those above, there two system commands:

plugin: registry of plugin
server: a search server

4. Here is a complete list of all commands and their simple description

命令	input	output	task
crawl	urls dir	all	do whole thing in single command
inject	urls dir	webDB	pass links of urls file to webDB
generate	webDB	a segment	creat a new segment and generate a fetchlist from the WebDB
freegen	urls dir	a segment	creat a new segment and generate a fetchlist from a plain text
fetch	a segment	a segment	fetch content from URLs in the fetchlist
fetch2	a segment	a segment	Another fether
parse	a segment	a segment	Parse content in a segment
updatedb	a segment	webDB	add new links into the crawldb according to new segment
invertlinks	segments	linkdb	maintains an inverted link map, listing incoming links for each url
index	segments, linkdb, webDB	indexes	Create indexes for segments
dedup	indexes dir	indexes dir	Delete duplicate documents in a set of Lucene indexes
merge	indexes dir	index	merge all indexes into single index
readdb	webDB	information about webDB	Read utility for the webDB
mergedb	webDBs	webDB	merge several webDB
readlinkdb	linkdb	information about linkdb	Read utility for the linkdb
mergelinkdb	linkdb	linkdb	merge several linkdb
readseg	segment	information about segment	Read utility for the segment
mergesegs	segment	segment	merge several segment
convdb	webDB	webDB	convert old webDB into new version
plugin	plugin class	NA	register a plugin
server	port, indexdir	NA	run a search server

专心练剑 2007-10-03 23:32 发表评论

Nutch学习笔记之二：流程

专心练剑 — Wed, 03 Oct 2007 13:36:00 GMT

Crawling is a cyclical process: the crawler generates a set of fetchlists from the WebDB,
a set of fetchers downloads the content from the Web, the crawler updates the WebDB with
new links that were found, and then the crawler generates a new set of fetchlists (for
links that haven't been fetched for a given period, including the new links found in the
previous cycle) and the cycle repeats.

This cycle is often referred to as the generate/fetch/update cycle, and runs periodically
as long as you want to keep your search index up to date.

URLs with the same host are always assigned to the same fetchlist. This is done for reasons
of politeness, so that a web site is not overloaded with requests from multiple fetchers in
rapid succession.

Nutch observes the Robots Exclusion Protocol, which allows site owners to control which
parts of their site may be crawled.

The crawl tool is actually a front end to other, lower-level tools, so it is possible to
get the same results by running the lower-level tools in a particular sequence. Here is
a breakdown of what crawl does, with the lower-level tool names in parentheses:

   1. Create a new WebDB (admin db -create).
   2. Inject root URLs into the WebDB (inject). creat initial link set

   3. Generate a fetchlist from the WebDB in a new segment (generate).
   4. Fetch content from URLs in the fetchlist (fetch).
   5. Update the WebDB with links from fetched pages (updatedb).

   6. Repeat steps 3-5 until the required depth is reached.

   7. Update segments with scores and links from the WebDB (updatesegs).

   8. Index the fetched pages (index).
   9. Eliminate duplicate content (and duplicate URLs) from the indexes (dedup).

10. Merge the indexes into a single index for searching (merge).

After creating a new WebDB (step 1), the generate/fetch/update cycle (steps 3-6) is
bootstrapped by populating the WebDB with some seed URLs (step 2). When this cycle
has finished, the crawler goes on to create an index from all of the segments (steps 7-10).

Each segment is indexed independently (step 8), before duplicate pages (that is, pages
at different URLs with the same content) are removed (step 9). Finally, the individual
indexes are combined into a single index (step 10).

The dedup tool can remove duplicate URLs from the segment indexes. This is not to remove
multiple fetches of the same URL because the URL has been duplicated in the WebDB--this
cannot happen, since the WebDB does not allow duplicate URL entries. Instead, duplicates
can arise if a URL is re-fetched and the old segment for the previous fetch still exists
(because it hasn't been deleted). This situation can't arise during a single run of the
crawl tool, but it can during re-crawls, so this is why dedup also removes duplicate URLs.

While the crawl tool is a great way to get started with crawling websites, you will need
to use the lower-level tools to perform re-crawls and other maintenance on the data
structures built during the initial crawl. We shall see how to do this in the real-world
example later, in part two of this series. Also, crawl is really aimed at intranet-scale
crawling. To do a whole web crawl, you should start with the lower-level tools. (See the
"Resources" section for more information.)

专心练剑 2007-10-03 21:36 发表评论

Nutch学习笔记之一：数据结构

专心练剑 — Wed, 03 Oct 2007 13:30:00 GMT

1. WebDB or web database

It persists as long as the web graph that is being crawled (and re-crawled) exists.
The WebDB stores two types of entities: pages and links.

A page represents a page on the Web, and is indexed by its URL and the MD5 hash of
its contents. Other pertinent information is stored, too, including the number of
links in the page (also called outlinks); fetch information (such as when the page
is due to be refetched); and the page's score, which is a measure of how important
the page is (for example, one measure of importance awards high scores to pages that
are linked to from many other pages).

A link represents a link from one web page (the source) to another (the target).

In the WebDB web graph, the nodes are pages and the edges are links.

2. segment
A segment is a collection of pages fetched and indexed by the crawler in a single run.

The fetchlist for a segment is a list of URLs for the crawler to fetch, and is generated
from the WebDB. The fetcher output is the data retrieved from the pages in the fetchlist.
The fetcher output for the segment is indexed and the index is stored in the segment.

Any given segment has a limited lifespan, since it is obsolete as soon as all of its
pages have been re-crawled. The default re-fetch interval is 30 days, so it is usually
a good idea to delete segments older than this, particularly as they take up so much
disk space.

Segments are named by the date and time they were created, so it's easy to tell how old
they are.

3. index
The index is the inverted index of all of the pages the system has retrieved, and is
created by merging all of the individual segment indexes. Nutch uses Lucene for its
indexing, so all of the Lucene tools and APIs are available to interact with the
generated index.
Since this has the potential to cause confusion, it is worth mentioning that the Lucene
index format has a concept of segments, too, nd these are different from Nutch segments. a

A Lucene segment is a portion of a Lucene index, whereas a Nutch segment is a fetched
and indexed portion of the WebDB.

专心练剑 2007-10-03 21:30 发表评论