庖丁解牛分词器--中文百科全书

庖丁系统介绍

庖丁系统是个完全，它就是重新，叫做PaodingAnalyzer，这个analyer的核心任务就是生成一个可以切词TokenStream。

庖丁系统的核心内容

net.paoding.analysis.dictionary 字典抽象—提供查询字典

net.paoding. —分词算法

net.paoding.analysis.analyzer 封装适配器到lucene接口

庖丁分词系统的缺点

这种切分还是有很明显的缺点.例如下面一段文字:

“发展社区老年活动场所和服务设施”

如果想搜寻日本的和服相关资料,输入关键字“和服”的时候，上面的资料也会被搜寻出来

搜寻引擎是第一步搜寻：

在浩瀚的信息中，快速集结最后可能是所想要的结果，按照可能是最好的顺序展现出来。

人的眼睛是第二步搜寻：

找寻最符合要求的结果，同时将机器无法轻易识别的少数“无效”结果过滤

“和服”问题，涉及了汉语语义的问题，几乎不可完全解决(可作为“特例”解决，或通过排序方法，将他排到相对靠后等价解决)。

庖丁与IK性能比较

所用版本：

IKAnalyzer2.0.2 & paoding_analysis2.0.4alpha

测试环境：

InterCore 1.8双核，1G记忆体，XP，Java1.6Se

结果：

对长度为96256中文分词：

IK-Analyzer：203ms 55296 单词 272394词/秒

paoding：94ms 47104单词 501106词/秒

对长度为3008中文分词：

IK-Analyzer:31ms 1728单词 55741词/秒

paoding：15ms 1472单词 98133词/秒

现在已经支持lucene3.0以上的版本了，在lucene官网的trunk目录下。