庖丁解牛分词器

庖丁解牛分词器

庖丁解牛分词器是基于lucene的中文分词系统的软体。

    • 中文名:庖丁解牛分词器
    • 基于:lucene的中文分词系统
    • 建了:一个analyzer
    • 切割抽象:analysis.knife

庖丁系统介绍

庖丁系统是个完全,它就是重新,叫做PaodingAnalyzer,这个analyer的核心任务就是生成一个可以切词TokenStream。

庖丁详解

庖丁系统的核心内容

net.paoding.analysis.dictionary 字典抽象—提供查询字典

net.paoding. —分词算法

net.paoding.analysis.analyzer 封装适配器到lucene接口

庖丁分词系统的缺点

这种切分还是有很明显的缺点.例如下面一段文字:

“发展社区老年活动场所和服务设施”

如果想搜寻日本的和服相关资料,输入关键字“和服”的时候,上面的资料也会被搜寻出来

搜寻引擎是第一步搜寻:

在浩瀚的信息中,快速集结最后可能是所想要的结果, 按照可能是最好的顺序展现出来。

人的眼睛是第二步搜寻:

找寻最符合要求的结果,同时将机器无法轻易识别的少数“无效”结果过滤

“和服”问题,涉及了汉语语义的问题,几乎不可完全解决(可作为“特例”解决,或通过排序方法,将他排到相对靠后等价解决)。

庖丁与IK性能比较

所用版本:

IKAnalyzer2.0.2 & paoding_analysis2.0.4alpha

测试环境:

InterCore 1.8双核,1G记忆体,XP,Java1.6Se

结果:

对长度为96256中文分词:

IK-Analyzer:203ms 55296 单词 272394词/秒

paoding:94ms 47104单词 501106词/秒

对长度为3008中文分词:

IK-Analyzer:31ms 1728单词 55741词/秒

paoding:15ms 1472单词 98133词/秒

版本支持

现在已经支持lucene3.0以上的版本了,在lucene官网的trunk目录下。

相关词条

相关搜索

其它词条