Lucene中文分词器IKAnalyzer详细说明

拧巴人 发表于 2014-7-1 21:03

分词器对英文的支持是非常好的。一般分词经过的流程：1）切分关键词2）去除停用词3）把英文单词转为小写但是老外写的分词器对中文分词一般都是单字分词，分词的效果不好。国人林良益写的IK Analyzer应该是最好的Lucene中文分词器之一，而且随着Lucene的版本更新而不断更新，目前已更新到IK Analyzer 2012版本。IK Analyzer是一个开源的，基于java语言开发的轻量级的中文分词工具包。到现在，IK发展为面向Java的公用分词组件，独立于Lucene项目，同时提供了对Lucene的默认优化实现。在2012版本中，IK实现了简单的分词歧义排除算法，标志着IK分词器从单纯的词典分词向模拟语义分词衍化。在系统环境：Core2 i7 3.4G双核，4G内存，window 7 64位， Sun JDK 1.6_29 64位普通pc环境测试，IK2012具有160万字/秒（3000KB/S）的高速处理能力。特别的，在2012版本，词典支持中文，英文，数字混合词语。IK Analyzer 2012版本的分词效果示例：IK Analyzer2012版本支持细粒度切分和智能切分。我们看两个演示样例：1）文本原文1：IKAnalyzer是一个开源的，基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版本开始，IKAnalyzer已经推出了3个大版本。智能分词结果：ikanalyzer | 是 | 一个 | 开源 | 的 | 基于 | java | 语言 | 开发 | 的 | 轻量级 | 的 | 中文 | 分词 | 工具包 | 从 | 2006年 | 12月 | 推出 | 1.0版 | 开始 | ikanalyzer | 已经 | 推 | 出了 | 3个 | 大 | 版本最细粒度分词结果：ikanalyzer | 是 | 一个 | 一 | 个 | 开源 | 的 | 基于 | java | 语言 | 开发 | 的 | 轻量级| 量级 | 的 | 中文 | 分词 | 工具包 | 工具 | 包 | 从 | 2006 | 年 | 12 | 月 | 推出 | 1.0 | 版 | 开始 | ikanalyzer | 已经 | 推出 | 出了 | 3 | 个 | 大 | 版本2）文本原文2：张三说的确实在理。智能分词结果：张三 | 说的 | 确实 | 在理最细粒度分词结果：张三 | 三 | 说的 | 的确 | 的 | 确实 | 实在 | 在理IKAnalyzer的使用1）下载地址：GoogleCode开源项目：http://code.google.com/p/ik-analyzer/GoogleCode下载地址：http://code.google.com/p/ik-analyzer/downloads/list2）兼容性：IKAnalyzer 2012版本兼容Lucene3.3以上版本。3）安装部署：十分简单，只需要将IKAnalyzer2012.jar引入项目中就可以了。对于"的"、"了"、"着"之类的停用词，它有一个词典stopword.dic。把stopword.dic和IKAnalyzer.cfg.xml复制到class根目录就可以启用停用词功能和扩展自己的词典。

页: [1]

科帮网's Archiver

Lucene中文分词器IKAnalyzer详细说明