QQ账号登录	立即注册>>

您现在的位置：论坛 › 资料库 › 开源社区 > solr-4.10.0自定义逗号分词器

总共48087条微博

动态微博

发表新帖

查看: 4711|回复: 1

solr-4.10.0自定义逗号分词器

admin

1244 主题	544 听众	1万金钱

管理员

TA的每日心情

	衰 2021-2-2 11:21

签到天数: 36 天

[LV.5]常住居民I

电梯直达

楼主

发表于 2014-10-22 08:23:31 |只看该作者 |倒序浏览

今天需要将一个以逗号分隔的字段建立到索引库中去，没找到有现成的逗号分隔符分词器，于是看了看源码里空格分词器WhitespaceTokenizerFactory的写法。照葫芦画瓢写了一个逗号分词器：

原文引自：http://www.xuebuyuan.com/580106.html

但是版本太低与现在版本所继承的类有所区别、故反编译了一下源码找到 WhitespaceTokenizerFactory类在包lucene-analyzers-common-4.10.0.jar 下。

CommaTokenizerFactory.java

import java.io.Reader;
import java.util.Map;
import org.apache.lucene.analysis.util.TokenizerFactory;
import org.apache.lucene.util.AttributeFactory;
/**
*@Function: 自定义逗号分词
*@Class Name: CommaTokenizerFactory
*@Author: zhangZhiPeng
*@Date: 2014年10月21日
*@Modifications:
*@Modifier Name; Date; The Reason for Modifying
*
*/
public class CommaTokenizerFactory extends TokenizerFactory {
public CommaTokenizerFactory(Map args)
{
super(args);
if (!(args.isEmpty()))
throw new IllegalArgumentException("Unknown parameters: " + args);
}
public CommaTokenizer create(AttributeFactory factory, Reader input)
{
if (this.luceneMatchVersion == null)
//return new WhitespaceTokenizer(factory, input);
return new CommaTokenizer(factory, input);
//return new WhitespaceTokenizer(this.luceneMatchVersion, factory, input);
return new CommaTokenizer(this.luceneMatchVersion, factory, input);
}
}

复制代码

CommaTokenizer.java

import java.io.Reader;
import org.apache.lucene.analysis.util.CharTokenizer;
import org.apache.lucene.util.AttributeFactory;
import org.apache.lucene.util.Version;
/**
*@Function: 自定义逗号分词
*@Class Name: CommaTokenizer
*@Author: zhangZhiPeng
*@Date: 2014年10月21日
*@Modifications:
*@Modifier Name; Date; The Reason for Modifying
*
*/
public class CommaTokenizer extends CharTokenizer{
public CommaTokenizer(Reader in)
{
super(in);
}
@Deprecated
public CommaTokenizer(Version matchVersion, Reader in)
{
super(matchVersion, in);
}
public CommaTokenizer(AttributeFactory factory, Reader in)
{
super(factory, in);
}
@Deprecated
public CommaTokenizer(Version matchVersion, AttributeFactory factory, Reader in)
{
super(matchVersion, factory, in);
}
protected boolean isTokenChar(int c)
{
//return (!(Character.isWhitespace(c)));
// 44表示逗号
return !(c == 44);
}
}

复制代码

判断是否等于44，如果等于就返回false,否则返回true。返回false表示分词。44是逗号的asc码值，比如a的asc码值为97,如果不知道一个字符对应的值为多少，可以这样：

char[] c = new char[]{'a',',','b'};

Character.codePointAt(c, 1);

获得char数组里index为1的字符的asc码值。

然后把写好的类打进 lucene-analyzers-common-4.10.0.jar

schema.xml 里加入一下内容：

<fieldType name="text_comma" class="solr.TextField" positionIncrementGap="100">
<analyzer>
<tokenizer class="org.apache.lucene.analysis.core.CommaTokenizerFactory"/>
</analyzer>
</fieldType>

复制代码

重启下 solr测试：

科帮网 1、本主题所有言论和图片纯属会员个人意见，与本社区立场无关
2、本站所有主题由该帖子作者发表，该帖子作者与科帮网享有帖子相关版权
3、其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和科帮网的同意
4、帖子作者须承担一切因本文发表而直接或间接导致的民事或刑事法律责任
5、本帖部分内容转载自其它媒体，但并不代表本站赞同其观点和对其真实性负责
6、如本帖侵犯到任何版权问题，请立即告知本站，本站将及时予与删除并致以最深的歉意
7、科帮网管理员和版主有权不事先通知发贴者而删除本文