MySQL数据导入Solr

安装Solr

https://lucene.apache.org 下载Solr包。

我这里下载的版本是5.5的,官方给的启动方式:

/solr-5.3.1:$ bin/solr start -e cloud -noprompt

这里 -e cloud 是官方给的示例,如果不想用官方的示例,自己创建可以用如下方式

solr-5.5.0 bin/solr start -noprompt

//然后自己创建一个collection
solr-5.5.0 bin/solr create -c recruiting

新建的collection的存放位置:solr-5.5.0/server/solr/recruiting/

添加中文分词

这里使用 mmseg4j 分词,下载地址:https://github.com/chenlb/mmseg4j-solr

将下载的jar包,移动到WEB-INF/lib下

solr-5.5.0 mv ~/Downloads/mmseg4j-* ./server/solr-webapp/webapp/WEB-INF/lib

修改新建的collection下的conf下的schema.xml文件,这时你发现并没有这个配置文件,但是你会发现有个managed-schema文件,打开一看里面有如下内容:This is the Solr schema file. This file should be named “schema.xml” and should be in the conf directory under the solr home(i.e. ./solr/conf/schema.xml by default)

所以将managed-schema文件重命名为schema.xml,修改配置文件,添加中文分词。

solr-5.5.0 vim server/solr/recruiting/conf/schema.xml

添加如下配置:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
<fieldType name="mmseg4j_complex" class="solr.TextField" positionIncrementGap="100">
<analyzer>
<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory"
mode="complex" dicPath="dic"/>
</analyzer>
</fieldType>
<fieldType name="mmseg4j_maxword" class="solr.TextField" positionIncrementGap="100">
<analyzer>
<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" />
</analyzer>
</fieldType>
<fieldtype name="mmseg4j_simple" class="solr.TextField" positionIncrementGap="100">
<analyzer>
<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory"
mode="simple" dicPath="dic" />
</analyzer>
</fieldtype>

上面添加了三个filedType,他们组要的区别为:

  • mmseg4j_simple 使用Simple分词方法
  • mmseg4j_complex Complex 加了四个规则过虑
  • mmseg4j_maxword 默认。在complex基础上实现了最多分词(max-word)。“很好听” -> “很好|好听”; “中华人民共和国” -> “中华|华人|共和|国”; “中国人民银行” -> “中国|人民|银行”。

成功运行后如下:

Solr中文分词

从MySQL数据库中导入数据

在schema.xml中添加field,默认有一个id字段,然后再添加你数据库中的字段。

1
2
3
4
5
6
7
<field name="id" type="string" indexed="true" stored="true" required="true" multiValued="false" />
<field name="title" type="mmseg4j_complex"
indexed="true" stored="true" required="true" multiValued="true" />
<field name="major" type="mmseg4j_complex" indexed="true"
stored="true" required="true" multiValued="true" />
<field name="content" type="mmseg4j_complex" indexed="true"
stored="true" required="true" multiValued="true" />
  • name: 数据源字段名,搜索时使用到。
  • type: 搜索的类型名,例如我们配置的mmseg4j,这个对应filedType中的name。不需要分词的字符串类型,写上string即可。
  • indexed:是否被索引,只有设置为true的字段才能进行搜索排序分片(earchable, sortable, facetable)。
  • stored:是否存储内容,如果不需要存储字段值,尽量设置为false以提高效率。
  • multiValued:是否为多值类型,SOLR允许配置多个数据源字段存储到一个搜索字段中。多个值必须为true,否则有可能抛出异常。

题外话

copyField节点
如果我们的搜索需要搜索多个字段该怎么办呢?这时候,我们就可以使用copyField。

1
2
3
4
5
6
7
<copyField source="name" dest="all" />
<copyField source="address" dest="all" />
<copyField source="description" dest="all" />
<copyField source="city" dest="all" />
<copyField source="district_name" dest="all" />
<copyField source="merchantCategory_name" dest="all" />
<copyField source="bank_name" dest="all" />

我们将所有的中文分词字段全部拷贝至all中,当我们进行全文检索是,只用搜索all字段就OK了。
注意,这里的目标字段必须支持多值,最好不要存储,因为他只是做搜索。indexed为true,stored为false。

修改solrconfig.xml文件,位置solr-5.5.0/server/solr/recruiting/conf/solrconfig.xml。 添加如下配置

1
2
3
4
5
6
<requestHandler name="/dataimport" 
class="org.apache.solr.handler.dataimport.DataImportHandler">
<lst name="defaults">
<str name="config">data-config.xml</str>
</lst>
</requestHandler>

在solr-5.5.0/server/solr/recruiting/conf/ 下创建data-config.xml 文件,配置如下:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
<dataConfig>
<dataSource type="JdbcDataSource"
driver="com.mysql.jdbc.Driver"
url="jdbc:mysql://localhost/recruiting"
user="root" password="root"/>
<document>
<entity name="requireds"
query="SELECT id,title,major,content FROM recruiting.requireds">
<field column="id" name="id" />
<field column="title" name="title" />
<field column="major" name="major" />
<field column="content" name="content" />
</entity>
</document>
</dataConfig>

solr-dataimporthandlermysql-connector两个jar包拷贝到solr-5.5.0/server/solr-webapp/webapp/WEB-INF/lib当中。

solr-5.5.0 cp dist/solr-dataimporthandler-5.5.0.jar server/solr-webapp/webapp/WEB-INF/lib
solr-5.5.0 mv ~/Downloads/mysql-connector-java-5.1.38.jar ./server/solr-webapp/webapp/WEB-INF/lib

重启服务bin/solr restart,选择当前core为recruiting,然后点击dataimport,如果配置正确,就会出现如下图,点击Execute就可以了

dataimport.png

欢迎关注我的其它发布渠道