[译]elasticsearch不停服务修改mapping

2019独角兽企业重金招聘Python工程师标准>>>

[译]elasticsearch-不停服务修改mapping 博客分类&＃xff1a; java 搜索引擎&＃xff0c;爬虫

一个常见的问题是&＃xff1a;当数据模型需要修改schema的时候&＃xff0c;需要重建索引。如果索引很大&＃xff0c;这个需要较长时间&＃xff0c;因此要暂停服务&＃xff0c;这对应用程序来说是无法接受的。有没有不停服务直接修改mappoing的方法呢&＃xff1f;可以有。

1&＃xff1a;问题--为什么不能修改mapping&＃xff1f;

你只能找到你在索引中存储的信息。为了使数据可查询&＃xff0c;就需要知道每一个field包含的数据的数据类型以及它是如何索引的。如果你将一个field的数据类型从string修改为date&＃xff0c;这这个字段所包含的数据将全部无用。你需要重建创建索引了&＃xff01;这条规则不仅仅针对es&＃xff0c;任何一个可用于查询的数据库系统都是这样。如果不用索引&＃xff0c;就是为灵活性牺牲速度。

ES索引是不可改变的segments&＃xff0c;每一个segmeng都是一个小的倒排索引。segment是永远不会更新的。更新一个document只是创建了一个新的document&＃xff0c;并且在原来的document上加了删除标记。当添加新的document或者更新document的时候&＃xff0c;新的segment就会创建。后台运行merge进程&＃xff0c;会不停的把一些小的segment合并成一个大的segment&＃xff0c;同时会把打有删除标记的document彻底清理。通常情况下&＃xff0c;一个index拥有很多type&＃xff0c;每一个type都有不同的shema和mapping。一个segment可能包括多个type的document。所有&＃xff0c;如果想修改一个type的一个field的定义&＃xff0c;都需要重建所有索引。

2&＃xff1a;添加字段是免费的

segment中只是包含了这个segment中存在的document中的包含的field的数据信息。因此增加一个新的field是完全免费的&＃xff0c;只需要put_mapping即可&＃xff0c;无需重建索引。

3&＃xff1a;重建索引

重建索引步骤简单&＃xff0c;首先&＃xff0c;创建新索引的mapping和setting&＃xff1a;

curl -XPUT localhost:9200/new_index -d &＃39; {"mappings": {"my_type": { ... new mapping definition ...}} } &＃39;

之后&＃xff0c;从旧索引中把数据读取出来放到新创建的索引中&＃xff0c;用scrolled search&＃43;buck api。许多客户端api提供了reindex方法&＃xff0c;将会替你做这些事情。索引做完就可以删除旧索引了。

注意&＃xff1a;确保你使用了search_type&＃61;scan的方式读取数据。这样不会启用sort&＃xff0c;并且使得“deep paging”更加高效。

这个方法的问题是&＃xff1a;新索引的名字改变了&＃xff0c;你需要更新你的应用程序到新的索引名字。

4&＃xff1a;不停服务重建索引

alias机制给我们提供了灵活性&＃xff0c;使得重建索引完全在后台执行&＃xff0c;而且使得索引切换对应用程序来说是透明的。一个alias相当于一个软链接&＃xff0c;可以指向一个或者多个索引。

典型的工作流程是这样的&＃xff1a;首先&＃xff0c;创建索引&＃xff0c;索引名称后边可以添加一个version或者时间戳。

curl -XPUT localhost:9200/my_index_v1 -d &＃39; { ... mappings ... } &＃39;

创建alias指向这个索引&＃xff1a;

curl -XPOST localhost:9200/_aliases -d &＃39; {"actions": [{ "add": {"alias": "my_index","index": "my_index_v1"}}] } &＃39;

现在应用程序对my_index进行操作&＃xff0c;就相当于对my_index_v1进行操作。

需要重建索引时&＃xff0c;可以新建一个索引&＃xff0c;添加一个新的version

curl -XPUT localhost:9200/my_index_v2 -d &＃39; { ... mappings ... } &＃39;

然后利用v1的数据来填充v2&＃xff0c;将alias指向v2即可。

curl -XPOST localhost:9200/_aliases -d &＃39; {"actions": [{ "remove": {"alias": "my_index","index": "my_index_v1"}},{ "add": {"alias": "my_index","index": "my_index_v2"}}] } &＃39;

最后&＃xff0c;删除v1

curl -XDELETE localhost:9200/my_index_v1

现在在后台完成了重建索引的操作&＃xff0c;而无需停止服务&＃xff0c;对应用程序来说这个过程是完全透明的。

以上是处理schema变化的标准步骤&＃xff0c;还有一些其他的选项可用。

5&＃xff1a;我并不关心老数据

如果你想修改一个field的数据类型&＃xff0c;而且你并不关系之前的数据是否可以被搜索到。这种情况下&＃xff0c;有以下选项

delete the mapping&＃xff1a;

删除一个type的mapping&＃xff0c;意味着你也删除了这个type下的所有数据。然后重新创建一个type的mapping。

这对一个含有较少数据的type去修改mapping比较有用。

rename the field&＃xff1a;

添加新字段是free的&＃xff0c;所以可以添加一个不同名称&＃xff0c;不同定义的新field在将来出现的document中使用。当然&＃xff0c;这也就意味着应用程序需要更新来使用新字段。

upgrade to a multi-field&＃xff1a;

MultiField允许同一个字段用在不同的场景下。一点典型应用就是对同一个字段title以两种不同的方式索引&＃xff1a;一个analyzed的string作为查询时使用&＃xff0c;一个not_analyzed字段作为排序使用。任何一个纯字段&＃xff08;object和nested不属于这一类&＃xff09;可以升级为一个multi-field&＃xff0c;而无需重建索引。比如&＃xff0c;现在我们有一个string类型的字段&＃xff1a;

{"created":{"type":"string"}}

我们可以升级为一个multifield&＃xff0c;添加一个sub-field是date类型&＃xff1b;

curl -XPUT localhost:9200/my_index/my_type/_mapping -d &＃39; {"my_type": {"properties": {"created": {"type": "multi_field","fields": {"created": { "type": "string" },"date": { "type": "date" }}}}} } &＃39;

前边的created的字段仍然存在&＃xff0c;作为multi-field的主字段&＃xff0c;可以用created或者created.created访问&＃xff0c;而新的date类型的字段&＃xff0c;可以用created.date来访问&＃xff0c;注意&＃xff0c;这个字段只对新添加的document有效。

6&＃xff1a;运用alias来增加灵活性

有时上述方法仍然不足以满足需求。或许你的应用有100,000个user文档&＃xff0c;10,000,000个blog文档&＃xff08;在同一个索引中&＃xff0c;但是分为不同的type存储&＃xff09;。你想改变user的mapping而无需重新索引blog信息。

在不同的索引中可以存储不同的types。Es可以在不同索引中查询就像是在一个索引中一样。这样&＃xff0c;你只需要重新索引你想改变的type所在的索引即可。有了alias&＃xff0c;这个重新索引的过程对应用程序也是透明的。

运用以上方法&＃xff0c;es为每一个type创建一个单独的alias。比如&＃xff1a;不是统一对my_index创建索引&＃xff0c;而是user数据对my_index_user创建索引&＃xff0c;blog数据对my_index_blog创建索引。

curl -XPOST localhost:9200/_aliases -d &＃39; {"actions": [{ "add": {"alias": "my_index_user","index": "my_index_v2"}},{ "add": {"alias": "my_index_blog","index": "my_index_v2"}}] } &＃39;

查询这样做&＃xff1a;

curl localhost:9200/my_index_blog,my_index_user/_search

如果现在想改变user的mapping怎么做&＃xff1f;首先用新的mapping创建一个新的索引&＃xff0c;这个索引只存储user数据&＃xff1a;

curl -XPUT localhost:9200/my_index_users_v1 -d &＃39; {"settings": {"index": {"number_of_shards": 1}},"mappings": {"user": { ... new user mapping ... }} } &＃39;

然后将旧数据索引过来&＃xff1a;

curl &＃39;localhost:9200/my_index_user/user?scroll&＃61;1m&search_type&＃61;scan&＃39;-d &＃39; {"size": 1000 } &＃39;

更新alias&＃xff1a;

curl -XPOST localhost:9200/_aliases -d &＃39; {"actions": [{ "remove": {"alias": "my_index_user","index": "my_index_v2"}},{ "add": {"alias": "my_index_user","index": "my_index_user_v1"}}] } &＃39;

现在可以用delete-by-query把旧索引中的数据删除&＃xff1a;

curl -XDELETE localhost:9200/my_index_v1/user

这样将来任何时候想改变user的mapping&＃xff0c;就可以用之前的方法了。

&＃xff08;其实本质就是把type数据用alias搞出来&＃xff0c;作为单一存在的索引而已&＃xff0c;没什么高端的&＃xff09;

7&＃xff1a;运用alias不重建索引

如果想针对改变的mapping只需要应用在新进入的docement中&＃xff0c;仍然可以用alias实现。创建两个alias&＃xff0c;一个针对search&＃xff0c;一个针对新数据的index

curl -XPOST localhost:9200/_aliases -d &＃39; {"actions": [{ "add": {"alias": "my_index_user","index": "my_index_user_v1"}},{ "add": {"alias": "my_index_users","index": "my_index_user_v1"}},{ "add": {"alias": "my_index_users","index": "my_index_v1"}},] } &＃39;

my_index_user指向新索引my_index_user_v1&＃xff0c;用来索引数据。而my_index_users则包含旧索引my_index_v1和新索引my_index_users_v1&＃xff0c;用来查询数据。这样旧索引让然用之前的mapping&＃xff0c;新的mapping之会应用在新建立的数据中。

-------

总结一句&＃xff1a;alias不神秘&＃xff0c;现在只能支持索引之间的切换&＃xff0c;上边所用的type的例子也只是把type搞到新的索引中而已。

1.4.x版本会支持带有filter的alias&＃xff0c;这个将更有效&＃xff0c;是否能有typefiler&＃xff1f;这样就解放了type了。期待稳定版本。

http://m.blog.csdn.net/blog/jingkyks/41513063

http://blog.csdn.net/lvhong84/article/details/23936697