作者:PHP大傻子 | 来源:互联网 | 2023-07-20 18:47
上一篇是使用的solr,这篇主要介绍使用whoosh基于djang-haystack,咱们可以自由切换搜索引擎了。whoosh的使用跟solr基本一样,模板使用什么的都是一样的,主要是对
上一篇是使用的solr,这篇主要介绍使用whoosh
基于djang-haystack,咱们可以自由切换搜索引擎了。
whoosh 的使用跟solr 基本一样 ,模板使用什么的都是一样的,主要是对whoosh 进行一些修改,让其支持中文。
settings.py 的配置
HAYSTACK_COnNECTIONS= {
'default': {
'ENGINE': 'haystack.backends.whoosh_cn_backend.WhooshEngine',
'PATH': os.path.join(os.path.dirname(__file__), 'whoosh_index'),
},
}
这里边使用主要参考http://blog.csdn.net/wenxuansoft/article/details/8170714 这篇文章,他给出了实际操作方法,很感谢啊。
创建中文分析ChineseAnalyzer.py,保存到haystack的安装文件夹\Lib\site-packages\haystack\backends里面。内容如下:
import jieba
from whoosh.analysis import RegexAnalyzer
from whoosh.analysis import Tokenizer,Token
class ChineseTokenizer(Tokenizer):
def __call__(self, value, positiOns=False, chars=False,
keeporiginal=False, removestops=True,
start_pos=0, start_char=0, mode='', **kwargs):
#assert isinstance(value, text_type), "%r is not unicode" % value
t = Token(positions, chars, removestops=removestops, mode=mode,
**kwargs)
seglist=jieba.cut(value,cut_all=True)
for w in seglist:
t.original = t.text = w
t.boost = 1.0
if positions:
t.pos=start_pos+value.find(w)
if chars:
t.startchar=start_char+value.find(w)
t.endchar=start_char+value.find(w)+len(w)
yield t
def ChineseAnalyzer():
return ChineseTokenizer()
然后将\Lib\site-packages\haystack\backends里面的whoosh_backend.py复制为whoosh_cn_backend.py,
打开whoosh_cn_backend.py进行修改。如下:
#在whoosh_cn_backend.py里面
.........
from ChineseAnalyzer import ChineseAnalyzer
.............
#然后找到build_schema函数处,这是一个构建分词模式的
#找到
schema_fields[field_class.index_fieldname] = TEXT(stored=True, analyzer=StemmingAnalyzer(), field_boost=field_class.boost)
将analyzer = StemmingAnalyzer() 更改为 analyzer = ChineseAnalyzer()
这样就算完工了。
运行
python manage.py rebuild_index 创建索引
python manage.py runserver 运行
打开浏览器 http://127.0.0.1:8000 搜索试试。