當前幾個主要的Lucene中文分詞器的比較, 昨天介紹的是Python的分詞器, Java最常用的應該就是Lucene當全文檢索還有一些外掛分詞器
「lucene中文」的推薦目錄:
- 關於lucene中文 在 軟體開發學習資訊分享 Facebook 的最讚貼文
- 關於lucene中文 在 [問題] Lucene製作搜尋引擎"中文分詞"查詢問題? - 看板C_Sharp 的評價
- 關於lucene中文 在 lucene的中文分词器jcseg和IKAnalyzer分词器及其使用说明 的評價
- 關於lucene中文 在 Lucene 03 中文分析器012 中文分析器介绍- YouTube 的評價
- 關於lucene中文 在 第四章Lucene 中的中文分词- smqk/lucene-example Wiki 的評價
- 關於lucene中文 在 hankcs/hanlp-lucene-plugin: HanLP中文分词Lucene插件 的評價
lucene中文 在 lucene的中文分词器jcseg和IKAnalyzer分词器及其使用说明 的推薦與評價
为什么要使用lucene中文分词器. 在lucene的开发过程中,我们常会遇到分词时中文识别的问题,lucene提供了. lucene-analyzers-common- ... ... <看更多>
lucene中文 在 [問題] Lucene製作搜尋引擎"中文分詞"查詢問題? - 看板C_Sharp 的推薦與評價
※ [本文轉錄自 C_and_CPP 看板 #1CXp2jyB ]
作者: chengreg (想重回校園的工程師) 看板: C_and_CPP
標題: [問題] Lucene製作搜尋引擎"中文分詞"查詢問題?
時間: Wed Sep 8 14:43:55 2010
小弟請教各位有經驗的前輩:
小弟目前利用Lucene.Net製作相關之搜尋引擎
由於目前的搜尋引擎大多著重於速度方面,有關資料的精確度
只要再容許範圍內即可.
但是小弟設計的搜尋精確度需求極高,所以之前用了Lucene
所提供的 Analyzer (StandardAnalyzer)
這是Lucene所提供之標準"斷字"的分析器
雖然可以很準確的查到資料,但是當超過500萬筆全文資料
速度必然相當慢...T_T
為了提升查詢的速度,不可避免的使用的中文的分詞器
小弟參考了部分中文分詞器的SourceCode並自己改寫成自己的Analyzer
查詢速度果然大幅度提升,500萬筆搜尋出10萬筆資料可以少於1秒
看到這速度固然高興,但進入精確測試階段卻發現了一個問題
問題如下:
[原文] : 權利證明書
[搜尋條件] : 權利證明
很抱歉~這樣無法Hits到這篇原文!!!!????
OK~來分析一下一開始將這原文建立成index時Analyzer怎麼紀錄的
[原文] :
0-1 權利
2-4 證明書
2-3 證明
[搜尋條件] :
0-1 權利
2-3 證明
如此Lucene在Search時無法比對到這篇文章
小弟目前猜測:
搜尋條件斷出來的詞,一定要符合原文斷出來的詞才可以命中,
但是為何StartOffset - EndOffset 中 :
[0-1權利 2-3] 證明 卻無法Hits [0-1 權利 2-4 證明書 2-3 證明] ??
是否在Lucene.net 中的QueryParse裡面有所其他設定或者其他分法來Search呢??
(基本上幾乎把Lucene.Net DOC找翻了,腦袋還是無法解釋這問題T__T)
懇請各位前輩給予指導~小弟苦惱了好久 T___T
再度謝謝各位前輩!!!!
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 114.43.114.23
※ chengreg:轉錄至看板 Programming 09/08 14:46
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 115.43.156.107
... <看更多>