Lucene
Lucene进阶:and 和or的条件查询
在用Lucene实现全站搜索的过程中,很可能会遇到这样的问题,只所有某种特定的信息资源,而不是全部.如:某综合性站点,有新闻,产品,论坛,Blog,视频等资源,而搜索的时候先选一个类型(下拉列表),再输入关键字进行搜索(当然,这种情况可以直接用sql来实现,我们这里是基于lucene的实现考虑).这种情况下,就要用到and和or的查询了.这里假设索引已经建立好了(如何建立索引请参考:http:// ...
by DavyLee 2007-09-24 浏览 (2194) 回复 (2) 关键字: lucene and or 查询
Lucene(Lucence)建立索引(字段)
Lucene,这是官方称谓,也有许多人叫它Lucence,做搜索和分词用的工具包.也有人说是Java下的搜索引擎框架库,见仁见智的说法罢了.不管叫什么,确实非常有用,比如做全站的搜索,其实它的用处远大于此,但凡涉及到文本搜索的地方就能用到它.我们就以做全站搜索为例,演示一下如何应用Lucene建立索引.
public void index(List<IArticle> list)
{
...
by DavyLee 2007-09-20 浏览 (2795) 回复 (0) 关键字: lucene lucence 索引 字段
基于lucene的对数据库&文件夹检索(ss2,appfuse,jdon,nutch杂烩)
整个工程文件和src,lib包可以用ss2下lib包。
完成了基本的对数据库表和文件夹(本来是对vss做索引,老大说没时间了,就对文件夹做就行了)的索引维护,对常用的office文件和rar,zip文件进行解析索引,中文分词用ck(这里多的是分词,可以找更好的)。
应用需要修改config/jdbc.properties lucene.properties lucene.xml 以 ...
by jusescn 2007-08-08 浏览 (7507) 回复 (3) 关键字:
Lucene应用的一点体会
Lucene应用(我用的是Lucene2.1.0,有些观点有可能也不太正确)
1.多线程索引,共享同一个IndexWriter对象
这种方式效率很慢,主要原因是因为:
java 代码
public void addDocument(Document doc, Analyzer analyzer)& ...
by ttitfly 2007-06-11 浏览 (3964) 回复 (5) 关键字: 多线程索引问题, 单线程
带局部统计识别高频词汇及人名识别的Lucene中文分词
经过努力终于在 引入局部统计识别高频词汇的Lucene中文分词程序 以及 基于词典的最大匹配的Lucene中文分词程序 把中文人名识别功能加入,能把大部分的中文姓名识别出来,结果喜人。
原理:
根据贝叶斯定理,分别建立中文形式库FirstName.stu,从网上搜集得到的真实姓名库Name.stu,以及以姓氏为开头但非中文姓名的词库(如“曾经是”,“关门&r ...
by billgmh 2007-05-24 浏览 (3570) 回复 (8) 关键字:
Lucene Hack之通过缩小搜索结果集来提升性能 (1)
作者:caocao(网络隐士),http://www.caocao.name,http://www.caocao.mobi
转载请注明来源:http://www.javaeye.com/topic/78884
一、缘起
Lucene在索引文件上G之后的搜索性能下降很严重,随便跑个搜索就要上0.x秒。如果是单线程搜索那么性能尚可,总可以在0.x秒返回结果,如果是Web式的多线程访问,由于Luce ...
by caocao 2007-05-11 浏览 (5731) 回复 (8) 关键字: lucene 搜索 性能
基于词典的最大匹配的Lucene中文分词程序
把自己之前完成的基于词典的最大匹配的中文分词程序修改成基于Lucene。其中包括了3种词典的组织形式:简单顺序存储SimpleDictionary,首字Hash词典HashDictionary,双重Hash词典;例外实现了两种分词算法:正向最大匹配MaxMatchSegment与反向最大匹配分词ReverseMaxMatchSegment;最后使用使只需根据需要配置spring的配置文件即可选择词 ...
by billgmh 2007-03-11 浏览 (11948) 回复 (12) 关键字:
自己写的一个基于词库的lucene分词程序--ThesaurusAnalyzer
前一段时间用lucene做一个搜索程序,找了好长时间的中文分词程序,都没找到合适的,最后自己弄了一个.现在共享出来.希望对大家有用.
分词算法: 基于词库的正向最大匹配算法.
...
by jolestar 2007-03-10 浏览 (17770) 回复 (19) 关键字: lucene 分词
Lucene相关度排序的调整
如欲转载,请注明作者:caocao,来源http://caocao.javaeye.com/。
Lucene的搜索结果默认按相关度排序,这个相关度排序是基于内部的Score和DocID,Score又基于关键词的内部评分和做索引时的boost。默认Score高的排前面,如果Score一样,再按索引顺序,先索引的排前面。那么有人问了,如果我要先索引的排后面怎么办呢?隐士研究了源码后发现这是相当简单的 ...
by caocao 2007-02-12 浏览 (4253) 回复 (2) 关键字: java lucene 相关度 排序
Lucene中文分词之网络隐士八卦版
俺自己搞了个Lucene中文分词,看到版上qieqie师傅发表的他自己搞的Lucene中文分词,隐士很感兴趣,想进来说两句,注册一把,晕,三天后才可以说话,刚刚可以说话。俺来介绍一下俺的中文分词实现。参考站点:http://so.mdbchina.com
俺的分词做了这么几件事:装载各类词库 —— 中文繁体转简体 —— 初步分词 —— 在初步分词基础上进行运算量可控的二次分词(运算量o(n),n句 ...
by caocao 2007-02-06 浏览 (2985) 回复 (5) 关键字: lucene


