ubuntu下lucene和nutch的配置

2008-10-01,星期三 | 分类:干活 | 标签: | 390

这篇是对上面配置的继续
1.安装lucene
wget http://apache.mirror.phpchina.com/lucene/java/lucene-2.3.2.tar.gz
不是lucene-2.3.2-src.tar.gz哦,这个无lucene-demos-2.3.2.jar
在目录下:
tar zxvf lucene-2.3.2.tar.gz
mv lucene-2.3.2 /usr/share

查看解压文件里面的build.txt里面有lucene配置的的基本步骤,根据提示,ant是必须的,我们现在要把ant的安装补上(eclipse下有ant,如果在eclipse下调试的话好像不需要再安装了就。具体的不太清楚也)
##CONTINUE##
2.安装ant

http://ant.apache.org/bindownload.cgi

ant是一个基于JAVA的自动化脚本引擎,脚本格式为XML。除了做JAVA编译相关任务外,ANT还可以通过插件实现很多应用的调用,比make脚本来说还要好维护一些。

wget http://apache.mirror.phpchina.com/ant/binaries/apache-ant-1.7.1-bin.tar.gz

在对应目录下:
tar zxvf apache-ant-1.7.1-bin.tar.gz

mv apache-ant-1.7.0 /usr/share/

gedit /etc/profile

加上
ANT_HOME=/usr/share/apache-ant-1.7.1
export ANT_HOME
编辑
PATH=$PATH:$JAVA_HOME/bin:$ANT_HOME/bin

3 继续设置lucene
再修改profile
gedit /etc/profile
增加
LUCENE_HOME=/usr/share/lucene-2.3.2
CLASSPATH=.:${JAVA_HOME}/lib/dt.jar:${JAVA_HOME}/lib/tools.jar:${LUCENE_HOME}/lucene-core-2.3.2.jar:${LUCENE_HOME}/lucene-demos-2.3.2.jar

4.测试lucene demo
在lucene目录下,
cd ./src/demo
java org.apache.lucene.demo.IndexFiles /usr/share/lucene-2.3.2/docs

如果路径正确会出现如下:



adding /usr/share/lucene-2.3.2/docs/demo.pdf
adding /usr/share/lucene-2.3.2/docs/demo2.html
adding /usr/share/lucene-2.3.2/docs/gettingstarted.html
adding /usr/share/lucene-2.3.2/docs/fileformats.pdf
adding /usr/share/lucene-2.3.2/docs/scoring.html
adding /usr/share/lucene-2.3.2/docs/linkmap.html
adding /usr/share/lucene-2.3.2/docs/lucene-sandbox/index.html
adding /usr/share/lucene-2.3.2/docs/lucene-sandbox/index.pdf
adding /usr/share/lucene-2.3.2/docs/queryparsersyntax.pdf
adding /usr/share/lucene-2.3.2/docs/linkmap.pdf
adding /usr/share/lucene-2.3.2/docs/demo4.html
adding /usr/share/lucene-2.3.2/docs/benchmarktemplate.xml
adding /usr/share/lucene-2.3.2/docs/index.pdf
Optimizing…
17869 total milliseconds
并生成index文件夹。
然后就可以搜索了,
输入以下命令就会出现搜索提示符。
java org.apache.lucene.demo.SearchFiles
按提示输入即可。

如果要在tomcat下测试lucene demo可按如下操作:
4.1.将lucene目录下的/src/jsp目录复制到tomcat的webapps目录下,该名为luceneweb
4.2.复制lucene-core-2.3.2.jar和lucene-demos-2.3.2.jar到luceneweb/WEB_INF/lib目录下(或将luceneweb.war复制到tomcat的webapps目录下)没仔细试,好像不行

4.3.将index目录复制到luceneweb目录下
4.4.编辑luceneweb下的configuration.jsp,设置String indexLocation = “/usr/share/tomcat6/webapps/luceneweb/index”;String appfooter也可以自行设置
4.5.重启tomcat,访问http://localhost:8080/luceneweb/,就可以看到lucene demo的界面了,可以试着搜索下看看~

5.安装Nutch
可以去Apache的官方网页http://www.apache.org/dyn/closer.cgi/lucene/nutch/ 下载最新版的Nutch,目前最新版是nutch-0.9
解压缩到目标文件夹即可。
Nutch和tomcat,eclipse的是接下来要做的工作了

Lucene:基于Java的全文检索引擎简介

2008-09-19,星期五 | 分类:干活 | 标签: | 349

Lucene:基于Java的全文检索引擎简介
请点击查看原文。##CONTINUE##

Lucene是一个基于Java的全文索引工具包。
基于Java的全文索引引擎Lucene简介:关于作者和Lucene的历史
全文检索的实现:Luene全文索引和数据库索引的比较
中文切分词机制简介:基于词库和自动切分词算法的比较
具体的安装和使用简介:系统结构介绍和演示
Hacking Lucene:简化的查询分析器,删除的实现,定制的排序,应用接口的扩展
从Lucene我们还可以学到什么

参考资料:
Apache: Lucene Project
http://jakarta.apache.org/lucene/
Lucene开发/用户邮件列表归档
http://www.mail-archive.com/lucene-dev@jakarta.apache.org/
http://www.mail-archive.com/lucene-user@jakarta.apache.org/
The Lucene search engine: Powerful, flexible, and free
http://www.javaworld.com/javaworld/jw-09-2000/jw-0915-Lucene_p.html
Lucene Tutorial
http://www.darksleep.com/puff/lucene/lucene.html
Notes on distributed searching with Lucene
http://home.clara.net/markharwood/lucene/
中文语言的切分词
http://www.google.com/search?sourceid=navclient&hl=zh-CN&q=chinese+word+segment
搜索引擎工具介绍
http://searchtools.com/
Lucene作者Cutting的几篇论文和专利
http://lucene.sourceforge.net/publications.html
Lucene的.NET实现:dotLucene
http://sourceforge.net/projects/dotlucene/
Lucene作者Cutting的另外一个项目:基于Java的搜索引擎Nutch
http://www.nutch.org/
http://sourceforge.net/projects/nutch/
关于基于词表和N-Gram的切分词比较
http://china.nikkeibp.co.jp/cgi-bin/china/news/int/int200302100112.html
2005-01-08 Cutting在Pisa大学做的关于Lucene的讲座:非常详细的Lucene架构解说
特别感谢:前网易CTO许良杰(Jack Xu)给我的指导:是您将我带入了搜索引擎这个行业。