`
tedeyang
  • 浏览: 318788 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

lucene搜索引擎简单应用

阅读更多



还用lucene架了个搜索引擎,对pdf进行全文搜索(联合pdfbox)。

核心类是一个Agent,使用开源的庖丁中文分词器

代码:

 

QUOTE:
package gov.jsgs.ssgs.service;

import gov.jsgs.ssgs.form.PdfForm;
import gov.jsgs.ssgs.model.Ssgs_pdfModel;

import java.io.IOException;
import java.util.ArrayList;
import java.util.List;

import net.paoding.analysis.analyzer.PaodingAnalyzer;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.index.CorruptIndexException;
import org.apache.lucene.index.IndexReader;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.StaleReaderException;
import org.apache.lucene.index.Term;
import org.apache.lucene.queryParser.ParseException;
import org.apache.lucene.queryParser.QueryParser;
import org.apache.lucene.search.Hits;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.Searcher;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;
import org.apache.lucene.store.LockObtainFailedException;

import common.Logger;

/**
 * 搜索引擎代理,目前设置为在c:\pdf_index目录下保存索引,可以通过setIndexDir()修改.
 *  <p>
 *  <b>注意:必须用单例模式运行,使用init()初始化,destroy()释放资源</b>
 *
 * @author tedeyang
 *
 */
public class LuceneAgent {

    private static Logger log = Logger.getLogger(LuceneAgent.class);
    static Object lock = new Object();
    Analyzer analyzer = null;

    Directory ramDir = null;

    IndexWriter writer = null;

    String indexDir = "c:/pdf_index";

    IndexReader reader;

    QueryParser parser;

    Searcher searcher;

    public void init() throws CorruptIndexException, LockObtainFailedException,
            IOException {
        log.info("初始化Lucene搜索引擎...");
        log.debug("初始化分词器...");
        analyzer = new PaodingAnalyzer();
        ramDir = FSDirectory.getDirectory(indexDir);
        if (ramDir.fileExists("write.lock")) {
            ramDir.deleteFile("write.lock");
            log.debug("清除引擎文件锁 ...");
        }
        try {
            writer = new IndexWriter(ramDir, analyzer, false);
        } catch (Exception e) {
            writer = new IndexWriter(ramDir, analyzer, true);
        }
        reader = IndexReader.open(ramDir);
        parser = new QueryParser(LucenePDFDocument.CONTENT, analyzer);
        searcher = new IndexSearcher(ramDir);

    }

    public void destroy() {
        log.info("关闭搜索引擎...");
        try {
            reader.close();
        } catch (IOException e) {
            e.printStackTrace();
        }
        try {
            writer.close();
        } catch (CorruptIndexException e) {
            e.printStackTrace();
        } catch (IOException e) {
            e.printStackTrace();
        }
    }

    public String getIndexDir() {
        return indexDir;
    }

    /**
     * @param indexDir
     *            存放索引文件的目录,默认c:/pdf_index
     */
    public void setIndexDir(String indexDir) {
        this.indexDir = indexDir;
    }

    public void resetIndex() {

    }

    /**
     * 添加索引文档
     *
     * @param doc
     * @throws CorruptIndexException
     * @throws IOException
     */
    public void addPdf(Document doc) throws CorruptIndexException, IOException {
        writer.addDocument(doc, analyzer);
        writer.optimize();
        writer.flush();
    }

    /**
     * 添加pdf文件索引。完成后会关闭pdf的inputstream
     *
     * @param pdf
     * @throws CorruptIndexException
     * @throws IOException
     */
    public void addPdf(Ssgs_pdfModel pdf) throws CorruptIndexException,
            IOException {
        writer.addDocument(LucenePDFDocument.getDocument(pdf), analyzer);
        writer.optimize();
        writer.flush();
    }

    /**
     * 查询
     *
     * @param keyword
     * @return list[PdfForm]
     * @throws ParseException
     * @throws IOException
     */
    public List search(String keyword) throws ParseException, IOException {
        if (keyword == null || keyword.matches("^\\s*$")) {
            return null;
        }
        Hits hits = null;
        synchronized (lock) {
            Query query = parser.parse(keyword).rewrite(reader);
            hits = searcher.search(query);
        }
        List pdfs = new ArrayList(hits.length());
        for (int i = 0; i < hits.length(); i++) {
            PdfForm pdf = new PdfForm();
            pdf.setFile_name(hits.doc(i).get(LucenePDFDocument.FILE_NAME));
            pdf.setId(Integer.parseInt(hits.doc(i).get(LucenePDFDocument.ID)));
            try {
                pdf.setM_time( hits.doc(i).get( LucenePDFDocument.MODIFIED));
            } catch (Exception e) {
                pdf.setM_time(null);
            }
            pdf.setSummary(hits.doc(i).get(LucenePDFDocument.SUMMARY));
            pdfs.add(pdf);
        }
        return pdfs;
    }

    /**
     * 根据唯一主键删除索引
     *
     * @param id
     * @throws StaleReaderException
     * @throws CorruptIndexException
     * @throws LockObtainFailedException
     * @throws IOException
     */
    public synchronized void delete(String id) throws StaleReaderException,
            CorruptIndexException, LockObtainFailedException, IOException {
        Term term = new Term(LucenePDFDocument.ID, id);
        synchronized (lock) {
            writer.deleteDocuments(term);
            writer.optimize();
            writer.flush();
        }
    }
}

 

 

分享到:
评论
1 楼 gongji 2010-05-04  
有机会得研究研究lucene了

相关推荐

    lucene 搜索引擎网页实例

    Spring框架初学者的应用,Lucene框架的简单实用,内涵数据集。

    基于dotnet实现的lucene算法的简单搜索引擎

    基于dotnet实现的lucene算法的简单搜索引擎,可以经过简单的修改,应用到自己的全文检索应用中。

    Java搜索引擎 Lucene(一)

    Java搜索引擎 Lucene,是一套用于全文检索和搜寻的开源程式库,由Apache软件基金会支持和提供。Lucene提供了一个简单确强大的应用程式接口,能够做全文索引和搜寻,在Java开发环境里Lucene是一个成熟工具;就其本身而...

    Java搜索引擎 Lucene(二)

    Java搜索引擎 Lucene,是一套用于全文检索和搜寻的开源程式库,由Apache软件基金会支持和提供。Lucene提供了一个简单确强大的应用程式接口,能够做全文索引和搜寻,在Java开发环境里Lucene是一个成熟工具;就其本身而...

    基于lucene的搜索引擎总结

    浅谈网络搜索引擎的实现 知识管理系统网络搜索模块开发实践交流 功能需求 可自定义要搜索的网站列表(以下简称目标列表) 可对目标列表网站的网页内容进行检索 可对目标列表网站的网页内容进行自动分类处理 可自定义...

    解密搜索引擎技术实战-Lucene&java;精华版

    《解密搜索引擎技术实战——Lucene&Java;精华版(第3版)》是猎兔搜索开发团队的软件研发和教学实践的经验汇总。《解密搜索引擎技术实战——Lucene&Java;精华版(第3版)》总结搜索引擎相关理论与实际解决方案,并给...

    Lucene数据搜索笔记

    Lucene是apache软件基金会 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,但它不是一个完整的...人们经常提到信息检索程序库,虽然与搜索引擎有关,但不应该将信息检索程序库与搜索引擎相混淆。

    Java搜索引擎 Lucene(三)

    Java搜索引擎 Lucene,是一套用于全文检索和搜寻的开源程式库,由Apache软件基金会支持和提供。Lucene提供了一个简单确强大的应用程式接口,能够做全文索引和搜寻,在Java开发环境里Lucene是一个成熟工具;就其本身而...

    lucene简单介绍及solr搭建使用

    lucene的应用.pdf 01solr企业级搜索引擎准备阶段.pdf 02solr企业级搜索引擎实战演练.pdf 适合新手搭建solr使用

    1.解密搜索引擎技术实战:Lucene&Java;精华版(第3版)

    本书总结搜索引擎相关理论与实际解决方案,并给出了Java实现,其中利用了流行的开源项目Lucene和Solr,而且还包括原创的实现。本书主要包括总体介绍部分、爬虫部分、自然语言处理部分、全文检索部分以及相关案例分析...

    Lucene介绍视频教程

    Lucene和搜索引擎不同,Lucene是一套用java或其它语言写的全文检索的工具包,为应用程序提供了很多个api接口去调用。〖课程目录〗:1Lucene-全文检索是什么?.mp42Lucene-流程之原生文档.mp43Lucene-流程之创建文档...

    基于lucene的站内搜索-beta.pdf

    用Lucene构造一个“索引-查询”的应用是非常简单的,搭好环境,参照(修改)示范代码,很容易就可以成功。但是,要构造一个真正大规模、稳定、可靠的应用,就不说这么简单。程序的编写、模块的分布、架构的设计,都...

    lucene-5.5.5

    lucene5.5.5, Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,但它...人们经常提到信息检索程序库,虽然与搜索引擎有关,但不应该将信息检索程序库与搜索引擎相混淆。

    lucene-8.1.1.zip

    lucene-8.1.1版本 Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,但...人们经常提到信息检索程序库,虽然与搜索引擎有关,但不应该将信息检索程序库与搜索引擎相混淆。

    Lucene结合Sql建立索引

    不过千万别以为Lucene是一个象google那样的搜索引擎,Lucene甚至不是一个应用程序,它仅仅是一个工具,一个Library.你也可以把它理解为一个将索引,搜索功能封装的很好的一套简单易用的API.利用这套API你可以做很多有关...

    lucene-5.3.0+solr-5.3.0 jar包和文档示例

    Lucene提供了一个简单却强大的应用程式接口,能够做全文索引和搜寻。在Java开发环境里Lucene是一个成熟的免费开源工具。就其本身而言,Lucene是最受欢迎的免费Java资讯检索程式库。人们经常提到资讯检索程式库,虽然...

    ES搜索引擎.pptx

    Elasticsearch是一个基于Apache Lucene(TM)的开源搜索引擎,无论在开源还是专有领域,Lucene可以被认为是迄今为止最先进、性能最好的、功能最全的搜索引擎库。 但是,Lucene只是一个库。想要发挥其强大的作用,你...

    站内搜索(Lucene.net)测试

    不过千万别以为Lucene是一个象google那样的搜索引擎,Lucene甚至不是一个应用程序,它仅仅是一个工具,一个Library.你也可以把它理解为一个将索引,搜索功能封装的很好的一套简单易用的API.利用这套API你可以做很多有关...

    Lucene.Net2.3.China中文注(个别连接超时)

    不过千万别以为Lucene是一个象google那样的搜索引擎,Lucene甚至不是一个应用程序,它仅仅是一个工具,一个Library.你也可以把它理解为一个将索引,搜索功能封装的很好的一套简单易用的API.利用这套API你可以做很多有关...

    lucene4.3源码

    Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,但它不是一个完整的...人们经常提到信息检索程序库,虽然与搜索引擎有关,但不应该将信息检索程序库与搜索引擎相混淆。

Global site tag (gtag.js) - Google Analytics