- 浏览: 318788 次
- 性别:
- 来自: 上海
文章分类
最新评论
-
libaogui777:
前辈,您好, 使用PDFbox 提取内容遇到一个问题,想请教您 ...
java进行pdf解析-----pdfbox -
xin_hany:
提示惊醒了一下,解决了一个让人惆怅的问题,
danga的MemcachedClient的几个缺陷 -
roroyangivan:
牛B啊。。。我觉得 这种 回答。。。阿里的的CTO 都 HOL ...
怎样才是一个好的架构? -
406657836:
今天知道了一个线程创建时会给stack分配1M内存?一个线程默 ...
jvm线程的stack -
linzx0212:
受教了……
danga的MemcachedClient的几个缺陷
还用lucene架了个搜索引擎,对pdf进行全文搜索(联合pdfbox)。 核心类是一个Agent,使用开源的庖丁中文分词器 代码:
QUOTE:
package gov.jsgs.ssgs.service;
import gov.jsgs.ssgs.form.PdfForm;
import gov.jsgs.ssgs.model.Ssgs_pdfModel;
import java.io.IOException;
import java.util.ArrayList;
import java.util.List;
import net.paoding.analysis.analyzer.PaodingAnalyzer;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.index.CorruptIndexException;
import org.apache.lucene.index.IndexReader;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.StaleReaderException;
import org.apache.lucene.index.Term;
import org.apache.lucene.queryParser.ParseException;
import org.apache.lucene.queryParser.QueryParser;
import org.apache.lucene.search.Hits;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.Searcher;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;
import org.apache.lucene.store.LockObtainFailedException;
import common.Logger;
/**
* 搜索引擎代理,目前设置为在c:\pdf_index目录下保存索引,可以通过setIndexDir()修改.
* <p>
* <b>注意:必须用单例模式运行,使用init()初始化,destroy()释放资源</b>
*
* @author tedeyang
*
*/
public class LuceneAgent {
private static Logger log = Logger.getLogger(LuceneAgent.class);
static Object lock = new Object();
Analyzer analyzer = null;
Directory ramDir = null;
IndexWriter writer = null;
String indexDir = "c:/pdf_index";
IndexReader reader;
QueryParser parser;
Searcher searcher;
public void init() throws CorruptIndexException, LockObtainFailedException,
IOException {
log.info("初始化Lucene搜索引擎...");
log.debug("初始化分词器...");
analyzer = new PaodingAnalyzer();
ramDir = FSDirectory.getDirectory(indexDir);
if (ramDir.fileExists("write.lock")) {
ramDir.deleteFile("write.lock");
log.debug("清除引擎文件锁 ...");
}
try {
writer = new IndexWriter(ramDir, analyzer, false);
} catch (Exception e) {
writer = new IndexWriter(ramDir, analyzer, true);
}
reader = IndexReader.open(ramDir);
parser = new QueryParser(LucenePDFDocument.CONTENT, analyzer);
searcher = new IndexSearcher(ramDir);
}
public void destroy() {
log.info("关闭搜索引擎...");
try {
reader.close();
} catch (IOException e) {
e.printStackTrace();
}
try {
writer.close();
} catch (CorruptIndexException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
}
}
public String getIndexDir() {
return indexDir;
}
/**
* @param indexDir
* 存放索引文件的目录,默认c:/pdf_index
*/
public void setIndexDir(String indexDir) {
this.indexDir = indexDir;
}
public void resetIndex() {
}
/**
* 添加索引文档
*
* @param doc
* @throws CorruptIndexException
* @throws IOException
*/
public void addPdf(Document doc) throws CorruptIndexException, IOException {
writer.addDocument(doc, analyzer);
writer.optimize();
writer.flush();
}
/**
* 添加pdf文件索引。完成后会关闭pdf的inputstream
*
* @param pdf
* @throws CorruptIndexException
* @throws IOException
*/
public void addPdf(Ssgs_pdfModel pdf) throws CorruptIndexException,
IOException {
writer.addDocument(LucenePDFDocument.getDocument(pdf), analyzer);
writer.optimize();
writer.flush();
}
/**
* 查询
*
* @param keyword
* @return list[PdfForm]
* @throws ParseException
* @throws IOException
*/
public List search(String keyword) throws ParseException, IOException {
if (keyword == null || keyword.matches("^\\s*$")) {
return null;
}
Hits hits = null;
synchronized (lock) {
Query query = parser.parse(keyword).rewrite(reader);
hits = searcher.search(query);
}
List pdfs = new ArrayList(hits.length());
for (int i = 0; i < hits.length(); i++) {
PdfForm pdf = new PdfForm();
pdf.setFile_name(hits.doc(i).get(LucenePDFDocument.FILE_NAME));
pdf.setId(Integer.parseInt(hits.doc(i).get(LucenePDFDocument.ID)));
try {
pdf.setM_time( hits.doc(i).get( LucenePDFDocument.MODIFIED));
} catch (Exception e) {
pdf.setM_time(null);
}
pdf.setSummary(hits.doc(i).get(LucenePDFDocument.SUMMARY));
pdfs.add(pdf);
}
return pdfs;
}
/**
* 根据唯一主键删除索引
*
* @param id
* @throws StaleReaderException
* @throws CorruptIndexException
* @throws LockObtainFailedException
* @throws IOException
*/
public synchronized void delete(String id) throws StaleReaderException,
CorruptIndexException, LockObtainFailedException, IOException {
Term term = new Term(LucenePDFDocument.ID, id);
synchronized (lock) {
writer.deleteDocuments(term);
writer.optimize();
writer.flush();
}
}
}
import gov.jsgs.ssgs.form.PdfForm;
import gov.jsgs.ssgs.model.Ssgs_pdfModel;
import java.io.IOException;
import java.util.ArrayList;
import java.util.List;
import net.paoding.analysis.analyzer.PaodingAnalyzer;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.index.CorruptIndexException;
import org.apache.lucene.index.IndexReader;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.StaleReaderException;
import org.apache.lucene.index.Term;
import org.apache.lucene.queryParser.ParseException;
import org.apache.lucene.queryParser.QueryParser;
import org.apache.lucene.search.Hits;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.Searcher;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;
import org.apache.lucene.store.LockObtainFailedException;
import common.Logger;
/**
* 搜索引擎代理,目前设置为在c:\pdf_index目录下保存索引,可以通过setIndexDir()修改.
* <p>
* <b>注意:必须用单例模式运行,使用init()初始化,destroy()释放资源</b>
*
* @author tedeyang
*
*/
public class LuceneAgent {
private static Logger log = Logger.getLogger(LuceneAgent.class);
static Object lock = new Object();
Analyzer analyzer = null;
Directory ramDir = null;
IndexWriter writer = null;
String indexDir = "c:/pdf_index";
IndexReader reader;
QueryParser parser;
Searcher searcher;
public void init() throws CorruptIndexException, LockObtainFailedException,
IOException {
log.info("初始化Lucene搜索引擎...");
log.debug("初始化分词器...");
analyzer = new PaodingAnalyzer();
ramDir = FSDirectory.getDirectory(indexDir);
if (ramDir.fileExists("write.lock")) {
ramDir.deleteFile("write.lock");
log.debug("清除引擎文件锁 ...");
}
try {
writer = new IndexWriter(ramDir, analyzer, false);
} catch (Exception e) {
writer = new IndexWriter(ramDir, analyzer, true);
}
reader = IndexReader.open(ramDir);
parser = new QueryParser(LucenePDFDocument.CONTENT, analyzer);
searcher = new IndexSearcher(ramDir);
}
public void destroy() {
log.info("关闭搜索引擎...");
try {
reader.close();
} catch (IOException e) {
e.printStackTrace();
}
try {
writer.close();
} catch (CorruptIndexException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
}
}
public String getIndexDir() {
return indexDir;
}
/**
* @param indexDir
* 存放索引文件的目录,默认c:/pdf_index
*/
public void setIndexDir(String indexDir) {
this.indexDir = indexDir;
}
public void resetIndex() {
}
/**
* 添加索引文档
*
* @param doc
* @throws CorruptIndexException
* @throws IOException
*/
public void addPdf(Document doc) throws CorruptIndexException, IOException {
writer.addDocument(doc, analyzer);
writer.optimize();
writer.flush();
}
/**
* 添加pdf文件索引。完成后会关闭pdf的inputstream
*
* @param pdf
* @throws CorruptIndexException
* @throws IOException
*/
public void addPdf(Ssgs_pdfModel pdf) throws CorruptIndexException,
IOException {
writer.addDocument(LucenePDFDocument.getDocument(pdf), analyzer);
writer.optimize();
writer.flush();
}
/**
* 查询
*
* @param keyword
* @return list[PdfForm]
* @throws ParseException
* @throws IOException
*/
public List search(String keyword) throws ParseException, IOException {
if (keyword == null || keyword.matches("^\\s*$")) {
return null;
}
Hits hits = null;
synchronized (lock) {
Query query = parser.parse(keyword).rewrite(reader);
hits = searcher.search(query);
}
List pdfs = new ArrayList(hits.length());
for (int i = 0; i < hits.length(); i++) {
PdfForm pdf = new PdfForm();
pdf.setFile_name(hits.doc(i).get(LucenePDFDocument.FILE_NAME));
pdf.setId(Integer.parseInt(hits.doc(i).get(LucenePDFDocument.ID)));
try {
pdf.setM_time( hits.doc(i).get( LucenePDFDocument.MODIFIED));
} catch (Exception e) {
pdf.setM_time(null);
}
pdf.setSummary(hits.doc(i).get(LucenePDFDocument.SUMMARY));
pdfs.add(pdf);
}
return pdfs;
}
/**
* 根据唯一主键删除索引
*
* @param id
* @throws StaleReaderException
* @throws CorruptIndexException
* @throws LockObtainFailedException
* @throws IOException
*/
public synchronized void delete(String id) throws StaleReaderException,
CorruptIndexException, LockObtainFailedException, IOException {
Term term = new Term(LucenePDFDocument.ID, id);
synchronized (lock) {
writer.deleteDocuments(term);
writer.optimize();
writer.flush();
}
}
}
发表评论
-
Ruby API代码技巧
2012-05-23 21:53 1094http://www.slideshare.net/ihowe ... -
怎样才是一个好的架构?
2012-05-18 17:37 3676关于软件设计的抽象思想 曾经被阿里的某CTO问过一个问题 ... -
nginx的编译选项
2012-04-25 17:30 1509下载nginx源码包,编译命令之一: ./co ... -
10 Core Architecture Pattern Variations for Achieving Scalability
2011-11-20 22:00 1032【转载】:http://highscalability.com ... -
wowza doc of multi-bitrate streaming
2011-11-06 11:49 2342http://www.wowza.com/forums/con ... -
今天回首
2011-09-01 22:13 1256突然发觉很久不上javaeye了,仿佛生活中遗忘了这一块。 每 ... -
你的邮件”被垃圾“了吗?
2010-11-30 20:37 1110最近在注册系统中使用邮件激活,用公司的邮箱服务器发送帐号激活邮 ... -
mongodb的map/reduce实属鸡肋
2010-11-24 22:47 1498曾经被mongodb的特性所吸引,没想到map/reduce却 ... -
[老博迁移2005-11-09]TeracMiracle反编译成功
2010-08-12 22:13 868TeracMiracle反编译成功 TM:中国人写 ... -
[老博迁移2005-11-09] 越是官大,越是懒
2010-08-12 22:11 1122越是官大,越是懒 小小的公司里就有官僚了,真 ... -
danga的MemcachedClient的几个缺陷
2010-08-11 16:19 17385最近实际用起来我发现,java版danga的memcached ... -
今天参加RubyConfChina的活动,见识了
2010-06-27 00:27 1189这次是RubyConfChina的 ... -
该死的CXF
2010-04-15 21:20 1158为了连https web services,初步选择以前用得还 ... -
jsp太大编译不了,原来是64k的方法限制
2010-02-11 12:04 2773昨天遇到一个诡异的问题,吓出一身冷汗。 20几个300k ... -
javascript技巧:(function(){})()
2010-02-11 12:03 1181javascript技巧:(function(){})() ... -
java进行pdf解析-----pdfbox
2010-02-11 11:58 10454对pdf解析有不少成熟技术,经过选型,我最后选定用pdfb ... -
用flash动态上传文件
2010-02-11 11:52 1163用flash写了一个动态的文件上传功能,当然也用了jque ... -
不当家不知道柴米贵,不开发不知道重启费
2010-02-11 11:21 1139话说我开始逐渐脱离群众,开发得越来越少。还好最近做了 ... -
【转】Getting real
2010-02-11 11:18 896【转】Getting real 刚才偶然看到的, ... -
展示下linux强大的命令行——一行命令搞定日志分析
2010-02-11 11:12 1591展示下linux强大的命令行——一行命令搞定日志分析 ...
相关推荐
Spring框架初学者的应用,Lucene框架的简单实用,内涵数据集。
基于dotnet实现的lucene算法的简单搜索引擎,可以经过简单的修改,应用到自己的全文检索应用中。
Java搜索引擎 Lucene,是一套用于全文检索和搜寻的开源程式库,由Apache软件基金会支持和提供。Lucene提供了一个简单确强大的应用程式接口,能够做全文索引和搜寻,在Java开发环境里Lucene是一个成熟工具;就其本身而...
Java搜索引擎 Lucene,是一套用于全文检索和搜寻的开源程式库,由Apache软件基金会支持和提供。Lucene提供了一个简单确强大的应用程式接口,能够做全文索引和搜寻,在Java开发环境里Lucene是一个成熟工具;就其本身而...
浅谈网络搜索引擎的实现 知识管理系统网络搜索模块开发实践交流 功能需求 可自定义要搜索的网站列表(以下简称目标列表) 可对目标列表网站的网页内容进行检索 可对目标列表网站的网页内容进行自动分类处理 可自定义...
《解密搜索引擎技术实战——Lucene&Java;精华版(第3版)》是猎兔搜索开发团队的软件研发和教学实践的经验汇总。《解密搜索引擎技术实战——Lucene&Java;精华版(第3版)》总结搜索引擎相关理论与实际解决方案,并给...
Lucene是apache软件基金会 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,但它不是一个完整的...人们经常提到信息检索程序库,虽然与搜索引擎有关,但不应该将信息检索程序库与搜索引擎相混淆。
Java搜索引擎 Lucene,是一套用于全文检索和搜寻的开源程式库,由Apache软件基金会支持和提供。Lucene提供了一个简单确强大的应用程式接口,能够做全文索引和搜寻,在Java开发环境里Lucene是一个成熟工具;就其本身而...
lucene的应用.pdf 01solr企业级搜索引擎准备阶段.pdf 02solr企业级搜索引擎实战演练.pdf 适合新手搭建solr使用
本书总结搜索引擎相关理论与实际解决方案,并给出了Java实现,其中利用了流行的开源项目Lucene和Solr,而且还包括原创的实现。本书主要包括总体介绍部分、爬虫部分、自然语言处理部分、全文检索部分以及相关案例分析...
Lucene和搜索引擎不同,Lucene是一套用java或其它语言写的全文检索的工具包,为应用程序提供了很多个api接口去调用。〖课程目录〗:1Lucene-全文检索是什么?.mp42Lucene-流程之原生文档.mp43Lucene-流程之创建文档...
用Lucene构造一个“索引-查询”的应用是非常简单的,搭好环境,参照(修改)示范代码,很容易就可以成功。但是,要构造一个真正大规模、稳定、可靠的应用,就不说这么简单。程序的编写、模块的分布、架构的设计,都...
lucene5.5.5, Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,但它...人们经常提到信息检索程序库,虽然与搜索引擎有关,但不应该将信息检索程序库与搜索引擎相混淆。
lucene-8.1.1版本 Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,但...人们经常提到信息检索程序库,虽然与搜索引擎有关,但不应该将信息检索程序库与搜索引擎相混淆。
不过千万别以为Lucene是一个象google那样的搜索引擎,Lucene甚至不是一个应用程序,它仅仅是一个工具,一个Library.你也可以把它理解为一个将索引,搜索功能封装的很好的一套简单易用的API.利用这套API你可以做很多有关...
Lucene提供了一个简单却强大的应用程式接口,能够做全文索引和搜寻。在Java开发环境里Lucene是一个成熟的免费开源工具。就其本身而言,Lucene是最受欢迎的免费Java资讯检索程式库。人们经常提到资讯检索程式库,虽然...
Elasticsearch是一个基于Apache Lucene(TM)的开源搜索引擎,无论在开源还是专有领域,Lucene可以被认为是迄今为止最先进、性能最好的、功能最全的搜索引擎库。 但是,Lucene只是一个库。想要发挥其强大的作用,你...
不过千万别以为Lucene是一个象google那样的搜索引擎,Lucene甚至不是一个应用程序,它仅仅是一个工具,一个Library.你也可以把它理解为一个将索引,搜索功能封装的很好的一套简单易用的API.利用这套API你可以做很多有关...
不过千万别以为Lucene是一个象google那样的搜索引擎,Lucene甚至不是一个应用程序,它仅仅是一个工具,一个Library.你也可以把它理解为一个将索引,搜索功能封装的很好的一套简单易用的API.利用这套API你可以做很多有关...
Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,但它不是一个完整的...人们经常提到信息检索程序库,虽然与搜索引擎有关,但不应该将信息检索程序库与搜索引擎相混淆。