heritrix作为一个比较经典的开源爬虫,写这篇文章目的是因为,3.X之后的heritrix的介绍以及配置的文章比较少了。
heritrix 3.x 以后使用maven 2配置jar包引用,但是总是有好多包没法从maven库下载。所以,这里讲的环境搭建直接使用了编译好的工程来做,heritrix-3.2.0-dist.tar.gz以及源码压缩包heritrix-3.2.0-src.tar.gz
具体方法如下:
新建java工程(非maven)
将heritrix-3.2.0-dist.tar.gz解压放到工程目录
添加源代码引用,使用heritrix-3.2.0-src.zip:
尝试启动heritrix,heritrix内核使用jetty所以不需要依附tomcat或者其他web容器。
入口类是这个org.archive.crawler.Heritrix
启动成功:
Oracle Corporation Java(TM) SE Runtime Environment 1.7.0_55-b13 Using ad-hoc HTTPS certificate with fingerprint... SHA1:7C:99:FC:BC:62:13:DD:F3:B8:24:2F:EF:B7:60:0E:E2:AF:A1:13:8E Verify in browser before accepting exception. 2014-07-11 01:54:31.408 警告 thread-1 org.archive.crawler.framework.Engine.findJobConfigs() invalid job directory: .\jobs\.gitignore where job expected from: .\jobs\.gitignore 2014-07-11 01:54:31.550:INFO::Logging to STDERR via org.mortbay.log.StdErrLog 2014-07-11 01:54:31.552:INFO::jetty-6.1.26 2014-07-11 01:54:31.753:INFO::Started SslSocketConnector@localhost:9095 engine listening at port 9095 operator login set per command-line NOTE: We recommend a longer, stronger password, especially if your web interface will be internet-accessible. Heritrix version: 3.2.0
请求: https://localhost:9095/
现在可以正常使用了。
相关推荐
heritrix3.2.0的源文件,原下载地址已不可用,有喜欢研究爬虫的朋友可以看看。
我把下载最新的 heritrix-3.2.0 包 发到网上,供大家下载学习。
Heritrix 是一个由 java 开发的、开源的网络爬虫,用户可以使用它来从网上抓取想要的资源。官网下载好像要翻墙,我下下来方便大家使用,这是3.4版本,配合heritrix-3.4.0-SNAPSHOT-dist.zip使用
heritrix-3.2.0的源码,有意学习爬虫的童鞋,可以研究下源代码!
此文件中包括heritrix-1.14.4.zip和heritrix-1.14.4-src.zip 其中src是源码,已测试能够集成到eclipse中进行二次开发
heritrix-1.14.4-src绝对是你想要的那一种,找了很长时间啊,和你一起分享
Heritrix3 - 可扩展、web级别的Java爬虫项目
heritrix-1.14.4-src.zip
heritrix-1.12.1-src.zip与heritrix 配置文档
一个java的网络爬虫程序。heritrix-1.14.0-src
heritrix-3.1.0 最新官网jar包。包括heritrix-3.1.0-dist.zip包与heritrix-3.1.0-src.zip包。是爬虫神器
Heritrix是一个开源,可扩展的web爬虫项目。用户可以使用它来从网上抓取想要的资源。Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签。其最出色之处在于它良好的可扩展性,方便用户实现自己的抓取...
近期需要使用heritrix-1.14.4,配了半天才配好,这个是控制台执行版本. 注意:解压到相关目录,之后配置系统环境变量"HERITRIX_HOME"到该解压目录(Java环境已经配置好)。 使用控制台命令启动 : heritrix --admin=...
包含: heritrix-3.1.0-dist.tar.gz heritrix-3.1.0-src.tar.gz 官方文档下载地址
heritrix正确完整的配置heritrix正确完整的配置heritrix正确完整的配置heritrix正确完整的配置heritrix正确完整的配置
Heritrix 是一个由 java 开发的、开源的网络爬虫,用户可以使用它来从网上抓取想要的资源。官网下载好像要翻墙,我下下来方便大家使用,这是3.4版本
heritrix-1.14.2.zip是一个开源项目
这是我在官方网站下载的,里面还有在myeclipse安装方法及常见问题解决
27 April 2008 - heritrix Java 1.14.0 available src
因为文件大了点 把docs取了出来单独上传 需要的下载一下