`
xiamizy
  • 浏览: 86215 次
  • 性别: Icon_minigender_1
  • 来自: 南京
博客专栏
78437efc-ad8e-387c-847f-a092d52e81a6
spring framew...
浏览量:4768
社区版块
存档分类
最新评论

heritrix 3.2.0 -- 环境搭建

阅读更多

heritrix作为一个比较经典的开源爬虫,写这篇文章目的是因为,3.X之后的heritrix的介绍以及配置的文章比较少了。

heritrix 3.x 以后使用maven 2配置jar包引用,但是总是有好多包没法从maven库下载。所以,这里讲的环境搭建直接使用了编译好的工程来做,heritrix-3.2.0-dist.tar.gz以及源码压缩包heritrix-3.2.0-src.tar.gz

 

具体方法如下:

新建java工程(非maven)


将heritrix-3.2.0-dist.tar.gz解压放到工程目录

添加源代码引用,使用heritrix-3.2.0-src.zip:



 


 尝试启动heritrix,heritrix内核使用jetty所以不需要依附tomcat或者其他web容器。

入口类是这个org.archive.crawler.Heritrix



 
 

 启动成功:

Oracle Corporation Java(TM) SE Runtime Environment 1.7.0_55-b13
Using ad-hoc HTTPS certificate with fingerprint...
SHA1:7C:99:FC:BC:62:13:DD:F3:B8:24:2F:EF:B7:60:0E:E2:AF:A1:13:8E
Verify in browser before accepting exception.
2014-07-11 01:54:31.408 警告 thread-1 org.archive.crawler.framework.Engine.findJobConfigs() invalid job directory: .\jobs\.gitignore where job expected from: .\jobs\.gitignore
2014-07-11 01:54:31.550:INFO::Logging to STDERR via org.mortbay.log.StdErrLog
2014-07-11 01:54:31.552:INFO::jetty-6.1.26
2014-07-11 01:54:31.753:INFO::Started SslSocketConnector@localhost:9095
engine listening at port 9095
operator login set per command-line
NOTE: We recommend a longer, stronger password, especially if your web 
interface will be internet-accessible.
Heritrix version: 3.2.0

请求: https://localhost:9095/



 现在可以正常使用了。

heritrix 3.2.0 dist 包下载见http://mitchz.iteye.com/blog/2088134

  • 大小: 15.2 KB
  • 大小: 6.6 KB
  • 大小: 95.7 KB
  • 大小: 67.9 KB
  • 大小: 25.3 KB
  • 大小: 28.5 KB
分享到:
评论
2 楼 xiamizy 2014-10-28  
zhang_637 写道
赞楼主。按照楼主的方法改成支持maven的方式
call mvn install:install-file -DgroupId=it.unimi.dsi -DartifactId=fastutil -Dversion=5.0.7 -Dpackaging=jar -Dfile=D:\workspace\heritrix-package-master\heritrix-3.2.0\lib\fastutil-5.0.7.jar
call mvn install:install-file -DgroupId=org.archive.overlays -DartifactId=archive-overlay-commons-httpclient -Dversion=3.1 -Dpackaging=jar -Dfile=D:\workspace\heritrix-package-master\heritrix-3.2.0\lib\archive-overlay-commons-httpclient-3.1.jar
call mvn install:install-file -DgroupId=com.anotherbigidea -DartifactId=javaswf -Dversion=CVS-SNAPSHOT-1 -Dpackaging=jar -Dfile=D:\workspace\heritrix-package-master\heritrix-3.2.0\lib\javaswf-CVS-SNAPSHOT-1.jar
call mvn install:install-file -DgroupId=com.esotericsoftware -DartifactId=minlog -Dversion=1.2 -Dpackaging=jar -Dfile=D:\workspace\heritrix-package-master\heritrix-3.2.0\lib\minlog-1.2.jar
call mvn install:install-file -DgroupId=org.dnsjava -DartifactId=dnsjava -Dversion=2.0.3 -Dpackaging=jar -Dfile=D:\workspace\heritrix-package-master\heritrix-3.2.0\lib\dnsjava-2.0.3.jar
call mvn install:install-file -DgroupId=it.unimi.dsi -DartifactId=mg4j -Dversion=1.0.1 -Dpackaging=jar -Dfile=D:\workspace\heritrix-package-master\heritrix-3.2.0\lib\mg4j-1.0.1.jar
call mvn install:install-file -DgroupId=com.esotericsoftware -DartifactId=kryo -Dversion=1.01 -Dpackaging=jar -Dfile=D:\workspace\heritrix-package-master\heritrix-3.2.0\lib\kryo-1.01.jar
call mvn install:install-file -DgroupId=org.archive -DartifactId=ia-web-commons -Dversion=1.0-SNAPSHOT -Dpackaging=jar -Dfile=D:\workspace\heritrix-package-master\heritrix-3.2.0\lib\ia-web-commons-1.0-SNAPSHOT.jar
call mvn install:install-file -DgroupId=com.esotericsoftware -DartifactId=reflectasm -Dversion=0.8 -Dpackaging=jar -Dfile=D:\workspace\heritrix-package-master\heritrix-3.2.0\lib\reflectasm-0.8.jar
call mvn install:install-file -DgroupId=joda-time -DartifactId=joda-time -Dversion=1.6 -Dpackaging=jar -Dfile=D:\workspace\heritrix-package-master\heritrix-3.2.0\lib\joda-time-1.6.jar


 
1 楼 zhang_637 2014-10-28  
赞楼主。按照楼主的方法改成支持maven的方式
call mvn install:install-file -DgroupId=it.unimi.dsi -DartifactId=fastutil -Dversion=5.0.7 -Dpackaging=jar -Dfile=D:\workspace\heritrix-package-master\heritrix-3.2.0\lib\fastutil-5.0.7.jar
call mvn install:install-file -DgroupId=org.archive.overlays -DartifactId=archive-overlay-commons-httpclient -Dversion=3.1 -Dpackaging=jar -Dfile=D:\workspace\heritrix-package-master\heritrix-3.2.0\lib\archive-overlay-commons-httpclient-3.1.jar
call mvn install:install-file -DgroupId=com.anotherbigidea -DartifactId=javaswf -Dversion=CVS-SNAPSHOT-1 -Dpackaging=jar -Dfile=D:\workspace\heritrix-package-master\heritrix-3.2.0\lib\javaswf-CVS-SNAPSHOT-1.jar
call mvn install:install-file -DgroupId=com.esotericsoftware -DartifactId=minlog -Dversion=1.2 -Dpackaging=jar -Dfile=D:\workspace\heritrix-package-master\heritrix-3.2.0\lib\minlog-1.2.jar
call mvn install:install-file -DgroupId=org.dnsjava -DartifactId=dnsjava -Dversion=2.0.3 -Dpackaging=jar -Dfile=D:\workspace\heritrix-package-master\heritrix-3.2.0\lib\dnsjava-2.0.3.jar
call mvn install:install-file -DgroupId=it.unimi.dsi -DartifactId=mg4j -Dversion=1.0.1 -Dpackaging=jar -Dfile=D:\workspace\heritrix-package-master\heritrix-3.2.0\lib\mg4j-1.0.1.jar
call mvn install:install-file -DgroupId=com.esotericsoftware -DartifactId=kryo -Dversion=1.01 -Dpackaging=jar -Dfile=D:\workspace\heritrix-package-master\heritrix-3.2.0\lib\kryo-1.01.jar
call mvn install:install-file -DgroupId=org.archive -DartifactId=ia-web-commons -Dversion=1.0-SNAPSHOT -Dpackaging=jar -Dfile=D:\workspace\heritrix-package-master\heritrix-3.2.0\lib\ia-web-commons-1.0-SNAPSHOT.jar
call mvn install:install-file -DgroupId=com.esotericsoftware -DartifactId=reflectasm -Dversion=0.8 -Dpackaging=jar -Dfile=D:\workspace\heritrix-package-master\heritrix-3.2.0\lib\reflectasm-0.8.jar
call mvn install:install-file -DgroupId=joda-time -DartifactId=joda-time -Dversion=1.6 -Dpackaging=jar -Dfile=D:\workspace\heritrix-package-master\heritrix-3.2.0\lib\joda-time-1.6.jar

相关推荐

Global site tag (gtag.js) - Google Analytics