分享

Heritrix的一些操作

 昵称23016082 2015-11-09
查看帮助:
/usr/local/heritrix-3.1.0/bin/heritrix --help

-a --web-admin
访问任务的 WEB 管理页面时需要的用户名和密码.格式是 <用户名>:<密码>.  如, admin:admin.  在 3.1 版本中, 如果 -a 参数后跟着的是一个以 "@"开头的字符串,则系统会把后面的字符串当作一个本地文件系统的文件名,且把该文件中的内容作为用户名和密码.也就是说我们可以把 admin:admin 存放在 /root/key 中,然后通过 -a @/root/key 来启动

-b --web-bind-hosts
WEB 管理端的访问路径. 如果不设置该参数,管理端只能通过 http://localhost/ 或 http://127.0.0.1/ 来访问.不能在其它远程机器上访问。如果想让其它机器都能访问,则要将参数设置成: /

-h,--help  
显示帮助信息

-j,--jobs-dir
显示任务目录.默认是 ./job 目录

-l,--logging-properties
日志配置文件 (例如, conf/logging.properties).  如果文件存在,该文件被用来配置 JAVA 日志.  默认是 ./conf/logging.properties.

-p,--web-port
WEB 管理端的端口.默认是 8443

-r,--run-job
3.1 中已经被取消.不讨论

-s,--ssl-params
没用过

例如:
/usr/local/heritrix-3.1.0/bin/heritrix -a admin:admin
Thu Dec 26 15:40:36 CST 2013 Heritrix starting (pid 15351)
Using ad-hoc HTTPS certificate with fingerprint...
SHA1:B7:81:57:3A:CD:C9:1F:7E:0A:B6:31:2F:40:7C:2A:56:E6:14:2A:3E
Verify in browser before accepting exception.
engine listening at port 8443
operator login set per command-line
NOTE: We recommend a longer, stronger password, especially if your web 
interface will be internet-accessible.

查看端口:
netstat -atln | grep 8443
tcp        0      0 ::ffff:127.0.0.1:8443       :::*                        LISTEN
可以看到,这里没有加 -b 参数,程序只是监听了 127.0.0.1 本机的 8443 端口。也就说只能在本机上通过 https://127.0.0.1:8443 或者 https://localhost:8443 来访问管理端。

关闭程序:

查找对应的运行进程
ps ax | grep heritrix
15161 pts/2    Sl     0:01 /home/jdk1.7/bin/java -Dheritrix.home=/usr/local/heritrix-3.1.0 -Djava.protocol.handler.pkgs=org.archive.net -Dheritrix.out=/usr/local/heritrix-3.1.0/heritrix_out.log -Xmx256m org.archive.crawler.Heritrix -a admin:admin

杀掉对应的进程
kill -9 15161

加上 -b 参数再运行
/usr/local/heritrix-3.1.0/bin/heritrix -a admin:admin -b /
查看端口:
netstat -atln | grep 8443:
tcp        0      0 :::8443                     :::*                        LISTEN

可以看到现在监听的是所有来路的 8443 端口了.

这时候就可以在远程机器上通过该 linux 机器的IP来访问:
https://103.222.183.166:8443/

注意,是 https, 不是 http.
剩下的配置任务可以参照:
后半篇的使用.

想退出任务
Linux <wbr>-- <wbr>Heritrix <wbr>3.1 <wbr>安装
勾上 I'm sure 后按下 Exit Java Process 按钮。则会退出爬虫。这时候在机器上查看 Heritrix 线程发现已经没有了。而且WEB管理端马上也变得不可访问了。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多