分享

火车头采集:如何下载文章里面的图片

 昵称y4Wa5 2020-07-09

火车头采集:如何下载文章里面的图片

很多客户会采集文字信息,但是就是不会下载图片,现在我给大家说一下怎么下载图片。 
比如我们要下载这篇文章的图片http://www./jingdian/sichuan/2009/0910/21770.html,首先采集到这篇文章的内容, }1M}F%{7)Q[H14J`~Y2`OOH.jpg 

采集完内容之后我们开始处理图片的下载。 
你如果直接点击下载图片肯定是不行的,因为采集器下载图片的格式必须是标准的这种<img src='参数'/>格式,其中参数表示完整的图片地址。 
一般文章里面的图片都不是这种标准的格式,而且源代码里面的图片地址也不一定是完整的,比如上面这个例子,源代码里面图片的格式这样的<img height='345' alt='' width='600' border='0' src='..\..\..\uploads\090910\1_163419_1.jpg' />,所以我们要把这种不标准的格式替换成标准的图片格式,并且把源代码里面的图片地址补完整。 7Z78JIT3$)1[$_BIV{1BLRP.jpg 

经过这个替换之后原来的图片的img格式就替换为采集器可以识别的标准格式了。 
如果文章内容里面只有图片的部分地址,没有img格式,处理方法是一样的,比如上面的文章的图片地址可以从两个地址获取到,我们也可以从这个链接这里获取到,也可以这样内容替换,将这个<a target='_blank' href='..\..\..\uploads\参数\参数'>替换为<img src='http://www./jingdian/uploads/[参数1]/[参数2]'/>,不管怎么处理。最终采集的时候是标准的img格式就可以了。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约