dede3.1分页文字采集过滤规则详说(图文教程)续二
2015-01-24信息快讯网
二、采集新目标
目标地址:
1、http://www.tiansou.net/Html/Y_CYFW/R_Gzzj/F_Gzjh/index.html
2、http://www.tiansou.net/Html/Y_CYFW/R_Gzzj/F_Gzjh/2007-2/9/20070209110903558.html
之所以选取两个目标页面,是因为以上的两个页面一个有分页,而另一个没有,并且在分页和全文取样部分有较大的差别。以下的说明是在为采集目标地址(首页)全部链接的基础上改动的,个别地方会显得蛇足,只为说明的方便。
目标文字部分头部代码1:
=700) window.open('/upload/200743213057697.gif');" src="http://files.jb51.net/upload/200743213057697.gif" onload="if(this.width>'700')this.width='700';" border=0>
目标文字部分头部代码2:
=700) window.open('/upload/200743213057679.gif');" src="http://files.jb51.net/upload/200743213057679.gif" onload="if(this.width>'700')this.width='700';" border=0>
通过比较不难发现,两个文字部分的开始采集部分能确定下来为描黑部分,开头部分好说,代码如下:
<TR> <TD height="8"></TD> </TR> <TR> <TD valign="top" class=Connet><p>
目标文尾及分页区域代码1:
=700) window.open('/upload/200743213057312.gif');" src="http://files.jb51.net/upload/200743213057312.gif" onload="if(this.width>'700')this.width='700';" border=0>
目标文尾及分页区域代码2:
=700) window.open('/upload/200743213057807.gif');" src="http://files.jb51.net/upload/200743213057807.gif" onload="if(this.width>'700')this.width='700';" border=0>
比较一下两个结尾,尽管想把第一个的结尾再往前提一点,但没法子,要考虑到全部链接的共同部分,就只好取描黑的部分了,这也给今后确定过滤规则添了点麻烦,这是后话。先把结尾部分确定了吧:
</p> </TD> </TR>
php利用header函数实现文件下载时直接提示保存
php header 详细使用说明与使用心得第1/2页
dedecms 批量提取第一张图片最为缩略图的代码(文章+软件)
php 网页游戏开发入门教程一(webgame+design)
PHP 长文章分页函数 带使用方法,不会分割段落,翻页在底部
Wordpress php 分页代码
php 3行代码的分页算法(求起始页和结束页)
php 服务器调试 Zend Debugger 的安装教程
火车采集器 免费版使出收费版本功能实现原理
火车头discuz6.1 完美采集的php接口文件
PHP 分页类(模仿google)-面试题目解答
php 分页原理详解
PHP 文章中的远程图片采集到本地的代码
php 论坛采集程序 模拟登陆,抓取页面 实现代码
PHP 采集心得技巧
中国站长站 For Dede4.0 采集规则
dede3.1分页文字采集过滤规则详说(图文教程)续四
dede3.1分页文字采集过滤规则详说(图文教程)
dedecms模版制作使用方法
解决dede生成静态页和动态页转换的一些问题,及火车采集入库生成动态的办法
实现dedecms全站URL静态化改造的代码
dedecms中常见问题修改方法总结
PHP的分页功能
php分页示例代码
用PHP生成html分页列表的代码
PHP实现采集程序原理和简单示例代码
dedecms采集中可以过滤多行代码的正则表达式
火车头采集器3.0采集图文教程
一个可分页的基于文本的PHP留言板源码第1/2页
PHP 应用程序的安全 -- 不能违反的四条安全规则