php获取网页内容方法总结

2015-01-24信息快讯网

用php抓取页面的内容在实际的开发当中是非常有用的,如作一个简单的内容采集器,提取网页中的部分内容等等

抓取到的内容在通过正则表达式做一下过滤就得到了你想要的内容,至于如何用正则表达式过滤,在这里就不做介绍了,有兴趣的,以下就是几种常用的用php抓取网页中的内容的方法。
1.file_get_contents
PHP代码
<?php 
$url = "http://www.jb51.net"; 
$contents = file_get_contents($url); 
//如果出现中文乱码使用下面代码 
//$getcontent = iconv("gb2312", "utf-8",$contents); 
echo $contents; 
?> 

2.curl
PHP代码
<?php 
$url = "http://www.jb51.net"; 
$ch = curl_init(); 
$timeout = 5; 
curl_setopt($ch, CURLOPT_URL, $url); 
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); 
curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, $timeout); 
//在需要用户检测的网页里需要增加下面两行 
//curl_setopt($ch, CURLOPT_HTTPAUTH, CURLAUTH_ANY); 
//curl_setopt($ch, CURLOPT_USERPWD, US_NAME.":".US_PWD); 
$contents = curl_exec($ch); 
curl_close($ch); 
echo $contents; 
?> 

3.fopen->fread->fclose
PHP代码
<?php 
$handle = fopen ("http://www.jb51.net", "rb"); 
$contents = ""; 
do { 
$data = fread($handle, 1024); 
if (strlen($data) == 0) { 
break; 
} 
$contents .= $data; 
} while(true); 
fclose ($handle); 
echo $contents; 
?> 

注:
1.使用file_get_contents和fopen必须空间开启allow_url_fopen。方法:编辑php.ini,设置allow_url_fopen = On,allow_url_fopen关闭时fopen和file_get_contents都不能打开远程文件。
2.使用curl必须空间开启curl。方法:windows下修改php.ini,将extension=php_curl.dll前面的分号去掉,而且需要拷贝ssleay32.dll和libeay32.dll到C:\WINDOWS\system32下;Linux下要安装curl扩展。
php下删除一篇文章生成的多个静态页面
php中定义网站根目录的常用方法
删除无限分类并同时删除它下面的所有子分类的方法
一道关于php变量引用的面试题
一道求$b相对于$a的相对路径的php代码
字母顺序颠倒而单词顺序不变的php代码
PHP下escape解码函数的实现方法
ubuntu 编译安装php 5.3.3+memcache的方法
PHP5中使用PDO连接数据库的方法
PHP多线程抓取网页实现代码
按上下级层次关系输出内容的PHP代码
php文章内容分页并生成相应的htm静态页面代码
php 网页播放器用来播放在线视频的代码(自动判断并选择视频文件类型)
PHP 循环列出目录内容的函数代码
php下用cookie统计用户访问网页次数的代码
php将数据库中所有内容生成静态html文档的代码
php抓取https的内容的代码
PHP 抓取网页图片并且另存为的实现代码
用php或asp创建网页桌面快捷方式的代码
php读取msn上的用户信息类
php smarty的预保留变量总结
php 页面执行时间计算代码
Zend Studio 无法启动的问题解决方法
Optimizer与Debugger兼容性问题的解决方法
Apache+php+mysql在windows下的安装与配置图解(最新版)
php 移除数组重复元素的一点说明
PHP 遍历XP文件夹下所有文件
PHPMailer安装方法及简单实例
php miniBB中文乱码问题解决方法
PHP脚本中include文件出错解决方法
php preg_match_all结合str_replace替换内容中所有img
关于DISCUZ不用通行证登陆得内容介绍第1/2页
利用PHP制作简单的内容采集器的原理分析
PHP控制网页过期时间的代码
PHP Squid中可缓存的动态网页设计
php查看session内容的函数
php循环输出数据库内容的代码
Mysql和网页显示乱码解决方法集锦
在任意字符集下正常显示网页的方法二(续)
在任意字符集下正常显示网页的方法一
©2014-2024 dbsqp.com