php制作简单的采集代码

2026-05-24 17:11:13

1、首先在页面加入一个文本框和提交按钮，文本框用来输入采集页面地址。

php制作简单的采集代码

2、采集需要用到正则截取函数

function preg_substr($start, $end, $str) // 正则截取函数

{

$temp = preg_split($start, $str);

$content = preg_split($end, $temp[1]);

return $content[0];

}

php制作简单的采集代码

3、采集需要用到字符串截取函数

function str_substr($start, $end, $str) // 字符串截取函数

{

$temp = explode($start, $str, 2);

$content = explode($end, $temp[1], 2);

return $content[0];

}

php制作简单的采集代码

4、还有一个保存采集的内容的函数：

function writelog($str)

{

@unlink("log.txt");

$open=fopen("log.txt","a" );

fwrite($open,$str);

fclose($open);

}

有时候采集到的内容和我们通过浏览器查看的内容不一致，导致我们找不到正确的正则表达式，这里就可以打开保存的txt文件，在里面找到正确的截取字符串。

php制作简单的采集代码

5、如果需要连图片也采集下来就需要用到图片函数：

function getImage($url, $filename='', $dirName, $fileType, $type=0)

{

if($url == ''){return false;}

//获取文件原文件名

$defaultFileName = basename($url);

//获取文件类型

$suffix = substr(strrchr($url,'.'), 1);

if(!in_array($suffix, $fileType)){

return false;

}

//设置保存后的文件名

$filename = $filename == '' ? time().rand(0,9).'.'.$suffix : $defaultFileName;

//获取远程文件资源

if($type){

$ch = curl_init();

$timeout = 5;

curl_setopt($ch, CURLOPT_URL, $url);

curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);

curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, $timeout);

$file = curl_exec($ch);

curl_close($ch);

}else{

ob_start();

readfile($url);

$file = ob_get_contents();

ob_end_clean();

}

//设置文件保存路径

$dirName = $dirName.'/'.date('Y', time()).'/'.date('m', time()).'/'.date('d',time()).'/';

if(!file_exists($dirName)){

mkdir($dirName, 0777, true);

}

//保存文件

$res = fopen($dirName.$filename,'a');

fwrite($res,$file);

fclose($res);

return $dirName.$filename;

}

php制作简单的采集代码

6、加入采集代码，由于这里加入采集代码不让提交，直接上图；

我们以亚马逊的一个产品页为例：输入某个产品链接：

php制作简单的采集代码

7、看看采集结果如下图，这里只展示内容，加入数据库就比较简单了，有时间再介绍自动进入下级链接或自动翻页的采集。

php制作简单的采集代码

声明：本网站引用、摘录或转载内容仅供网站访问者交流或参考，不代表本站立场，如存在版权或非法内容，请联系站长删除，联系邮箱：site.kefu@qq.com。