php浏览器模拟:用于多线程处理的curl_multi一族函数使用介绍 最近写一个php采集类程序脚本,研究了snoopy采集类,同时在搜集相关资料时发现curl_multi可用于多线程,于是进行了测试,实践证明效果相对很好。例子可参考 花瓣网图片采集器。下面是相关知识介绍,仅作参考。 curl_multi函数介绍 php中的curl_multi一族函数可用于多线程处理等问题,包括如下函数: curl_multi_add_handle curl_multi PHP 任侠 2012-10-24 7864 热度 0评论
php开源采集类Snoopy.class.php功能使用介绍与下载地址 当你使用php,并希望做一些采集的任务,那么你应该了解snoopy。 Snoopy是什么? Snoopy是一个php类,用来模仿web浏览器的功能,它能完成获取网页内容和发送表单的任务。 Snoopy的一些特点: * 方便抓取网页的内容 * 方便抓取网页的文本内容 (去除HTML标签) * 方便抓取网页的链接 * 支持代理主机 * 支持基本的用户名/密码验证 * 支持设置 user_agent, PHP 任侠 2012-10-13 36278 热度 10评论
php正则匹配获取指定url网页页面超级链接地址与抓取指定页面内容方法 在数据采集与页面分析中,常需要抓取给定url页面的内容,或者第二、第三层次深度页面内容。 这里是一个测试例子的实现,仅供参考。 /* 匹配给定页面链接 return:array match */ function match_links($host, $document) { $pattern = '/<a(.*?)href="(.*?) PHP 任侠 2012-09-12 13107 热度 3评论
动易sitewavear系统去掉采集时的暂停3秒和快速生成HTML文件的方法 采集时的暂停3秒是一件比较让人郁闷的事,一般采集的时候会选择凌晨1点至早上7点这个时间段,因为这个时间段内浏览网站的人相对来说比较少,所以不会对服务器造成太大的压力,因此也就没什么必要设置个暂停了,呵呵。去掉暂停3秒的方法也很简单,只需要打开Language文件夹下的 Gb2312.xml语言包修改如下代码即可: 10 3 生成HTML文件的时候也是一样的,动易这么做的目的就是为了广大主机提供商考 网站建设 任侠 2009-05-17 5062 热度 0评论
采集出错:msxml3.dll 错误'80070005' 拒绝访问&系统未找到指定的资源 一些朋友尤其是经常使用ASP采集程序的朋友一定遇到过这样的错误: msxml3.dll 错误 '800c0005' 系统未找到指定的资源。 msxml3.dll 错误 ''''80070005'''' 拒绝访问。 解决办法: 赋予程序所在文件夹 internet 来宾帐号(IUSR_WEB)可写。 做法: 选择cach 网站建设 任侠 2009-04-05 3953 热度 0评论