Crawling.php array('jQuery选择器','要采集的属性'[,"标签过滤列表"][,"回调函数"]),* '规则名2' = array('jQuery选择器','要采集的属性'[,"标签过滤列表"][,"回调函数"]),* ..........* [,"callback"="全局回调
array('jQuery选择器','要采集的属性'[,"标签过滤列表"][,"回调函数"]), * '规则名2' => array('jQuery选择器','要采集的属性'[,"标签过滤列表"][,"回调函数"]), * .......... * [,"callback"=>"全局回调函数"] * ); */ require 'vendor/autoload.php'; use QL\QueryList; //长江航运指数分析采类 /* 基类 获取页面的地址库 $url 地址链接 $str 剔除某些不好的标题 */ function getListUrl($url,$str){ $data=array(); $pages = QueryList::Query($url,array( 'page' => array('.pages','html','',function($content){preg_match('{.*\((\d+).*}',$content,$match);return $match[1];}) ),'.dfxw_main')->data; for($i=1;$i<$pages[0]['page'];$i++){ $cururl=$url.'index_'.$i.".html"; $da[] = QueryList::Query($cururl,array( 'page' => array('a','html'), 'list-src' => array('a','href') ),'.dfxw_main_bottom ul li')->data; $cururl=""; } for($i=0;$i'; /* 基类 获取页面的详情信息 $url 地址链接 string $str 选取关键元素字段 string */ function getDetailData($url,$str){ $num=''; $da = QueryList::Query($url,array( 'key' => array('','text') ),'.MsoNormalTable tr:eq(0) td')->data; foreach ($da as $k => $v) { foreach ($v as $a => $b) { if($b==$str){ $num = $k; break; } } } unset($da); $da = QueryList::Query($url,array( 'key' => array('td:eq(0)','text'), 'val' => array('td:eq('.$num.')','text') ),'.MsoNormalTable tr:gt(0)')->data; return $da; } /*$url="http://zizhan.mot.gov.cn/zizhan/zhishuJG/changhangju/tongjishuju/changjiangyunjiaZS/201311/t20131108_1509615.html"; $str="本月"; $da=getDetailData($url,$str); echo ''; print_r($data); echo '
'; print_r($da); echo '';*/ /* 基类 获取年月 $url 标题组的数据 array */ function getYearMonth($data){ for($i=0;$i