基于PHP采集数据入库程序

2019-06-28 22:26:07 0次 0 来源：用户投稿收藏

转自 cnblogs-李晨玮

说到采集，无非就是远程获取信息->提取所需内容->分类存储->读取->展示

也算是简单"小偷程序"的加强版吧

下面是对应核心代码（别拿去做坏事哦^_^）

所要采集的内容是某游戏网站上的公告，如下图：

可先利用file_get_courses和简单正则获取基本页面信息

整理下基本信息，采集入库：

/iUs";//正则

    preg_match_all($pattern, $conn, $arr);//匹配内容到arr数组

    //print_r($arr);die;
    
    foreach ($arr[1] as $key => $value) {//二维数组[2]对应id和[1]刚好一样,利用起key
        $url="http://www.93moli.com/".$arr[2][$key];
        $sql="insert into list(title,url) value ('$value', '$url')";
        mysql_query($sql);

        //echo "$value"."
";    
    }
     $id++;
     echo "正在采集URL数据列表$id...请稍后...";
     echo "";

 }else{
     echo "采集数据结束。";
 }

?>

conn.php是数据库连接文件

list.php是本页面

由于要采集的数据是分页显示的，且页面地址是规律递增，所以我用了js跳转代码，利用id传值控制采集的页数，也避免了for循环数目过大。

接下来要做的操作就是从数据库中读取所需要采集的URL，进行页面抓取就行

新建一个course表

不过需要注意的一点是，不能再采用采集URL这种id递增的方法去采集，因为数据表中可能出现id断续，比如id=9，id=11，当采集到id=10的时候，URL是空白的，这样可能会导致采集到了空字段。

这里用到的一个技巧是数据库的查询语句，在我们采集完第一条数据的时候，判断数据库里是否还有大于此id的id编号，若有，读取一条，查询信息重复上面的工作。

具体代码如下：

(.*)<\/dd>/iUs";
    preg_match($pattern, $course,$info);//获取内容存放info
    echo $title=$row[1]."
";
    echo $course=$info[0]."";

    //插入数据库
    $add="insert into course(title,course) value('$title','$course')";
    mysql_query($add);

    $sql2="select * from list where id>$id order by id asc limit 1";
    $result2=mysql_query($sql2);
    $row2=mysql_fetch_array($result2);//取得对应的url地址
    if($row2['id']){
        echo "";
    }

?>