基于PHP采集数据入库程序

来源:用户投稿 收藏

转自 cnblogs-李晨玮

说到采集,无非就是远程获取信息->提取所需内容->分类存储->读取->展示

也算是简单"小偷程序"的加强版吧

下面是对应核心代码(别拿去做坏事哦^_^)

 

所要采集的内容是某游戏网站上的公告,如下图:20cae76791.gif

可先利用file_get_courses和简单正则获取基本页面信息

281403036335978.gif

整理下基本信息,采集入库:

/iUs";//正则

    preg_match_all($pattern, $conn, $arr);//匹配内容到arr数组

    //print_r($arr);die;
    
    foreach ($arr[1] as $key => $value) {//二维数组[2]对应id和[1]刚好一样,利用起key
        $url="http://www.93moli.com/".$arr[2][$key];
        $sql="insert into list(title,url) value ('$value', '$url')";
        mysql_query($sql);

        //echo "$value"."
";         }      $id++;      echo "正在采集URL数据列表$id...请稍后...";      echo "";  }else{      echo "采集数据结束。";  } ?>

conn.php是数据库连接文件

list.php是本页面

由于要采集的数据是分页显示的,且页面地址是规律递增,所以我用了js跳转代码,利用id传值控制采集的页数,也避免了for循环数目过大。

281413090242229.jpg

280226117121589.gif

接下来要做的操作就是从数据库中读取所需要采集的URL,进行页面抓取就行

新建一个course表

不过需要注意的一点是,不能再采用采集URL这种id递增的方法去采集,因为数据表中可能出现id断续,比如id=9,id=11,当采集到id=10的时候,URL是空白的,这样可能会导致采集到了空字段。

这里用到的一个技巧是数据库的查询语句,在我们采集完第一条数据的时候,判断数据库里是否还有大于此id的id编号,若有,读取一条,查询信息重复上面的工作。

具体代码如下:

(.*)<\/dd>/iUs";
    preg_match($pattern, $course,$info);//获取内容存放info
    echo $title=$row[1]."
";     echo $course=$info[0]."
";     //插入数据库     $add="insert into course(title,course) value('$title','$course')";     mysql_query($add);     $sql2="select * from list where id>$id order by id asc limit 1";     $result2=mysql_query($sql2);     $row2=mysql_fetch_array($result2);//取得对应的url地址     if($row2['id']){         echo "";     } ?>

281538515718818.gif

这样子我们所要的新闻内容就采集入库了,接下来只需要对数据的一些样式进行整理就行了。


免责声明:1.凡本站注明“来源:XXX(非小二胡工作室)”的作品,均转载自其它媒体,所载的文章、图片、音频视频文件等资料的版权归版权所有人所有,如有侵权,请联系xiaoerhu#88.com处理;2.凡本站转载内容仅代表作者本人观点,与小二胡工作室无关。
0 条评论

网友留言