Skip to main content

采集流程

新闻类采集流程

  1. 保存列表:添加新闻分类链接,获取新闻列表,每条新闻信息保存下来。
  • 避免列表中新闻信息的重复

  1. URL入队列:从新闻信息中读取到新闻详情的地址,把新闻详情url加入到队列。
  • 查找is_push_list 为null 或者为 0的列表新闻信息

  • 入队后,改变列表新闻信息的状态 is_push_list = 1


  1. 整理数据:从队列中获取新闻详情等信息,从列表的新闻信息中获取到数据,分别插入news_mian表和news_doc表
  • 根据url取新闻列表信息

  • 整理出符合自己网站规范的新闻列表信息

  • 整理出符合自己网站规范的新闻详情信息

  • 创建出来,并使_id主键一致

  • 修改新闻列表信息 is_scan_get = 1


$news['_id'] = $row['_id']; //ID

$news['title'] = $row['title']; //标题

$news['author'] = $row['']; //作者

$news['source'] = $row['']; //来源

$news['scores_url'] = "http://www.163.com"; //来源的网址

$news['url'] = $row['docurl']; //采集的地址

$news['comment_url'] = $row['commenturl']; //评论的链接

$news['label'] = $row['label']; //标签

$news['channel_name'] = $row['channelname'];//分类名称

$news['keywords'] = $row['title']; //关键字

$news['description'] = ''; //描述

$news['pub_date'] = $row['time']; //发布时间

$news['data_type'] = $row['newstype']; //文章类型

$news['img_url'] = $row['imgurl']; //缩略图链接

$news['img_url_1'] = $row['add1']; //第一张图片

$news['img_url_2'] = $row['add2']; //第二张图片

$news['img_url_3'] = $row['add3']; //第三张图片

$news['img_num'] = ''; //缩列图数量

$news_doc['content'] = $row['']; //新闻内容