采集流程
新闻类采集流程
- 保存列表:添加新闻分类链接,获取新闻列表,每条新闻信息保存下来。
- 避免列表中新闻信息的重复
- URL入队列:从新闻信息中读取到新闻详情的地址,把新闻详情url加入到队列。
查找is_push_list 为null 或者为 0的列表新闻信息
入队后,改变列表新闻信息的状态 is_push_list = 1
- 整理数据:从队列中获取新闻详情等信息,从列表的新闻信息中获取到数据,分别插入news_mian表和news_doc表
根据url取新闻列表信息
整理出符合自己网站规范的新闻列表信息
整理出符合自己网站规范的新闻详情信息
创建出来,并使_id主键一致
修改新闻列表信息 is_scan_get = 1
$news['_id'] = $row['_id']; //ID
$news['title'] = $row['title']; //标题
$news['author'] = $row['']; //作者
$news['source'] = $row['']; //来源
$news['scores_url'] = "http://www.163.com"; //来源的网址
$news['url'] = $row['docurl']; //采集的地址
$news['comment_url'] = $row['commenturl']; //评论的链接
$news['label'] = $row['label']; //标签
$news['channel_name'] = $row['channelname'];//分类名称
$news['keywords'] = $row['title']; //关键字
$news['description'] = ''; //描述
$news['pub_date'] = $row['time']; //发布时间
$news['data_type'] = $row['newstype']; //文章类型
$news['img_url'] = $row['imgurl']; //缩略图链接
$news['img_url_1'] = $row['add1']; //第一张图片
$news['img_url_2'] = $row['add2']; //第二张图片
$news['img_url_3'] = $row['add3']; //第三张图片
$news['img_num'] = ''; //缩列图数量
$news_doc['content'] = $row['']; //新闻内容