热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

新浪科技文章采集代码

提供各种官方和用户发布的代码示例,代码参考,欢迎大家交流学习
新浪科技的文章一键采集ThinkPhp适用代码
/* 新浪科技文章采集 */
public function sina_tech() {
/* NEED CAULL PAGE NUM */
$page_num = intval($_POST['get_post_page_num']);
if (empty($page_num)) $page_num = 1;
/* FIRST COUNT */
$post_count_a = M('post')->count();
/* FOR CULL */
for ($page = 1; $page <= $page_num; $page++) {

$fullpage = CurlGetPage(&#039;http://roll.tech.sina.com.cn/s/channel.php?ch=05#col=30&spec=&type=&ch=05&k=&offset_page=0&offset_num=0&num=5&asc=&page=&#039;.$page);

preg_match_all(&#039;/\s+(.*)\s+<\/p>/Us&#039;, $fullpage, $match);
$fullpage = iconv("GB2312", "UTF-8", $match[1][0]);//echo $data1;die;

preg_match_all(&#039;/
  • (.*)<\/li>/isU&#039;, $fullpage, $in_li_tags);
    foreach (array_unique($in_li_tags[1]) as $row) {
    /* TITLE */
    preg_match_all(&#039;/(.*)<\/a>/&#039;, $row, $title);
    $title = $title[1][0];
    /* LINK */
    preg_match_all(&#039;/href="([^"]*)"/&#039;, $row, $link);
    $link = $link[1][0];
    /* DATE */
    preg_match_all(&#039;/(.*)<\/span>/i&#039;, $row, $date);
    $date = date("Y-", time()) . $date[1][0] . &#039;:00&#039;;
    // echo $title.&#039; &#039;.$link.&#039; &#039;.$date.&#039;
    &#039;;

    /* GOING THE POST PAGE */
    $fullpage_post = CurlGetPage($link);
    /* FIX TAGS */
    $fullpage_post = preg_replace(&#039;/

    (.*)<\/p>/isU&#039;, &#039;${1}&#039;, $fullpage_post);
    $fullpage_post = preg_replace(&#039;/

    (.*)<\/p>/Us&#039;, &#039;&#039;, $fullpage_post);
    //echo htmlspecialchars($fullpage_post);die;

    /* POST CONTENT */
    preg_match_all(&#039;/\s+(.*)\s+<\/p>/Us&#039;, $fullpage_post, $post_content);
    /* DEL A TAGS */
    $post_cOntent= preg_replace("/]*>(.*)<\/a>/isU", &#039;${1}&#039;, $post_content[1][0]);
    // echo &#039;

    &#039;.$title.&#039;

    &#039;.$url.&#039;
    &#039;.$date.&#039;
    &#039;.$postCon.&#039;
    &#039;;

    /* SAVE TO DB */
    $post_title_count = M(&#039;post&#039;)->where("title=&#039;$title&#039;")->count();
    if ($post_title_count == 0) {
    $dataMySql["title"] = $title;
    $dataMySql["content"] = $post_content;
    $dataMySql["datetime"] = $date;
    M(&#039;post&#039;)->add($dataMySql);
    }
    }
    }
    /* LAST COUNT */
    $post_count_b = M(&#039;post&#039;)->count();
    $post_add_num = $post_count_b - $post_count_a;
    /* CALLBACK */
    if ($post_count_a == $post_count_b) {
    echo &#039;{"success":1,"msg":"文章数无变化"}&#039;;
    } else {
    echo &#039;{"success":1,"msg":"成功采集 &#039; . $post_add_num . &#039; 篇文章"}&#039;;
    }
    }

    AD:真正免费,域名+虚机+企业邮箱=0元

  • 推荐阅读
    • 本题来自WC2014,题目编号为BZOJ3435、洛谷P3920和UOJ55。该问题描述了一棵不断生长的带权树及其节点上小精灵之间的友谊关系,要求实时计算每次新增节点后树上所有可能的朋友对数。 ... [详细]
    • 本文介绍了数据库体系的基础知识,涵盖关系型数据库(如MySQL)和非关系型数据库(如MongoDB)的基本操作及高级功能。通过三个阶段的学习路径——基础、优化和部署,帮助读者全面掌握数据库的使用和管理。 ... [详细]
    • 嵌入式开发环境搭建与文件传输指南
      本文详细介绍了如何为嵌入式应用开发搭建必要的软硬件环境,并提供了通过串口和网线两种方式将文件传输到开发板的具体步骤。适合Linux开发初学者参考。 ... [详细]
    • 解决TensorFlow CPU版本安装中的依赖问题
      本文记录了在安装CPU版本的TensorFlow过程中遇到的依赖问题及解决方案,特别是numpy版本不匹配和动态链接库(DLL)错误。通过详细的步骤说明和专业建议,帮助读者顺利安装并使用TensorFlow。 ... [详细]
    • 本文详细介绍了在XAMPP环境中如何修改Apache和MySQL的默认端口号,并确保WordPress能够正常访问。同时,提供了针对Go语言社区和Golang开发者的相关建议。 ... [详细]
    • 本文详细介绍了一种通过MySQL弱口令漏洞在Windows操作系统上获取SYSTEM权限的方法。该方法涉及使用自定义UDF DLL文件来执行任意命令,从而实现对远程服务器的完全控制。 ... [详细]
    • 本文详细介绍了在腾讯云服务器上配置 phpMyAdmin 的方法,包括安装、配置和解决常见问题。通过这些步骤,您可以轻松地在腾讯云环境中部署并使用 phpMyAdmin。 ... [详细]
    • Python 内存管理机制详解
      本文深入探讨了Python的内存管理机制,涵盖了垃圾回收、引用计数和内存池机制。通过具体示例和专业解释,帮助读者理解Python如何高效地管理和释放内存资源。 ... [详细]
    • JSOI2010 蔬菜庆典:树结构中的无限大权值问题
      本文探讨了 JSOI2010 的蔬菜庆典问题,主要关注如何处理非根非叶子节点的无限大权值情况。通过分析根节点及其子树的特性,提出了有效的解决方案,并详细解释了算法的实现过程。 ... [详细]
    • 目录一、salt-job管理#job存放数据目录#缓存时间设置#Others二、returns模块配置job数据入库#配置returns返回值信息#mysql安全设置#创建模块相关 ... [详细]
    • Coursera ML 机器学习
      2019独角兽企业重金招聘Python工程师标准线性回归算法计算过程CostFunction梯度下降算法多变量回归![选择特征](https:static.oschina.n ... [详细]
    • 简化报表生成:EasyReport工具的全面解析
      本文详细介绍了EasyReport,一个易于使用的开源Web报表工具。该工具支持Hadoop、HBase及多种关系型数据库,能够将SQL查询结果转换为HTML表格,并提供Excel导出、图表显示和表头冻结等功能。 ... [详细]
    • 探索新一代API文档工具,告别Swagger的繁琐
      对于后端开发者而言,编写和维护API文档既繁琐又不可或缺。本文将介绍一款全新的API文档工具,帮助团队更高效地协作,简化API文档生成流程。 ... [详细]
    • 深入解析Serverless架构模式
      本文将详细介绍Serverless架构模式的核心概念、工作原理及其优势。通过对比传统架构,探讨Serverless如何简化应用开发与运维流程,并介绍当前主流的Serverless平台。 ... [详细]
    • #print(34or4 ... [详细]
    author-avatar
    事过人空
    这个家伙很懒,什么也没留下!
    PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
    Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有