热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

PHP获取百度相关搜索和原创程度

PHP获取百度相关搜索和原创程度获取原创程度是get_em_times,数值越高文本长度越长越不原创。用于采集项目的搜索引擎优化classbaidu{publicstaticfunctionbuild_request_uri($words){$words=urlencode(Text::conv

 PHP获取百度相关搜索和原创程度 
获取原创程度是get_em_times,数值越高文本长度越长越不原创。 
用于采集项目的搜索引擎优化

class baidu {

        public static function build_request_uri($words){

                $words = urlencode(Text::convert_encoding($words,'GBK','UTF-8'));

                return '/s?wd='.$words;

        }

        public static function get_relate_search($words){

                $cOntent= self::get_content($words);

                if(preg_match('/\

(((?!\<\/div\>).)*)\<\/div\>/', $content,$result)){

                        if(preg_match_all('/\).)*\>(.*?)\<\/a\>/', $result[1], $result)) return $result[2];

                }

                return FALSE;

        }

        /**

         * 根据空格分词,获取百度关键词完全匹配的次数

         * @param string $words

         * @return int 

         */

        public static function get_em_times($words){

                $word = explode(' ', $words);

                $cOntent= self::get_content($words);

                preg_match_all('/\(((?!\<\/em\>).)*)\<\/em\>/', $content,$result);

                if(!isset($result[1]) || count($result[1])==0)

                        return 0;

                $word_table = array_count_values($result[1]);

                $times = 0;

                foreach ($word as $pice){

                        if(array_key_exists($pice, $word_table)) $times+=$word_table[$pice];

                }

                return $times;

        }

        public static function get_content($words){

                static $loaded_cOntents= array();

                if(!isset($loaded_contents[$words])){

                        $cOntent= file_get_contents("http://www.baidu.com".self::build_request_uri($words));

                        $cOntent= Text::convert_encoding($content,'UTF-8','GBK');

                        $loaded_contents[$words] = $content;

                }

                return $loaded_contents[$words];

        }

        function check_veriy($content){

                if(strpos($content,"http://verify.baidu.com/")!==FALSE){

                        //百度要求验证,异常

                }

        }

}


推荐阅读
  • PHP中元素的计量单位是什么? ... [详细]
  • 浅析PHP中$_SERVER[
    在PHP后端开发中,`$_SERVER["HTTP_REFERER"]` 是一个非常有用的超级全局变量,它可以获取用户访问当前页面之前的URL。本文将详细介绍该变量的使用方法及其在不同场景下的应用,如页面跳转跟踪、安全验证和用户行为分析等。通过实例解析,帮助开发者更好地理解和利用这一功能。 ... [详细]
  • MySQL性能优化与调参指南【数据库管理】
    本文详细探讨了MySQL数据库的性能优化与参数调整技巧,旨在帮助数据库管理员和开发人员提升系统的运行效率。内容涵盖索引优化、查询优化、配置参数调整等方面,结合实际案例进行深入分析,提供实用的操作建议。此外,还介绍了常见的性能监控工具和方法,助力读者全面掌握MySQL性能优化的核心技能。 ... [详细]
  • 在对TCP段的PDU进行重组的过程中,通过网络抓包技术发现了一个特定的TCP段重组PDU实例。经过查阅相关博客和技术文章,成功找到了有效的解决方案,为类似问题的处理提供了宝贵的参考。 ... [详细]
  • Spring Batch 异常处理与任务限制优化策略 ... [详细]
  • VC6.0自1998年发布以来,因其轻量级和便捷性,至今仍被许多开发者所青睐。然而,在调试过程中,用户常常面临无法直接终止调试进程的问题,导致需要频繁重启VC6.0以重新加载项目。本文将详细介绍如何高效利用VC6.0的调试工具,包括常用调试技巧和解决调试过程中常见问题的方法,帮助开发者提高调试效率和代码质量。 ... [详细]
  • 通过对计算机系统架构的研究,尤其是控制器CU的功能解析,我对处理器的工作原理有了更深入的理解。原来,机器指令能够被直接识别和执行,是因为其背后有微程序的支持。深入探讨后发现,最基本的不可分割操作实际上是由微指令组成的,这些微指令构成了机器指令的基础,确保了指令的准确执行。 ... [详细]
  • Python网络爬虫入门:利用urllib库进行数据抓取
    Python网络爬虫入门:利用urllib库进行数据抓取在数据科学和Web开发领域,Python凭借其简洁高效的特性成为首选语言。本文主要介绍了如何在Windows环境下使用Python的urllib库进行基本的网络数据抓取。考虑到命令行操作的不便,作者选择了Jupyter Notebook作为开发环境,不仅简化了配置过程,还提供了直观的数据处理和可视化功能。通过实例演示,读者可以轻松掌握urllib的基本用法,为深入学习网络爬虫技术打下坚实基础。 ... [详细]
  • 进程(Process)是指计算机中程序对特定数据集的一次运行活动,是系统资源分配与调度的核心单元,构成了操作系统架构的基础。在早期以进程为中心的计算机体系结构中,进程被视为程序的执行实例,其状态和控制信息通过任务描述符(task_struct)进行管理和维护。本文将深入探讨进程的概念及其关键数据结构task_struct,解析其在操作系统中的作用和实现机制。 ... [详细]
  • 稳操胜券,35K薪资,字节跳动商业数据分析岗位
    在数字化浪潮中,掌握数据即掌握未来。正如马云在IT领袖峰会上所言:“未来的竞争将是数据的竞争,只有实现业务的数据化和数据的业务化,企业才能在激烈的市场竞争中脱颖而出。”字节跳动的商业数据分析岗位,正是这一趋势的体现,提供35K的薪资,吸引着众多数据精英。 ... [详细]
  • 获取贵州省毕节市高分辨率谷歌卫星影像图
    毕节市,作为贵州省西北部的重要地级市,地处乌蒙山脉核心区域,是连接四川、云南和贵州三省的关键节点。本研究旨在获取该地区的高分辨率谷歌卫星影像图,以全面展示其独特的地理特征和城市布局。通过这些高清影像,研究人员能够更深入地分析毕节市的自然环境、城市规划及发展状况。 ... [详细]
  • 本文介绍了一种简化版的在线购物车系统,重点探讨了用户登录和购物流程的设计与实现。该系统通过优化界面交互和后端逻辑,提升了用户体验和操作便捷性。具体实现了用户注册、登录验证、商品浏览、加入购物车以及订单提交等功能,旨在为用户提供高效、流畅的购物体验。 ... [详细]
  • 安卓逆向工程工具精选合集
    在安卓逆向工程领域,本文精选了一系列常用的工具,并将持续更新以适应技术的发展。特别推荐使用雷电3.98版本作为电脑模拟器,用户可从官方网站下载最新版本,确保最佳的兼容性和性能。此外,本文还介绍了其他关键工具,如反编译器、调试器和签名工具,为逆向工程师提供全面的支持。 ... [详细]
  • 六个接私活的平台,技术在手,财富自由!值得推荐给每一位专业人士!
    本文将介绍六个适合专业人士接私活的平台,帮助技术人才实现财富自由。这些平台不仅提供了丰富的项目机会,还为用户搭建了高效的合作桥梁,是每位技术人士不容错过的资源。 ... [详细]
  • Linux系统下通过RPM包管理器部署JDK并上线Java项目
    在Linux系统中,通过RPM包管理器安装JDK并部署Java项目的步骤被详细阐述。本文介绍了如何使用RPM包管理器高效地安装JDK,并提供了上线Java应用的最佳实践,包括环境配置、依赖管理和启动脚本的编写。此外,还讨论了常见的问题及其解决方案,以确保部署过程顺利进行。 ... [详细]
author-avatar
tha1es
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有