热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

开发笔记:PageRank_网页排名_MapReduceJava代码实现思路

篇首语:本文由编程笔记#小编为大家整理,主要介绍了PageRank_网页排名_MapReduceJava代码实现思路相关的知识,希望对你有一定的参考价值。 

篇首语:本文由编程笔记#小编为大家整理,主要介绍了PageRank_网页排名_MapReduceJava代码实现思路相关的知识,希望对你有一定的参考价值。


 




PageRank



1.    概念






2.    原理








 





 



3.    java代码实现思路


 

1、定义收敛标准

    每次算出新的pr-oldpr=差值 ,所有页面的差值累加 ,除以pagecount,得到avg差值 ,如果。小于0.01

2、计算总页面数,并且算出每个页面的初始pr值=1/pagecount

3、


    A  0.25 B  D ----- A  0.35 B D--- A  0.29 B D----

 


数据集:


 

一个MapReduce(如何做到循环)

    1. Job的设计

           定义一个收敛值d=0.01,一直循环进行MapReduce操作,当所有页面和上一次计算的pr差值平均小于该标准时,则收敛,跳出循环



  1. boolean flag = job.waitForCompletion(true);

  2. if(flag){

  3. System.out.println(job.getJobName()+" run success");


  4. //获取计数器中的差值

  5. long sum = job.getCounters().findCounter(Mycounter.my).getValue();


  6. System.out.println("SUM: "+ sum);

  7. double avg = sum /4000.0;

  8. if(avg < d){//满足设定的值,跳出循环

  9. break;

  10. }

  11. }





           统计计算的次数iconf.setInt("runCount"i);便于从上一次的输出中读取数据

                 inputPath和outputPath的设计



  1. Path inputPath =newPath("/user/pagerank/input/pagerank.txt");

  2. //如果不是是第一次计算

  3. if(i >1){

  4. inputPath =newPath("/user/pagerank/output/pr"+(i-1));

  5. }

  6. FileInputFormat.addInputPath(job, inputPath);


  7. Path outputPath =newPath("/user/pagerank/output/pr"+ i);

  8. FileSystem fs =FileSystem.get(conf);

  9. if(fs.exists(outputPath)){

  10. fs.delete(outputPath,true);

  11. }

  12. FileOutputFormat.setOutputPath(job, outputPath);





                 

    2. Mapper的设计

      Mapper端数据的输入--key:Text   value:Text   key:A   value:B   D

             (job端在进行Mapper操作之前,将数据进行了格式处理job.setInputFormatClass(KeyValueTextInputFormat.class);key,value转化为Text格式)

 

      步骤一:获取运行的次数,判断是否是第一次进行map操作,如果是第一次,赋予1.0默认值,然后将value(1.0    B    D)封装为Node对象

      步骤二:将计算前的数据进行输出,key:A    value:1.0    B    D context.write(new Text(page),new Text(node.toString())

      步骤三:如果网页有出链,计算对当前page,对其他网页的出链值key:B    value:0.5  ||  key:D    value:0.5

      

      Mapper端数据的输出:

                                             第一种--key:A    value:1.0    B    D

                                             第二种--key:B    value:0.5  ||  key:D    value:0.5

            

    3. Reducer的设计

        Reducer端数据的输入--第一种--key:A    value:1.0    B    D   第二种--key:A    value:0.5  ||  key:A    value:0.75

        

        步骤一:遍历Iterable对象,里面有两种数据(value:1.0    B    D  ||  value:0.5

                       无论哪种数据,首先将value转化为Node对象,其次,如果是前者将该node定义为上次的node(sourceNode),否则,获取该node的pageRank(其他网页对该page的投票值),进行sum累加(sum的最终结果也就是本次计算其他page对当前page的投票值总和),比如页面A本次一共获得1.25来自于其他页面的投票

         步骤二:计算新的pr值double newPR = (0.15 / 4.0) + (0.85 * sum);并与之前的也就是上一次的pr值进行比较(上一次的pr值存放在sourceNode中)double d = newPR - sourceNode.getPageRank(); 将差值结果放到累加器中

context.getCounter(Mycounter.my).increment(j);

         步骤三:更新page上一次的pr值--sourceNode.setPageRank(newPR);

         步骤四:数据输出,key:A    value:1.25    B    D--context.write(key, new Text(sourceNode.toString()));



 


 








推荐阅读
  • 本文由编程笔记#小编为大家整理,主要介绍了logistic回归(线性和非线性)相关的知识,包括线性logistic回归的代码和数据集的分布情况。希望对你有一定的参考价值。 ... [详细]
  • 本文分享了一个关于在C#中使用异步代码的问题,作者在控制台中运行时代码正常工作,但在Windows窗体中却无法正常工作。作者尝试搜索局域网上的主机,但在窗体中计数器没有减少。文章提供了相关的代码和解决思路。 ... [详细]
  • Java序列化对象传给PHP的方法及原理解析
    本文介绍了Java序列化对象传给PHP的方法及原理,包括Java对象传递的方式、序列化的方式、PHP中的序列化用法介绍、Java是否能反序列化PHP的数据、Java序列化的原理以及解决Java序列化中的问题。同时还解释了序列化的概念和作用,以及代码执行序列化所需要的权限。最后指出,序列化会将对象实例的所有字段都进行序列化,使得数据能够被表示为实例的序列化数据,但只有能够解释该格式的代码才能够确定数据的内容。 ... [详细]
  • Spring特性实现接口多类的动态调用详解
    本文详细介绍了如何使用Spring特性实现接口多类的动态调用。通过对Spring IoC容器的基础类BeanFactory和ApplicationContext的介绍,以及getBeansOfType方法的应用,解决了在实际工作中遇到的接口及多个实现类的问题。同时,文章还提到了SPI使用的不便之处,并介绍了借助ApplicationContext实现需求的方法。阅读本文,你将了解到Spring特性的实现原理和实际应用方式。 ... [详细]
  • 本文介绍了在MFC下利用C++和MFC的特性动态创建窗口的方法,包括继承现有的MFC类并加以改造、插入工具栏和状态栏对象的声明等。同时还提到了窗口销毁的处理方法。本文详细介绍了实现方法并给出了相关注意事项。 ... [详细]
  • MapReduce工作流程最详细解释
    MapReduce是我们再进行离线大数据处理的时候经常要使用的计算模型,MapReduce的计算过程被封装的很好,我们只用使用Map和Reduce函数,所以对其整体的计算过程不是太 ... [详细]
  • Iamtryingtomakeaclassthatwillreadatextfileofnamesintoanarray,thenreturnthatarra ... [详细]
  • VScode格式化文档换行或不换行的设置方法
    本文介绍了在VScode中设置格式化文档换行或不换行的方法,包括使用插件和修改settings.json文件的内容。详细步骤为:找到settings.json文件,将其中的代码替换为指定的代码。 ... [详细]
  • 开发笔记:加密&json&StringIO模块&BytesIO模块
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了加密&json&StringIO模块&BytesIO模块相关的知识,希望对你有一定的参考价值。一、加密加密 ... [详细]
  • 本文讨论了一个关于cuowu类的问题,作者在使用cuowu类时遇到了错误提示和使用AdjustmentListener的问题。文章提供了16个解决方案,并给出了两个可能导致错误的原因。 ... [详细]
  • 1,关于死锁的理解死锁,我们可以简单的理解为是两个线程同时使用同一资源,两个线程又得不到相应的资源而造成永无相互等待的情况。 2,模拟死锁背景介绍:我们创建一个朋友 ... [详细]
  • 本文介绍了Web学习历程记录中关于Tomcat的基本概念和配置。首先解释了Web静态Web资源和动态Web资源的概念,以及C/S架构和B/S架构的区别。然后介绍了常见的Web服务器,包括Weblogic、WebSphere和Tomcat。接着详细讲解了Tomcat的虚拟主机、web应用和虚拟路径映射的概念和配置过程。最后简要介绍了http协议的作用。本文内容详实,适合初学者了解Tomcat的基础知识。 ... [详细]
  • 这篇文章主要介绍了Python拼接字符串的七种方式,包括使用%、format()、join()、f-string等方法。每种方法都有其特点和限制,通过本文的介绍可以帮助读者更好地理解和运用字符串拼接的技巧。 ... [详细]
  • IOS开发之短信发送与拨打电话的方法详解
    本文详细介绍了在IOS开发中实现短信发送和拨打电话的两种方式,一种是使用系统底层发送,虽然无法自定义短信内容和返回原应用,但是简单方便;另一种是使用第三方框架发送,需要导入MessageUI头文件,并遵守MFMessageComposeViewControllerDelegate协议,可以实现自定义短信内容和返回原应用的功能。 ... [详细]
  • 本文介绍了在使用Laravel和sqlsrv连接到SQL Server 2016时,如何在插入查询中使用输出子句,并返回所需的值。同时讨论了使用CreatedOn字段返回最近创建的行的解决方法以及使用Eloquent模型创建后,值正确插入数据库但没有返回uniqueidentifier字段的问题。最后给出了一个示例代码。 ... [详细]
author-avatar
丁军东建宏
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有