热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

java调用fudannlp_利用FudanNLP進行新聞關鍵詞提取|學步園

在做新聞推薦系統的時候,首先要做的應該是抓取新聞,從中提取關鍵字,其次是運用機器學習裡面的聚類分類方法根據瀏覽記錄對用戶進行分組ÿ

在做新聞推薦系統的時候,首先要做的應該是抓取新聞,從中提取關鍵字,其次是運用機器學習裡面的聚類分類方法根據瀏覽記錄對用戶進行分組,在組內進行推薦。在這裡我只是簡單說下抓取新聞之後如何從中提取出關鍵字,其他內容就不在這裡介紹了。

關於提取關鍵字的理論基礎,強烈推薦大家看這篇文章:TF-IDF與餘弦相似性的應用(一):自動提取關鍵詞,作者是大名鼎鼎的阮一峰。了解了提取關鍵字是怎麼一回事後,接下來就是實踐的過程了,不用擔心,其實別人早就給我們寫好了提取關鍵字的工具,自己只需要調用其接口就行,省時省力,何樂而不為呢?

目前網絡上這方面的工具有不少,就使用來看主要有下面兩個開源的工具,一個是北理工張華平(曉陽速來拜見導師)老師的NLPIR,專門做分詞的,號稱全球第一;還有一個是復旦大學fudanNLP。這兩個工具各有特點:NLPIR是用C++寫的,C++,C#很容易調用,JAVA調用起來還要用JNI,感覺比較麻煩;fudanNLP本身就是java實現的,JAVA調用起來很方便。所以看你的平台,這裡我是JAVA,首選fudanNLP,如果非要在JAVA下使用NLPIR,建議參看這篇文章:http://blog.csdn.net/zhyh1986/article/details/9167593,下面就不介紹NLPIR了。

1、下載fudanNLP

解壓後能看見很多文件,不過只需要和下面這幾個文件/文件夾打交道:

f0ee21f2d1277c5629c3bcaf38efdead.png

2、添加jar和models

創建一個工程,把lib下所有的jar包和fudannlp.jar包添加到項目中,同時把models文件夾拷貝到項目下:

a7058b7b3ca32a40806d87e31960b2e8.png

3、寫關鍵字提取函數

添加好之後下面就可以寫提取關鍵字的函數了,如果不知道怎麼寫可以參看fudanNLP自帶的例子:

51940638b0653471f413dfec8c8ed466.png

這裡我只需要在原有代碼的基礎上加以修改,注意到提取到的關鍵字是作為一個Map保存起來的:

Map ans = key.extract(String str, Integer n);

那我只需要傳遞str和n,然後讀取map中的key值即可得到關鍵字,全部代碼如下:

import java.util.ArrayList;

import java.util.Map;

import org.fnlp.app.keyword.AbstractExtractor;

import org.fnlp.app.keyword.WordExtract;

import edu.fudan.nlp.cn.tag.CWSTagger;

import edu.fudan.nlp.corpus.StopWords;

public class GetKeywords {

public ArrayList GetKeyword(String News,int keywordsNumber) throws Exception{

ArrayList keywords=new ArrayList();

StopWords sw= new StopWords("models/stopwords");

CWSTagger seg = new CWSTagger("models/seg.m");

AbstractExtractor key = new WordExtract(seg,sw);

//you need to set the keywords number, here you will get 10 keywords

Map ans = key.extract(News, keywordsNumber);

for (Map.Entry entry : ans.entrySet()) {

String keymap = entry.getKey().toString();

String value = entry.getValue().toString();

keywords.add(keymap);

System.out.println("key=" + keymap + " value=" + value);

}

return keywords;

}

}

輸出結果是這樣:

493c991d3ed9afe187f40268f612ff6a.png

其實後面那個value值應該是用來標記某個詞重要性的,值越大證明越可能是關鍵詞,這裡我並不需要用到。

好了,調用別人的工具就是這麼簡單,當然fudanNLP的功能遠不止這些,可以上它的演示網站看看:http://jkx.fudan.edu.cn/nlp/

註:fudanNLP的關鍵詞提取技術並不是用TF-IDF,而是類似於Pagerank的Textrank,具體可以參看這篇論文:

感謝曉陽童鞋更正

最後附上別人寫的通過web service調用FudanNLP的代碼:

import java.io.BufferedReader;

import java.io.IOException;

import java.io.InputStreamReader;

import java.net.URL;

import java.net.URLEncoder;

/**

* FudanNLP Web Services使用示例

* @author 趙嘉億

*/

public class Demo {

static String u = "http://jkx.fudan.edu.cn/fudannlp/";

public static String nlp(String func, String input) throws IOException {

// must encode url!! if we write FudannlpResource.seg(String) this way

input = URLEncoder.encode(input, "utf-8"); //utf-8 重要!

URL url = new URL( u + func + "/" + input);

StringBuffer sb = new StringBuffer();

BufferedReader out = new BufferedReader(new InputStreamReader(url.openStream(), "utf-8")); //utf-8 重要!

String line;

while ((line = out.readLine()) != null)

sb.append(line);

out.close();

return sb.toString();

}

public static String welcome() throws IOException {

URL url = new URL(u);

StringBuffer sb = new StringBuffer();

BufferedReader out = new BufferedReader(new InputStreamReader(url.openStream(), "utf-8"));

String line;

while ((line = out.readLine()) != null)

sb.append(line);

out.close();

return sb.toString();

}

public static String nlp(String func) throws IOException {

URL url = new URL(u + func);

StringBuffer sb = new StringBuffer();

BufferedReader out = new BufferedReader(new InputStreamReader(url.openStream(), "utf-8"));

String line;

while ((line = out.readLine()) != null)

sb.append(line);

out.close();

return sb.toString();

}

public static void main(String[] args) throws IOException {

// 也可直接用IE訪問 http://jkx.fudan.edu.cn/fudannlp/seg/開源中文自然語言處理工具包 FudanNLP

System.out.println(welcome());

System.out.println(nlp("key"));

System.out.println(nlp("seg", "開源中文自然語言處理工具包 FudanNLP"));

System.out.println(nlp("ner", "開源中文自然語言處理工具包 FudanNLP"));

System.out.println(nlp("time", "2010-10-10"));

}

}



推荐阅读
  • 个人学习使用:谨慎参考1Client类importcom.thoughtworks.gauge.Step;importcom.thoughtworks.gauge.T ... [详细]
  • 本文介绍了南邮ctf-web的writeup,包括签到题和md5 collision。在CTF比赛和渗透测试中,可以通过查看源代码、代码注释、页面隐藏元素、超链接和HTTP响应头部来寻找flag或提示信息。利用PHP弱类型,可以发现md5('QNKCDZO')='0e830400451993494058024219903391'和md5('240610708')='0e462097431906509019562988736854'。 ... [详细]
  • Imtryingtofigureoutawaytogeneratetorrentfilesfromabucket,usingtheAWSSDKforGo.我正 ... [详细]
  • 基于Socket的多个客户端之间的聊天功能实现方法
    本文介绍了基于Socket的多个客户端之间实现聊天功能的方法,包括服务器端的实现和客户端的实现。服务器端通过每个用户的输出流向特定用户发送消息,而客户端通过输入流接收消息。同时,还介绍了相关的实体类和Socket的基本概念。 ... [详细]
  • 这是原文链接:sendingformdata许多情况下,我们使用表单发送数据到服务器。服务器处理数据并返回响应给用户。这看起来很简单,但是 ... [详细]
  • 本文介绍了Swing组件的用法,重点讲解了图标接口的定义和创建方法。图标接口用来将图标与各种组件相关联,可以是简单的绘画或使用磁盘上的GIF格式图像。文章详细介绍了图标接口的属性和绘制方法,并给出了一个菱形图标的实现示例。该示例可以配置图标的尺寸、颜色和填充状态。 ... [详细]
  • 搭建Windows Server 2012 R2 IIS8.5+PHP(FastCGI)+MySQL环境的详细步骤
    本文详细介绍了搭建Windows Server 2012 R2 IIS8.5+PHP(FastCGI)+MySQL环境的步骤,包括环境说明、相关软件下载的地址以及所需的插件下载地址。 ... [详细]
  • PHP图片截取方法及应用实例
    本文介绍了使用PHP动态切割JPEG图片的方法,并提供了应用实例,包括截取视频图、提取文章内容中的图片地址、裁切图片等问题。详细介绍了相关的PHP函数和参数的使用,以及图片切割的具体步骤。同时,还提供了一些注意事项和优化建议。通过本文的学习,读者可以掌握PHP图片截取的技巧,实现自己的需求。 ... [详细]
  • android listview OnItemClickListener失效原因
    最近在做listview时发现OnItemClickListener失效的问题,经过查找发现是因为button的原因。不仅listitem中存在button会影响OnItemClickListener事件的失效,还会导致单击后listview每个item的背景改变,使得item中的所有有关焦点的事件都失效。本文给出了一个范例来说明这种情况,并提供了解决方法。 ... [详细]
  • 本文介绍了RPC框架Thrift的安装环境变量配置与第一个实例,讲解了RPC的概念以及如何解决跨语言、c++客户端、web服务端、远程调用等需求。Thrift开发方便上手快,性能和稳定性也不错,适合初学者学习和使用。 ... [详细]
  • 在重复造轮子的情况下用ProxyServlet反向代理来减少工作量
    像不少公司内部不同团队都会自己研发自己工具产品,当各个产品逐渐成熟,到达了一定的发展瓶颈,同时每个产品都有着自己的入口,用户 ... [详细]
  • 海马s5近光灯能否直接更换为H7?
    本文主要介绍了海马s5车型的近光灯是否可以直接更换为H7灯泡,并提供了完整的教程下载地址。此外,还详细讲解了DSP功能函数中的数据拷贝、数据填充和浮点数转换为定点数的相关内容。 ... [详细]
  • 本文讨论了在VMWARE5.1的虚拟服务器Windows Server 2008R2上安装oracle 10g客户端时出现的问题,并提供了解决方法。错误日志显示了异常访问违例,通过分析日志中的问题帧,找到了解决问题的线索。文章详细介绍了解决方法,帮助读者顺利安装oracle 10g客户端。 ... [详细]
  • 上图是InnoDB存储引擎的结构。1、缓冲池InnoDB存储引擎是基于磁盘存储的,并将其中的记录按照页的方式进行管理。因此可以看作是基于磁盘的数据库系统。在数据库系统中,由于CPU速度 ... [详细]
  • 本文讨论了如何使用GStreamer来删除H264格式视频文件中的中间部分,而不需要进行重编码。作者提出了使用gst_element_seek(...)函数来实现这个目标的思路,并提到遇到了一个解决不了的BUG。文章还列举了8个解决方案,希望能够得到更好的思路。 ... [详细]
author-avatar
谢谢巷议
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有