当前位置: 开发笔记 > 编程语言 > 正文

海量数据分类liblinear使用总结

作者：dcwzyb_271 | 来源：互联网 | 2023-10-12 17:12

liblinear使用总结liblinear是libsvm的线性核的改进版本，专门适用于百万数据量的分类。正好适用于我这次数据挖掘的实验。liblinear用法和li

liblinear使用总结

liblinear是libsvm的线性核的改进版本，专门适用于百万数据量的分类。正好适用于我这次数据挖掘的实验。

liblinear用法和libsvm很相似，我是用的是.exe文件，利用python的subprocess向控制台发送命令即可完成本次试验。

其中核心两句即

train train.txt

predict test.txt train.txt.model output.txt

由于是线性核，没有设置参数c、g

对于50W篇文章模型训练仅需340秒，50W篇文章的预测仅需6秒

1 from subprocess import *
2 import time
3
4 time = time.time
5
6 start_time = time()
7 print("训练")
8 cmd = "train train.txt"
9 Popen(cmd, shell = True, stdout = PIPE).communicate()
10 print("训练结束",str(time() - start_time))
11
12
13 start_time = time()
14 print("预测")
15 cmd = "predict test.txt train.txt.model output.txt"
16 Popen(cmd, shell = True).communicate()
17 print("预测结束",str(time() - start_time))
18
19
20 #进行统计
21 #读测试集真实label
22 start_time = time()
23 print("统计")
24 test_filename = "test.txt"
25 f = open(test_filename,"r",encoding = "utf-8")
26 real_class = []
27 for line in f:
28 real_class.append(line[0])
29
30 #总样本
31 total_sample = len(real_class)
32
33 #读预测结果label
34 predict_filename = "output.txt"
35 f_predict = open(predict_filename,"r",encoding = "utf-8")
36 s = f_predict.read()
37 predict_class = s.split()
38
39 #对预测正确的文章进行计数
40 T = 0
41 for real, predict in zip(real_class,predict_class):
42 if int(real) == int(predict):
43 T += 1
44 accuracy = T / total_sample * 100
45 print("正确率为", str(accuracy) + "%")
46
47
48 # class_label = ["0","1","2","3","4","5","6","7","8","9"]
49 num_to_cate = {0:"it",1:"体育",2:"军事",3:"金融",4:"健康",5:"汽车",6:"房产",7:"文化",8:"教育",9:"娱乐"}
50
51 class_label = ["it","体育","军事","金融","健康","汽车","房产","文化","教育","娱乐"]
52
53 predict_precision = dict.fromkeys(class_label,1.0)
54 predict_true = dict.fromkeys(class_label,1.0)
55
56 predict_recall = dict.fromkeys(class_label,1.0)
57 predict_F = dict.fromkeys(class_label,0.0)
58 # print(str(predict_precision))
59 # print(str(predict_precision))
60 # print(str(predict_recall))
61 # print(str(predict_true))
62 mat = dict.fromkeys(class_label,{})
63 for k,v in mat.items():
64 mat[k] = dict.fromkeys(class_label,0)
65
66 # print(str(mat))
67
68 for real, predict in zip(real_class,predict_class):
69 real = int(real)
70 predict = int(predict)
71 # print(num_to_cate[real])
72 # print(num_to_cate[predict])
73 mat[num_to_cate[real]][num_to_cate[predict]] += 1
74 predict_precision[num_to_cate[predict]] += 1
75 predict_recall[num_to_cate[real]] += 1
76
77 if int(real) == int(predict):
78 predict_true[num_to_cate[predict]] += 1
79
80 # print(str(predict_precision))
81 # print(str(predict_recall))
82 # print(str(predict_true))
83
84 #输出混淆矩阵
85 for k, v in mat.items():
86 print(k + ":" + str(v))
87
88 #计算精确率和召回率
89 for x in range(len(class_label)):
90 # x = str(x)
91 predict_precision[num_to_cate[x]] = predict_true[num_to_cate[x]] / predict_precision[num_to_cate[x]]
92 predict_recall[num_to_cate[x]] = predict_true[num_to_cate[x]] / predict_recall[num_to_cate[x]]
93
94 # print(str(predict_precision))
95 # print(str(predict_recall))
96 # print(str(predict_true))
97
98 #计算F测度
99 for x in range(len(class_label)):
100 # x = str(x)
101 predict_F[num_to_cate[x]] = 2 * predict_recall[num_to_cate[x]] * predict_precision[num_to_cate[x]] / (predict_precision[num_to_cate[x]] + predict_recall[num_to_cate[x]])
102
103 print("统计结束",str(time() - start_time))
104 print("精确率为",str(predict_precision))
105 print("召回率为",str(predict_recall))
106 print("F测度为",str(predict_F))
107
108 print("保存结果")
109 final_result_filename = "./finalresult.txt"
110 f = open(final_result_filename,"w",encoding = "utf-8")
111 for k, v in mat.items():
112 f.write(k + ":" + str(v) + "\n")
113
114 f.write("\n")
115 f.write("正确率为" + str(accuracy) + "%" + "\n\n")
116 f.write("精确率为" + str(predict_precision) + "\n\n")
117 f.write("召回率为" + str(predict_recall) + "\n\n")
118 f.write("F测度为" + str(predict_F) + "\n\n")
119 print("保存结果结束")
120
121
122 # cate_to_num = {"it":0,"体育":1,"军事":2,"华人":3,"国内":4,"国际":5,"房产":6,"文娱":7,"社会":8,"财经":9}
123 # num_to_cate = {0:"it",1:"体育",2:"军事",3:"华人",4:"国内",5:"国际",6:"房产",7:"文娱",8:"社会",9:"财经"}

原文：https://www.cnblogs.com/anqiang1995/p/7955672.html

liblinear是一个适用于大规模数据集的线性分类器，可处理多分类问题。

参考：使用教程英文版：点击打开链接

使用案例（代码）：点击打开链接

libsvm使用：点击打开链接

介绍：

关于参数以及什么时候该使用：点击打开链接

github地址：点击打开链接

readme翻译：点击打开链接

建议的训练步骤（来源于libSVM，感觉对这个也有帮助，所以也标记在这）：

1）将我们的训练数据和测试数据转换为该SVM软件包支持的格式；

2）对数据进行简单的尺度化scale；

3）先考虑用RBF核；

4）使用交叉检验方法去寻找最优的参数C和γ；

5）使用找到的最好的参数C和γ来训练整个训练集；

6）在测试集上测试。

需要注意的是，一定要先把数据处理成要求的格式，即如下这种格式：

标签 1：特征1值 2：特征2值

一个简单的例子：

1 from liblinearutil import *

2 读取数据

y,x = svm_read_problem(&＃39;data_path&＃39;)

3 训练

m = train(y,x,&＃39;option&＃39;)#option为设置比如： -s 2 -c 5 -q

3 也可以做交叉验证

CV_ACC = train(y, x, &＃39;-v 3&＃39;)
# -v 3 是指进行3-fold的交叉验证
# 返回的是交叉验证的准确率

4 预测并输出准确率

frbs, p_acc, p_vals = predict(y, x, m, &＃39;-b 0&＃39;)

其中：

# y是testing data的真实标签，用于计算准确率
# x是待预测样本
# p_labs: 预测出来的标签
# p_acc: tuple类型，包括准确率，MSE，Squared correlation coefficient(平方相关系数)
# p_vals: list, 直接由模型计算出来的值，没有转化成1，0的值，也可以看做是概率估计值

备注：

在结果中，#iter表示迭代次数，Objective value 为SVM文件转换为的二次规划求解得到的最小值，nSV 为标准支持向量个数(0

推荐阅读

function
深入理解Python的os和sys模块

本文详细解析了Python中的os和sys模块，介绍了它们的功能、常用方法及其在实际编程中的应用。 ... [详细]

蜡笔小新 2024-12-26 22:04:19
string
golang常用库：配置文件解析库/管理工具viper使用

golang常用库：配置文件解析库管理工具-viper使用-一、viper简介viper配置管理解析库，是由大神SteveFrancia开发，他在google领导着golang的 ... [详细]

蜡笔小新 2024-12-28 13:47:52
jsp
android知识杂记（三）

andr ... [详细]

蜡笔小新 2024-12-26 13:29:32
range
深入理解org.neo4j.helpers.collection.Iterators.single()方法及其应用

本文详细介绍了Java中org.neo4j.helpers.collection.Iterators.single()方法的功能、使用场景及代码示例，帮助开发者更好地理解和应用该方法。 ... [详细]

蜡笔小新 2024-12-28 10:51:55
sum
编写有趣的VBScript恶作剧脚本

本文将介绍如何编写一些有趣的VBScript脚本，这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例，帮助您了解VBScript的基本语法和功能。 ... [详细]

蜡笔小新 2024-12-28 09:46:23
get
Python配置文件读写指南

本文详细介绍如何使用Python进行配置文件的读写操作，涵盖常见的配置文件格式（如INI、JSON、TOML和YAML），并提供具体的代码示例。 ... [详细]

蜡笔小新 2024-12-28 08:39:55
java
Dockerfile 编写与 Docker 网络配置详解

本文详细介绍了 Dockerfile 的编写方法及其在网络配置中的应用，涵盖基础指令、镜像构建与发布流程，并深入探讨了 Docker 的默认网络、容器互联及自定义网络的实现。 ... [详细]

蜡笔小新 2024-12-27 17:31:41
get
掌握远程执行Linux脚本和命令的技巧

本文将详细介绍如何利用Python的Paramiko库实现远程执行Linux脚本和命令，帮助读者快速掌握这一实用技能。通过具体的示例和详尽的解释，让初学者也能轻松上手。 ... [详细]

蜡笔小新 2024-12-26 19:47:05
string
Objective-C 编程中的关键语法点

本文探讨了 Objective-C 中的一些重要语法特性，包括 goto 语句、块（block）的使用、访问修饰符以及属性管理等。通过实例代码和详细解释，帮助开发者更好地理解和应用这些特性。 ... [详细]

蜡笔小新 2024-12-26 19:42:38
string
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
filter
Java并发编程：LinkedBlockingQueue的实际应用

本文介绍了Java并发库中的阻塞队列（BlockingQueue）及其典型应用场景。通过具体实例，展示了如何利用LinkedBlockingQueue实现线程间高效、安全的数据传递，并结合线程池和原子类优化性能。 ... [详细]

蜡笔小新 2024-12-27 18:51:49
function
Python 的 10 个开发技巧！太实用了

1.如何在运行状态查看源代码？查看函数的源代码，我们通常会使用IDE来完成。比如在PyCharm中，你可以Ctrl+鼠标点击进入函数的源代码。那如果没有IDE呢？当我们想使用一个函 ... [详细]

蜡笔小新 2024-12-27 18:36:54
tree
Python自动化处理：从Word文档提取内容并生成带水印的PDF

本文介绍如何利用Python实现从特定网站下载Word文档，去除水印并添加自定义水印，最终将文档转换为PDF格式。该方法适用于批量处理和自动化需求。 ... [详细]

蜡笔小新 2024-12-27 13:10:20
sum
C#中获取进程主窗口句柄的实现方法

本文介绍了如何在C#中启动一个应用程序，并通过枚举窗口来获取其主窗口句柄。当使用Process类启动程序时，我们通常只能获得进程的句柄，而主窗口句柄可能为0。因此，我们需要使用API函数和回调机制来准确获取主窗口句柄。 ... [详细]

蜡笔小新 2024-12-27 03:39:09
get
深入探讨CPU虚拟化与KVM内存管理

本文详细介绍了现代服务器架构中的CPU虚拟化技术，包括SMP、NUMA和MPP三种多处理器结构，并深入探讨了KVM的内存虚拟化机制。通过对比不同架构的特点和应用场景，帮助读者理解如何选择最适合的架构以优化性能。 ... [详细]

蜡笔小新 2024-12-25 19:15:51

dcwzyb_271

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章