当前位置: 开发笔记 > 前端 > 正文

asp.net(c#)做一个网页数据采集工具

作者：mobiledu2502924817 | 来源：互联网 | 2022-08-15 18:58

最近做一个网站，该网站需要添加4000多产品信息，如果用人工方法去别的网站copy那至少要花费半月时间才能完成，所以我个办法使用c#作出来了一个网页数据采集软件.

通过这个软件一两天就完成了几千产品数据的录入，可见很多工作不是一味用人工去做，作为一个程序员，就是要让很多让那些经常做重复性的、繁琐的工作中的人解放出来。下面只是写了一些核心代码，而且采集必须要和对应网站相挂钩，作者：郑少群

代码如下:

 
//提取产品列表页中产品最终页的网页 
private void button1_Click(object sender, EventArgs e) 
{ 
if (textBox1.Text.Trim() == "" || textBox2.Text.Trim() == "") 
{ 
MessageBox.Show("网址和域名不能为空！", "信息提示", MessageBoxButtons.OK, MessageBoxIcon.Information); 
return; 
} 
try 
{ 
string Html = inc.GetHtml("http://study.pctoday.net.cn"); 
//ArrayList al = inc.GetMatchesStr(Html, "]*?>.*?"); 
ArrayList al = inc.GetMatchesStr(Html, @"href\s*=\s*(?:[\'\""\s](?<1>[^\""\']*)[\'\""])");//提取链接 


" title="Replica Watches:">Replica Watches Buy Full Quality Popular Luxury Watches at Amazing Price, Your One Stop Discount Swiss Watches StoreExclusive Replica Rolex Watches, Tag Heuer Watches Replica, Cartier Watches online Sale! 
StringBuilder sb = new StringBuilder(); 
foreach (object var in al) 
{ 
string a = var.ToString().Replace("\"", "").Replace("'", ""); 
a = Regex.Replace(a, "href=", "", RegexOptions.IgnoreCase | RegexOptions.Multiline); 
if (a.StartsWith("/")) 
a = textBox2.Text.Trim() + a; 
if (!a.StartsWith("http://")) 
a = "http://" + a; 
sb.Append(a + "\r\n"); 
} 
textBox5.Text = sb.ToString();//把提取到网址输出到一个textBox，每个链接占一行 



MessageBox.Show("共提取" + al.Count.ToString() + "个链接", "信息提示", MessageBoxButtons.OK, MessageBoxIcon.Information); 

} 
catch (Exception err) 
{ 
MessageBox.Show("提取出错！原因：" + err.Message, "信息提示", MessageBoxButtons.OK, MessageBoxIcon.Information); 
} 

} 




//把采集的产品页面html代码进行字符串处理，提取需要的代码，最后保存到本地一个access数据库中，同时提取产品图片地址并自动现在图片到本地images文件夹下 

private void backgroundWorker1_DoWork(object sender, DoWorkEventArgs e) 
{ 
//填充产品表 
Database.ExecuteNonQuery("delete from Tb_Product"); 
DataTable dt2 = new DataTable(); 
OleDbConnection cOnn= new OleDbConnection(Database.ConnectionStrings); 
OleDbDataAdapter da = new OleDbDataAdapter("select * from Tb_Product", conn); 
OleDbCommandBuilder cb = new OleDbCommandBuilder(da); 
da.Fill(dt2); 
dt2.Rows.Clear(); 

BackgroundWorker worker = (BackgroundWorker)sender;//这个是做一个进度条 

string[] Urls = textBox5.Text.Trim().ToLower().Replace("\r\n", ",").Split(','); 
DataTable dt = new DataTable(); 
StringBuilder ErrorStr = new StringBuilder(); 
string html = "", ImageDir = AppDomain.CurrentDomain.BaseDirectory + "Images\\"; 

//循环每次采集网址 
for (int i = 0; i { 
try 
{ 
if (!worker.CancellationPending) 
{ 
if (Urls[i] == "") 
return; 
html = inc.GetHtml(Urls[i]);//获取该url的html代码 
DataRow NewRow = dt2.NewRow(); 

//产品名 
string ProductName = html.Substring(html.IndexOf("")).Trim(); 

//产品编号 
NewRow["ModelId"] = NewRow["ProductName"].ToString().Substring(NewRow["ProductName"].ToString().IndexOf("Model:") + 6).Trim(); 

//产品介绍，这些都是根据不同网站的html做相应的修改 
string Introduce = html.Substring(html.IndexOf("Product Details") + 26); 
Introduce = Introduce.Remove(Introduce.IndexOf("") + 8).Trim() 

NewRow["Introduce"] = Introduce; 



" title="Replica Watches:">Replica Watches Buy Full Quality Popular Luxury Watches at Amazing Price, Your One Stop Discount Swiss Watches StoreExclusive Replica Rolex Watches, Tag Heuer Watches Replica, Cartier Watches online Sale! 
//下载图片 
string ProductImage = html.Substring(html.IndexOf("align=center>ProductImage = textBox2.Text.Trim() + ProductImage.Substring(ProductImage.IndexOf("src=\"") + 5); 
ProductImage = ProductImage.Remove(ProductImage.IndexOf("\"")); 
try 
{ 
inc.DownFile(ProductImage, ImageDir + ProductImage.Substring(ProductImage.LastIndexOf("/") + 1)); 
} 
catch (Exception) 
{ 
ErrorStr.Append("下载图片失败，图片地址：" + ImageDir + ProductImage.Substring(ProductImage.LastIndexOf("/") + 1) + "\r\n"); 
} 


dt2.Rows.Add(NewRow); 

//Thread.Sleep(100); 
worker.ReportProgress((i + 1) * 100 / Urls.Length, i); 
toolStripStatusLabel1.Text = "处理进度:" + (i + 1).ToString() + "/" + Urls.Length.ToString();//进度条 
} 

} 
catch (Exception err) 
{ 
ErrorStr.Append("采集错误：" + err.Message + ";网址：" + Urls[i] + "\r\n"); 
} 
} 
da.Update(dt2); 
DataBind(dt2); 
ShowError(ErrorStr.ToString()); 
} 

///  
/// ASPX页面生成静态Html页面，作者：郑少群 
///  
public static string GetHtml(string url) 
{ 
StreamReader sr = null; 
string str = null; 
//读取远程路径 
WebRequest request = WebRequest.Create(url); 
HttpWebResponse respOnse= (HttpWebResponse)request.GetResponse(); 
sr = new StreamReader(response.GetResponseStream(), Encoding.GetEncoding(response.CharacterSet)); 
str = sr.ReadToEnd(); 
sr.Close(); 
return str; 
} 


// 提取HTML代码中的网址 
public static ArrayList GetMatchesStr(string htmlCode, string strRegex) 
{ 
ArrayList al = new ArrayList(); 

Regex r = new Regex(strRegex, RegexOptions.IgnoreCase | RegexOptions.Multiline); 
MatchCollection m = r.Matches(htmlCode); 

for (int i = 0; i { 
bool rep = false; 
string strNew = m[i].ToString(); 

// 过滤重复的URL 
foreach (string str in al) 
{ 
if (strNew == str) 
{ 
rep = true; 
break; 
} 
} 

if (!rep) al.Add(strNew); 
} 

al.Sort(); 

return al; 
} 

public static void DownFile(string Url, string Path) 
{ 

HttpWebRequest request = (HttpWebRequest)WebRequest.Create(Url); 
HttpWebResponse respOnse= (HttpWebResponse)request.GetResponse(); 
Stream stream = response.GetResponseStream(); 
long size = response.ContentLength; 
//创建文件流对象 
using (FileStream fs = new FileStream(Path, FileMode.OpenOrCreate, FileAccess.Write)) 
{ 
byte[] b = new byte[1025]; 
int n = 0; 
while ((n = stream.Read(b, 0, 1024)) > 0) 
{ 
fs.Write(b, 0, n); 
} 
} 
} 

推荐阅读

taro
探索新一代API文档工具，告别Swagger的繁琐

对于后端开发者而言，编写和维护API文档既繁琐又不可或缺。本文将介绍一款全新的API文档工具，帮助团队更高效地协作，简化API文档生成流程。 ... [详细]

蜡笔小新 2024-12-22 11:02:41
bootstrap
深入解析Java虚拟机（JVM）架构与原理

本文旨在为读者提供对Java虚拟机（JVM）的全面理解，涵盖其主要组成部分、工作原理及其在不同平台上的实现。通过详细探讨JVM的结构和内部机制，帮助开发者更好地掌握Java编程的核心技术。 ... [详细]

蜡笔小新 2024-12-21 23:50:40
build
HTML基础入门指南

本文将深入浅出地介绍HTML的基础知识，包括其定义、开发工具、制定机构、特性、基本标签及更多实用内容。 ... [详细]

蜡笔小新 2024-12-21 15:07:54
json
SpringMVC RestTemplate的几种请求调用(转)

SpringMVCRestTemplate的几种请求调用(转),Go语言社区,Golang程序员人脉社 ... [详细]

蜡笔小新 2024-12-20 19:05:12
react
程序员如何优雅应对35岁职业转型？这里有深度解析

本文探讨了程序员在职业生涯中如何通过不断学习和技能提升，优雅地应对35岁左右的职业转型挑战。我们将深入分析当前热门技术趋势，并提供实用的学习路径。 ... [详细]

蜡笔小新 2024-12-20 18:26:03
react
Java中的基本数据类型与包装类解析

本文探讨了Java编程语言中的8种基本数据类型及其对应的包装类。通过分析这些数据类型的特性和使用场景，以及自动拆装箱机制的实现原理，帮助开发者更好地理解和应用这些概念。 ... [详细]

蜡笔小新 2024-12-20 16:25:15
console
计算指定月份的起始日与结束日

本文提供了多种方法来计算给定年份和月份的起始日和结束日，并进一步探讨了如何根据年、月、周获取特定周的起始日和结束日。 ... [详细]

蜡笔小新 2024-12-19 20:17:53
console
Java安装与运行指南及学习建议

本文详细介绍了Java的安装、配置、运行流程以及有效的学习方法，旨在帮助初学者快速上手Java编程。 ... [详细]

蜡笔小新 2024-12-19 13:41:15
json
利用HTML5 Canvas构建商场监控系统的实践案例

本文详细探讨了如何运用HTML5的Canvas技术来构建商场监控系统，旨在为相关领域的开发者提供实用的技术指导和灵感。文章不仅提供了具体的代码示例，还深入分析了实现过程中可能遇到的问题及解决方案。 ... [详细]

蜡笔小新 2024-12-06 17:49:18
build
搜索引擎架构设计

本文详细介绍了搜索引擎的主要组成部分，包括爬虫模块、索引模块和搜索模块。其中，索引模块采用了高效的二元分词技术进行数据存储，而搜索模块则基于ASP.NET框架实现了一个用户友好的界面和高效的搜索算法。 ... [详细]

蜡笔小新 2024-11-28 13:45:27
console
java datarow_DataSet DataTable DataRow 深入浅出

本篇文章适合有一定的基础的人去查看，最好学习过一定net编程基础在来查看此文章。1.概念DataSet是ADO.NET的中心概念。可以把DataSet当成内存中的数据 ... [详细]

蜡笔小新 2024-11-24 15:10:22
console
Node.js 中可写流的默认编码设置方法

本文介绍了如何在 Node.js 中使用 `setDefaultEncoding` 方法为可写流设置默认编码，并提供了详细的语法说明和示例代码。 ... [详细]

蜡笔小新 2024-12-22 10:44:58
console
优化App数据结构设计

本文探讨了在构建应用程序时，如何对不同类型的数据进行结构化设计。主要分为三类：全局配置、用户个人设置和用户关系链。每种类型的数据都有其独特的用途和应用场景，合理规划这些数据结构有助于提升用户体验和系统的可维护性。 ... [详细]

蜡笔小新 2024-12-22 09:42:30
console
使用Taro框架创建可复用组件

在现代前端开发中，组件化是提高代码复用性和维护性的关键。本文将通过一个具体的例子，展示如何使用Taro框架来封装一个音乐视频列表组件，重点介绍如何利用弹性布局（Flexbox）实现响应式设计。 ... [详细]

蜡笔小新 2024-12-01 16:16:39
console
oracle 对硬件环境要求,Oracle 10G数据库软硬件环境的要求

oracle 对硬件环境要求,Oracle 10G数据库软硬件环境的要求 ... [详细]

蜡笔小新 2024-11-18 15:17:57

mobiledu2502924817

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章