热门标签 | HotTags
当前位置:  开发笔记 > 前端 > 正文

三种获取网页源码的方法(使用MFC/Socket实现)

Windows下比较简单的获取网页源码的方法:使用MFC、使用MFC、Socket实现

第一个方法是使用MFC里面的

代码如下:

CString GetHttpFileData(CString strUrl)
{
     CInternetSession Session("Internet Explorer", 0);
     CHttpFile *pHttpFile = NULL;
     CString strData;
     CString strClip;
     pHttpFile = (CHttpFile*)Session.OpenURL(strUrl);
    while ( pHttpFile->ReadString(strClip) )
     {
      strData += strClip;
      }
     return strData;
}

要讲一下,pHttpFile->ReadString() 每次可能只读一个数据片断,读多少次取决于网络状况,所以要把每次读到的数据加到总数据的尾部,用了CString 省去了缓冲区处理:)
别忘了包含头文件#include 在工程设置,里面要选择 using MFC 要不然编译不了

第二种是使用WinNet的纯API实现的

代码如下:

#define MAXBLOCKSIZE 1024
#include
#include

#pragma comment(lib, "wininet.lib")

void GetWebSrcCode(const char *Url);

int _tmain(int argc, _TCHAR* argv[])
{
    GetWebSrcCode("https://www.jb51.net/");

    return 0;
}

void GetWebSrcCode(const char *Url)
{
    HINTERNET hSession = InternetOpen("zwt", INTERNET_OPEN_TYPE_PRECONFIG, NULL, NULL, 0);
    if (hSession != NULL)
    {
        HINTERNET hURL = InternetOpenUrl(hSession, Url, NULL, 0, INTERNET_FLAG_DONT_CACHE, 0);
        if (hURL != NULL)
        {
            char Temp[MAXBLOCKSIZE] = {0};
            ULONG Number = 1;

            FILE *stream;
            if( (stream = fopen( "E:\\test.html", "wb" )) != NULL )
            {
                while (Number > 0)
                {
                    InternetReadFile(hURL, Temp, MAXBLOCKSIZE - 1, &Number);
                    fwrite(Temp, sizeof (char), Number , stream);
                }
                fclose( stream );
            }

            InternetCloseHandle(hURL);
            hURL = NULL;
        }

        InternetCloseHandle(hSession);
        hSession = NULL;
    }
}

第三种就是使用非封装过的Socket实现了

代码如下:

int main(int argc, char* argv[])
{
    SOCKET hsocket;
    SOCKADDR_IN saServer;
    WSADATA wsadata;
    LPHOSTENT lphostent;
    int nRet;
    char Dest[3000]; 
    char* host_name="blog.sina.com.cn";
    char* req="GET /s/blog_44acab2f01016gz3.html HTTP/1.1\r\n"
        "User-Agent: Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; .NET CLR 1.1.4322; .NET CLR 2.0.50727; .NET4.0C; .NET4.0E; .NET CLR 3.0.4506.2152; .NET CLR 3.5.30729)\r\n"
        "Host:blog.sina.com.cn\r\n\r\n";


    // 初始化套接字 
    if(WSAStartup(MAKEWORD(2,2),&wsadata))
        printf("初始化SOCKET出错!");
    lphostent=gethostbyname(host_name);  
    if(lphostent==NULL)  
        printf("lphostent为空!");  
    hsocket = socket(AF_INET,SOCK_STREAM,IPPROTO_TCP);  
    saServer.sin_family = AF_INET;  
    saServer.sin_port = htons(80);  
    saServer.sin_addr =*((LPIN_ADDR)*lphostent->h_addr_list);  
    // 利用SOCKET连接  
    nRet = connect(hsocket,(LPSOCKADDR)&saServer,sizeof(SOCKADDR_IN));  
    if(nRet == SOCKET_ERROR)  
    {
        printf("建立连接时出错!");  
        closesocket(hsocket);
        return 0;
    }
    // 利用SOCKET发送  

    nRet = send(hsocket,req,strlen(req),0);  
    if(nRet==SOCKET_ERROR)  
    {  
        printf("发送数据包时出错!");  
        closesocket(hsocket);  
    }  
    nRet=1;  
    while(nRet>0)  
    {  
        // 接收返回数据包  
        nRet=recv(hsocket,(LPSTR)Dest,sizeof(Dest),0);  
        if(nRet>0)
            Dest[nRet]=0;
        else  
            Dest[0]=0; 
        char sDest[3000] = {0};
        UTF8_2_GB2312(sDest,nRet,Dest,nRet);
        // 显示返回数据包的大小、内容 
        //printf("\nReceived bytes:%d\n",nRet);  
        printf("Result:\n%s",sDest);  
    }
}

另外,以上我们获取网页的时候,获取到的可能是UTF8,似乎目前大多数网站都用的这种编码吧!下面是编码转换。

代码如下:

void UTF_8ToUnicode(wchar_t* pOut,char *pText)
{  
    char* uchar = (char *)pOut;
    uchar[1] = ((pText[0] & 0x0F) <<4) + ((pText[1] >> 2) & 0x0F);
    uchar[0] = ((pText[1] & 0x03) <<6) + (pText[2] & 0x3F);
}
void Gb2312ToUnicode(wchar_t* pOut,char *gbBuffer)
{  
    ::MultiByteToWideChar(CP_ACP,MB_PRECOMPOSED,gbBuffer,2,pOut,1);
}
void UTF_8ToGB2312(char*pOut, char *pText, int pLen) 
{  
    char Ctemp[4];  
    memset(Ctemp,0,4);
    int i =0 ,j = 0;
    while(i     { 
        if(pText[i] >= 0) 
        { 
            pOut[j++] = pText[i++];
        }
        else
        { 
            WCHAR Wtemp;
            UTF_8ToUnicode(&Wtemp,pText + i);
            UnicodeToGB2312(Ctemp,Wtemp);
            pOut[j] = Ctemp[0];
            pOut[j + 1] = Ctemp[1]; 
            i += 3;  
            j += 2; 
        }  
    }
    pOut[j] ='\n';
    return;
}

这是是转换成GB2312的代码


推荐阅读
  • 抽象工厂模式 c++
    抽象工厂模式包含如下角色:AbstractFactory:抽象工厂ConcreteFactory:具体工厂AbstractProduct:抽象产品Product:具体产品https ... [详细]
  • Mac环境下Java与Ant自动化构建环境搭建指南
    本文详细介绍了如何在Mac操作系统上为测试工程师搭建Java和Ant开发环境,包括环境变量配置等关键步骤。 ... [详细]
  • 本文介绍如何通过 CSS 设置不同的光标样式,以提升网页的用户体验。 ... [详细]
  • Pandas中使用sort_values方法进行数据排序
    本文介绍了如何利用Python的Pandas库中的sort_values方法对DataFrame对象进行排序。首先通过Numpy库生成随机数据,然后详细解释了DataFrame的创建过程及其参数,并重点探讨了sort_values方法的使用技巧。 ... [详细]
  • 本文探讨了斐波那契数列的两种主要计算方法——递归与非递归,并通过实际代码示例及运行时间对比,深入分析了两者的效率差异。 ... [详细]
  • 微信小程序支付官方参数小程序中代码后端发起支付代码支付回调官方参数文档地址:https:developers.weixin.qq.comminiprogramdeva ... [详细]
  • UMPlatForm.NET 5.1 版本数据字典管理功能解析
    本文介绍了 UMPlatForm.NET 5.1 版本中的数据字典管理模块,探讨了该模块如何支持平台的数据共享与管理,以及如何通过用户和角色权限来增强系统的安全性。 ... [详细]
  • MVC框架下使用DataGrid实现时间筛选与枚举填充
    本文介绍如何在ASP.NET MVC项目中利用DataGrid组件增强搜索功能,具体包括使用jQuery UI的DatePicker插件添加时间筛选条件,并通过枚举数据填充下拉列表。 ... [详细]
  • Spring Boot 初学者指南(第一部分)
    本文介绍了Spring Boot框架的基础知识,包括其设计理念、主要优势以及如何简化传统的J2EE开发流程。 ... [详细]
  • 本文介绍了Android SDK Platform Tools的核心功能及其重要性。作为Android SDK的一个关键组成部分,Platform Tools提供了开发者与Android设备进行交互所需的各种工具。 ... [详细]
  • 作为一名CSS初学者,我在博客园中尝试通过CSS美化页面,特别是为超链接添加图标,以提升阅读体验。本文将分享如何使用CSS和字体图标库来实现这一功能。 ... [详细]
  • 本文探讨了For和Foreach循环在不同数据结构(如数组和IEnumerable)下的性能表现,分析了它们各自的优势和适用场景。 ... [详细]
  • 本文探讨了HTA(HTML Application)环境中HTML5 IndexedDB的可用性问题,并提供了一种替代方案,即通过使用COM ActiveX对象来实现数据存储功能。 ... [详细]
  • ODB 2.1.0 版本现已推出,此更新引入了多项新功能,如通过访问器、修饰符、函数及表达式访问数据成员,支持虚拟数据成员,并允许在数据成员上直接定义数据库索引等。 ... [详细]
  • SQLite是一种轻量级的关系型数据库管理系统,尽管体积小巧,却能支持高达2TB的数据库容量,每个数据库以单个文件形式存储。本文将详细介绍SQLite在Android开发中的应用,包括其数据存储机制、事务处理方式及数据类型的动态特性。 ... [详细]
author-avatar
mobiledu2502909027
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有