热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

FastDFSNginx扩展模块的源代码解析与技术剖析

1. 背景

在大多数业务场景中,往往需要为FastDFS存储的文件提供http下载服务,而尽管FastDFS在其storage及tracker都内置了http服务, 但性能表现却不尽如人意;
作者余庆在后来的版本中增加了基于当前主流web服务器的扩展模块(包括nginx/apache),其用意在于利用web服务器直接对本机storage数据文件提供http服务,以提高文件下载的性能。

 

2. 概要介绍

关于FastDFS的架构原理不再赘述,有兴趣可以参考:http://code.google.com/p/fastdfs/wiki/Overview 

2.1 参考架构

使用FastDFS整合Nginx的参考架构如下所示

fastdfs-nginx扩展模块源码分析

说明: 在每一台storage服务器主机上部署Nginx及FastDFS扩展模块,由Nginx模块对storage存储的文件提供http下载服务, 仅当当前storage节点找不到文件时会向源storage主机发起redirect或proxy动作。 
注:图中的tracker可能为多个tracker组成的集群;且当前FastDFS的Nginx扩展模块支持单机多个group的情况

 

2.2 几个概念

storage_id:指storage server的id,从FastDFS4.x版本开始,tracker可以对storage定义一组ip到id的映射,以id的形式对storage进行管理。而文件名写入的不再是storage的ip而是id,这样的方式对于数据迁移十分有利。 
storage_sync_file_max_delay:指storage节点同步一个文件最大的时间延迟,是一个阈值;如果当前时间与文件创建时间的差距超过该值则认为同步已经完成。 
anti_steal_token:指文件ID防盗链的方式,FastDFS采用token认证的方式进行文件防盗链检查。

 

3. 实现原理

 3.1 源码包说明

下载后的源码包很小,仅包括以下文件:

 ngx_http_fastdfs_module.c   //nginx-module接口实现文件,用于接入fastdfs-module核心模块逻辑
 common.c                    //fastdfs-module核心模块,实现了初始化、文件下载的主要逻辑
 common.h                    //对应于common.c的头文件
 config                      //编译模块所用的配置,里面定义了一些重要的常量,如扩展配置文件路径、文件下载chunk大小
 mod_fastdfs.conf            //扩展配置文件的demo

 

3.2 初始化

fastdfs-nginx扩展模块源码分析

3.2.1 加载配置文件

目标文件:/etc/fdfs/mod_fastdfs.conf

3.2.2 读取扩展模块配置

一些重要参数包括:

      group_count           //group个数
      url_have_group_name   //url中是否包含group
      group.store_path      //group对应的存储路径
      connect_timeout       //连接超时
      network_timeout       //接收或发送超时
      storage_server_port   //storage_server端口,用于在找不到文件情况下连接源storage下载文件(该做法已过时)
      response_mode         //响应模式,proxy或redirect
      load_fdfs_parameters_from_tracker //是否从tracker下载服务端配置

3.2.3 加载服务端配置

根据load_fdfs_parameters_from_tracker参数确定是否从tracker获取server端的配置信息

  • load_fdfs_parameters_from_tracker=true:
  1. 调用fdfs_load_tracker_group_ex解析tracker连接配置 ;
  2. 调用fdfs_get_ini_context_from_tracker连接tracker获取配置信息;
  3. 获取storage_sync_file_max_delay阈值
  4. 获取use_storage_id
  5. 如果use_storage_id为true,则连接tracker获取storage_ids映射表(调用方法:fdfs_get_storage_ids_from_tracker_group)
  • load_fdfs_parameters_from_tracker=false:
  1. 从mod_fastdfs.conf加载所需配置:storage_sync_file_max_delay、use_storage_id;
  2. 如果use_storage_id为true,则根据storage_ids_filename获取storage_ids映射表(调用方法:fdfs_load_storage_ids_from_file)

 


3.3 下载过程

fastdfs-nginx扩展模块源码分析

3.3.1 解析访问路径

    得到group和file_id_without_group两个参数;

 

 3.3.2 防盗链检查

  • 根据g_http_params.anti_steal_token配置(见http.conf文件),判断是否进行防盗链检查;
  • 采用token的方式实现防盗链, 该方式要求下载地址带上token,且token具有时效性(由ts参数指明);

检查方式:

   md5(fileid_without_group + privKey + ts) = token; 同时ts没有超过ttl范围 (可参考JavaClient CommonProtocol)

调用方法:fdfs_http_check_token 
关于FastDFS的防盗链可参考: http://bbs.chinaunix.net/thread-1916999-1-1.html

 

3.3.3 获取文件元数据

根据文件ID 获取元数据信息, 包括:源storage ip,文件路径、名称,大小 
代码

    if ((result=fdfs_get_file_info_ex1(file_id, false, &file_info)) != 0)...

fdfs_get_file_info_ex1 的实现中,存在一个取巧的逻辑: 
  当获得文件的ip段之后,仍然需要确定该段落是storage的id还是ip。 
代码

  fdfs_shared.func.c
  -> fdfs_get_server_id_type(ip_addr.s_addr) == FDFS_ID_TYPE_SERVER_ID
  ...
       if (id > 0 && id <= FDFS_MAX_SERVER_ID) {
          return FDFS_ID_TYPE_SERVER_ID;
       } else  {
         return FDFS_ID_TYPE_IP_ADDRESS;
       }

 

判断标准为ip段的整数值是否在 0 到 -> FDFS_MAX_SERVER_ID(见tracker_types.h)之间; 
其中FDFS_MAX_SERVER_ID = (1 <<24) - 1,该做法利用了ipv4地址的特点(由4*8个二进制位组成),即ipv4地址数值务必大于该阈值

3.3.4 检查本地文件是否存在

调用trunk_file_stat_ex1获取本地文件信息,该方法将实现:

  1. 辨别当前文件是trunkfile还是singlefile
  2. 获得文件句柄fd
  3. 如果文件是trunk形式则同时也将相关信息(偏移量/长度)一并获得

代码

    if (bSameGroup)
    {
            FDFSTrunkHeader trunkHeader;
        if ((result=trunk_file_stat_ex1(pStorePaths, store_path_index, \
            true_filename, filename_len, &file_stat, \
            &trunkInfo, &trunkHeader, &fd)) != 0)
        {
            bFileExists = false;
        }
        else
        {
            bFileExists = true;
        }
    }
    else
    {
        bFileExists = false;
        memset(&trunkInfo, 0, sizeof(trunkInfo));
    }

3.3.5 文件不存在的处理

  • 进行有效性检查

检查项有二:

A. 源storage是本机或者当前时间与文件创建时间的差距已经超过阈值,报错;

代码

     if (is_local_host_ip(file_info.source_ip_addr) || \
        (file_info.create_timestamp > 0 && (time(NULL) - \
            file_info.create_timestamp > '''storage_sync_file_max_delay''')))

 

B. 如果是redirect后的场景,同样报错;
如果是由其他storage节点redirect过来的请求,其url参数中会存在redirect一项


在通过有效性检查之后将进行代理或重定向处理

  • 重定向模式

配置项response_mode = redirect,此时服务端返回返回302响应码,url如下:

http:// {源storage地址} : {当前port} {当前url} {参数"redirect=1"}(标记已重定向过)

 

代码

      response.redirect_url_len = snprintf( \
                response.redirect_url, \
                sizeof(response.redirect_url), \
                "http://%s%s%s%s%c%s", \
                file_info.source_ip_addr, port_part, \
                path_split_str, url, \
                param_split_char, "redirect=1");

 

注:该模式下要求源storage配备公开访问的webserver、同样的端口(一般是80)、同样的path配置。

  • 代理模式

配置项response_mode = proxy,该模式的工作原理如同反向代理的做法,而仅仅使用源storage地址作为代理proxy的host,其余部分保持不变。 
代码

       if (pContext->proxy_handler != NULL)
		{
			return pContext->proxy_handler(pContext->arg, \
					file_info.source_ip_addr);
		}
        //其中proxy_handler方法来自ngx_http_fastdfs_module.c文件的ngx_http_fastdfs_proxy_handler方法
        //其实现中设置了大量回调、变量,并最终调用代理请求方法,返回结果:
        rc = ngx_http_read_client_request_body(r, ngx_http_upstream_init);  //执行代理请求,并返回结果

3.3.6 输出本地文件

当本地文件存在时,将直接输出。
  • 根据是否trunkfile获取文件名,文件名长度、文件offset;

代码

    bTrunkFile = IS_TRUNK_FILE_BY_ID(trunkInfo);
    if (bTrunkFile)
    {
        trunk_get_full_filename_ex(pStorePaths, &trunkInfo, \
                full_filename, sizeof(full_filename));
        full_filename_len = strlen(full_filename);
        file_offset = TRUNK_FILE_START_OFFSET(trunkInfo) + \
                pContext->range.start;
    }
    else
    {
        full_filename_len = snprintf(full_filename, \
                sizeof(full_filename), "%s/data/%s", \
                pStorePaths->paths[store_path_index], \
                true_filename);
        file_offset = pContext->range.start;
    }

 

  • 若nginx开启了send_file开关而且当前为非chunkFile的情况下尝试使用sendfile方法以优化性能;

代码

    if (pContext->send_file != NULL && !bTrunkFile)
    {
        http_status = pContext->if_range ? \
                HTTP_PARTIAL_CONTENT : HTTP_OK;
        OUTPUT_HEADERS(pContext, (&response), http_status)
        ......
        return pContext->send_file(pContext->arg, full_filename, \
                full_filename_len, file_offset, download_bytes);
    }

 

  • 否则使用lseek 方式随机访问文件,并输出相应的段;

做法:使用chunk方式循环读,输出... 
代码

    while (remain_bytes > 0)
    {
        read_bytes = remain_bytes <= FDFS_OUTPUT_CHUNK_SIZE ? \
                 remain_bytes : FDFS_OUTPUT_CHUNK_SIZE;
        if (read(fd, file_trunk_buff, read_bytes) != read_bytes)
        {
            close(fd);
            ......
            return HTTP_INTERNAL_SERVER_ERROR;
        }

        remain_bytes -= read_bytes;
        if (pContext->send_reply_chunk(pContext->arg, \
            (remain_bytes == 0) ? 1: 0, file_trunk_buff, \
            read_bytes) != 0)
        {
            close(fd);
            return HTTP_INTERNAL_SERVER_ERROR;
        }
    }

 

其中chunk大小见config文件配置: -DFDFS_OUTPUT_CHUNK_SIZE='256*1024'

 

4. 扩展阅读

基于Referer实现防盗链: 
http://www.cnblogs.com/wJiang/archive/2010/04/04/1704445.html

FastDFS使用FAQ: 
http://bbs.chinaunix.net/thread-1920470-1-1.html

FastDFS-Nginx扩展的配置参考: 
http://blog.csdn.net/poechant/article/details/7036594

FastDFS配置、部署资料整理-CSDN博客: 
http://blog.csdn.net/poechant/article/details/6996047

关于C语言open和fopen区别 
http://blog.csdn.net/hairetz/article/details/4150193


推荐阅读
  • 如何在Java中高效构建WebService
    本文介绍了如何利用XFire框架在Java中高效构建WebService。XFire是一个轻量级、高性能的Java SOAP框架,能够简化WebService的开发流程。通过结合MyEclipse集成开发环境,开发者可以更便捷地进行项目配置和代码编写,从而提高开发效率。此外,文章还详细探讨了XFire的关键特性和最佳实践,为读者提供了实用的参考。 ... [详细]
  • 深入解析Android中图像资源的内存占用问题及其优化策略
    在Android开发过程中,图像资源的内存占用是一个值得关注的问题。本文将探讨图像内存占用与哪些因素相关,包括设备性能的影响,并提供一系列优化策略,帮助开发者有效管理图像资源,提升应用性能。 ... [详细]
  • 深入解析 Vue 中的 Axios 请求库
    本文深入探讨了 Vue 中的 Axios 请求库,详细解析了其核心功能与使用方法。Axios 是一个基于 Promise 的 HTTP 客户端,支持浏览器和 Node.js 环境。文章首先介绍了 Axios 的基本概念,随后通过具体示例展示了如何在 Vue 项目中集成和使用 Axios 进行数据请求。无论你是初学者还是有经验的开发者,本文都能为你解决 Vue.js 相关问题提供有价值的参考。 ... [详细]
  • 每日精选Codeforces训练题:1119E(贪心算法)、821C(栈模拟)和645D(拓扑排序)
    题目涉及三种不同类型的算法问题:1119E(贪心算法)、821C(栈模拟)和645D(拓扑排序)。其中,1119E的问题背景是有n种不同长度的棍子,长度分别为2^0, 2^1, …, 2^(n-1),每种棍子的数量为a[i]。任务是计算可以组成的三角形数量。根据三角形的性质,任意两边之和必须大于第三边。该问题可以通过贪心算法高效解决,通过合理选择棍子组合来最大化三角形的数量。 ... [详细]
  • MongoDB高可用架构:深入解析Replica Set机制
    MongoDB的高可用架构主要依赖于其Replica Set机制。Replica Set通过多个mongod节点的协同工作,实现了数据的冗余存储和故障自动切换,确保了系统的高可用性和数据的一致性。本文将深入解析Replica Set的工作原理及其在实际应用中的配置和优化方法,帮助读者更好地理解和实施MongoDB的高可用架构。 ... [详细]
  • BZOJ4240 Gym 102082G:贪心算法与树状数组的综合应用
    BZOJ4240 Gym 102082G 题目 "有趣的家庭菜园" 结合了贪心算法和树状数组的应用,旨在解决在有限时间和内存限制下高效处理复杂数据结构的问题。通过巧妙地运用贪心策略和树状数组,该题目能够在 10 秒的时间限制和 256MB 的内存限制内,有效处理大量输入数据,实现高性能的解决方案。提交次数为 756 次,成功解决次数为 349 次,体现了该题目的挑战性和实际应用价值。 ... [详细]
  • 在CentOS上部署和配置FreeSWITCH
    在CentOS系统上部署和配置FreeSWITCH的过程涉及多个步骤。本文详细介绍了从源代码安装FreeSWITCH的方法,包括必要的依赖项安装、编译和配置过程。此外,还提供了常见的配置选项和故障排除技巧,帮助用户顺利完成部署并确保系统的稳定运行。 ... [详细]
  • 在稀疏直接法视觉里程计中,通过优化特征点并采用基于光度误差最小化的灰度图像线性插值技术,提高了定位精度。该方法通过对空间点的非齐次和齐次表示进行处理,利用RGB-D传感器获取的3D坐标信息,在两帧图像之间实现精确匹配,有效减少了光度误差,提升了系统的鲁棒性和稳定性。 ... [详细]
  • 技术日志:深入探讨Spark Streaming与Spark SQL的融合应用
    技术日志:深入探讨Spark Streaming与Spark SQL的融合应用 ... [详细]
  • 题目《UVa 11978 福岛核爆问题》涉及圆与多边形交集面积的计算及二分法的应用。该问题的核心在于通过精确的几何运算与高效的算法实现来解决复杂图形的面积计算。在实现过程中,特别需要注意的是对多边形顶点的平移处理,确保所有顶点包括最后一个顶点 \( p[n] \) 都经过正确的位移,以避免因细节疏忽导致的错误。此外,使用循环次数为50次的二分法能够有效提高算法的精度和稳定性。 ... [详细]
  • 如何在Android应用中设计和实现专业的启动欢迎界面(Splash Screen)
    在Android应用开发中,设计与实现一个专业的启动欢迎界面(Splash Screen)至关重要。尽管Android设计指南对使用Splash Screen的态度存在争议,但一个精心设计的启动界面不仅能提升用户体验,还能增强品牌识别度。本文将探讨如何在遵循最佳实践的同时,通过技术手段实现既美观又高效的启动欢迎界面,包括加载动画、过渡效果以及性能优化等方面。 ... [详细]
  • 我正致力于利用Azure Functions和System.IO.Compression库,将大量文件高效地压缩并存储到Azure Blob容器中。这种方法不仅提高了存储效率,还优化了数据管理流程。通过这种方式,可以显著减少存储成本,并提升数据访问速度。 ... [详细]
  • 如何高效启动大数据应用之旅?
    在前一篇文章中,我探讨了大数据的定义及其与数据挖掘的区别。本文将重点介绍如何高效启动大数据应用项目,涵盖关键步骤和最佳实践,帮助读者快速踏上大数据之旅。 ... [详细]
  • 本文初步探讨了PHP中基于JWT(JSON Web Token)的身份验证机制。具体流程包括:1. 客户端通过用户名和密码发起登录请求;2. 服务器接收并验证用户凭证的合法性,若验证通过,则生成并返回一个JWT令牌;3. 客户端接收该令牌,并在后续请求中携带此令牌以完成身份验证。这一机制不仅提高了安全性,还简化了会话管理。 ... [详细]
  • MySQL 5.6 引入了全局事务标识符(GTID)和多线程复制机制,显著提升了数据库的可靠性和性能。GTID 作为一种新的事务标识方式,确保了事务在主从节点间的一致性,避免了传统基于日志位置的复制可能出现的问题。多线程复制则通过并行处理多个复制任务,大幅提高了复制效率,特别是在大型数据库环境中表现更为突出。这些新特性不仅增强了 MySQL 的高可用性和扩展性,还为数据库管理带来了更多灵活性和便利性。 ... [详细]
author-avatar
ert6827354
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有