听豆瓣架构变迁分享会总结_PHP教程-php教程

作者：日落月出星不离_887 | 来源：互联网 | 2017-05-13 02:31

听豆瓣架构变迁分享会总结。要点如下：目前23台pcserver每天pv数2k万左右。注册用户数300万。表的数据，大部分是行数量是千万的。5个人算法团队。另外开发人员总

要点如下：

目前23台pc server

每天pv数2k万左右。注册用户数300万。
表的数据，大部分是行数量是千万的。

5个人算法团队。另外开发人员总共11个,包括全职和兼职(以前看百姓网分享其技术也只有10名)

06年的时候每天120万左右动态请求。这个时候主要瓶颈在磁盘i/0上面，拿到风投，有钱购买硬件设备。购买两台iu服务器(双核,4g内存)
一台作为应用服务器，一台作为数据库服务器，迁移到双线ip机房，使用dns解析不同网段ip(自己去找哪些网段是电信的哪些网段是网通，然后自己进行解析)。看演讲后面提到的机房调整感觉到，其实这是走了弯路，可以选择一个好的机房来解决dns解析方面(后来总结是靠ip段来分布数据不靠谱)

具体怎么做，就是放到一个支持多线的(教育网铁通等)机房,现在我们公司用的阿里云就是多线）
那么这样子就不需要自己多ip段分配了(就是判断访问用户是电信还是网通等)。

使用内存缓存(豆瓣使用的是memcached)的两点原则：
1、对于需要比较消耗资源的数据
2、需要重复使用的数据。如果只需要使用一次，那么即便是比较消耗资源，丢入缓存也没多少意义

理解：内存缓存也需要内存，没必要浪费。如果不需要重复使用，丢入内存中也比较浪费(毕竟内存不便宜,也占用服务器资源)

豆瓣的memached命中率挺高的。靠这个也缓解了很多压力。

innodb并发访问支持好，因为支持行级存储。使用myisam还是innodb他们的的业务特点是：读多写少使用myisam，写多读少使用innodb

数据库切分方面：目前是按照功能进行分区(作者没有详细解释，应该是按照功能模块划分表。一个功能模块相关的表放到一个库中去)，提到，采用了经典的mysql主从架构。所以每个库其实是重复三份的(他说的主辅库)。应该是三个mysql从服务器

分库之后，操作多个库，使用游标的方式获取具体的库和具体的表。传入参数进去(具体没看懂)

数据库主从复制延迟问题一直是一个常见问题。

购买硬盘是一个教训：刚开始还是宁愿投资多点钱购买好的点的磁盘，因为磁盘这东西升级不太可能。到时候网站扛不住了。仍然得换。那么，刚开始宁愿多花点钱，购买高速磁盘，因为业务如果发展快了的话，就得换。即便贵点，磁盘仍然没有浪费的。

200万每天的动态请求的时候，豆瓣提到，静态的小文件服务(用户头像、封面图片)使得磁盘i/0成为瓶颈，以前愚蠢得把图片都放到一个目录下面,这个目录下面有几十万个小文件(直接导致不能使用ls命令,一使用服务器就死掉了)，这个时候把文件分目录。分成每个目录存储10000个文件。

有专门的数据挖掘团队。算法团队进行矩阵计算，把结果放入mysql，供前端查询显示出来。

豆瓣的fs是专门针对图片存储，自己开发的。其实机制是参考了amazon的，写的时候写三份数据。

磁盘随机寻道比吞吐量更加重要,当时的性能瓶颈在磁盘寻道速度上(这点跟之前看淘宝的图片文件系统分析的大量的图片访问带来的磁盘磁头频繁定位造成的延时类似)

后来把所有myisam表改为innodb表。

innodb的缓存：是在进程中自我管理(也就是内存中)，而myisam的缓存是基于文件中(受操作系统控制)。以前既用myisam表也用innodb表，导致两种类型的表相互竞争内存，效率不高。索引全部换成innodb存储引擎(这点我不是很理解，只明白其考虑点是为了更好利用内存)

应用服务器故障：nginx自带功能。

图片的流量成为很大成本：迁移到天津机房是因为更加便宜点。机柜比较便宜，把数据挖掘方面的数据和图片数据都搬过去。

北京与天津两个机房。里面各自搭建mysql的master-slave结构。

搜索方面：以前一直使用mysql的全文索引。后来迁移使用sphinx(这个结合mysql来使用,作为mysql的一个存储引擎)，后来又变为xapain

为什么没使用sphinx了？没有详细解释

使用MogileFS来存储图片，后来又自己开发了doubanfs存储。迁移的原因：mogilefs出现性能瓶颈，由于mogilefs是把元数据(命名空间, 和文件在哪里)存储在mysql中,数据库行数变多之后，就会变得越来越慢。而大量的小文件需要读取数据库，也影响了速度。当时的行数增长非常快，当时瓶颈在于mysql数据库上。

大字段影响了数据库的性能，实际上数据表行数并不多。就是大字段的影响。大文本字段移除出去，存储到自己开发的doubanDB中(是一个key-value数据库，参考了亚马逊的dymamo，进行简化)。底层存储基于tokyocabinet。后来把doubanfs重写，基于doubandb实现，把图片存储进去。

使用双master方案。解决了复制延迟问题，因为写和读都是对同一个master，读取到的数据是最新的。而以前：从master写入，然后从slave读，存在数据延迟

部署lvs。

之前使用spread作为消息队列，后来使用rabbitMQ替代

=========================================================

总结：照搬其架构和技术方案是不可行的。借鉴他的错误经验和背后的设计思想才能学到本质(主要了解为什么那样子做,出于什么考虑)。

教训：磁盘的选择和机房的选择。磁盘选择转数快的，开始成本贵点值得。

分库，首先从功能角度划分区。暂时还没必要去做水平分区。功能相关表放到一个库中或者单独的服务器上这是必经的阶段。

把钱花在内存上是值得的的，一台机器的内存永远不嫌多，数据库消耗的内存比较多，一般内存往往会成为瓶颈(大量连接，计算数据都能导致内存不够用)。memcached并不廉价(网络i/0,消耗cpu)。放入memcached的东西要慎重。

避免数据库的join操作(这点与以前看的石展分享的观点类似，减少join操作，宁愿拆分成多次获取数据，facebook的架构中也提到不做JOIN 操作)

总体感觉，从豆瓣中学到数据库方面的经验是分库方面。他们的访问量级别还不需要进行到水平切分，进行分库即可了，按照业务功能分区。一个业务功能模块相关的表都拆分到同一个库中去。然后对数据库服务器做主从同步保持数据热备份。

Sharding 在业界的应用场景基本上也就是这种读应用比较重的情况，而且对事务的安全性要求不高，这样的场景会非常适合。

sata*3查了一下 450G 1000多块钱一个。

sata硬盘故障率比较高，换了scsi硬盘。

针对图片存储或者小文件存储方面，因为量大(流量成本，存储成本)，开发了自己的文件系统

图片存储如果依赖于数据库做存储，数据量大之后，确实会成为瓶颈(难怪淘宝的图片文件系统,将一部分元数据隐藏到图片的保存文件名上)

疑问：北京和天津跨机房，两边的mysql之间进行同步数据，或者是天津那边的数据挖掘程序往北京写入数据，这个速度如何？

这个我查了一下资料，一般是需要使用专用光钎网络通道。

推荐阅读

html
我的读书清单（持续更新）

我的读书清单（持续更新）201705311.《一千零一夜》2006（四五年级）2.《中华上下五千年》2008（初一）3.《鲁滨孙漂流记》2008（初二）4.《钢铁是怎样炼成的》20 ... [详细]

蜡笔小新 2024-11-21 13:01:23
get
搭建个人博客：WordPress安装详解

计划建立个人博客来分享生活与工作的见解和经验，选择WordPress是因为它专为博客设计，功能强大且易于使用。 ... [详细]

蜡笔小新 2024-11-22 11:13:36
sum
H5技术实现经典游戏《贪吃蛇》

本文将分享一个使用HTML5技术实现的经典小游戏——《贪吃蛇》。通过H5技术，我们将探讨如何构建这款游戏的两种主要玩法：积分闯关和无尽模式。 ... [详细]

蜡笔小新 2024-11-21 20:16:59
sum
PHP中Smarty模板引擎自定义函数详解

本文详细介绍了如何在PHP的Smarty模板引擎中自定义函数，并通过具体示例演示了这些函数的使用方法和应用场景。适合PHP后端开发者学习。 ... [详细]

蜡笔小新 2024-11-23 15:39:25
ip
Python 实现监控与运维自动化方案

本文探讨了使用Python实现监控信息收集的方法，涵盖从基础的日志记录到复杂的系统运维解决方案，旨在帮助开发者和运维人员提升工作效率。 ... [详细]

蜡笔小新 2024-11-23 11:25:14
ip
从迷茫到收获：阿里腾讯实习Offer的求取之路

本文回顾了作者在求职阿里和腾讯实习生过程中，从最初的迷茫到最后成功获得Offer的心路历程。文中不仅分享了个人的面试经历，还提供了宝贵的面试准备建议和技巧。 ... [详细]

蜡笔小新 2024-11-22 19:32:32
ip
CentOS 服务器自定义密码策略

随着Linux操作系统的广泛使用，确保用户账户及系统安全变得尤为重要。用户密码的复杂性直接关系到系统的整体安全性。本文将详细介绍如何在CentOS服务器上自定义密码规则，以增强系统的安全性。 ... [详细]

蜡笔小新 2024-11-22 19:15:42
ip
DedeCMS 手机端站点配置与优化指南

本文详细介绍如何安装和配置DedeCMS的移动端站点，包括新版本安装、老版本升级、模板适配以及必要的代码修改，以确保移动站点的正常运行。 ... [详细]

蜡笔小新 2024-11-22 18:44:25
callback
JavaScript 跨域解决方案详解

本文详细介绍了JavaScript在不同域之间进行数据传输或通信的技术，包括使用JSONP、修改document.domain、利用window.name以及HTML5的postMessage方法等跨域解决方案。 ... [详细]

蜡笔小新 2024-11-22 16:27:56
ip
PHP与MySQL实现高效分页查询

本文探讨了如何在PHP与MySQL环境中实现高效的分页查询，包括基本的分页实现、性能优化技巧以及高级的分页策略。 ... [详细]

蜡笔小新 2024-11-22 05:45:48
ip
软件测试行业深度解析：迈向高薪的必经之路

本文深入探讨了软件测试行业的发展现状及未来趋势，旨在帮助有志于在该领域取得高薪的技术人员明确职业方向和发展路径。 ... [详细]

蜡笔小新 2024-11-21 17:32:44
controller
egg实现登录鉴权（七）：权限管理

权限管理包含三部分：访问页面的权限，操作功能的权限和获取数据权限。页面权限：登录用户所属角色的可访问页面的权限功能权限：登录用户所属角色的可访问页面的操作权限数据权限：登录用户所属 ... [详细]

蜡笔小新 2024-11-23 16:30:15
ip
全面覆盖的前端技术资源大全

本文提供了一个详尽的前端开发资源列表，涵盖了从基础入门到高级应用的各个方面，包括HTML5、CSS3、JavaScript框架及库、移动开发、API接口、工具与插件等。 ... [详细]

蜡笔小新 2024-11-23 12:05:53
ip
使用 Python3 和 sqlacodegen 从现有数据库生成 ORM Model 文件

本文介绍了如何通过安装 sqlacodegen 和 pymysql 来根据现有的 MySQL 数据库自动生成 ORM 的模型文件（model.py）。此方法适用于需要快速搭建项目模型层的情况。 ... [详细]

蜡笔小新 2024-11-22 01:13:04
ip
SIP基础概览

本文介绍了SIP（Session Initiation Protocol，会话发起协议）的基本概念、功能、消息格式及其实现机制。SIP是一种在IP网络上用于建立、管理和终止多媒体通信会话的应用层协议。 ... [详细]

蜡笔小新 2024-11-21 17:42:08

日落月出星不离_887

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章