随着互联网的飞速发展,不仅是走在技术前沿的科技公司互联网化,就连业务体系笨重的传统企业都争向互联网转型。低成本、可随时随地的访问、可灵活扩展IT的需求、数据安全性高等特点使得企业上云将会是未来企业常态。
云计算成为企业数字化转型的关键,企业了解云计算带来的优势,但由于缺乏云运维经验,经常采“坑”,导致运维工程师背锅累累,企业损失惨重。
今天跟大家分享一些云上常见的错误,以下案例以阿里云为主:
案例一
企业互联网业务突然宕机,工程师们来不及反思数据损坏发生的原因,第一时间着手进行抢修——重启数据库并且尝试数据恢复。但不幸的是,云上业务并未做备份,企业损失较大。
原因:数据没有及时做备份造成数据的丢失
避免方法:
阿里云服务器ECS、数据库RDS、 Redis 均支持自动快照备份策略,在开启正式使用时,建议开启自动快照备份
案例二
企业在云上部署电商网站,测试时打开网站正常,业务正式上线做促销活动时,用户访问网站,页面打开速度比较慢,尤其是图片的加载,客户体验很不好。导致电商促销效果很差,老板大发雷霆!
原因:测试环境访问网页,由于是本地访问,图片加载速度很快,忽略了业务上线后是针对全国用户,图片数据均需要从本地调取,网页图片较多,导致加载速度较慢。
避免方法:
阿里云除了提供海量、安全、低成本、高可靠的云存储服务OSS。还提供一项对于静态文件加速的产品CDN。能够将OSS的bucket作为源站,将源内容发布到边缘节点,将用户的请求分配至最近的节点,使终端用户以最快的速度读取到所需的内容,提高用户访问的响应速度。
案例三
某日,正在查看服务器日志,收到一条1100人民币的云服务器扣费通知,震惊!不知所措!回忆业务使用的这批机器之前采购是按年配置的,才3个月,怎么又扣费了呢?后台查看云商资源,发现当时测试环境的机器没有及时释放,到期自动续费了!人在家中坐,账单天上来!
原因:有闲置的云资源被持续扣费,造成资金浪费
避免方法:定期查看云资源使用情况,存在闲置的云资源,及时处理或者释放。
案例四
云上业务遭受黑客攻击,企业商城突然访问不了,门店大量投诉,损失惨重。
原因:工程师防火墙规则时规则设置不得当,导致黑客有机可乘,通过端口进行业务攻击
避免方法:
只打开需要使用的端口,云上常用端口:
· TCP(SSH),打开22端口· TCP(RDP),打开3389端口· TCP(HTTP),打开80端口· TCP(HTTPS),打开443端口
云上运维“坑点”特别多!小白的云运维工程师,即使看了很多攻略,经验分享还是有会遗漏,导致业务出现故障,造成企业损失。最好的方式就是能在问题发生前及时发现问题,并且解决掉。
今天和大家分享一个好用的小工具——王教授,我个人理解他更像是一个“监控”工具,可以帮助我们察觉云端业务的一系列异常和改动,并且及时给予提醒。比如:
1.存在即将到期的ECS/RDS/SSL证书/其他资源包,他会在到期的前7天给出提示,直至这个告警被处理完成,帮助避免购买的云资源没有及时续费造成业务的中断。
2.新配置的云资源ECS/RDS/Redis等未开启自动备份,他也会检测到发出报警,避免未备份造成数据的丢失。
3.在资源使用率上,可以帮我们监控出闲置的云资源被持续扣费的情况(空闲的ECS、未挂载的磁盘、未使用的NAT网关等),减少企业资源浪费。
支持的功能还是挺多的(有待挖掘),帮助运维人做到事故前发现问题——避免运维事故发生,事故发生时——能够第一时间提醒减小事故响应时间。
云上运维,两原则:
第一是安全:任何服务默认关闭,默认不通过;
第二是效率:不做重复的事情,用技术实现创造。
云上运维解放了运维人繁杂的体力劳动,使得运维简单化、平台化。上帝在开了一扇门的同时想必也是会合上一扇窗,必定给当代运维人带来了新的挑战。顺势而动,与时俱进是新代运维人必备的工作宗旨。