原本准备在元旦写完『2016年总结』,因为个人事(lan)情(duo)而未写完。最近手头不是太忙,正好补完吧,算是给工作第二个年头的纪念。
1. 2016总结
先给个简短的总结:
- 写了52篇博客,主要集中在大数据、机器学习、Java、Python;
- 读了一些书,工作后自己的读书习惯发生了很大的变化,不再从头到尾去读一本书,而是捡一些自己感兴趣或遇到问题的章节来读;
- 学习了一门新语言Scala,还用Scala实现了AC算法,在项目中用得挺爽的;还接触一点Node.js(写爬虫);
- 终于把2015年末开的坑【十大经典数据挖掘算法】给填满了,结合李航老师的《统计学习方法》算是对常见的机器学习算法做了一个梳理;
- 在12月我又开了一个新坑——中文分词,希望2017年能填满。
工作&技术
2016年工作项目上没什么值得特书大书的事情。项目主要分为两块:数据分析,后台服务。其中,数据分析部分:
- 三月份的时候花一个星期用MapReduce重写了同事的ETL,做了一些小优化;
- 基于Kylin搞了个OLAP数据分析平台;
- 因项目需要,学习了Python的Scrapy、Pandas库,顺带着用Scrapy写了个豌豆荚爬虫。
后台服务部分:主要是基于Elasticsearch提供一些用户画像的分析与数据服务。在项目迭代优化中,还学习顺带一些有名的Java库,比如Guava、Disruptor等。
在工作之余,自学了一点机器学习。现在深度学习风行码农界,若不懂一点,都不好意思跟人打招呼。12月份的时候入坑NLP,整理一些中文分词的理论文章兼开源实现。感谢这个世界,感谢Github,让码农的学习成本大为降低。
阅读
先客串一下书托,安利一些我读过的书:
- 《快学Scala》,以简短的篇幅带你入门Scala,实乃入门必备。
- 李航《统计学习方法》、周志华《机器学习》,机器学习界中文书的北少林与南武当。个人感觉李航老师的书更为直白易懂,无一句废话,直接上公式;个人写作风格也深受这本书的影响。
- 《大数据日知录》,这本书不仅仅是大数据技术的简单罗列,更是渗透着作者对于这些技术及背后原理的理解。在大数据如火如荼的今天,这本书不得不读。
不太推荐《Java编程思想》,想当初我也是拿这本书入门Java的,也曾把这本书视为Java圣经。但是,随着不断接触新技术的doc时,我发现这本书有部分篇章是为了讲语法而语法,而显得非常晦涩难懂;并且Java已经迎来了Java 8,这本书有部分语法已经没有再更新了。
感想:现在中文博客的质量参差不齐,要学习一门语言(算法),个人觉得最好的办法是把官方doc(原论文)读一遍,然后对比一下知乎或博客上别人的理解,才能真正意义上地弄懂。
生活
一年之中最高兴的事,莫过于见证着一个小生命健康快乐地成长。
2. 2017目标
少壮不努力,老大徒伤悲:
- 写博客 4×12=48 篇;
- 至少学习一门新语言,Go或Haskell或Rust;
- LeetCode刷题200道;
- Kaggle搞定5个Competition。
先定这些吧,以后再来添加。