热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

2016,成长

原本准备在元旦写完『2016年总结』,因为个人事(lan)情(duo)而未写完。最近手头不是太忙,

原本准备在元旦写完『2016年总结』,因为个人事(lan)情(duo)而未写完。最近手头不是太忙,正好补完吧,算是给工作第二个年头的纪念。

1. 2016总结

先给个简短的总结:

  1. 写了52篇博客,主要集中在大数据、机器学习、Java、Python;
  2. 读了一些书,工作后自己的读书习惯发生了很大的变化,不再从头到尾去读一本书,而是捡一些自己感兴趣或遇到问题的章节来读;
  3. 学习了一门新语言Scala,还用Scala实现了AC算法,在项目中用得挺爽的;还接触一点Node.js(写爬虫);
  4. 终于把2015年末开的坑【十大经典数据挖掘算法】给填满了,结合李航老师的《统计学习方法》算是对常见的机器学习算法做了一个梳理;
  5. 在12月我又开了一个新坑——中文分词,希望2017年能填满。

工作&技术

2016年工作项目上没什么值得特书大书的事情。项目主要分为两块:数据分析,后台服务。其中,数据分析部分:

  • 三月份的时候花一个星期用MapReduce重写了同事的ETL,做了一些小优化;
  • 基于Kylin搞了个OLAP数据分析平台;
  • 因项目需要,学习了Python的Scrapy、Pandas库,顺带着用Scrapy写了个豌豆荚爬虫。

后台服务部分:主要是基于Elasticsearch提供一些用户画像的分析与数据服务。在项目迭代优化中,还学习顺带一些有名的Java库,比如Guava、Disruptor等。

在工作之余,自学了一点机器学习。现在深度学习风行码农界,若不懂一点,都不好意思跟人打招呼。12月份的时候入坑NLP,整理一些中文分词的理论文章兼开源实现。感谢这个世界,感谢Github,让码农的学习成本大为降低。

阅读

先客串一下书托,安利一些我读过的书:

  • 《快学Scala》,以简短的篇幅带你入门Scala,实乃入门必备。
  • 李航《统计学习方法》、周志华《机器学习》,机器学习界中文书的北少林与南武当。个人感觉李航老师的书更为直白易懂,无一句废话,直接上公式;个人写作风格也深受这本书的影响。
  • 《大数据日知录》,这本书不仅仅是大数据技术的简单罗列,更是渗透着作者对于这些技术及背后原理的理解。在大数据如火如荼的今天,这本书不得不读。

不太推荐《Java编程思想》,想当初我也是拿这本书入门Java的,也曾把这本书视为Java圣经。但是,随着不断接触新技术的doc时,我发现这本书有部分篇章是为了讲语法而语法,而显得非常晦涩难懂;并且Java已经迎来了Java 8,这本书有部分语法已经没有再更新了。

感想:现在中文博客的质量参差不齐,要学习一门语言(算法),个人觉得最好的办法是把官方doc(原论文)读一遍,然后对比一下知乎或博客上别人的理解,才能真正意义上地弄懂。

生活

一年之中最高兴的事,莫过于见证着一个小生命健康快乐地成长。

2. 2017目标

少壮不努力,老大徒伤悲:

  • 写博客 4×12=48 篇;
  • 至少学习一门新语言,Go或Haskell或Rust;
  • LeetCode刷题200道;
  • Kaggle搞定5个Competition。

先定这些吧,以后再来添加。



推荐阅读
  • 知识图谱与图神经网络在金融科技中的应用探讨
    本文详细介绍了融慧金科AI Lab负责人张凯博士在2020爱分析·中国人工智能高峰论坛上的演讲,探讨了知识图谱与图神经网络模型如何在金融科技领域发挥重要作用。 ... [详细]
  • 从0到1搭建大数据平台
    从0到1搭建大数据平台 ... [详细]
  • 在机器学习领域,深入探讨了概率论与数理统计的基础知识,特别是这些理论在数据挖掘中的应用。文章重点分析了偏差(Bias)与方差(Variance)之间的平衡问题,强调了方差反映了不同训练模型之间的差异,例如在K折交叉验证中,不同模型之间的性能差异显著。此外,还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡,以提高模型的泛化能力。 ... [详细]
  • 【转】强大的矩阵奇异值分解(SVD)及其应用
    在工程实践中,经常要对大矩阵进行计算,除了使用分布式处理方法以外,就是通过理论方法,对矩阵降维。一下文章,我在 ... [详细]
  • 本文整理了关于Sia去中心化存储平台的重要网址和资源,旨在为研究者和用户提供全面的信息支持。 ... [详细]
  • 自然语言处理(NLP)——LDA模型:对电商购物评论进行情感分析
    目录一、2020数学建模美赛C题简介需求评价内容提供数据二、解题思路三、LDA简介四、代码实现1.数据预处理1.1剔除无用信息1.1.1剔除掉不需要的列1.1.2找出无效评论并剔除 ... [详细]
  • 如何高效启动大数据应用之旅?
    在前一篇文章中,我探讨了大数据的定义及其与数据挖掘的区别。本文将重点介绍如何高效启动大数据应用项目,涵盖关键步骤和最佳实践,帮助读者快速踏上大数据之旅。 ... [详细]
  • 探索聚类分析中的K-Means与DBSCAN算法及其应用
    聚类分析是一种用于解决样本或特征分类问题的统计分析方法,也是数据挖掘领域的重要算法之一。本文主要探讨了K-Means和DBSCAN两种聚类算法的原理及其应用场景。K-Means算法通过迭代优化簇中心来实现数据点的划分,适用于球形分布的数据集;而DBSCAN算法则基于密度进行聚类,能够有效识别任意形状的簇,并且对噪声数据具有较好的鲁棒性。通过对这两种算法的对比分析,本文旨在为实际应用中选择合适的聚类方法提供参考。 ... [详细]
  • Python与R语言在功能和应用场景上各有优势。尽管R语言在统计分析和数据可视化方面具有更强的专业性,但Python作为一种通用编程语言,适用于更广泛的领域,包括Web开发、自动化脚本和机器学习等。对于初学者而言,Python的学习曲线更为平缓,上手更加容易。此外,Python拥有庞大的社区支持和丰富的第三方库,使其在实际应用中更具灵活性和扩展性。 ... [详细]
  • Python 数据分析领域不仅拥有高质量的开发环境,还提供了众多功能强大的第三方库。本文将介绍六个关键步骤,帮助读者掌握 Python 数据分析的核心技能,并深入探讨六款虽不广为人知但却极具潜力的数据处理库,如 Pandas 的替代品和新兴的可视化工具,助力数据科学家和分析师提升工作效率。 ... [详细]
  • 如何提升Python处理约1GB数据集时的运行效率?
    如何提升Python处理约1GB数据集时的运行效率?本文探讨了在后端开发中使用Python处理大规模数据集的优化方法。通过分析常见的性能瓶颈,介绍了多种提高数据处理速度的技术,包括使用高效的数据结构、并行计算、内存管理和代码优化策略。此外,文章还提供了在Ubuntu环境下配置和测试这些优化方案的具体步骤,适用于从事推荐系统等领域的开发者。 ... [详细]
  • Hadoop——实验七:MapReduce编程实践
    文章目录一.实验目的二.实验内容三.实验步骤及结果分析 1.基于ubuntukylin14.04(7)版本,安装hadoop-eclipse-kepler-plugi ... [详细]
  • 一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到,由于这个问题Google发明 ... [详细]
  • Maven构建Hadoop,
    Maven构建Hadoop工程阅读目录序Maven安装构建示例下载系列索引 序  上一篇,我们编写了第一个MapReduce,并且成功的运行了Job,Hadoop1.x是通过ant ... [详细]
  • 吴裕雄数据挖掘实战案例(13):GBDT模型的深入应用与解析
    #导入第三方包importpandasaspdimportmatplotlib.pyplotasplt#读入数据defaultpd.read_excel(r&# ... [详细]
author-avatar
mobiledu2502857823
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有