使用ujson优化hadoop的mrjob框架的序列化机制
故事的开始
【转译】Google文件系统
GFS是一个可扩展的分布式文件系统,用于大型的、分布式的、对大量数据进行访问的应用。它运行于廉价的普通硬件上,但可以提供容错功能。它可以给大量的用户提供总体性能较高的服务。
实用的LinuxShell命令们
整理工作中遇到的使用Linux Shell命令们
【转】数据挖掘十大经典算法
[收藏]国际权威的学术组织the IEEE International Conference on Data Mining (ICDM) 2006年12月评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART.
机器学习 准备
学习资料
Python-日期、货币和编码处理
工具方法整理
Code Segment
记录整理python学习时有收获的代码片段。
大型网站架构梳理:安全
摘要