原创博客 - 第4页 - 开发者知识库

2018年03月28 - 在某些情况下我们需要使用本地缓存来加载一些小型数据，比如说一些配置数据。如果去查Mysql或者redis数据库需要走网络协议。这些数据可以加载到内存随时供Java程序调用。接下来实现的是使用goog

2018年03月21 - linux下Mysql导出数据到文件的方法 sql mysql h host u user P port p e select xxx from xxx where xx x xxx xxx xxx

2018年03月13 - 一 Hbase内容主表结构和操作 . hbase表 post 创建代码 mysql create itdaan:post , NAME a ,VERSIONS , NAME b ,VERSIONS ,

2018年03月12 - 我们知道很多文章爬取下来有可能是转载的，很多用户只是在文章开头和结尾加上原文的出处，这样的内容会存在很多重复的文章。按理来说，文章与文章之间的相似度比较可以使用余弦定理来判断，但是爬虫，不可能将爬取

2018年03月08 - hbase映射表map类型过滤数据的问题在试用hbase的映射表过程中，如果是映射了一个列族作为一个map类型，假如名称就叫：tags。在hbase中的数据格式大概为： json : , : , :

2018年03月02 - 线性回归小结线性回归可以说是机器学习中最基本的问题类型了，这里就对线性回归的原理和算法做一个小结。 . 线性回归的模型函数和损失函数线性回归遇到的问题一般是这样的。我们有m个样本，每个样本对应于n

2018年03月02 - 手动启动一个spark集群启动standalone的master节点 shell . sbin start master.sh 一旦启动后，master会打印一个spark的地址，例如：spark:

2018年03月02 - Kmeans聚类算法的大概流程是：从样本中随机找出K个样本作为中心点求所有样本到这些样本的距离，按照最短的进行归类求每个聚类中的样本的元素的平均值，作为新的中心点继续，，知道所有样本再也无

2018年03月02 - Kafka详解一 Kafka简介 Kafka是一种分布式的，基于发布订阅的消息系统。主要设计目标如下：以时间复杂度为O 的方式提供消息持久化能力，并保证即使对TB级以上数据也能保证常数时间的访问

2018年02月28 - 在使用Hive进行数据处理时，经常会用到group by语法，但对分组的合并操作，hive没有MySQL支持得好： group concat DISTINCT 要连接的字段 Order BY ASC

赞助商广告