数据治理对于一个企业来说,有长期的利益提升意义,随着时间的推移、数据的增长,会愈发明显。但是看似稳赚不赔的专项…
【MySQL+PostgreSQL】对比
近期PostgreSQL的增势迅猛,搜索热度指数10月份上升了44.57%,虽远不及Oracle/MySQL,…
【Kerberos+Ranger】大数据权限管理
比较常见的两个大数据权限管理组件,分工有所不同。 Kerberos的权限针对于整个集群,当前用户是否被允许访问…
【Spark】解析MySQL原始日志数据到HDFS
import java.utilimport ch.hsr.geohash.GeoHashimport com…
客户体验——NPS概念
NPS是什么 NPS(Net Promoter Score),中文名为净推荐值,是客户对品牌/产品的忠诚度得分…
【Java】HiveUDF 伪装设备批量拉拽接口
package udf; import org.apache.hadoop.hive.ql.exec.UDF;…
【Java】本地目录遍历搜索文件
package modifyWordText;import java.io.File;import java….
原子、派生、衍生
1. 原子指标 即事实,与度量含义相同,不可拆分指标,如销售额 sale_amount 2. 派生指标 原子指…
浅谈数仓建模概念
建模是在数据世界里抽象真实世界的过程,使用数据来描述真实对象,在抽象中清晰。 建模是宏观数据治理中重要的一环,…
【Hive】高版本下与Spark共享事务
在设定上,Hadoop3高版本的Hive环境会默认开启acid以及表格严格管理模式,而Spark会默认读取自身…