清洗定义 我们知道,数据中台的缘由和底座是数据治理,而数据治理的最主要目的是提高数据质量、充分利用数据。 数据…
数据治理
浅谈数据治理的难点
数据治理对于一个企业来说,有长期的利益提升意义,随着时间的推移、数据的增长,会愈发明显。但是看似稳赚不赔的专项…
【Kerberos+Ranger】大数据权限管理
比较常见的两个大数据权限管理组件,分工有所不同。 Kerberos的权限针对于整个集群,当前用户是否被允许访问…
原子、派生、衍生
1. 原子指标 即事实,与度量含义相同,不可拆分指标,如销售额 sale_amount 2. 派生指标 原子指…
浅谈数仓建模概念
建模是在数据世界里抽象真实世界的过程,使用数据来描述真实对象,在抽象中清晰。 建模是宏观数据治理中重要的一环,…
人人都想做模型而非数据工作,这很危险(转载)
最近有篇谷歌的文章,谈到了数据质量对下游产品(AI)中发挥的巨大影响,尤其是癌症检测、野生动物偷猎和贷款分配等…