数据脱敏方法论

数据敏感程度安全级别划分

  • 绝密
  • 高保密
  • 保密
  • 可公开

 

敏感数据梳理

  • 用户维度
    • 手机号码、邮件地址、账号、地址、固定电话号码等信息(此外个人隐私数据相关还有如:种族、政治观点、宗教信仰、基因等)
  • 用户终端维度
    • 能够可能标识终端的唯一性字段,如设备id。
  • 公司角度
    • 交易金额、代金卷密码、充值码等

 

脱敏处理方法

  • 替换
    • 如统一将女性用户名替换为F,这种方法更像“障眼法”,对内部人员可以完全保持信息完整性,但易破解。
  • 重排
    • 序号12345重排为54321,按照一定的顺序进行打乱,很像“替换”, 可以在需要时方便还原信息,但同样易破解。
  • 加密
    • 编号12345加密为23456,安全程度取决于采用哪种加密算法,一般根据实际情况而定
  • 截断
    • 13811001111截断为138,舍弃必要信息来保证数据的模糊性,是比较常用的脱敏方法,但往往对生产不够友好。
  • 掩码
    • 123456 -> 1xxxx6,保留了部分信息,并且保证了信息的长度不变性,对信息持有者更易辨别, 如火车票上得身份信息。
  • 日期偏移取整
    • 20130520 12:30:45 -> 20130520 12:00:00,舍弃精度来保证原始数据的安全性,一般此种方法可以保护数据的时间分布密度。

 

数据脱敏原则

  • 尽可能的为脱敏后的应用,保留脱敏前的有意义信息
  • 最大程度上防止黑客进行破解

 

脱敏实施范围

  • 数据脱敏发生在服务层

 

脱敏实施步骤

  1. 确定需要脱敏的数据和流程
  2. 对设计到数据脱敏的表的下游流程进行修改,避免因数据脱敏造成的数据误差(即确认数据格式和数据源工作)
  3. 根据脱敏方法进行脱敏处理