大数据隐私Project可选课题
可选课题
Privacy Detection
隐私数据检测
方法:
- 预定义隐私元素(PII);识别特征内容
- 隐私数据检测及其分类
挑战:
- 现有工作需要人工标记,需要大量训练数据,粒度较粗、未考虑主观性,缺乏可解释性
- 缺乏隐私定义标准(和上面可解释性放到一起就是隐私概念的数学化/建模)、跨模态的数据隐私
目标:
- 细粒度、个性化、可解释的隐私定义标准、保护方案
Privacy Desensitization
(!!TODO)
数据脱敏问题
传统方法:
- 通过人工配置和正则表达式来实现
新场景数据脱敏:
- 文本、图片、表格(k-匿名等方法)、视频
Efficient Privacy Preserving Computation
高效的安全多方计算
类似于 bizarine 问题,可能需要限制 Adversaries 的数量
- 安全性(可以出结果)
- 可验证性
现行方法:
- 同态加密
- 性能 bottleneck:代数结构优化、硬件加速
Privacy Preserving Data Tracing
Privacy Preserving Machine Learning
隐私保护的机器学习,典型方法:同台加密(效率低)、联邦学习。
难点:纵向联邦学习(纵向属性缺失,相较于横向联邦来说每个独立个体不能进行学习)
Attacking on Machine Learning Model
(!!TODO) 机器学习过程中的攻击(训练时攻击、使用模型时的攻击)
Privacy Preserving Data...
(!TODO) 数据隐私评估
场景:
数据不可见、质量可见
Privacy of Synthetic Data
(!TODO)
- 对 Synthetic Data Machine 进行评估?
Biometric Data Preserve
生物数据的隐私保护
(!!TODO)
Other Topics
(!TODO)
机器学习模型的遗忘
Forgetting in Machine Learning
机器学习模型的可解释性
课程笔记
接上节课末尾
保护隐私的方法:
- 不给、给假的、给不准的、给生成的
建立框架
- Privacy Definition, Utility Metric, Adversaries Model(攻击者建模)
K-anonymize (K-匿名)
隐去一些直观上的敏感信息后,剩余信息仍然具备 identify 实体的功能。
分类
- Identifier attributes (primary key?)
- Quasi-identifier attributes (semi primary key sets?)
- Confidential
K-Anonymity Definition
- QI-cluster
- all the tuples with identical combination of quasi-identifier attribute values
K-anonymity property
Attack on K-Anonymity
P 在同一 QI-cluster 中相同,K 匿名无效化
I-Diversity
本博客所有文章除特别声明外,均采用 CC BY-SA 4.0 协议 ,转载请注明出处!