行政管理数据分析面临隐私保护难题
时间:2017-12-07

  行政数据分析面临隐私保护问题 - 新闻 - 科学网

  2011年,六位美国经济学家破解了教育政策的核心问题之一:从长远看,好的教育对儿童有多大的帮助?

  他们开始追踪超过11,500名田纳西州学龄儿童的记录。这些孩子是上世纪80年代的一个审判的一部分,被随机分配到5至8岁的优秀教学质量和普通教育的教师。后来,研究人员估计了成年子女从本世纪头十年的联邦纳税申报中获得的收入,分析发现,良好的早期教育的好处将持续数十年:每个接受了一年更好教育的孩子,年均收入平均增长约3.5%,其他数据显示,同样的人在大学出勤率,退休储蓄,结婚率和自有住房方面表现都优于同龄人。

  这些经济学家的工作在教育政策领域赢得了广泛好评。奥巴马总统在2012年国情咨文中提到,要求在教师培训方面加大投入。

  然而,对于许多社会科学家来说,最令人印象深刻的是这些作者可以分析联邦纳税申报表,这是一个严格保密的数据集,研究人员随后可以获得严格的资格。这使得研究象征着行政数据的挑战和巨大的潜力。管理数据在日常服务交付期间收集,包括纳税申报表,福利记录,医生和医院访问数据以及犯罪记录。

  布朗大学(Brown University)经济学家约翰•弗里德曼(John Friedman)是教育研究领域的主要领导人之一,他说这将行政数据放在社会科学的前沿。它们不仅使研究人员能够以新的方式解决老问题,而且还能找出以前无法解决的问题。

  挑战和可能性

  在过去的几年中,行政数据已经被用来研究从疫苗的副作用到邻国长期影响成年人获得能力和成功的一系列问题。支持者认为,这些丰富的信息来源可以极大地提高政府衡量社会项目的效率,比如提供赠款帮助家庭迁移到资源丰富的社区。

  但是,也有人担心这些数据的匆忙使用会给公民的隐私带来新的威胁。我们习惯性认为的保护类型是基于匿名和知情同意的两大支柱。但是在这个新的世界里,都不能站得住脚。纽约大学经济学家朱莉娅莱恩说。例如,研究人员在2013年发现,他们可以通过将其数据与公开可用的谱系信息进行比较,来揭示参与者的身份,这些参与者在遗传学研究中应该是匿名的。

  许多人正试图找到解决这些问题的方法,而不妨碍研究。建议的对策包括政策措施,例如制定国际行为准则,如数据隐私和允许数据使用的技术方法,同时保护隐私。 Lane认为,关键在于,保护隐私有时会使研究人员陷入困境,保持公众信任和研究成为可能是很重要的。

  获取数据的困难是一个特征,而不是缺陷。她说应该很难获得这些数据,但是使这种访问方法成为可能也很重要。

  隐私问题

  引发这些担忧的是公众对互联网隐私的整体情况感到不安。数据经纪人的私营公司数量激增。他们收集和出售有关网络搜索,在线购物和其他数据流的信息,这些信息可以结合起来产生令人惊讶的结论。在一个着名的案例中,美国零售商Tagget总结说,她怀孕的基础是什么少年在商店买了,并开始发送她的婴儿用品优惠券。当这些优惠券抵达女孩的家时,她的父亲注意到即将到来的孙子。

  然而,许多研究人员认为,这些数据应该有合法的科学用途。美国人口普查局的研究和方法学助理总监罗恩·贾明(Ron Jarmin)表示,人口普查局正在试图利用信用卡公司的数据来监测经济活动。由美国国家科学基金会资助的研究人员正在研究如何使用公共Twitter帖子来追踪失业等社会现象的趋势。

  不过,莱恩说,并不是每个人都可以分成商业和学术领域。人们担心大数据被用于个人目的而赚钱并被用于研究。例如,2014年3月,欧洲议会提议在未经明确的知情同意的情况下限制使用私人健康数据,以便通过新的数据保护立法大大提高消费者隐私。这严重限制了研究人员获取这些数据的机会,这个提案有可能在总部位于英国伦敦的生物医学研究慈善机构威康基金会(Wellcome Foundation)等机构的反对下被放弃,但直到最后的草案2016年已获批准提交。

  隐私问题的一个解决方案是保证数据安全并严格限制有权访问数据的人员。例如,美国研究数据中心的研究人员不允许将智能手机或闪存驱动器带入他们使用的计算机终端的房间。计算机本身不包含数据,只需远程连接到安全服务器即可。

  技术答案

  计算机专家和密码学家正在试验技术解决方案。一种称为差分隐私(Differentiated Privacy)的方法将少量的失真添加到数据集中,从而在不泄露参与者的身份的情况下查询数据给出通常准确的结果。然而,研究人员仍然在学习如何信任合成数据,所以发表的论文还没有能够证明这种方法。

  无论哪种情况,尽管综合数据可以解决隐私问题,但是也有一些研究应用程序不能容忍数据中的任何噪声。哈佛大学(Harvard University)经济学家Raj Chetty的一项研究发现,邻居对收入潜力有影响。切蒂需要跟踪具体的个人,以证明孩子的早年生活与他们挣得比他们的父母有更多的钱相关联。在随后的研究中,切蒂和同事发现,因果关系是由资源不足的儿童社区到资源丰富的社区来增加他们的成年收入。

  安全的多方计算是一项技术,它使多个数据持有者能够分析整个数据集的一部分,试图解决隐私问题,而不会相互泄露底层数据。只有分析的结果是共享的。

  还有一些问题需要技术解决方案,尤其是政府机构面临的一些问题。例如,美国人口普查局希望将企业内部及其活动的内部数据与专利公开数据结合起来,分析推动企业创新的因素。然而,通过将分析中包含的信息与公共专利数据库中的信息进行匹配来揭示公司相对容易。 Jarmin团队尚未找到充分保护您的隐私的方法。

  与此同时,惠康基金会(Wellcome Foundation)政策总监尼古拉·佩林(Nicola Perrin)表示,隐私保护的偶然后果是对现有研究项目(包括临床试验和健康评估,审计和服务研究)的巨大拖延。负责糖尿病和心脏病如何影响不同种族人群的大型队列研究的研究人员自2014年3月以来没有收到有关患者信息的更新。因此,他们有可能向亲人可能死亡的家庭发送信息请求。佩林表示,公众信任非常脆弱,难以建立,但容易被摧毁(宗华)

  中国科学通报(2015-10-08第3版国际)

  阅读更多信息

  自然报告(英文)