人工智能时代的“数据隐私”和“算法歧视”

文:@网络江湖编辑

如果说在过去的20年里有什么科技成就可以与上个世纪计算机的发明相媲美的话，那么这个荣誉一定属于基于深度学习算法的人工智能技术。由于学习算法的诞生，信息时代的海量信息和数据第一次能够完全为人们提供商业化的价值，从而开启了人类“人工智能”的时代。

然而，进入人工智能时代的人们在获得许多技术创新的同时也付出了自己的代价:在这个数据时代，即生产力时代，我们不断地在数据人工智能时代“裸奔”，而数据人工智能则不断地与互联网联系在一起。

人工智能、算法和数据

如今，无处不在的智能手机、街道监控、地铁安检等设备都不同程度地集成了人工智能技术。事实上，目前的“人工智能”只是基于线性规划规则下的算法对大数据进行高效“检索”的结果，并通过深入学习不断改进“检索模式”和“反馈模式”。它没有真正独立思考的能力，所以也被称为“弱人工智能”或“轻人工智能”。

然而，即使是没有思考能力的人工智能，在分析和处理海量数据方面也比人工智能具有“革命性”的优势。然而，数据、算法和计算力是数据驱动的“准人工智能”的三大要素，它们决定了人工智能的能力和价值空间的上限。其中，算法和计算力是数据载体。如果把人工智能算法比作引擎，那么数据本身就是人工智能的“燃料”。

对于大数据，百度百科是这样定义的:“它指的是在一定时间范围内不能被传统软件工具捕获、管理和处理的数据集。这是一项巨大、高增长和多样化的信息资产，需要一种新的处理模式来具备更强的决策、洞察和发现能力以及流程优化能力。”IBM使用5V来表达大数据的特征，即:容量、速度、多样性、价值和真实性。

人工智能与数据尤其密切相关。一方面，大数据为人工智能提供了数据资源，使其能够不断成长和发展。另一方面，人工智能通过数学模型分析来分析和搜索庞大的数据库，以充分挖掘数据背后的潜在价值。维克托·迈尔-勋伯格在《大数据时代》中这样描述它:“大数据并不提供最终答案，而仅仅是指答案，并为我们提供临时帮助，以便等待更好的方法和答案。这也提醒我们，在使用这一工具时，我们应该谦虚并记住人性的本质。”

“数据人工智能”与个人隐私的“二元对立”

毫无疑问，逐渐应用的“数据人工智能”技术在很大程度上为我们的生活创造了极大的便利，如离线人脸识别支付系统的便捷体验、人工智能人脸识别在安全领域的应用以有效提高安全检查效率、基于用户数据肖像的数字营销等。基于“数据人工智能”，人们可以实现有效的风险控制和行为预测。随着“数据人工智能”的商业化应用，人们在享受便利的同时，也承担了隐私泄露的风险和担忧。

想象一下，在数据世界里，你经常使用的社交软件可能是最了解你的家庭和你的社交关系的软件，你经常使用的支付软件可能是最了解你的财务状况的软件，而你经常在网上购买的平台是最了解你的购物习惯和消费能力的软件。如果你把这些数据结合起来，这是一个完整而准确的数据描述。如果这些数据被泄露，你将完全暴露在数据的世界里，被陌生人监视，甚至被用于非法的商业交易。

早些时候，根据《华尔街日报》的报道，一家英国集团子公司的首席执行官接到了“老板”的电话，要求他在一个小时内把钱转给“供应商”。犯罪分子利用人工智能语音技术成功诈骗了他22万欧元。

人工智能语音不仅存在隐私和安全问题，事实上，人工智能视频变脸也存在隐私安全漏洞。以最近在屏幕上闪现的ZAO为例。随着人气的高涨，其广受批评的用户协议和变脸复合视频的隐私和安全问题也使其陷入了舆论的漩涡。原因是变脸合成视频触动了人们心中的隐私红线:当视频也可以伪造时，有什么样的证据来辨别真相？

目前，人工智能技术的发展要求人们开放自己的数据。另一方面，在现实中，个人数据的公开不可避免地会导致数据泄露的风险。目前，大多数公司必须通知用户并获得他们的同意，才能通过他们的软件收集用户信息。根据一项调查，如果他们想全面阅读隐私政策，这意味着消费者每年需要花费200多个小时。显然，没有人愿意在这件事上浪费时间。

本质上，数据公开和隐私保护原本是二元对立的。一方的利益必然意味着另一方的风险和损失。然而，在现阶段，没有有效的“数据黑箱”机制来确保个人数据的绝对安全。对于刚刚进入人工智能时代的人来说，数据的开放也已经成为一种“趋势”。在数据生产力时代，以数据集成、流通和数据反馈为主导的“数据价值创造”将带来效率的飞跃。

数据价值与隐私权的动态平衡“妥协”

人们对数据泄露的担忧源于他们对自身利益的担忧。事实上，开放数据的人也可以获得人工智能带来的便捷服务。一项调查显示，相当多的人愿意分享涉及隐私的相关数据，条件是他们对自己没有影响，并能确保数据的绝对安全。

另一方面，对于一些不愿意分享自己数据的人来说，路人的无意识行为也可能导致人工智能技术下的个人数据泄露。例如，在广场上有牌照的人可以捕捉一些路人的面部数据，而在面部识别技术下，这些路人将被识别并且数据将被存储。对他们来说，未知情况下产生的数据将决定未来数据披露的风险。

此外，数据本身的价值已经成为数据泄漏的原因之一。事实上，基于智能手机的信息收集比其他方法更容易。通过智能手机的后门软件，你可以收集你的手机号码和地址簿等信息。如果用户没有足够的安全意识，许多软件安装会默认收集各种信息。通过智能手机独有的身份信息，可以轻松整合数据和定位身份信息。

由于人工智能时代数据资源的性质，大量的用户数据是企事业单位广告优化的关键。因此，数据开放意味着巨大的商业价值。在生态布局下，巨人可以通过全链数据路径获得准确完整的用户肖像，巨人也更容易将数据商业化。

对于人工智能技术的提供者来说，在数据价值的指导下收集数据是非常必要的。一开始，人们会感到不安，因为数据被第三方使用，从而侵犯了他们的隐私。事实上，如果数据本身的应用不会给用户带来麻烦并带来方便的服务，那么此时一些用户会愿意接受共享数据。因此，人工智能技术的提供者应该对数据价值的商业应用持更加谨慎的态度。

我认为，在人工智能数据时代，需要在数据的商业价值和用户的隐私权之间实现动态平衡，也就是说，在法律范围的临界点之内，需要在数据收集者和用户之间建立一种连接机制，以确保在数据生产者的控制下，数据的商业价值能够得到有限的利用，并且能够在隐私保护和人工智能技术的便利性之间达成妥协。但是，在目前隐私法、物权法等相关法律没有明确规定数据所有权权益的情况下，有限的数据使用仍然需要依靠企业的自觉意识。

数据算法偏差下的“人工智能判别”

在大数据时代，数据的存储成本非常低，这也意味着在数据驱动的人工智能时代，数据一旦生成，就很难完全消除。在降低数据存储成本规模的作用下，完全删除数据的成本更高。因此，数据存在的时间更长，甚至超过了创造者自己的寿命。随着存储成本的进一步降低，个人数据在不久的将来可能会被无限期地存储。

大数据的意义在于直接应用数据分析结论，而不是探究事物的“规律性”。因此，大数据通常用于结果预测。事实上，基于数据的预测结果也是时间敏感的，而时间敏感故障的结果是基于数据分析的人工智能交互失真。

换句话说，如果收集的数据本身有某种趋势，那么从它训练出来的人工智能自然就有这种趋势。美国的一项调查证明了这一点。在基于数据分析的族群预测算法中，当预测族群时，该算法通常预测那些生活在有歧视历史的地区的人是黑人，但事实上并非如此。

另一个例子是在STEM(科学、技术、工程、数学)招聘广告中，广告商发现该广告很少针对女性，而事实上广告商希望该广告是中性的。然而，在“双曲线贴现”效应下，数据的及时性导致“不准确”的数据，进而导致“算法歧视”。

双曲线贴现，也称为非理性贴现，是行为经济学中的一个概念。这种现象描述了贴现率不是一个常数，具体地说，人们在评估未来收入的价值时，倾向于在较近的时期使用较低的贴现率，在较远的时期使用较高的贴现率。

例如，大多数人可能更愿意在一年后拿今天的60元而不是100元，因为今天的60元收入可能更有价值，而如果让人们选择一年后拿60元或两年后拿100元，大多数人会在两年后选择100元。也就是说，由于收入时间的不同，人们会做出不同的决定。

因此，在双曲线贴现的情况下，人们的短期决策行为所产生的数据会导致数据本身不准确，从而更容易在数据偏差导致算法偏差后，在应用层面造成“算法歧视”。因此，对于数据人工智能的用户来说，在应用该算法时需要更加小心谨慎。

结束:

无论是数据人工智能时代的个人隐私，还是数据偏差下的“算法歧视”，都是大数据人工智能发展中不可避免的问题。对于人们来说，无论是在数据收集端的隐私侵犯，还是在人工智能应用层面的“算法歧视”，它都是对道德甚至法律的一种边缘探索。对于还处于“婴儿期”的人工智能技术，如何正确引导和影响其发展，按照人类的价值观和道德标准创造更大的价值，是一个值得人工智能创造者深入思考的问题。

人工智能时代的“数据隐私”和“算法歧视”

栏目推荐