隐私信息检索(PIR)技术 | 查询者与数据库的隐形博弈
受益于安全多方计算技术的快速进步,PIR的计算效率和实用性显著提升,已广泛应用于跨机构数据协作、医疗隐私查询、区块链智能合约等高安全场景,成为平衡数据利用与隐私保护的关键基础设施。PIR 从“能否安全检索”的理论可行性,逐步走向“如何高效可用”的工程实践,再到“面向业务部署”的多场景融合。双侧PIR(Double-sided PIR 或 Symmetric PIR):同时保护查询方与数据提供方的隐
摘要
隐私信息检索(Private Information Retrieval, PIR)是安全多方计算技术中保障用户查询隐私的核心技术,用户可在不暴露查询内容或访问模式的前提下,从数据库安全获取所需信息。受益于安全多方计算技术的快速进步,PIR的计算效率和实用性显著提升,已广泛应用于跨机构数据协作、医疗隐私查询、区块链智能合约等高安全场景,成为平衡数据利用与隐私保护的关键基础设施。
1. 基础介绍
1.1 背景介绍
随着互联网的普及,个人、企业和政府机构的数据存储需求呈指数级增长,大量敏感信息(如医疗记录、金融交易、政府档案)被集中存储在远程服务器或云平台中。通过数据挖掘与应用,这些海量数据为政府和企业创造了显著的经济效益,信息检索技术(Information Retrieval,IR)作为数据挖掘的关键手段,被广泛用于分析用户行为数据(如浏览记录、搜索关键词、地理位置)。随着用户隐私保护意识的觉醒以及数据隐私保护法律法规的出台,传统数据库查询方式正面临以下严峻的挑战:
1)访问模式泄漏:服务器记录用户的查询请求(如索引号或关键词),通过分析访问频率和模式,推断用户身份或行为意图。例如,医疗数据库中对特定疾病的高频查询可能暴露患者的健康状况。
2)中间人攻击威胁:在不安全的通信链路中,攻击者可通过截取查询请求获取敏感信息。例如,金融平台中用户对信用评分的查询可能被窃取并用于非法用途。
3)数据过度暴露:查询结果可能包含冗余字段或关联数据,导致用户获取与目标无关的敏感数据。例如,在社交平台中,用户搜索好友资料时,可能返回好友的隐私信息。
综上所述,随着数据价值的不断提升和隐私泄露风险的日益加剧,传统数据库查询机制在安全性与隐私保护方面已显露出明显短板。在此背景下,如何在确保数据可用性的同时,有效隐藏用户的查询内容与访问模式,成为信息安全领域亟待解决的核心问题。正是在这一需求驱动下,隐私信息检索PIR技术应运而生。
1.2 什么是隐私信息检索
隐私信息检索 PIR 允许查询方在不泄露查询内容的情况下,从数据方的数据库中检索信息。常见的PIR技术 考虑以下场景:查询方C持有一个查询索引 ,数据方持有一个数据库 ,查询方查询 是否存在于数据方数据库中并获得其对应的标签值,当且存在 时,查询方可得到其对应的标签 。该过程需要满足以下安全性需求:
-
对查询方精准:查询方不获取任何非目标数据的信息,防止数据过度暴露
-
对数据方匿名:对数据方无法知晓查询方检索了哪些数据,防止访问模式泄漏/中间人攻击
PIR技术的常见执行流程如下:首先,在数据方执行查询的过程中,先将查询请求 加密处理为 ;再将密态查询请求 发送给数据方;随后,数据方进行加密查询,将符合查询条件的所有模糊索引或关键字对应的标签值在特殊加密后返回,即 ;最后,查询方用本方密钥匹配和解密得到对应的标签 。整个过程中,查询方仅能解密符合查询请求的数据,而数据方仅能得到密态的查询请求,从而保证了双向安全性。
2. 技术方案
2.1 技术发展
隐私信息检索 PIR 技术的发展得益于现代密码学的持续突破,特别是安全多方计算、同态加密、零知识证明和秘密共享等核心技术的成熟与应用。PIR 从“能否安全检索”的理论可行性,逐步走向“如何高效可用”的工程实践,再到“面向业务部署”的多场景融合。PIR 技术已广泛应用于跨机构数据协作、联邦学习、区块链隐私查询等高安全需求场景 ,逐步成为隐私保护基础设施的重要组成部分。
-
1995:Chor–Goldreich–Kushilevitz–Sudan 提出 PIR 的正式模型与安全定义,给出信息论安全的多服务器方案,首次证明“在不泄露查询位置的前提下检索数据”可行性 [CGKS95]
-
1997:Kushilevitz–Ostrovsky 给出首个单服务器、计算安全的 PIR 协议,奠定了“单服务器(基于计算困难)vs 多服务器(基于信息论)”的两条主线 [KO97]
-
1998:Chor-Gilboa-Naor 将检索对象从“索引”扩展到“关键字/谓词”,开启结构化查询的 PIR 方向 [CGN98]
-
2000–2005:对称PIR(sPIR):在保护用户查询同时限制客户端只能学到目标记录,提出基于外部密钥或加密数据库强化服务器隐私的框架 [FIPR05 代表]
-
2007:Sion–Carbunar 推动研究聚焦“降低服务器计算、支持批量、利用预处理与工程化优化”的三条路径 [SC07]
-
2014–2016:基于函数秘密分享的构造降低通信开销[BGI16],结合同态加密、NTT、旋转等技术优化计算与带宽,首次展示对GB级数据库的工程可行性 [MBFK16, ACLS18],实现从理论到实践的关键跨越
-
2017–2021:通过OPRF/HE的构造高效实现轻量级关键字检索 [CHLR18, KRSSW19, CMG21],同时打包效率、批量处理、编码设计等持续优化 [MCR21, MW22],整体延迟降至亚秒级,可扩展性显著提升
-
2022–至今:PIR 进入以实际部署为导向的新阶段,预处理与提示机制的引入将计算前移,实现近乎常数级的在线通信与极低延迟,显著提升移动端与高并发场景下的实用性 [AMHSV23, ZAEZ24]
2.2 技术分类
整体来看,PIR 技术已经形成了多维度的分类体系,主要可从数据库架构、查询类型、技术实现路径、隐私保护目标四个方面进行划分。
-
【按数据库架构分类】根据数据库的部署结构,PIR可分为:
-
-
多服务器PIR:要求将数据库复制到多个非共谋的服务器上,用户将查询请求拆分为多个部分,分别发送至不同服务器执行计算,各服务器仅掌握查询的局部信息,无法获知完整查询意图。最终结果由用户本地聚合完成。此类方案基于信息论安全(Information-theoretic Security)设计,即使在计算能力无限的攻击者面前也能保障隐私
-
单服务器PIR:所有数据存储于单一服务器,查询过程在该服务器上完成。由于缺乏多个独立节点的支持,此类方案基于计算安全性(Computational Security)设计,即在现有计算资源下难以破解。通常基于计算困难性假设(如格问题、大整数分解等),利用同态加密等技术实现隐私保护
-
-
【按查询类型分类】根据用户对数据位置的先验知识,PIR可分为:
-
-
基于索引的PIR(Index-based PIR):假设用户已知目标数据在数据库中的具体位置(即索引),仅需在不泄露该索引的前提下获取对应数据项。此类方案不保护索引的隐私,一般可结合隐私集合交集(PSI)技术预先安全地获取目标索引
-
基于关键字的PIR(Keyword-based PIR):适用于用户仅知数据的关键属性(如名称、ID等),而不知其索引的场景。该类方案需在保护查询关键词隐私的同时完成匹配检索,通常通过可搜索加密(Searchable Encryption)或关键字不经意传输(Keyword OT)等机制实现,能更全面地保护用户查询意图
-
-
【按隐私保护目标分类】根据隐私保护的范围,PIR可分为:
-
-
单侧PIR(Single-sided PIR):仅保护查询方隐私,即服务器无法得知用户检索了哪条数据,但允许用户获知数据库的完整结构或非目标数据的相关信息
-
双侧PIR(Double-sided PIR 或 Symmetric PIR):同时保护查询方与数据提供方的隐私,防止用户获取除目标数据外的任何额外信息,也防止服务器获知查询内容,常用于对数据暴露敏感的场景
-
-
【按技术实现路径分类】根据为PIR提供隐私保护的密码学原语,PIR可分为:
-
-
基于同态加密(HE-based):利用同态加密支持在密文上直接计算,实现对数据库的加密查询
-
基于不经意传输(OT-based):通过一系列不经意传输协议完成隐私检索,常见于两方场景
-
基于秘密共享(SS-based):将数据与查询均分片共享,在多个参与方间协同计算
-
基于隐私集合交集(PSI-based):适用于关键字查询场景,通过PSI识别匹配项而不泄露其他信息
-
2.3 实现案例
阿里妈妈营销隐私计算平台Secure Data Hub(SDH)实现了基于椭圆曲线(EC)的不经意伪随机函数(OPRF)协议。在此基础上,可实现单服务器的双侧基于关键字的 PIR,具体实现流程如下图所示:
1. 查询方 与数据方 共同协商一条椭圆曲线、hash_to_curve算法以及一个哈希算法 ,各自生成私钥
【查询方 处理本方查询索引】
1. 利用hash_to_curve算法将每个本方查询索引 映射为椭圆曲线上的点,计为
2.调用EC-OPRF, 首先对 盲化,然后将盲化后的 发送给 , 使用本方密钥 对盲化后的 加密后返回给 , 对其再进行去盲化得到
3. 利用哈希函数 对 进行哈希映射,生成对称加密密钥
4. 利用密钥 加密查询索引 ,得到密文
【数据方 处理本方数据】
1. 利用hash_to_curve算法将本方数据库集合 中的每个索引 映射为椭圆曲线上的点,计为
2. 对映射后的的每个点 利用本方的密钥 计算其 得到
3. 利用哈希函数H将每个 映射为对称加密密钥
4. 将集合Y中每个元素的 和标签 用对应的密钥 分别进行对称,得到密文结果 后发送给查询方
【查询方 进行密态匹配和解密】
1.查询方比对密文 与集合 中每个元素的左边部分是否匹配: 1. 若未匹配上,则表明该关键字索引 不在 数据库内 2. 若匹配上,则用 解密得到索引对应的标签
3. 应用场景
隐私信息检索在强化数据库查询安全与隐私方面发挥了重要作用,已广泛落地于多个行业。下面简要列出PIR技术的几个典型行业的应用场景:
-
电信运营商:用户在查询个人通信记录、套餐余量、国际漫游服务或网络覆盖信息时,可通过 PIR 技术确保查询不暴露具体身份或访问内容,防止敏感行为数据被记录或滥用
-
数字广告:广告主在进行程序化广告投放时,需要查询某用户是否已被平台触达,实现对用户的曝光频控。通过PIR 技术,广告主可在不向平台泄露具体用户ID的情况下完成查询,保护广告主的数据隐私与商业机密
-
金融:客户在查询个人征信状态、贷款审批进度或跨机构账户风险标记时,可通过 PIR 技术避免敏感金融信息在查询过程中被关联追踪,增强金融服务的私密性与安全性
-
教育:学生或教育机构在查询学籍信息、考试成绩、学历认证状态或助学资格时,可利用 PIR 技术实现对系统的安全访问,确保查询行为不被记录或关联到个人,保护教育数据的隐私性和公平性
4. 总结
隐私信息检索 PIR 技术正成为保护数据查询隐私的关键路径,推动数据库访问从“可见查询”向“可用不可见”演进。通过隐藏查询意图,PIR 在保障用户或企业不泄露访问目标的前提下,实现对中心化数据集的安全检索,为高敏感场景下的数据调用提供了最小化暴露的解决方案。
阿里妈妈SDH平台已支持 EC-OPRF 等关键隐私保护协议,具备部署隐私信息检索 PIR 的技术基础。未来SDH平台会将 PIR 技术集成至广告营销场景的分析服务中,在保障查询隐私的前提下实现精准匹配与安全数据协作,进一步提升广告生态中的隐私保护水平。
5. 参考文献
-
Cong K, Moreno R C, da Gama M B, et al. Labeled PSI from homomorphic encryption with reduced computation and communication[C]//Proceedings of the 2021 ACM SIGSAC Conference on Computer and Communications Security. 2021: 1135-1150.
-
Xiao J, Chang J, Lin L, et al. Cloak: hiding retrieval information in blockchain systems via distributed query requests[J]. IEEE Transactions on Services Computing, 2024, 17(6): 3213-3226.
-
Liu J, Li J, Wu D, et al. PIRANA: Faster multi-query PIR via constant-weight codes[C]//2024 IEEE Symposium on Security and Privacy (SP). IEEE, 2024: 4315-4330.
-
Zhou M, Park A, Zheng W, et al. Piano: extremely simple, single-server PIR with sublinear server computation[C]//2024 IEEE Symposium on Security and Privacy (SP). IEEE, 2024: 4296-4314.
END

💡 关于我们
阿里妈妈SDS(Strategic Data Solutions)团队 致力于用数据让商家和平台的增长战略更加科学有效。我们为阿里妈妈全线广告客户提供营销洞察、营销策略、价值量化、效果归因、隐私计算的技术服务。我们将持续在营销场景下的数据隐私安全和解决方案方向进行探索和落地,欢迎各业务方关注与合作。
📮联系邮箱:alimama_tech@service.alibaba.com
也许你还想看
隐私增强技术(PETs)综述 | 一文了解隐私计算技术发展脉络
广告营销场景下的隐私计算实践:阿里妈妈营销隐私计算平台SDH
关注「阿里妈妈技术」,了解更多~
更多推荐
所有评论(0)