欢迎关注公众号——《数据三分钟》

一线大厂的师兄师姐结合自己的工作实践,将数据知识浅显道来,每天三分钟,助你成为数据达人。还有面试指导和内推机会。

​       任何一个平台,无论设计得多么完美,也很难保证自己完美无瑕,毫无破绽。既然有了破绽,就可能被别有用心之人利用、伪造、篡改、甚至牟利。在互联网领域,黑灰产广泛存在,我们熟悉的刷单、刷流量、水军、僵尸粉、抢秒杀、垃圾邮件等等不过是它的冰山一角。其实电商领域也一直是黑灰产的重灾区,可以说已经形成了成熟的“产业链”,甚至在市场上已经有稳定的分工。对于平台而言,不去封锁反作弊的话,一方面会影响平台商业环境的公平公正,另一方面也会令平台遭受严重的资损。对于电商平台来说,黑灰产的作弊数据会严重干扰正常的商业分析,甚至会误导决策,因此必须对作弊数据进行识别和剔除。

 · 插一段历史故事 · 

        汉武帝晚年外出巡游的时候,听说了一个年轻的奇女子,她自出生以来双拳紧握不能伸展,汉武帝很好奇就召见了她,巧的是汉武帝用手轻轻一掰,她的拳头就很自然的舒展开了,掌心还握着一个小玉钩。她就是历史上的拳夫人,又名钩弋夫人,汉昭帝刘弗陵的生母,但是汉武帝暮年立七八岁的刘弗陵为太子的时候,担心自己死后,人主年小而母亲年壮,出现太后独断骄横,淫荡放肆,没有人能阻止,重演吕后乱政的悲剧,于是赐死了年轻的钩弋夫人,选了若干位顾命大臣辅佐刘弗陵。

 · 1 常见的黑灰产作弊手段 · 

        薅羊毛党,套取平台大额消费券。大家知道淘宝或者京东在搞大促的时候,都会通过发放一定数额的优惠券、红包等来刺激和引导消费者购物,以提高整个行业的大盘成交,尤其是对潜在的高消费人群,平台可以给他发放更高面值的优惠券。那么有些薅羊毛党知晓这样的规则,他可以在大促前的一段时间疯狂地购物,在平台上产生大量的交易流水,骗过系统将自己识别为高消费人群以获取高面值优惠券,目的达成后,又会利用平台的规则——譬如七天无理由退货,然后把之前买的东西全部退货退款。

        刷流量,影响搜索排序。这是非常普遍且利润丰厚的黑产业务,这其实建立在知晓搜索排序的规则之下,通过模拟手机用户的操作,来定向增加店铺或者商品的曝光、点击、浏览,这样可以影响到搜索排序,间接获取平台的流量倾斜。

        恶意攻击,通过海量伪造用户请求,打垮服务器。与这种黑产手段类似的还有抢秒杀等行为,大致上通过伪造一定数据量的请求,瞬间锁定目标商品。这种通过机器伪造的作弊手段可以通过图灵测试来规避,讲到这似乎也就可以理解为什么12306网站的验证码那么复杂了吧!下图这种难度的验证,恐怕真人都很难通过。

 · 2 反作弊链路及手段 · 

        我们知道通过黑产利益链,会员id、会员昵称这类信息有一定程度的安全泄露,作弊模拟器可以基于这类真实的会员信息,肆意伪造用户行为日志,扰乱电商公平竞争环境。

        从已有的案例来看,用户ID、用户昵称、imei(国际移动设备识别码International Mobile Equipment IdentityIMEI),即通常所说的手机序列号、手机“串号”,用于在移动电话网络中识别每一部独立的手机等移动通信设备,相当于移动电话的身份证。)、imsi(国际移动用户识别码(英语:IMSI,International Mobile Subscriber Identity),是用于区分蜂窝网络中不同用户的、在所有蜂窝网络中不重复的识别码。手机将IMSI存储于一个64比特的字段发送给网络。IMSI可以用来在归属位置寄存器(HLR,Home Location Register)或拜访位置寄存器(VLR,Visitor Location Register)中查询用户的信息。为了避免被监听者识别并追踪特定的用户,大部分情形下手机和网络之间的通信会使用随机产生的临时移动用户识别码(TMSI,Temporary Mobile Subscriber Identity)代替IMSI。)、IP、设备号等等信息都可以直接被篡改,虽然,我们仍然可以通过设定复杂的离线规则来识别这些异常,但是离线任务的自适应能力差,时效性低,很难过滤和避免无时无刻不在的作弊行为,极端情况下,黑灰产从业者可以通过模拟器操纵APP(电脑端操纵浏览器),篡改全部真实用户信息,做到高度拟人的作弊。因此,反作弊链路需要离线处理的强过滤,也需要实时处理引擎的自适应实时过滤。

 

        从单条链路的上下游来看,我们希望可以在越靠近源头的地方就识别和过滤作弊数据,这样就可以避免作弊数据污染下游的计算。原始日志层反作弊,这一层上有多种反作弊形式,包括会员黑名单过滤、异常IP过滤、异常域名过滤等,除此之外我们还可以针对特定的粒度进行聚合分析,得到一系列的硬规则来识别和判断作弊数据。譬如。我们可以认为一个设备一天出现在50个以上的城市是异常的;可以认为单个用户一天在平台上出现86400次(一天86400秒)PV是异常的;再有,可以认为在同一毫秒级一起访问某一个店铺或商品的大批量用户是异常的(这种情况往往是电脑操控模拟器,一次性启动访问行为),这一系列的硬规则过滤也是很有效的过滤手段

 

        对于更为高阶的作弊手段,也需要更为高阶的反作弊手段与之掣肘,这是一个攻与受,不,应该是攻与防的过程。反作弊的场景日趋复杂,而反作弊算法也在与时俱进,总是有人洞悉平台的防控漏洞,因此大发横财,譬如更改搜索词实现流量定向篡改这样的高阶作弊行为,这可能会严重破坏公平公正的商业环境。

        反作弊永远不可能将所有的作弊行为清理干净,但是发现作弊其实也并不难,因为在利益的驱动性下,作弊行为一定出现在那些“有利可图”的地方,如果可以不断地提高作弊成本,也不失为一个很好的掣肘方式。

Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐