国外幕后人员分析新浪微博的删帖机制

国外幕后人员分析新浪微博的删帖机制_行业应用_LEDs


鉴于微博API的限制,研究人员主要跟踪了最可能会发敏感帖子的敏感用户组。从2012年7月20日到9月8日,     研究人员利用API以每分钟一次的频率搜索3500位用户的时间线,以每四秒一次的频率搜索公共时间线。    由于新浪微博不支持匿名查询,所以他们利用Tor隐藏IP后创建虚假用户帐号。他们共     收集了238万用户时间线帖子,删贴率是12.75%。    考虑到新浪需要处理的大数据集规模,     发帖后5到10分钟的删贴峰值,尤其是考虑到删贴无法完全用自动方式处理,新浪是如何做到迅速发现和删除敏感帖子?    研究人员提出了六个假说:

1.新浪微博有一个监视关键词列表,审查员将会浏览包含这些关键词的帖子决定是否删除。

2.微博有针对性的监视频繁发敏感帖子的用户。

3.在发现一个敏感帖子之后,审查员可以追溯所有相关的转贴,可以一次性的全部删除。

4.通过关键词搜索,微博删除了追溯的帖子导致了特定关键词在短时间内出现删除峰值。

5.审查员工作是分布式的,相对独立,其中部分人可能是兼职。

6.删贴速度与主题有关,根据主题的敏感度删除速度存在差异。研究人员利用自然语言处理技术进行删贴主题分析,发现某些热门主题帖子比另外一些主题更快被删除(如图所示),如群交、北京暴雨死亡人数和司法独立等都在极端时间内删除了。

研究人员总结了     微博的过滤机制,其中主动过滤机制包括:显式过滤    ,微博通知发贴人他们的帖子内容违反了内容政策(但有些时候用户并不清楚到底是因为什么敏感词受阻);     隐式过滤    ,微博需要在手动审查帖子后才会允许帖子上线;伪装发帖成功,其他用户看不到这位用户的帖子。


国外幕后人员分析新浪微博的删帖机制_行业应用_LEDs  




4
99
0
24

相关资讯

  1. 1、科学家创造出DNA标签:数据难被篡改,颠覆传统条码追踪技术4554
  2. 2、北方华创自主研发的等离子硅刻蚀机等设备已迈入集成电路主流厂高产线2262
  3. 3、又斥巨资买光刻机国产半导体设备困境如何解?894
  4. 4、台湾交通大学以纳米双晶铜导线技术突破高端芯片封装瓶颈1388
  5. 5、鸿海10.5代面板厂新进展!生产线厂房明年1月竣工2851
  6. 6、可见光传感器与光敏电阻的比较1071
  7. 7、中国人工智能学会AI与安全专委会成立,提升网络安全系统的实用性435
  8. 8、能收集人车流量数据,杭州有条智能斑马线898
  9. 9、台积电和日月光投控及鸿海等三巨头抢食异质芯片整合商机1907
  10. 10、光电液位传感器:为什么它们是传统液位开关的首选产品972
全部评论(0)
我也有话说
0
收藏
点赞
顶部