数据分析挑战:精细化的fuzz规则

猪猪侠 | 2015-07-28 10:09

我们在国内做安全测试过程中,发现中国姓名排行TOP500(数据统计来自国家人口数据库)的作用是简单而又高效。WooYun: 人类的怠惰之一安全管理执行力度不够导致唱吧安全边界被突破(进入内网)

然而根据数理统计来说,上面的命中率其实并不高,于是我思考出了几个新的点:

1、针对海量已有的姓名库,进行统计分析(这个库的来源是已泄露的 QQ群数据库)。

2、每个QQ都有备注自己的真实名字(取2-4个中文字的昵称),对QQ号去重(14.5亿个昵称);

3、针对姓-名进行二分,姓氏为一个字段,名字为一个字段;

4、统计最多的姓氏,统计使用得最多的名字;

5、针对TOP10、TOP50的姓氏+名字做排列组合,生成我们需要的fuzz向量。

* 来自海量社工库的{真实姓名}字段挖掘;

* 来自海量社工库的常用username字段挖掘;

* 来自海量社工库的常用email-name字段挖掘;

中国人口最多的前十大姓

1.李姓-占全中国汉族人口的 7.94%=95,300,000人。

2.王姓 -占全中国汉族人口的 7.41%=88,900,000人。

3.张姓 -占全中国汉族人口的 7.07%=84,800,000人。

4.刘姓 -占全中国汉族人口的 5.38%=64,600,000人。

5.陈姓 -占全中国汉族人口的 4.53%=54,400,000人。

6.杨姓 -占全中国汉族人口的 3.08%=37,000,000人。

7.赵姓 -占全中国汉族人口的 2.29%=27,500,000人。

8.黄姓 -占全中国汉族人口的 2.23%=26,800,000人。

9.周姓 -占全中国汉族人口的 2.12%=25,400,000人。

10.吴姓-占全中国汉族人口的 2.05%=24,600,000人。

中国人口最多的前100名姓氏:前十名总人口约为5.5亿人。

01李 02王 03张 04刘 05陈 06杨 07赵 08黄 09周 10吴

11徐 12孙 13胡 14朱 15高 16林 17何 18郭 19马 20罗

21梁 22宋 23郑 24谢 25韩 26唐 27冯 28于 29董 30萧

31程 32曹 33袁 34邓 35许 36傅 37沈 38曾 39彭 40吕

41苏 42卢 43蒋 44蔡 45贾 46丁 47魏 48薛 49叶 50阎

pre_name = {'李','王','张'};

name = {'伟','芳','勇'};

姓:李  名:伟

姓:李  名:芳

姓:李  名:勇

姓:王  名:伟

姓:王  名:芳

姓:王  名:勇

姓:张  名:伟

姓:张  名:芳

姓:张  名:勇

利用分布式架构实现:

10台机器分布式统计分析,而且你的程序应该能平滑扩展到更多的机器,支持更大的数据量。

将上面的结果私信我,你将能够参与到 tangscan 的研发。

EXAMPLE:

3.jpg

2.jpg

1.jpg

4.jpg