2020 Datacon 大数据安全分析比赛部分题目内测笔记

2020-08-16

去年参加了Datacon DNS恶意流量方向的比赛，拿了第五，差点拿到奖orz，今年参加了部分赛题的内部评估，以下是做题记录。

DNS 恶意域名分析题目一-种子寻找记之DGA算法分析

赛题信息

设计说明

DGA（Domain generation algorithm，域名生成算法）是一种利用特定种子字符，结合加密算法，进而生成一系列伪随机恶意域名的方法。恶意软件可使用DGA逃避域名黑名单的检测。

本题中，选手需从给定的DGA样本中通过逆向分析发现其中存在的DGA算法。通过对DGA算法的分析，根据给出的同算法但不同种子生产的域名获得新的种子，最终给出使用新种子生产的所有域名。

数据说明

sample1.exe、sample2.exe、sample3.exe，不同DGA算法的三个样本
20200510_domains1.txt、20200510_domains2.txt、20200510_domains3.txt，各样本对应的同算法但不同种子的样本生产的域名，若算法时间相关，则生产时间为2020年5月10日

提交形式

选手提交3个txt文件，提交文件的命名规则和内容如下：

domains1.txt

使用sample1.exe中算法和新种子生产的算法规定个数的域名。每个域名一行。
domains2.txt

使用sample2.exe中算法和新种子生产的算法规定个数的域名。每个域名一行。
domains3.txt

使用sample3.exe中算法和新种子生产的算法规定个数的域名。每个域名一行。

解题过程

这个题主要是考察基本逆向+算法分析，之前也没做过逆向，这次正好算是入了门，踩了挺多逆向的坑…

sample1

IDA打开，找不到main函数，文本模式下搜main，找到入口函数：

int __cdecl main(int argc, const char **argv, const char **envp)
{
  __main();
  dga_v2(2020, 4, 6, 0xFD6512BE);
  return 0;
}

看起来，2020、4、6是日期，最后一个参数是种子，反编译dga_v2函数：

int __cdecl dga_v2(int a1, char a2, char a3, unsigned int a4)
{
  signed int v4; // edx
  int v5; // eax
  int v6; // ecx
  int v7; // eax
  int v8; // eax
  int v9; // edx
  int v10; // edx
  int v11; // esi
  int v12; // ecx
  int result; // eax
  int v14; // [esp+1Ch] [ebp-12Ch]
  char v15[8]; // [esp+28h] [ebp-120h]
  unsigned __int8 v16[16]; // [esp+30h] [ebp-118h]
  char *v17[5]; // [esp+40h] [ebp-108h]
  int v18; // [esp+54h] [ebp-F4h]
  int v19; // [esp+58h] [ebp-F0h]
  int v20; // [esp+5Ch] [ebp-ECh]
  int v21[4]; // [esp+64h] [ebp-E4h]
  unsigned int v22; // [esp+74h] [ebp-D4h]
  char v23; // [esp+CBh] [ebp-7Dh]
  char v24[4]; // [esp+CCh] [ebp-7Ch]
  char v25; // [esp+D0h] [ebp-78h]

  *(_DWORD *)v24 = 0;
  v14 = 0;
  memset(&v25, 0, 0x60u);
  qmemcpy(v17, _data_start__, sizeof(v17));
  do
  {
    memset(&v18, 0, 0x20u);
    v4 = v14 & 0xFFFFFFFE;
    v18 = (unsigned __int8)(a1 + 48);
    v19 = (unsigned __int8)a2;
    v20 = (unsigned __int8)a3;
    v5 = 0;
    do
    {
      v6 = (unsigned __int8)v4;
      v4 >>= 8;
      v21[v5++] = v6;
    }
    while ( v5 != 4 );
    v7 = 0;
    do
    {
      *(&v18 + v7) ^= (unsigned __int8)(a4 >> 8 * (v7 & 3));
      ++v7;
    }
    while ( v7 != 8 );
    v8 = 0;
    do
    {
      v15[v8] = *(&v18 + v8);
      ++v8;
    }
    while ( v8 != 8 );
    MD5Init(&v22);
    MD5Update(&v22, v9, 8);
    MD5Final(&v22, v16);
    v10 = 0;
    memset(v24, 0, 0x64u);
    do
    {
      v11 = (v16[v10] & 0xF) + ((signed int)v16[v10] >> 4) + 97;
      if ( v11 <= 122 )
      {
        *(&v23 + strlen(v24) + 1) = v11;
        v24[strlen(v24) + 1] = 0;
      }
      ++v10;
    }
    while ( v10 != 16 );
    v12 = 0;
    while ( v14 % (5 - v12) )
    {
      if ( ++v12 == 5 )
        goto LABEL_16;
    }
    strcat(v24, v17[v12]);
LABEL_16:
    result = puts(v24);
    ++v14;
  }
  while ( v14 != 1000 );
  return result;
}

改了下v22的类型，分析算法流程，大概就是长度为8的数组，前三个是年月日，第四个是0，后面四个是v14（次数）的低32bit，一个占8bit，然后与种子异或，md5得到结果再按程序一个逻辑得到可见字符，然后根据v14确定后缀。

这里MD5Update这些函数信息理应是隐藏的，出题人没注意，正式比赛应该给修正了，其实通过 Magic number 可以判断是 md5,我还下了断点动态调试验证了一下。

其实只有种子未知，直接照着逻辑实现一遍，拿第一个域名爆破种子就好了。md5算法是网上找的一个实现：https://blog.csdn.net/weixin_42167759/article/details/81209320。

#include <stdio.h>
#include <string.h>
#include "md5.c"
char *v17[] = {".biz",".info",".org",".net",".com"};
unsigned __int8 v18[8];
unsigned char v15[9];
unsigned char v16[16];
char v21[30];
signed int v4;
int i;
int v14,v5,v6,v7,v8,v10,v11,v9,v12;
char* dga_v2(int a1,int a2,int a3,unsigned int a4)
{
	v14=0;
	do
	{
		memset(v18, 0, sizeof(v18));
		v4 = v14 & 0xFFFFFFFE;
    	v18[0] = (unsigned __int8)(a1 + 48);
    	v18[1] = (unsigned __int8)a2;
    	v18[2] = (unsigned __int8)a3;
    	v5 = 0;
    	do
    	{
      		v6 = (unsigned __int8)v4;
      		v4 >>= 8;
      		v18[v5++ + 4] = v6;
    	}
		while ( v5 != 4 );
				
		v7 = 0;
		do
		{
			v18[v7] ^= (unsigned __int8)(a4 >> 8 * (v7 & 3));
			++v7;
		}	
    	while ( v7 != 8 );
    	v8 = 0;
    	do
    	{
      		v15[v8] = v18[v8];
      		++v8;
    	}
    	while ( v8 != 8 );
    	v15[v8]=0;
    	MD5_CTX md5;
		MD5Init(&md5);        		
		MD5Update(&md5,v15,strlen(v15));
		MD5Final(&md5,(unsigned __int8 *)v16);
		memset(v21, 0, 0x64u);
		v10 = 0;
		v9 = 0;
		do
		{
			v11 = (v16[v10] & 0xF) + ((signed int)(unsigned __int8)v16[v10] >> 4) + 97;
			if ( v11 <= 122 )
			{
				v21[v9] = v11;
				v21[++v9] = 0;
			}
			++v10;
		}
		while ( v10 != 16 );
		v12 = 0;
		while ( v14 % (5 - v12) )
		{
			++v12;
		}
		strcat(v21, v17[v12]);
		//printf("%s\n",v21);
		++v14;	
	}while(v14!=1);
	return v21;
	
}
int main()
{
	unsigned seed;
	char correct[]="ezzijueztfslhhrp.biz";
	for(seed = 0;seed < ((1<<32)-1) ;seed++){
		if(!strcmp(correct,dga_v2(2020,5,10,seed))){
			printf("%u",seed);
		}
	}
	return 0;
}

跑了挺久的，得到种子是1836927723，直接生成就好了。

sample2

拖到IDA反汇编，看到就一个dga函数：

1	dga("cw3OGGsoaako7GSGG3", "umyyobuorstfabj.com", (char (*)[5])v4, 3, 1000);

v4可以看到是域名的后缀名，包括[‘pw’, ‘us’, ‘club’]。

看dga函数：

int __cdecl dga(char *a1, char *a2, char (*a3)[5], int a4, int a5)
{
  char *v5; // edx
  int v6; // eax
  int v7; // ecx
  int result; // eax
  int v9; // eax
  int v10; // ebx
  signed int v11; // edx
  char (*v12)[5]; // ebx
  int v13; // esi
  char (*v14)[5]; // ST08_4
  int v15; // [esp+1Ch] [ebp-CCh]
  int v16; // [esp+20h] [ebp-C8h]
  unsigned __int8 v17; // [esp+24h] [ebp-C4h]
  unsigned __int8 v18; // [esp+28h] [ebp-C0h]
  int v19; // [esp+2Ch] [ebp-BCh]
  char v20; // [esp+31h] [ebp-B7h]
  char v21[4]; // [esp+32h] [ebp-B6h]
  char v22; // [esp+36h] [ebp-B2h]
  int v23[15]; // [esp+50h] [ebp-98h]
  int v24; // [esp+8Ch] [ebp-5Ch]
  int v25[22]; // [esp+90h] [ebp-58h]

  v5 = a2;                    
  memset(v23, 0, 0x40u);
  *(_DWORD *)v21 = 0;
  v17 = 0;                    
  memset(&v22, 0, 0x1Au);
  v6 = 0;                     
  do
  {
    v7 = a1[v6];
    v17 += v7;
    v23[v6++] = v7;         
  }
  while ( v6 != 16 );
  v19 = 0;                 
  v15 = (unsigned __int8)v24;  
  while ( 1 )
  {
    result = v19;
    if ( v19 >= a5 )  
      break;
    v9 = 0;
    memset(v25, 0, 0x40u);
    do
    {
      v25[v9] = v5[v9];
      ++v9;
    }
    while ( v9 != 16 );        
    v10 = v15;
    v11 = 1;                  //v11:1
    memset(v21, 0, 0x1Eu);
    v18 = v17;                //v18:0
    do
    {
      while ( 1 )
      {
        v16 = (v18 ^ (*(&v24 + v11) + v10)) + v25[v11];
        v10 = (unsigned __int8)v16;
        if ( (unsigned int)(unsigned __int8)v16 - 98 <= 0x17 )
          break;
        ++v18;
      }
      ++v11;
      *(&v20 + strlen(v21) + 1) = v16;
      v21[strlen(v21) + 1] = 0;
    }
    while ( v11 != 13 );
    v12 = a3;
    *(&v20 + strlen(v21) + 1) = 46;
    v13 = 0;
    v21[strlen(v21) + 1] = 0;
    while ( v13 < a4 )
    {
      v14 = v12;
      ++v13;
      ++v12;
      printf("%s%s\n", v21, v14);
    }
    strcat(v21, &(*a3)[5 * a4 - 5]);
    ++v19;
    v5 = v21;
  }
  return result;
}

生成域名的重点代码是这段：

do
    {
      while ( 1 )
      {
        v16 = (v18 ^ (*(&v24 + v11) + v10)) + v25[v11];
        v10 = (unsigned __int8)v16;
        if ( (unsigned int)(unsigned __int8)v16 - 98 <= 0x17 )
          break;
        ++v18;
      }
      ++v11;
      *(&v20 + strlen(v21) + 1) = v16;
      v21[strlen(v21) + 1] = 0;
    }
    while ( v11 != 13 );

下面是加后缀的，不用管。

里面涉及的变量，v18是v17赋值，v17是“cw3OGGsoaako7GSGG3”的ascii码的和（低8位）。

v11是一个不知道哪的数，v25是“umyyobuorstfabj.com”，v24未知。v24很奇怪，用法是类似数组的用法，声明却是int，手动改成int类型的数组，重新反编译。

int __cdecl dga(char *a1, char *a2, char (*a3)[5], int a4, int a5)
{
  char *v5; // edx
  int v6; // eax
  int v7; // ecx
  int result; // eax
  int v9; // eax
  int v10; // ebx
  signed int v11; // edx
  char (*v12)[5]; // ebx
  int v13; // esi
  char (*v14)[5]; // ST08_4
  int v15; // [esp+1Ch] [ebp-CCh]
  int v16; // [esp+20h] [ebp-C8h]
  unsigned __int8 v17; // [esp+24h] [ebp-C4h]
  unsigned __int8 v18; // [esp+28h] [ebp-C0h]
  int v19; // [esp+2Ch] [ebp-BCh]
  char v20; // [esp+31h] [ebp-B7h]
  char v21[4]; // [esp+32h] [ebp-B6h]
  char v22; // [esp+36h] [ebp-B2h]
  int v23[15]; // [esp+50h] [ebp-98h]
  int v24[14]; // [esp+8Ch] [ebp-5Ch]

  v5 = a2;
  memset(v23, 0, 0x40u);
  *(_DWORD *)v21 = 0;
  v17 = 0;
  memset(&v22, 0, 0x1Au);
  v6 = 0;
  do
  {
    v7 = a1[v6];
    v17 += v7;
    v23[v6++] = v7;
  }
  while ( v6 != 16 );
  v19 = 0;
  v15 = LOBYTE(v24[0]);
  while ( 1 )
  {
    result = v19;
    if ( v19 >= a5 )
      break;
    v9 = 0;
    memset(&v24[1], 0, 0x40u);
    do
    {
      v24[v9 + 1] = v5[v9];
      ++v9;
    }
    while ( v9 != 16 );
    v10 = v15;
    v11 = 1;
    memset(v21, 0, 0x1Eu);
    v18 = v17;
    do
    {
      while ( 1 )
      {
        v16 = (v18 ^ (v24[v11] + v10)) + v24[v11 + 1];
        v10 = (unsigned __int8)v16;
        if ( (unsigned int)(unsigned __int8)v16 - 98 <= 0x17 )
          break;
        ++v18;
      }
      ++v11;
      *(&v20 + strlen(v21) + 1) = v16;
      v21[strlen(v21) + 1] = 0;
    }
    while ( v11 != 13 );
    v12 = a3;
    *(&v20 + strlen(v21) + 1) = 46;
    v13 = 0;
    v21[strlen(v21) + 1] = 0;
    while ( v13 < a4 )
    {
      v14 = v12;
      ++v13;
      ++v12;
      printf("%s%s\n", v21, v14);
    }
    strcat(v21, &(*a3)[5 * a4 - 5]);
    ++v19;
    v5 = v21;
  }
  return result;
}

这样就好看多了，之前的v24和v25指向的数据是同一数据。

往下看，发现v5 = v21;，v21会作为下一个域名生成算法的输入，覆盖”umyyobuorstfabj.com”。

现在也不知道选了哪个后缀的域名作为的v21，动态调一下，发现是club。

我们没有a1和a2，但是只有第一个域名生成用到了a2，后面的域名生成基于上一个域名，我们选一组挨着的域名，a2的问题解决了。a1也只是用了个ascii码的和，256种可能。

这里面还有个v10不知道，256种可能，所以我们可以爆破256*256种可能，还原出这两个值。

得到了两组值：84, 119与85, 48。

然后直接照着算法逻辑跑可以得到后面的所有域名，与txt中结果比对，发现84，119的是正确的。

脚本：

s1 = "xuvsxyrbjiyv"
s2 = "rgujkdffrpde"


def calc(v18, v10, s1):
    v11 = 0
    res = ""
    while 1:
        while 1:
            v16 = (v18 ^ (ord(s1[v11]) + v10)) + ord(s1[v11 + 1])
            v10 = v16 & 0xff
            if (v10 - 98) & 0xffffff <= 0x17:
                break
            v18 += 1
        res += chr(v10)
        v11 += 1
        if v11 == 12:
            break
    return res


# for v18 in range(255):
#     for v10 in range(255):
#         if calc(v18,v10,s1) == s2:
#             print v18,v10
#             break
v18, v10 = 84, 119
# v18, v10 = 85, 48
res = []
for i in range(1000):
    for ext in ['pw', 'us', 'club']:
        res.append("%s.%s" % (s1, ext))
    s1 = calc(v18, v10, s1 + ".club")
with open("domains2.txt", "w") as f:
    f.write("\n".join(res))

(unsigned int)(unsigned __int8)v16 - 98 <= 0x17 这个判断，注意无符号数，开始python没注意到这个问题，动态调试了一会才发现这里的问题。

sample3

拖进IDA分析，代码很简单，指定随机数种子取余来生成字符串。32bit的种子，但是给的100个域名是随机采样的100个域名，打乱了顺序，没法直接爆破。

应该是要看rand的源码，参考https://crypto.stackexchange.com/questions/6760/how-does-the-rand-function-in-c-work

关键源码：

static long holdrand = 1L;
int rand() {
  return (((holdrand = holdrand * 214013L + 2531011L) >> 16) & 0x7fff);
}
void srand(unsigned int seed) {
   holdrand = (long) seed;
}

可以看到其实生成随机数算法很简单，就一行。而且每次生成的随机数仅取决于holdrand，生成一个随机数的同时指定下一次生成随机数的holdrand，就是一个递推公式。

这个题目相当于给了我们100个连续的随机数片段（模35的结果），但是我们不知道每个片段的index。

同时程序在输出dga域名时，输出第一个dga域名只需要生成一个dga；输出第二个dga域名时要生成两个dga，把最后一个输出；输出第三个dga域名时要生成三个dga，把最后的输出，也就是说程序共生成了1+2+3+…+1000，即500500 个域名。

其实定义种子就是定义一个holdrand，我们任意选一个输出域名，直接爆破种子，可以得到生成这个域名前的holdrand。

就拿第一个域名为例，直接爆破：

#include <stdio.h>
#include <string.h>
int main()
{
	char res[24];
	int i;
	char v11[35]="abcdefghijklmnopqrstuvwxyz123456789";
	char correct[19]="13mrjyvjjp4azbbkt7";
	unsigned int seed;
	for(seed=0;seed<(1<<32-1);seed++){
		srand(seed);
		int flag=1;
		for(i=0;i<18;i++){
			if(!(v11[rand()%34]==correct[i])){
				flag = 0;
				break;
			}
		}
		if(flag){
			printf("%u\n",seed);
		}
	}
	
   
   return 0;
}

得到682174533，也就是说生成13mrjyvjjp4azbbkt7之前，holdrand的值是682174533。

接下来我们需要确定，这个域名是第几个输出的。我们可以以682174533为种子一直生成域名，把每个域名与题目中的100个域名对比，相等就记录下来是第几个生成的，代码：

#include <stdio.h>
#include <string.h>
char *ext[]= {".ru",".com",".net",".biz",".cn"};
char v11[35]="abcdefghijklmnopqrstuvwxyz123456789";
char correct[101][24] = {"13mrjyvjjp4azbbkt7.com","1i8vw27dwm8ndevior.biz","1j24mwoqqyfcx1qqss.ru","1salpm53tfy88aqd5n.com","2iffaefkjqo8bjtcu8.net","2my1q1eee7i6ogxrgq.ru","34wg8meomx1na5m2wc.net","38yijueupbbm5k5czj.ru","3wcly5scymjapoj7qa.com","4bgi4o12snvq6ox3dx.cn","4girwa5l6z8zl5ehbh.net","52nh81fuoma1qppv8f.ru","54u6nwwry22lay7x1r.cn","5d8bf1p66ysy5bqfwj.cn","5ewy3vxhb3vl5ydjhl.biz","63sww2skr1kynlp56s.net","6danvuyai8sykkg15r.biz","6fqlt8ygeov2xb73vn.cn","78zk88cs6viwj31qhh.com","7lglt6bjbnxmnjvea8.biz","7sryvpk8j76mmyfzqv.biz","7xlwbrwad4khucxjo1.cn","86ajx1ehnoxtoas81w.com","8hmadc4ktcbp434i7v.com","a6mj5awo1llzf6vptc.com","aey5xbjb1yytrpo1qc.cn","b7rv1i7lguqh4571ic.cn","bmqqhw57ih541j2ker.biz","cnfy6toctwqfckkcm2.ru","cqjenuvx2vg7eit63h.cn","cvbs1koh7mst2ds3ld.com","cwcnn4b4wge5xilv7n.com","diynmgrfvjlblouob1.biz","djzmdjg3omx8p4ns3e.biz","dk8ttigditrpxafg8i.biz","dxhun2re2x1jywmwqo.biz","eizwxdiapuco67vpa5.ru","ep1gcq3mont3wtaygc.cn","eqvp786z5t2iingl3x.com","fltekcvgk42fitmjws.net","fqqghkn46vjkzpru8b.cn","gblgpuvnvdh2t7lz6f.biz","giwn2ajock6qoo8jqh.com","gsrt5g6dc44y1krilm.com","gwwflrqe8tzdnkzbad.net","gxmmxc1yxlcky4b48i.ru","h5oj6uvuhhc1fayebb.net","hcp2gvoxls1nfcr8ve.cn","hee15fplmi7lewt1mh.net","hejxlnvf1f8qeuzvrl.com","hoovp7rac48dhvpmpz.net","i8qq4ws38cyucerw4a.net","ip6uqhdcpffrcihueb.biz","it2qi12jtir5ezbngj.net","jg84zupddsz2474o31.cn","jhhha1dkrcxbpq1gef.net","jp562btwn6b6lqh2v4.net","jr6nwh7kpi5yvamuth.ru","juq233tm5x226256yt.biz","kcfyhc1qpuehugdhfh.cn","krawjmve7je3leppj6.com","ksz45gy7lg64m1yegu.biz","kym26cus7oy47ejdns.biz","l8pvucuo31tafkray5.net","maree2g5ofzkpawm3p.com","mcbp8rmlocn8lx82tk.ru","n57guekus5jogctr3e.biz","n8zlxmjoj4ygms8de7.biz","nbrbhh2tcj2lg6bmz2.net","nlbyrkzjx2mxrs36ox.ru","npeqblt5rstjedji14.com","nyc5q1wpfk8wz2wwcr.net","opfqo1et1t2uafmian.com","ox6ytaor1zaw3q4ayh.cn","p3otg2s5rroc6q66lo.biz","pi5kv5smcp2c6apyws.cn","piw3lg3rg6l7hkil5c.cn","pw2rtqouw8jv3ygrjz.cn","qasmd3q8fextt8d8pe.com","qn3spnkqzq7zbk78u2.biz","qs4rbmn88sszioir2p.cn","qxv77gv8yiju5u6lr5.biz","rn4lgriv68zkediyl8.biz","seym7xlklokoetaznu.biz","sfidso8x1el2zafisb.com","suoj6qdfb6phfu27d5.com","tf552bfsqgm2mvftz7.cn","tf6ccv76jkdza7qbxj.com","tojrtinlfkhwy777q4.biz","tr44klrfrnaj5pwr8u.com","tu7yg7dr41juxibyv1.ru","tyn1pdkagg4pq8zjwy.cn","uatztm3o4cn58p8ez6.ru","uga11fbdkk6p3eehst.biz","vcdtmzs5ug6njdjosa.ru","vpn8qcwrsnzb88juv2.net","vsd4t2zh81fux8hje5.com","vu86xk61km7tir5yx4.biz","ykmg2j4deklnyg3dsq.net","zv88bhuwftedaspl56.ru"};
void brute_force(unsigned int seed)
{
	int amount=0;
	char res[24];
	int v1 = 1;
	srand(seed);
	int v2,v3,v5,len,v7;
	int num=0;
	do
	{
		v2=0;
		do
		{
			res[0]=0;
			v7 = 18;
			do
			{
				len=strlen(res);
				res[len]=v11[rand()%34];
				res[len+1]=0;
				v3 = v7-- == 1;
			}
			while(!v3);
			v5 = rand();
			strcat(res,ext[v5%5]);
			amount++;
			int tmp;
			for(tmp=0;tmp<100;tmp++){
				if(strcmp(res,correct[tmp])==0){
					printf("%d,",amount);
					break;
				}
			}
			++v2;
		}
		while(v1!=v2);
		++v1;
	}
	while(v1!=1000);
	
}
int main()
{
	char res[24];
	unsigned int seed=682174533;
	brute_force(seed);
	
   return 0;
}

得到:

1	1,725,1450,2176,5821,6553,34340,35110,35881,38975,39751,67541,68353,69166,102506,

这些对应的域名都是在输出13mrjyvjjp4azbbkt7之后输出的，输出的数字就是偏移域名数量。

然后我们把500500个域名中输出域名的index列出来，遍历所有index，如果对于上面的每个偏移，index加上偏移的结果依然在index的list中，那么我们就找到13mrjyvjjp4azbbkt7的index（即13mrjyvjjp4azbbkt7是程序生成的第几个域名）。

Python脚本：

index_list = []
num = 0
for i in range(1, 1001):
    for j in range(i):
        num += 1
    index_list.append(num)
b = [1, 725, 1450, 2176, 5821, 6553, 34340, 35110, 35881, 38975, 39751, 67541, 68353, 69166, 102506]
index = 0
for a in index_list:
    flag = True
    for i in b:
        if (a + i - 1) not in index_list:
            flag = False
    if flag:
        index = a
        print(a)

输出261726，也就是说这个域名是程序随机生成的第261726个域名。

现在我们需要通过现在的状态，还原初始种子。递推公式是holdrand = holdrand * 214013L + 2531011L，这里long类型会产生溢出，可能出现负数，导致无法直接逆推回去。

查阅c语言存储long类型的相关知识，原理是一个long类型用32bit存储，最高位作为正负标志位，其余31bit记录值，如果计算结果超出32bit，那就只取低32bit。

这里想了很久如何逆推解方程，最后发现其实不用管什么正负，因为生成的随机数是holdrand 32位中的高16位，无论怎么溢出，只要关心holdrand低32位就好了，即使正负标志位是1，我们也可以当成正常的32bit正数来计算。这样可以把问题转成解同余方程：

1	a*x+b=c mod n

n是2^32，a是214013L，b是2531011L，解方程直接减b再乘逆元就好了。

这个域名是第261726个生成的域名，我们只需要逆推 (261726-1)*19次状态，就可以还原到最初的seed。

Python脚本：

from gmpy2 import *
index = 261726
seed = 682174533
a_inv = invert(214013, 2 ** 32)


def inv():
    global seed
    seed = ((seed - 2531011) * a_inv) % (2 ** 32)

for i in range(index-1):
    for _ in range(19):
        inv()
print seed

得到初始seed是77980108，然后生成dga域名就好了：

#include <stdio.h>
#include <string.h>
int main(){
	unsigned int seed = 77980108;
	char res[24];
	char v11[36]="abcdefghijklmnopqrstuvwxyz123456789";
	char *ext[]= {".ru",".com",".net",".biz",".cn"};
	int v1 = 1;
	srand(seed);
	int v2,v3,v5,len,v7;
	do
	{
		v2=0;
		do
		{
			res[0]=0;
			v7 = 18;
			do
			{
				len=strlen(res);
				res[len]=v11[rand()%34];
				res[len+1]=0;
				v3 = v7-- == 1;
			}
			while(!v3);
			v5 = rand();
			if(v2==(v1-1)){
				printf("%s%s\n",res,ext[v5%5]);
			}
			++v2;
		}
		while(v1!=v2);
		++v1;
	}
	while(v1!=1001);
	
	return 0;
}

发现给的100个域名都在我们生成的域名里，证明答案无误。

僵尸网络分析题目一-Botnet追踪—追到我就让你嘿嘿嘿

这个题我评估后出题人根据我的反馈，对题目做了一定的调整。

赛题信息

设计说明

Datacon software是一家以IOT产品开发为主要业务的公司，他们在开源Web server GoAhead的基础上定制了一款名为XGoAhead的Web server使用在自己的产品中。某天Datacon software收到外部情报反馈：其定制开发的XGoAhead疑似存在漏洞，且已遭到僵尸网络利用。现在你的任务是找到这个僵尸网络的C2域名。

代码与数据说明

目前已知的线索如下

XGoAhead最新版本源码
XGoAhead最新版本源码
Passive DNS数据

提供的XGoAhead软件代码只能运行在Linux操作系统上且须使用make工具构建，推荐使用Ubuntu 18.04 x86_64或Centos 7 x86_64，不推荐在其他系统/平台上使用。

提供的公网Web蜜罐数据仅为蜜罐服务器接收到的来自公网的流量，远不能覆盖整个互联网的情况，仅为观测样本。

提供的Passive DNS仅为小范围Client IP的数据，远不能覆盖整个互联网的情况，仅为观测样本。

数据格式

Web蜜罐数据

该数据位于压缩包中的honeypot.json文件，其来源于公网部署的Web蜜罐，数据采集的时间范围是2020年5月。文件中每一行为一个JSON字符串，代表一条蜜罐日志，即针对蜜罐的一次HTTP请求，详细字段解释如下：

字段	解释
eventid	事件类型，数据文件中均为“attack.web”
method	HTTP method
body	HTTP body
url	HTTP request URL
header	HTTP request headers
path	HTTP request path
protocol	应用层协议，数据文件中均为“http”
src_ip	源IP地址（已加盐哈希处理）
src_port	源端口
dst_port	目的端口
timestamp	数据捕获的时间（格林尼治时间）

Passive DNS 数据

该数据位于access.cvs中，该数据表示DNS请求记录，即DNS客户端IP请求解析的域名记录。该数据采集于2020年5月的某一天。格式为CSV，每行三个字段，分别为“域名”、“客户端IP（已加盐哈希处理）”、“一小时内的请求次数”，请求时间已去除（脱敏）。

提交形式

题目修改前提交内容：

可能利用XGoAhead漏洞的僵尸网络的C2域名

答案通过文本文件提交，如果找到了多个C2域名则一行一个C2域名。文件使用ASCII编码，换行符为“\n”，文件末尾留一个空行。

XGoAhead中漏洞所在的文件名和函数名（如果XGoAhead存在漏洞则需要提交该答案）

通过文本文件提交，格式为“文件名:函数名”（冒号为英文冒号，大小写敏感），如存在多个漏洞则一行一个漏洞，换行符为“\n”，文件末尾留一个空行。

题目修改后提交内容：

提交可能感染僵尸网络的IP

解题过程

先讲下当时做题的过程。

题目要求找到这个僵尸网络的C2域名，并找出 xgoahead 漏洞点。

做题思路应该大致是这样

源码审计，找出漏洞点
根据漏洞，从蜜罐流量中找出攻击流量
根据攻击流量的源IP，在 passive dns 中找出 C2 域名。

源码审计

既然是基于 goahead 改的，先把 goahead 源码拉下来 diff 一下。goahead 网上的源码下载链接大多挂了，github也没了，在这里下到了 4.1.3 的源码：https://www.embedthis.com/goahead/download.html

拉下来 diff 一下。

主要的改动就是增加了一个 xcgi，这个 xcgi 看起来跟 cgi 功能差不多。其他没啥自己写的功能代码，搜一波 goahead 的漏洞：

CVE-2019-5096 有个RCE，参考 https://www.anquanke.com/post/id/194322，不过 xgoahead 已经修复了。

CVE-2017-17562 有个 cgi 的 RCE，参考 https://xz.aliyun.com/t/6407#toc-2， xgoahead 也修复了，是官方的解决方案：

envp = walloc(envpsize * sizeof(char*));
if (wp->vars) {
    for (n = 0, s = hashFirst(wp->vars); s != NULL; s = hashNext(wp->vars, s)) {
        if (s->content.valid && s->content.type == string) {
            vp = strim(s->name.value.string, 0, WEBS_TRIM_START);
            if (smatch(vp, "REMOTE_HOST") || smatch(vp, "HTTP_AUTHORIZATION") ||
                smatch(vp, "IFS") || smatch(vp, "CDPATH") ||
                smatch(vp, "PATH") || sstarts(vp, "LD_")) {
                continue;
            }
            if (s->arg != 0 && *ME_GOAHEAD_CGI_VAR_PREFIX != '\0') {
                envp[n++] = sfmt("%s%s=%s", ME_GOAHEAD_CGI_VAR_PREFIX, s->name.value.string,
                    s->content.value.string);
            } else {
                envp[n++] = sfmt("%s=%s", s->name.value.string, s->content.value.string);
            }
            trace(0, "Env[%d] %s", n, envp[n-1]);
            if (n >= envpsize) {
                envpsize *= 2;
                envp = wrealloc(envp, envpsize * sizeof(char *));
            }
        }
    }
}

增加了过滤。

但是 xcgi 没有这么严格的过滤，只过滤了 LD_:

/*
    Check if request is safe.
 */
static int beSafe(Webs *wp)
{
    if (wp->query != NULL) {
        if (strstr(wp->query, "LD_") != NULL)
            return 0;
    }
    return 1;
}

这里应该是漏洞点。（~~并不知道如何 bypass~~）

跟那个漏洞，还发现一处奇怪的地方:

Xgoahead 对临时文件的文件名处理，把 count++ 取消了，那一直都是只能写那一个文件。

数据分析

数据量较大，做分析处理比较麻烦，考虑导入数据库，方便后续操作。试了很多种方法，最后还是用 Python 解析数据再入库。

倒入数据库脚本：

# -*- coding: UTF-8 -*-
import os
import json
import pymysql

db = pymysql.connect("localhost", "root", "", "datacon")
cursor = db.cursor()

path1 = "access.csv"
sql = 'INSERT INTO access(id,domain,ip_hash,times) VALUES (%s,%s,%s,%s)'
id = 1
error = 0
tmp = []
with open(path1, 'r') as f:
    while True:
        line_data = f.readline()
        if line_data:
            try:
                domain,ip_hash,times = line_data.strip().split(",")
            except:
                print(id,line_data.strip().split(","))
                error += 1
                continue
            tmp.append((id,domain,ip_hash,int(times)))
            id += 1
        else:
            try:
                cursor.executemany(sql, tmp)
                db.commit()
            except Exception as e:
                print(e)
            break
        if id % 500 == 0:
            try:
                cursor.executemany(sql, tmp)
                db.commit()
            except Exception as e:
                print(e)
            tmp = []
print(error)

处理数据时，Access.csv 部分数据有些问题，如6416行，217333行，直接跳过处理了，还不少，大部分是多了请求的ip。

绝大部分请求ip都是 cfda2160b0298e40a2d3fbe79e8d309a，感觉对做题没啥影响，因为蜜罐数据里根本就没有这个ip。

导入库后，大体观察一下，寻找漏洞特征。

如果利用 xcgi 那个漏洞，按照 xgoahead 源码的路由，要访问 /xcgi，不过没发现这样的流量。需要上传恶意 so 文件，流量里也有传 elf 的。

（不过发现有的 elf 拖下来逆向分析，没啥恶意行为）

看一下有多少 ip 发出了上传 so 的请求：

发现是 65 个，可以把这些 ip 拿出来，去 access.csv 看一下这些 ip 的 dns请求。

# -*- coding: UTF-8 -*-
import os
import json
import pymysql

db = pymysql.connect("localhost", "root", "", "datacon")
cursor = db.cursor()

cursor.execute("select distinct src_ip from honeypot  where locate('7fELF',body)>0")
elf_ip = []
for data in cursor.fetchall():
    elf_ip.append(data[0])
for ip in elf_ip:
    cursor.execute("select distinct domain from access where ip_hash='%s'"%ip)
    print(cursor.fetchall())

发现 passivedns 中只有其中两个 ip 的记录： 625210b633ed23166798790a3180b6dc 与 eef5239efd6c7cc9f2e08f4a6f45d76b。看了下蜜罐流量，两个 ip 都是只有一条记录，上传的 elf 拖下来看了下也是恶意的：

而且文件名有 tmp/tmp-0.tmp，和之前修改的那部分代码可以对应上。

看起来这两个 ip 还请求了不少正常的域名，C2 域名应该是公共的吧，把这两个 ip 请求的域名取下交集，人工看一下，找到了一个 .ga 后缀的域名，这个域名就是最终的C2域名。

PS：流量里 bypass 过滤的方法是把 LD_PRELOAD 放到表单里上传。

题目修改

出题人本意是想让选手先分析处漏洞bypass的利用方式，再通过exp找攻击过流量，最后找C2域名。显然我的方法属于把答案偷了出来。一波讨论出题人对题目进行了一些修改：

提交内容改成了可能受感染的IP。
xgoahead代码进行了调整，把 count++ 那块的修改移除了（太刻意了），增大选手分析难度。
之前我把所有上传elf的ip都去 passivedns 查了个遍，有dns记录的ip就是攻击ip，出题人这次把流量中的攻击ip增加了两个，同时 dns 中还没有相应请求记录。不过可以按照我原来的方法找到那两个ip，回过头分析流量中exp特征，再筛选这样就可以找出全部的四个ip了，所以出题人最后应该是在passivedns中删除了这四个ip的请求记录。
对流量中上传的 elf 做了些文章，选手需要去分析恶意elf的行为，从而通过 passivedns 找出剩余的受感染 IP。

所以题目正解过程如下：

分析漏洞，找到 bypass WAF方式。
通过exp，提取攻击流量，获得四个IP。
分析ELF行为，去 passivedns 里找出剩下的 IP。

后面分析 ELF 部分我没有做了，详细可见阿里云安全的 writeup：https://zhuanlan.zhihu.com/p/186254809?utm_source=wechat_session&utm_medium=social&utm_oi=771453567763492864&utm_content=sec&wechatShare=2&s_r=0

不过题目还是有一些投机取巧的办法的，可以把所有上传elf的流量都拖下来，就60多个ip传了elf，然后可以人工分析一波，应该就两种流量，这样就可以在无法 bypass WAF的情况下找到攻击流量。这种方法最后也没有堵死，留一种trick的做题方法23333。

总结

本次赛题评估还是学到了不少东西的。

勉强算是入了门逆向orz
sample3 这个逆推思路比较新颖，CTF的密码学题目也没接触过这类
大数据流量的分析，靠手工和 python 脚本分析不够方便，入库操作还是比较舒服
学习了 xgoahead bypass WAF的姿势，其实分析那个漏洞需要动态调 C，自己也不太熟
…

看到今年 Datacon 圆满结束，希望大家也能在这次 Datacon 中有所收获！