热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

基于源码改造实现反编译YARA规则

 最近在研究yara文件,想着拿到yara编译文件以后,是否可以直接反编译呢?猜测已经有现成的工具可以使用了,但是网上没有找到相关 的工具,github上也没有找到反编译相关的工具,只能自己动手亲自实

 

最近在研究yara文件,想着拿到yara编译文件以后,是否可以直接反编译呢?猜测已经有现成的工具可以使用了,但是网上没有找到相关 的工具,github上也没有找到反编译相关的工具,只能自己动手亲自实践,也算是一个学习的过程了。网上也有一篇相关的文章可以学习,我也学习了其中部分内容,文章链接:https://bnbdr.github.io/posts/swisscheese/。

​首先我们要分清楚yara源代码和yara编译之后的文件,很简单,如果你打开一个文件,看到的是如下所示类似格式的代码,那么它就是yara源代码,在使用yara源代码扫描文件时需要先转换为字节码文件,再执行。

​ 以下这张图是yara文件编译之后的二进制格式,编译之后在你使用时它会加载更快,扫描更快,并且防止源码泄露,并且不再需要编译成字节码的形式了,因为你编译之后就已经变成了字节码文件了,相比源代码扫描文件来说就少了一步了,所以更快一些,还有出于商业角度的考虑,各大杀软厂商也会通过使用编译后的yara规则提高扫描速度。

我的思路呢,其实也很简单,因为yara本身就是开源的,而且网上没有相关工具,只能自己硬啃yara编译源码,什么时候都是官方的最权威,所以以yara官方的源码为出发点,开始分析源码中是如何一步一步进行扫描文件和内存的?流程是怎样的?逻辑是怎样的?

 

执行流程

yara.c—> main—> yr_rules_scan_file—> yr_rules_scan_mem—> yr_rules_scan_mem_blocks —> yr_rules_foreach—> callback —> handle_message

在callback处下断点单步进入后会到 handle_message(重点函数)处,函数定义如下所示:

static int callback(
int message,
void* message_data,
void* user_data)
{
YR_MODULE_IMPORT* mi;
YR_OBJECT* object;
MODULE_DATA* module_data;
switch(message)
{
case CALLBACK_MSG_RULE_MATCHING:
case CALLBACK_MSG_RULE_NOT_MATCHING:
return handle_message(message, (YR_RULE*) message_data, user_data);
case CALLBACK_MSG_IMPORT_MODULE:
mi = (YR_MODULE_IMPORT*) message_data;
module_data = modules_data_list;
while (module_data != NULL)
{
if (strcmp(module_data->module_name, mi->module_name) == 0)
{
mi->module_data = (void*) module_data->mapped_file.data;
mi->module_data_size = module_data->mapped_file.size;
break;
}
module_data = module_data->next;
}
return CALLBACK_CONTINUE;
case CALLBACK_MSG_MODULE_IMPORTED:
if (show_module_data)
{
object = (YR_OBJECT*) message_data;
mutex_lock(&output_mutex);
yr_object_print_data(object, 0, 1);
printf("\n");
mutex_unlock(&output_mutex);
}
return CALLBACK_CONTINUE;
}
return CALLBACK_ERROR;
}

可以看到不管是否匹配规则都会到这个消息处理函数处,这个函数中会根据传入的参数决定输出显示哪些信息,我主要就是修改了这个函数中一些处理逻辑。

static int handle_message(
int message,
YR_RULE* rule,
void* data)
{
const char* tag;
int show = TRUE;
if (tags[0] != NULL)
{
// The user specified one or more -t arguments, let's show this rule
// only if it's tagged with some of the specified tags.
show = FALSE;
for (int i = 0; !show && tags[i] != NULL; i++)
{
yr_rule_tags_foreach(rule, tag)
{
if (strcmp(tag, tags[i]) == 0)
{
show = TRUE;
break;
}
}
}
}
if (identifiers[0] != NULL)
{
// The user specified one or more -i arguments, let's show
// this rule only if it's identifier is among of the provided ones.
show = FALSE;
for (int i = 0; !show && identifiers[i] != NULL; i++)
{
if (strcmp(identifiers[i], rule->identifier) == 0)
{
show = TRUE;
break;
}
}
}
int is_matching = (message == CALLBACK_MSG_RULE_MATCHING);
show = show && ((!negate && is_matching) || (negate && !is_matching));
if (show && !print_count_only)
{
mutex_lock(&output_mutex);
if (show_namespace)
printf("%s:", rule->ns->name);
printf("%s ", rule->identifier);
if (show_tags)
{
printf("[");
yr_rule_tags_foreach(rule, tag)
{
// print a comma except for the first tag
if (tag != rule->tags)
printf(",");
printf("%s", tag);
}
printf("] ");
}
// Show meta-data.
if (show_meta)
{
YR_META* meta;
printf("\n{\n meta:\n");
yr_rule_metas_foreach(rule, meta)
{
if (meta != rule->metas)
printf("\n");
if (meta->type == META_TYPE_INTEGER)
{
printf(" %s=%" PRId64, meta->identifier, meta->integer);
}
else if (meta->type == META_TYPE_BOOLEAN)
{
printf(" %s=%s", meta->identifier, meta->integer ? "true" : "false");
}
else
{
printf(" %s=\"", meta->identifier);
print_escaped((uint8_t*) (meta->string), strlen(meta->string));
putchar('"');
}
}
printf("\n");
}
// Show matched strings.
if (show_strings || show_string_length)
{
YR_STRING* string;
printf("\n strings:\n");
yr_rule_strings_foreach(rule, string)
{
YR_MATCH* match;
int result = 1;
//这里把每次取到的字符串传入做匹配,匹配成功并打印
yr_string_matches_foreach(string, match)
{
result = 0;
if (show_string_length)
printf(" %d:%s" , match->data_length , string->identifier);
else
printf(" %s" , string->identifier);
if (show_strings)
{
printf("= ");
if (STRING_IS_HEX(string))
print_hex_string(match->data, match->data_length);
else
print_string(match->data, match->data_length);
}
else
{
printf("\n");
}
}
if (result)
{
//这里打印所有未匹配到的strings
print_all_no_match_string(string);
}
}
}
mutex_unlock(&output_mutex);
printf("\n}\n");
}
if (is_matching)
{
((CALLBACK_ARGS*) data)->current_count++;
total_count++;
}
if (limit != 0 && total_count >= limit)
return CALLBACK_ABORT;
return CALLBACK_CONTINUE;
}

我这里简单说明下吧,其实有耐心多调试几次,就可以发现你想要的信息都保存在YR_RULE类似的结构体中,只不过官方把这些信息全部都封装起来了,它并没有提供输出反编译后的信息,这个就需要自己手动调试,修改一些处理逻辑,将这些所谓“隐藏“的信息全部打印出来即可。

以上我说的只是匹配中规则以后,那么就可以获取到你想要的信息,都可以打印,那还有一些没有匹配中规则的,我们也需要将它反编译出来,这里我们稍微修改一下代码,让它在循环遍历匹配时,不成功也打印,这里就时套用它的一些代码风格,就可以正确打印出一些未匹配成功的规则。print_all_no_match_string函数代码如下:

static void print_all_no_match_string(YR_STRING* string)
{
if (STRING_IS_HEX(string))
{
printf(" %s= {", string->identifier);
for (int i = 0; i length; i++)
printf("%s%02X", (i == 0 ? "" : " "), string->string[i]);
printf("}");
}
else
printf(" %s=\"%s\"\n", string->identifier, string->string);
}

源代码的修改基本完成了,编译下就可以使用了,那么我这里还需要说一下,我的逻辑是,我提供一个空规则txt文件,然后使用已编译的yara规则去扫描,并且带-nms参数扫描,此时就会打印出所有反编译的规则了,先看下效果:

这里重点解释下为什么是-nms参数,先看下帮助信息,对于nms参数的介绍:

-n 仅打印不满足条件的规则

-m 打印元数据

-s 打印匹配的字符串

所以 -nms参数的意思就是打印所有不满足条件规则的元数据和字符串

使用方法:yara32.exe 已编译的规则.yarc 空规则.txt -nms


推荐阅读
  • 前景:当UI一个查询条件为多项选择,或录入多个条件的时候,比如查询所有名称里面包含以下动态条件,需要模糊查询里面每一项时比如是这样一个数组条件:newstring[]{兴业银行, ... [详细]
  • Iamtryingtomakeaclassthatwillreadatextfileofnamesintoanarray,thenreturnthatarra ... [详细]
  • Java太阳系小游戏分析和源码详解
    本文介绍了一个基于Java的太阳系小游戏的分析和源码详解。通过对面向对象的知识的学习和实践,作者实现了太阳系各行星绕太阳转的效果。文章详细介绍了游戏的设计思路和源码结构,包括工具类、常量、图片加载、面板等。通过这个小游戏的制作,读者可以巩固和应用所学的知识,如类的继承、方法的重载与重写、多态和封装等。 ... [详细]
  • 阿,里,云,物,联网,net,core,客户端,czgl,aliiotclient, ... [详细]
  • 本文讨论了一个关于cuowu类的问题,作者在使用cuowu类时遇到了错误提示和使用AdjustmentListener的问题。文章提供了16个解决方案,并给出了两个可能导致错误的原因。 ... [详细]
  • Linux环境变量函数getenv、putenv、setenv和unsetenv详解
    本文详细解释了Linux中的环境变量函数getenv、putenv、setenv和unsetenv的用法和功能。通过使用这些函数,可以获取、设置和删除环境变量的值。同时给出了相应的函数原型、参数说明和返回值。通过示例代码演示了如何使用getenv函数获取环境变量的值,并打印出来。 ... [详细]
  • [大整数乘法] java代码实现
    本文介绍了使用java代码实现大整数乘法的过程,同时也涉及到大整数加法和大整数减法的计算方法。通过分治算法来提高计算效率,并对算法的时间复杂度进行了研究。详细代码实现请参考文章链接。 ... [详细]
  • 本文介绍了一个题目的解法,通过二分答案来解决问题,但困难在于如何进行检查。文章提供了一种逃逸方式,通过移动最慢的宿管来锁门时跑到更居中的位置,从而使所有合格的寝室都居中。文章还提到可以分开判断两边的情况,并使用前缀和的方式来求出在任意时刻能够到达宿管即将锁门的寝室的人数。最后,文章提到可以改成O(n)的直接枚举来解决问题。 ... [详细]
  • Java学习笔记之面向对象编程(OOP)
    本文介绍了Java学习笔记中的面向对象编程(OOP)内容,包括OOP的三大特性(封装、继承、多态)和五大原则(单一职责原则、开放封闭原则、里式替换原则、依赖倒置原则)。通过学习OOP,可以提高代码复用性、拓展性和安全性。 ... [详细]
  • 本文讨论了clone的fork与pthread_create创建线程的不同之处。进程是一个指令执行流及其执行环境,其执行环境是一个系统资源的集合。在调用系统调用fork创建一个进程时,子进程只是完全复制父进程的资源,这样得到的子进程独立于父进程,具有良好的并发性。但是二者之间的通讯需要通过专门的通讯机制,另外通过fork创建子进程系统开销很大。因此,在某些情况下,使用clone或pthread_create创建线程可能更加高效。 ... [详细]
  • 集合的遍历方式及其局限性
    本文介绍了Java中集合的遍历方式,重点介绍了for-each语句的用法和优势。同时指出了for-each语句无法引用数组或集合的索引的局限性。通过示例代码展示了for-each语句的使用方法,并提供了改写为for语句版本的方法。 ... [详细]
  • 本文介绍了深入浅出Linux设备驱动编程的重要性,以及两种加载和删除Linux内核模块的方法。通过一个内核模块的例子,展示了模块的编译和加载过程,并讨论了模块对内核大小的控制。深入理解Linux设备驱动编程对于开发者来说非常重要。 ... [详细]
  • 预备知识可参考我整理的博客Windows编程之线程:https:www.cnblogs.comZhuSenlinp16662075.htmlWindows编程之线程同步:https ... [详细]
  • VueCLI多页分目录打包的步骤记录
    本文介绍了使用VueCLI进行多页分目录打包的步骤,包括页面目录结构、安装依赖、获取Vue CLI需要的多页对象等内容。同时还提供了自定义不同模块页面标题的方法。 ... [详细]
  • 解决.net项目中未注册“microsoft.ACE.oledb.12.0”提供程序的方法
    在开发.net项目中,通过microsoft.ACE.oledb读取excel文件信息时,报错“未在本地计算机上注册“microsoft.ACE.oledb.12.0”提供程序”。本文提供了解决这个问题的方法,包括错误描述和代码示例。通过注册提供程序和修改连接字符串,可以成功读取excel文件信息。 ... [详细]
author-avatar
辰小坏2602938945
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有