我有一个大的数据框(约3000万行)。我有一个功能f。要做的事情f是遍历每一行,检查一些逻辑并将输出馈送到字典中。该功能需要逐行执行。
f
我试过了:
dic = dict() for row in df.rdd.collect(): f(row, dic)
但是我总是遇到错误OOM。我将Docker的内存设置为8GB。
如何有效开展业务?
非常感谢