datafakerdocker化及使用记录

作者：水皱皱_446 | 来源：互联网 | 2023-08-27 18:14

Docker化虽然官网https:github.comganglydatafaker说支持python2及3，但我在使用3.4遇到依赖安装失败，最后使

Docker化

虽然官网https://github.com/gangly/datafaker 说支持python 2及3&＃xff0c;但我在使用3.4遇到依赖安装失败&＃xff0c;最后使用python 2.7成功支持了mysql及hive&＃xff0c;Dockerfile文件如下

FROM python:2.7 WORKDIR /faker_home RUN python -m pip install --upgrade pip RUN apt-get update && apt-get install -y libsasl2-dev libsasl2-modules RUN pip install datafaker pyhive mysqlclient kafka-python thrift sasl thrift_sasl

运行示意

docker run -it --rm --net&＃61;host -v &＃96;pwd&＃96;/faker_home:/faker_home faker:python2.7 bashdatafaker hive hive://root&＃64;XXX.XX.XX.XX:10000/default test_text 100 --meta meta.txt --batch 100

使用记录

中文文档更准确一些
数据类型&＃xff0c;如IPV4等都是全小写
可以使用op 进行关联&＃xff0c;如增加前缀
日期格式内可以增加固定timezone&＃xff0c;毫秒等
日期格式要记得加’&＃xff08;单引号&＃xff09;&＃xff0c;否则输出也没有单引号
hive timestamp直接导入必须到timezone&＃xff0c;原因不明&＃xff08;输出的sql 可以在hive执行成功&＃xff09;
注意batch&＃xff0c;batch过大可能导致buffer不足、效率下降&＃xff0c;因此在hive模式下可能需要自行merge以降低小文件数量

hive timestamp测试记录如下&＃xff0c;表定义&＃xff1a;

hive> show create table test_text; OK CREATE TABLE &＃96;test_text&＃96;(&＃96;advertiser_id&＃96; string, &＃96;ad_plan_id&＃96; string, &＃96;gen_time&＃96; timestamp, &＃96;cnt&＃96; bigint) ROW FORMAT SERDE &＃39;org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe&＃39; WITH SERDEPROPERTIES ( &＃39;field.delim&＃39;&＃61;&＃39;,&＃39;, &＃39;line.delim&＃39;&＃61;&＃39;\n&＃39;, &＃39;serialization.format&＃39;&＃61;&＃39;,&＃39;) STORED AS INPUTFORMAT &＃39;org.apache.hadoop.mapred.TextInputFormat&＃39; OUTPUTFORMAT &＃39;org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat&＃39; LOCATION&＃39;hdfs://namenode:9000/user/hive/warehouse/test_text&＃39; TBLPROPERTIES (&＃39;bucketing_version&＃39;&＃61;&＃39;2&＃39;, &＃39;transient_lastDdlTime&＃39;&＃61;&＃39;1642147458&＃39;) Time taken: 0.318 seconds, Fetched: 20 row(s)

可以通过的meta

advertiser_id||string||advertiser_id[:ipv4] ad_plan_id||string||ad_plan_id[:color_name] gen_time||timestamp||gen_time[:datetime(1,&＃39;%Y-%m-%d %R:%S.073 UTC&＃39;)] cnt||int||cnt[:int(1, 10000)]

失败的meta格式

advertiser_id||string||advertiser_id[:ipv4] ad_plan_id||string||ad_plan_id[:color_name] gen_time||timestamp||gen_time[:datetime(1,&＃39;%Y-%m-%d %R:%S.073 &＃39;)] cnt||int||cnt[:int(1, 10000)]

推荐阅读

bash
在Kubernetes上部署JupyterHub的步骤和实验依赖

本文介绍了在Kubernetes上部署JupyterHub的步骤和实验所需的依赖，包括安装Docker和K8s，使用kubeadm进行安装，以及更新下载的镜像等。 ... [详细]

蜡笔小新 2023-12-14 20:27:14
bash
搭建Windows Server 2012 R2 IIS8.5+PHP（FastCGI）+MySQL环境的详细步骤

本文详细介绍了搭建Windows Server 2012 R2 IIS8.5+PHP（FastCGI）+MySQL环境的步骤，包括环境说明、相关软件下载的地址以及所需的插件下载地址。 ... [详细]

蜡笔小新 2023-12-14 17:03:58
string
C#制作Java+Mysql+Tomcat环境安装程序，一键式安装教程

本文介绍了如何使用C#制作Java+Mysql+Tomcat环境安装程序，实现一键式安装。通过将JDK、Mysql、Tomcat三者制作成一个安装包，解决了客户在安装软件时的复杂配置和繁琐问题，便于管理软件版本和系统集成。具体步骤包括配置JDK环境变量和安装Mysql服务，其中使用了MySQL Server 5.5社区版和my.ini文件。安装方法为通过命令行将目录转到mysql的bin目录下，执行mysqld --install MySQL5命令。 ... [详细]

蜡笔小新 2023-12-12 19:29:55
bash
宋宝华：用systemd-nspawn运行最轻量级容器

systemd-nspawn可以创建最轻量级的容器（ns的意思就是namespace），本文的实验平台是Ubuntu16.04，x86_64机器。本文的目的是：在Ubuntu中用syst ... [详细]

蜡笔小新 2023-10-17 14:49:15
export
[linux] 远程服务器安装unrar（无root）

对于一般的扩展包，我们一般直接pipinstallxxx即可安装，但是unrar直接安装后，发现并不能通过Python程序实现解压的功能& ... [详细]

蜡笔小新 2023-10-17 11:55:50
bash
解决Docker中volume的权限问题的方法

在Docker中，将主机目录挂载到容器中作为volume使用时，常常会遇到文件权限问题。这是因为容器内外的UID不同所导致的。本文介绍了解决这个问题的方法，包括使用gosu和suexec工具以及在Dockerfile中配置volume的权限。通过这些方法，可以避免在使用Docker时出现无写权限的情况。 ... [详细]

蜡笔小新 2023-12-14 18:48:02
hash
Spring特性实现接口多类的动态调用详解

本文详细介绍了如何使用Spring特性实现接口多类的动态调用。通过对Spring IoC容器的基础类BeanFactory和ApplicationContext的介绍，以及getBeansOfType方法的应用，解决了在实际工作中遇到的接口及多个实现类的问题。同时，文章还提到了SPI使用的不便之处，并介绍了借助ApplicationContext实现需求的方法。阅读本文，你将了解到Spring特性的实现原理和实际应用方式。 ... [详细]

蜡笔小新 2023-12-14 03:24:19
hash
基于dlib的人脸68特征点提取(眨眼张嘴检测)python版本

文章目录引言开发环境和库流程设计张嘴和闭眼的检测引言(1)利用Dlib官方训练好的模型“shape_predictor_68_face_landmarks.dat”进行68个点标定 ... [详细]

蜡笔小新 2023-12-12 13:27:42
bash
树莓派语音控制的配置方法和步骤

本文介绍了在树莓派上实现语音控制的配置方法和步骤。首先感谢博主Eoman的帮助，文章参考了他的内容。树莓派的配置需要通过sudo raspi-config进行，然后使用Eoman的控制方法，即安装wiringPi库并编写控制引脚的脚本。具体的安装步骤和脚本编写方法在文章中详细介绍。 ... [详细]

蜡笔小新 2023-12-12 03:02:49
char
Python使用Pillow包生成验证码图片的方法

本文介绍了使用Python中的Pillow包生成验证码图片的方法。通过随机生成数字和符号，并添加干扰象素，生成一幅验证码图片。需要配置好Python环境，并安装Pillow库。代码实现包括导入Pillow包和随机模块，定义随机生成字母、数字和字体颜色的函数。 ... [详细]

蜡笔小新 2023-12-10 16:51:25
request
Python程序安全运行的三个条件及预防措施

Python已成为全球最受欢迎的编程语言之一，然而Python程序的安全运行存在一定的风险。本文介绍了Python程序安全运行需要满足的三个条件，即系统路径上的每个条目都处于安全的位置、"主脚本"所在的目录始终位于系统路径中、若python命令使用-c和-m选项，调用程序的目录也必须是安全的。同时，文章还提出了一些预防措施，如避免将下载文件夹作为当前工作目录、使用pip所在路径而不是直接使用python命令等。对于初学Python的读者来说，这些内容将有所帮助。 ... [详细]

蜡笔小新 2023-12-09 10:20:23
bash
程序员如何选择机械键盘轴体？红轴和茶轴对比

本文介绍了程序员如何选择机械键盘轴体，特别是红轴和茶轴的对比。同时还介绍了U盘安装Linux镜像的步骤，以及在Linux系统中安装软件的命令行操作。此外，还介绍了nodejs和npm的安装方法，以及在VSCode中安装和配置常用插件的方法。最后，还介绍了如何在GitHub上配置SSH密钥和git的基本配置。 ... [详细]

蜡笔小新 2023-12-09 05:31:17
string
Python 中的 PyInputPlus 模块

Python中的PyInputPlus模块原文:https ... [详细]

蜡笔小新 2023-10-17 20:32:43
email
mysql自动打开文件_让docker中的mysql启动时自动执行sql文件

本文提要本文目的不仅仅是创建一个MySQL的镜像，而是在其基础上再实现启动过程中自动导入数据及数据库用户的权限设置，并且在新创建出来的容器里自动启动My ... [详细]

蜡笔小新 2023-10-17 14:46:37
uri
Linux之进程数和句柄数：linux句柄数含义

本文主要介绍关于linux文件描述符设置,centos7设置文件句柄数,centos7查看进程数的知识点，对【Linux之进程数和句柄数】和【linux句柄数含义】有兴趣的朋友可以看下由【东城绝神】投 ... [详细]

蜡笔小新 2023-10-17 14:36:29

水皱皱_446

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章