当前位置: 开发笔记 > 编程语言 > 正文

python pandas创建多层索引MultiIndex的6种方式【mysql基础】

作者：小丫2502895573 | 来源：互联网 | 2023-10-12 12:05

这篇文章主要为大家介绍了python pandas创建多层索引MultiIndex的6种方式，有需要的朋友可以借鉴参考下，希望能够有所帮助，祝大家多

引言

在上一篇文章中介绍了如何创建Pandas中的单层索引，今天给大家带来的是如何创建Pandas中的多层索引。

pd.MultiIndex，即具有多个层次的索引。通过多层次索引，我们就可以操作整个索引组的数据。本文主要介绍在Pandas中创建多层索引的6种方式：

pd.MultiIndex.from_arrays()：多维数组作为参数，高维指定高层索引，低维指定低层索引。
pd.MultiIndex.from_tuples()：元组的列表作为参数，每个元组指定每个索引(高维和低维索引)。
pd.MultiIndex.from_product()：一个可迭代对象的列表作为参数，根据多个可迭代对象元素的笛卡尔积（元素间的两两组合）进行创建索引。
pd.MultiIndex.from_frame：根据现有的数据框来直接生成
groupby()：通过数据分组统计得到
pivot_table()：生成透视表的方式来得到

pd.MultiIndex.from_arrays()

In [1]:

import pandas as pd
import numpy as np

通过数组的方式来生成，通常指定的是列表中的元素：

In [2]:

# 列表元素是字符串和数字
array1 = [["xiaoming","guanyu","zhangfei"], 
          [22,25,27]
         ]
m1 = pd.MultiIndex.from_arrays(array1)
m1

Out[2]:

MultiIndex([("xiaoming", 22),            (  "guanyu", 25),            ("zhangfei", 27)],
           )

In [3]:

type(m1)  # 查看数据类型

通过type函数来查看数据类型，发现的确是：MultiIndex

Out[3]:

pandas.core.indexes.multi.MultiIndex

在创建的同时可以指定每个层级的名字：

In [4]:

# 列表元素全是字符串
array2 = [["xiaoming","guanyu","zhangfei"],
          ["male","male","female"]
         ]
m2 = pd.MultiIndex.from_arrays(
	array2, 
  # 指定姓名和性别
  names=["name","sex"])
m2

Out[4]:

MultiIndex([("xiaoming",   "male"),            (  "guanyu",   "male"),            ("zhangfei", "female")],
           names=["name", "sex"])

下面的例子是生成3个层次的索引且指定名字：

In [5]:

array3 = [["xiaoming","guanyu","zhangfei"],
          ["male","male","female"],
          [22,25,27]
         ]
m3 = pd.MultiIndex.from_arrays(
	array3, 
	names=["姓名","性别","年龄"])
m3

Out[5]:

MultiIndex([("xiaoming",   "male", 22),            (  "guanyu",   "male", 25),            ("zhangfei", "female", 27)],
           names=["姓名", "性别", "年龄"])

pd.MultiIndex.from_tuples()

通过元组的形式来生成多层索引：

In [6]:

# 元组的形式
array4 = (("xiaoming","guanyu","zhangfei"), 
          (22,25,27)
         )
m4 = pd.MultiIndex.from_arrays(array4)
m4

Out[6]:

MultiIndex([("xiaoming", 22),            (  "guanyu", 25),            ("zhangfei", 27)],
           )

In [7]:

# 元组构成的3层索引
array5 = (("xiaoming","guanyu","zhangfei"),
          ("male","male","female"),
          (22,25,27))
m5 = pd.MultiIndex.from_arrays(array5)
m5

Out[7]:

MultiIndex([("xiaoming",   "male", 22),            (  "guanyu",   "male", 25),            ("zhangfei", "female", 27)],
           )

列表和元组是可以混合使用的

最外层是列表
里面全部是元组

In [8]:

array6 = [("xiaoming","guanyu","zhangfei"),
          ("male","male","female"),
          (18,35,27)
         ]
# 指定名字
m6 = pd.MultiIndex.from_arrays(array6,names=["姓名","性别","年龄"])
m6

Out[8]:

MultiIndex([("xiaoming",   "male", 18),            (  "guanyu",   "male", 35),            ("zhangfei", "female", 27)],
           names=["姓名", "性别", "年龄"] # 指定名字
           )

pd.MultiIndex.from_product()

使用可迭代对象的列表作为参数，根据多个可迭代对象元素的笛卡尔积（元素间的两两组合）进行创建索引。

在Python中，我们使用 isinstance()函数判断python对象是否可迭代：

# 导入 collections 模块的 Iterable 对比对象
from collections import Iterable

通过上面的例子我们总结：常见的字符串、列表、集合、元组、字典都是可迭代对象

下面举例子来说明：

In [18]:

names = ["xiaoming","guanyu","zhangfei"]
numbers = [22,25]
m7 = pd.MultiIndex.from_product(
    [names, numbers], 
    names=["name","number"]) # 指定名字
m7

Out[18]:

MultiIndex([("xiaoming", 22),            ("xiaoming", 25),            (  "guanyu", 22),            (  "guanyu", 25),            ("zhangfei", 22),            ("zhangfei", 25)],
           names=["name", "number"])

In [19]:

# 需要展开成列表形式
strings = list("abc") 
lists = [1,2]
m8 = pd.MultiIndex.from_product(
	[strings, lists],
	names=["alpha","number"])
m8

Out[19]:

MultiIndex([("a", 1),            ("a", 2),            ("b", 1),            ("b", 2),            ("c", 1),            ("c", 2)],
           names=["alpha", "number"])

In [20]:

# 使用元组形式
strings = ("a","b","c") 
lists = [1,2]
m9 = pd.MultiIndex.from_product(
	[strings, lists],
	names=["alpha","number"])
m9

Out[20]:

MultiIndex([("a", 1),            ("a", 2),            ("b", 1),            ("b", 2),            ("c", 1),            ("c", 2)],
           names=["alpha", "number"])

In [21]:

# 使用range函数
strings = ("a","b","c")  # 3个元素
lists = range(3)  # 0,1,2  3个元素
m10 = pd.MultiIndex.from_product(
	[strings, lists],
	names=["alpha","number"])
m10

Out[21]:

MultiIndex([("a", 0),            ("a", 1),            ("a", 2),            ("b", 0),            ("b", 1),            ("b", 2),            ("c", 0),            ("c", 1),            ("c", 2)],
           names=["alpha", "number"])

In [22]:

# 使用range函数
strings = ("a","b","c") 
list1 = range(3)  # 0,1,2
list2 = ["x","y"]
m11 = pd.MultiIndex.from_product(
	[strings, list1, list2],
  names=["name","l1","l2"]
  )
m11  # 总个数 3*3*2=18

总个数是``332=18`个：

Out[22]:

MultiIndex([("a", 0, "x"),            ("a", 0, "y"),            ("a", 1, "x"),            ("a", 1, "y"),            ("a", 2, "x"),            ("a", 2, "y"),            ("b", 0, "x"),            ("b", 0, "y"),            ("b", 1, "x"),            ("b", 1, "y"),            ("b", 2, "x"),            ("b", 2, "y"),            ("c", 0, "x"),            ("c", 0, "y"),            ("c", 1, "x"),            ("c", 1, "y"),            ("c", 2, "x"),            ("c", 2, "y")],
           names=["name", "l1", "l2"])

pd.MultiIndex.from_frame()

通过现有的DataFrame直接来生成多层索引：

df = pd.DataFrame({"name":["xiaoming","guanyu","zhaoyun"],
                  "age":[23,39,34],
                  "sex":["male","male","female"]})
df

直接生成了多层索引，名字就是现有数据框的列字段：

In [24]:

pd.MultiIndex.from_frame(df)

Out[24]:

MultiIndex([("xiaoming", 23,   "male"),            (  "guanyu", 39,   "male"),            ( "zhaoyun", 34, "female")],
           names=["name", "age", "sex"])

通过names参数来指定名字：

In [25]:

# 可以自定义名字
pd.MultiIndex.from_frame(df,names=["col1","col2","col3"])

Out[25]:

MultiIndex([("xiaoming", 23,   "male"),            (  "guanyu", 39,   "male"),            ( "zhaoyun", 34, "female")],
           names=["col1", "col2", "col3"])

groupby()

通过groupby函数的分组功能计算得到：

In [26]:

df1 = pd.DataFrame({"col1":list("ababbc"),
                   "col2":list("xxyyzz"),
                   "number1":range(90,96),
                   "number2":range(100,106)})
df1

Out[26]:

df2 = df1.groupby(["col1","col2"]).agg({"number1":sum,
                                        "number2":np.mean})
df2

查看数据的索引：

In [28]:

df2.index

Out[28]:

MultiIndex([("a", "x"),            ("a", "y"),            ("b", "x"),            ("b", "y"),            ("b", "z"),            ("c", "z")],
           names=["col1", "col2"])

pivot_table()

通过数据透视功能得到:

In [29]:

df3 = df1.pivot_table(values=["col1","col2"],index=["col1","col2"])
df3

In [30]:

df3.index

Out[30]:

MultiIndex([("a", "x"),            ("a", "y"),            ("b", "x"),            ("b", "y"),            ("b", "z"),            ("c", "z")],
           names=["col1", "col2"])

以上就是python pandas创建多层索引MultiIndex的6种方式的详细内容，更多关于python pandas多层索引MultiIndex的资料请关注编程笔记其它相关文章！

推荐阅读

python
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
python
深入理解Python的os和sys模块

本文详细解析了Python中的os和sys模块，介绍了它们的功能、常用方法及其在实际编程中的应用。 ... [详细]

蜡笔小新 2024-12-26 22:04:19
python
Python 异步编程：深入理解 asyncio 库（上）

本文介绍了 Python 3.4 版本引入的标准库 asyncio，该库为异步 IO 提供了强大的支持。我们将探讨为什么需要 asyncio，以及它如何简化并发编程的复杂性，并详细介绍其核心概念和使用方法。 ... [详细]

蜡笔小新 2024-12-28 11:52:00
import
深入理解org.neo4j.helpers.collection.Iterators.single()方法及其应用

本文详细介绍了Java中org.neo4j.helpers.collection.Iterators.single()方法的功能、使用场景及代码示例，帮助开发者更好地理解和应用该方法。 ... [详细]

蜡笔小新 2024-12-28 10:51:55
import
PyCharm中配置Pylint静态代码分析工具

本文详细介绍如何在PyCharm中配置和使用Pylint，帮助开发者进行静态代码检查，确保代码符合PEP8规范，提高代码质量。 ... [详细]

蜡笔小新 2024-12-28 10:16:06
python
PyCharm下载与安装指南

本文详细介绍如何从官方渠道下载并安装PyCharm集成开发环境（IDE），涵盖Windows、macOS和Linux系统，同时提供详细的安装步骤及配置建议。 ... [详细]

蜡笔小新 2024-12-28 09:42:41
python
Python配置文件读写指南

本文详细介绍如何使用Python进行配置文件的读写操作，涵盖常见的配置文件格式（如INI、JSON、TOML和YAML），并提供具体的代码示例。 ... [详细]

蜡笔小新 2024-12-28 08:39:55
import
Java 中 Writer flush()方法，示例

Java 中 Writer flush()方法，示例 ... [详细]

蜡笔小新 2024-12-28 06:41:52
import
Java 类成员初始化顺序与数组创建

本文探讨了Java中类成员的初始化顺序、静态引入、可变参数以及finalize方法的应用。通过具体的代码示例，详细解释了这些概念及其在实际编程中的使用。 ... [详细]

蜡笔小新 2024-12-27 19:39:42
import
Akka BackoffSupervisor的深入解析与实践

本文详细介绍了Akka中的BackoffSupervisor机制，探讨其在处理持久化失败和Actor重启时的应用。通过具体示例，展示了如何配置和使用BackoffSupervisor以实现更细粒度的异常处理。 ... [详细]

蜡笔小新 2024-12-27 15:04:09
python
深入理解C++中的KMP算法：高效字符串匹配的利器

本文详细介绍C++中实现KMP算法的方法，探讨其在字符串匹配问题上的优势。通过对比暴力匹配（BF）算法，展示KMP算法如何利用前缀表优化匹配过程，显著提升效率。 ... [详细]

蜡笔小新 2024-12-27 14:45:30
import
将Web服务部署到Tomcat

本文介绍了如何在JDeveloper 12c中创建一个Java项目，并将其打包为Web服务，然后部署到Tomcat服务器。内容涵盖从项目创建、编写Web服务代码、配置相关XML文件到最终的本地部署和验证。 ... [详细]

蜡笔小新 2024-12-27 11:48:15
python
寻找满足特定条件的整数N的最大和(a+b)

本文探讨了如何在给定整数N的情况下，找到两个不同的整数a和b，使得它们的和最大，并且满足特定的数学条件。 ... [详细]

蜡笔小新 2024-12-26 19:26:18
object
2023年京东Android面试真题解析与经验分享

本文由一位拥有6年Android开发经验的工程师撰写，详细解析了京东面试中常见的技术问题。涵盖引用传递、Handler机制、ListView优化、多线程控制及ANR处理等核心知识点。 ... [详细]

蜡笔小新 2024-12-26 17:45:48
import
从 .NET 转 Java 的自学之路：IO 流基础篇

本文详细介绍了 Java 中的 IO 流，包括字节流和字符流的基本概念及其操作方式。探讨了如何处理不同类型的文件数据，并结合编码机制确保字符数据的正确读写。同时，文中还涵盖了装饰设计模式的应用，以及多种常见的 IO 操作实例。 ... [详细]

蜡笔小新 2024-12-26 17:37:25