基于多列合并 Pandas DataFrames 的方法_技术教程

本文介绍了如何基于多个列将两个 Pandas DataFrames 进行合并，并处理缺失值的情况。我们将探讨使用 `merge` 函数以及 `add_suffix` 函数来清晰区分左右 DataFrame 的列，并展示如何对合并后的结果进行排序。

Pandas 提供了强大的数据合并功能，其中 merge 函数是实现 DataFrame 连接的关键工具。当需要基于多个列进行连接，并且希望处理两个 DataFrame 中存在差异的数据时，需要采取一些额外的技巧。

使用 merge 和 add_suffix

最直接的方法是使用 pandas.DataFrame.merge 函数，并结合 pandas.DataFrame.add_suffix 函数来区分左右 DataFrame 的列名。

import pandas as pd

# 示例数据
df1 = pd.DataFrame({
    'level': ['Level 0', 'Level 1', 'Level 1', 'Level 1', 'Level 2', 'Level 2', 'Level 3'],
    'title': ['Effective', 'Evaluation', 'Ice Breaker', 'Fire', 'Introduction', 'Understanding', 'Connect']
})

df2 = pd.DataFrame({
    'level': ['Level 0', 'Level 1', 'Level 1', 'Level 2', 'Level 2', 'Level 4'],
    'title': ['Effective', 'Evaluation', 'Comedy', 'Introduction', 'Understanding', 'Connect']
})

# 使用 merge 和 add_suffix
out = df1.merge(df2.add_suffix('_'), how='outer',
                left_on=['level', 'title'],
                right_on=['level_', 'title_'])

print(out)

这段代码首先导入 pandas 库，并创建两个示例 DataFrame df1 和 df2。然后，使用 merge 函数将这两个 DataFrame 连接起来。how='outer' 参数指定了外连接，这意味着保留两个 DataFrame 中的所有行，对于没有匹配的行，会填充 NaN 值。left_on 和 right_on 参数分别指定了左侧和右侧 DataFrame 中用于连接的列。add_suffix('_') 用于给 df2 的列名添加后缀，以避免列名冲突。

输出结果如下：

     level          title   level_         title_
0  Level 0      Effective  Level 0      Effective
1  Level 1     Evaluation  Level 1     Evaluation
2  Level 1    Ice Breaker      NaN            NaN
3  Level 1           Fire      NaN            NaN
4  Level 2   Introduction  Level 2   Introduction
5  Level 2  Understanding  Level 2  Understanding
6  Level 3        Connect      NaN            NaN
7      NaN            NaN  Level 1         Comedy
8      NaN            NaN  Level 4        Connect

基于合并键排序

如果需要对合并后的结果基于连接键进行排序，可以使用以下方法：

import pandas as pd

# 示例数据
df1 = pd.DataFrame({
    'level': ['Level 0', 'Level 1', 'Level 1', 'Level 1', 'Level 2', 'Level 2', 'Level 3'],
    'title': ['Effective', 'Evaluation', 'Ice Breaker', 'Fire', 'Introduction', 'Understanding', 'Connect']
})

df2 = pd.DataFrame({
    'level': ['Level 0', 'Level 1', 'Level 1', 'Level 2', 'Level 2', 'Level 4'],
    'title': ['Effective', 'Evaluation', 'Comedy', 'Introduction', 'Understanding', 'Connect']
})


out = (df1.merge(df2, how='outer',
                 left_on=[df1['level'], df1['title']],
                 right_on=['level', 'title'])
          .sort_values(by=['level'])
          #.drop(columns=['level', 'title']) # uncomment to drop merged keys
      )

print(out)

这段代码与前一个示例类似，但使用了不同的 left_on 参数，将 df1['level'] 和 df1['title'] 作为列表传递给 left_on。然后，使用 sort_values 函数基于 'level' 列对结果进行排序。如果需要，可以取消注释 # .drop(columns=['level', 'title']) 行来删除合并键。

输出结果如下：

     level          title  level_x        title_x  level_y        title_y
0  Level 0      Effective  Level 0      Effective  Level 0      Effective
1  Level 1     Evaluation  Level 1     Evaluation  Level 1     Evaluation
2  Level 1    Ice Breaker  Level 1    Ice Breaker      NaN            NaN
3  Level 1           Fire  Level 1           Fire      NaN            NaN
7  Level 1         Comedy      NaN            NaN  Level 1         Comedy
4  Level 2   Introduction  Level 2   Introduction  Level 2   Introduction
5  Level 2  Understanding  Level 2  Understanding  Level 2  Understanding
6  Level 3        Connect  Level 3        Connect      NaN            NaN
8  Level 4        Connect      NaN            NaN  Level 4        Connect