Python读取文件后如何高效插入数据库？步骤有哪些？

在Python中读取文件并插入数据库是一个常见的数据处理任务,通常涉及文件读取、数据解析和数据库操作三个核心步骤，以下将详细讲解整个流程，包括环境准备、代码实现、异常处理及优化建议，帮助开发者高效完成数据导入任务。

环境准备与依赖安装

在开始之前,需确保已安装Python及必要的库，文件读取通常依赖内置的open()函数，而数据库操作需根据数据库类型选择对应库，如MySQL使用pymysql，PostgreSQL使用psycopg2，SQLite使用内置sqlite3，以MySQL为例，可通过pip安装依赖：

pip install pymysql pandas

其中pandas库可简化文件读取和数据处理流程，推荐使用。

文件读取与数据解析

文件读取方式

Python支持多种文件格式读取,常见如CSV、Excel、JSON等，以CSV文件为例，使用pandas.read_csv()方法可快速加载数据：

import pandas as pd
file_path = 'data.csv'
df = pd.read_csv(file_path)

若为Excel文件,可使用pd.read_excel()；JSON文件则用pd.read_json()，对于大文件，可分块读取以避免内存溢出：
chunk_iter = pd.read_csv(file_path, chunksize=10000)

数据预处理

读取后的数据需进行清洗和转换,例如处理缺失值、数据类型转换等：

df.fillna(0, inplace=True)  # 填充缺失值为0
df['date_column'] = pd.to_datetime(df['date_column'])  # 日期格式转换

数据库连接与插入操作

建立数据库连接

以MySQL为例,使用pymysql创建连接：

import pymysql
connection = pymysql.connect(
    host='localhost',
    user='username',
    password='password',
    database='dbname',
    charset='utf8mb4',
    cursorclass=pymysql.cursors.DictCursor
)

数据插入方法

逐条插入（适合小数据量）

try:
    with connection.cursor() as cursor:
        for _, row in df.iterrows():
            sql = "INSERT INTO table_name (column1, column2) VALUES (%s, %s)"
            cursor.execute(sql, (row['column1'], row['column2']))
    connection.commit()
finally:
    connection.close()

批量插入（推荐，高效）
使用executemany()方法批量插入，显著提升性能：

try:
    with connection.cursor() as cursor:
        data = [tuple(x) for x in df.values]
        sql = "INSERT INTO table_name (column1, column2) VALUES (%s, %s)"
        cursor.executemany(sql, data)
    connection.commit()
finally:
    connection.close()

使用pandas的to_sql()方法（最简洁）

from sqlalchemy import create_engine
engine = create_engine('mysql+pymysql://username:password@localhost/dbname')
df.to_sql('table_name', engine, if_exists='append', index=False)

异常处理与性能优化

异常处理

数据库操作需捕获可能的异常,如连接失败、SQL语法错误等：

try:
    # 数据库操作
except pymysql.MySQLError as e:
    print(f"数据库错误: {e}")
    connection.rollback()
except Exception as e:
    print(f"其他错误: {e}")
finally:
    connection.close()

性能优化建议

事务控制：将批量插入放在一个事务中，减少提交次数。
分批处理：对大文件分块读取和插入，避免内存不足。
索引优化：插入前临时禁用表索引，插入完成后重建。
连接池：使用SQLAlchemy的连接池管理数据库连接。

不同数据库的适配说明

数据库类型	推荐库	连接字符串示例
MySQL	pymysql	`mysql+pymysql://user:pass@host/db`
PostgreSQL	psycopg2	`postgresql://user:pass@host/db`
SQLite	sqlite3	`sqlite:///example.db`
Oracle	cx_Oracle	`oracle://user:pass@host:port/db`

完整代码示例

import pandas as pd
import pymysql
from sqlalchemy import create_engine
# 1. 读取文件
df = pd.read_csv('data.csv')
# 2. 数据清洗
df.dropna(inplace=True)
# 3. 数据库连接与插入
engine = create_engine('mysql+pymysql://user:pass@localhost/dbname')
df.to_sql('employees', engine, if_exists='replace', index=False)
print("数据导入完成！")