要在Spark作业中访问MySQL数据库,可以使用以下方案:

(图片来源网络,侵删)
1、添加MySQL JDBC驱动依赖
在项目的构建工具(如Maven或Gradle)中添加MySQL JDBC驱动的依赖,以Maven为例,在pom.xml文件中添加以下依赖:
<dependency> <groupId>mysql</groupId> <artifactId>mysqlconnectorjava</artifactId> <version>8.0.23</version> </dependency>
2、编写Spark作业代码
在Spark作业中,需要使用JDBC连接MySQL数据库并读取数据,以下是一个简单的示例:
from pyspark.sql import SparkSession 创建SparkSession spark = SparkSession.builder .appName("Read MySQL Data") .getOrCreate() 定义MySQL连接参数 url = "jdbc:mysql://localhost:3306/database_name" table = "table_name" properties = { "user": "username", "password": "password", "driver": "com.mysql.jdbc.Driver" } 读取MySQL数据 df = spark.read .jdbc(url, table, properties=properties) 显示数据 df.show() 关闭SparkSession spark.stop()
3、运行Spark作业
将上述代码保存为一个Python文件(如read_mysql.py),然后使用sparksubmit
命令运行该文件:
$ sparksubmit master local[*] read_mysql.py
注意:请根据实际情况替换上述代码中的数据库连接参数,如localhost:3306
、database_name
、table_name
、username
和password
。

(图片来源网络,侵删)
【版权声明】:本站所有内容均来自网络,若无意侵犯到您的权利,请及时与我们联系将尽快删除相关内容!
发表回复