要在Spark作业中访问MySQL数据库,可以使用以下方案:

1、添加MySQL JDBC驱动依赖
在项目的构建工具(如Maven或Gradle)中添加MySQL JDBC驱动的依赖,以Maven为例,在pom.xml文件中添加以下依赖:
<dependency>
<groupId>mysql</groupId>
<artifactId>mysqlconnectorjava</artifactId>
<version>8.0.23</version>
</dependency> 2、编写Spark作业代码
在Spark作业中,需要使用JDBC连接MySQL数据库并读取数据,以下是一个简单的示例:
from pyspark.sql import SparkSession
创建SparkSession
spark = SparkSession.builder
.appName("Read MySQL Data")
.getOrCreate()
定义MySQL连接参数
url = "jdbc:mysql://localhost:3306/database_name"
table = "table_name"
properties = {
"user": "username",
"password": "password",
"driver": "com.mysql.jdbc.Driver"
}
读取MySQL数据
df = spark.read
.jdbc(url, table, properties=properties)
显示数据
df.show()
关闭SparkSession
spark.stop() 3、运行Spark作业
将上述代码保存为一个Python文件(如read_mysql.py),然后使用sparksubmit命令运行该文件:
$ sparksubmit master local[*] read_mysql.py
注意:请根据实际情况替换上述代码中的数据库连接参数,如localhost:3306、database_name、table_name、username和password。

【版权声明】:本站所有内容均来自网络,若无意侵犯到您的权利,请及时与我们联系将尽快删除相关内容!
发表回复