hadoop fscat来直接查看文件内容。要读取HDFS上的指定文件内容,可以使用Hadoop的Java API或者Python的PyArrow库,这里我将给出使用Java API的方法。

确保你已经安装了Hadoop,并且配置了环境变量,你需要在你的项目中添加Hadoop的依赖,如果你使用的是Maven,可以在pom.xml文件中添加以下依赖:
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoopclient</artifactId>
<version>3.3.1</version>
</dependency> 你可以使用以下代码来读取HDFS上的指定文件内容:
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.URI;
public class HDFSReadFile {
public static void main(String[] args) throws IOException {
// HDFS文件路径
String hdfsFilePath = "hdfs://localhost:9000/user/hadoop/test.txt";
// 创建Hadoop配置对象
Configuration conf = new Configuration();
// 设置HDFS的地址
conf.set("fs.defaultFS", "hdfs://localhost:9000");
// 获取HDFS文件系统对象
FileSystem fs = FileSystem.get(URI.create(hdfsFilePath), conf);
// 打开文件输入流
FSDataInputStream inputStream = fs.open(new Path(hdfsFilePath));
// 使用缓冲区读取文件内容
BufferedReader reader = new BufferedReader(new InputStreamReader(inputStream));
String line;
while ((line = reader.readLine()) != null) {
System.out.println(line);
}
// 关闭资源
reader.close();
inputStream.close();
fs.close();
}
} 这段代码首先创建一个Hadoop配置对象,并设置HDFS的地址,它获取一个HDFS文件系统对象,并使用该对象打开指定的文件,使用缓冲区读取文件内容,并将每一行输出到控制台,关闭所有打开的资源。

【版权声明】:本站所有内容均来自网络,若无意侵犯到您的权利,请及时与我们联系将尽快删除相关内容!
发表回复