HDFS編程實踐
鏈接:https://pan.baidu.com/s/1JYAmSar89wg9xmmj7IAcRA
提取碼:07uu
--來自百度網(wǎng)盤超級會員V6的分享
1、利用Shell命令與HDFS進(jìn)行交互
Hadoop支持很多Shell命令,其中fs是HDFS最常用的命令,利用fs可以查看HDFS文件系統(tǒng)的目錄結(jié)構(gòu)、上傳和下載數(shù)據(jù)、創(chuàng)建文件等。
注意,實際上有三種shell命令方式。
- hadoop fs適用于任何不同的文件系統(tǒng),比如本地文件系統(tǒng)和HDFS文件系統(tǒng)
- hadoop dfs只能適用于HDFS文件系統(tǒng)
- hdfs dfs跟hadoop dfs的命令作用一樣,也只能適用于HDFS文件系統(tǒng)
我們可以在終端輸入如下命令,查看fs總共支持了哪些命令
hadoop@hadoop-master:~$ hadoop fs
Usage: hadoop fs [generic options]
[-appendToFile <localsrc> ... <dst>]
[-cat [-ignoreCrc] <src> ...]
[-checksum <src> ...]
[-chgrp [-R] GROUP PATH...]
[-chmod [-R] <MODE[,MODE]... | OCTALMODE> PATH...]
[-chown [-R] [OWNER][:[GROUP]] PATH...]
[-copyFromLocal [-f] [-p] [-l] [-d] [-t <thread count>] <localsrc> ... <dst>]
[-copyToLocal [-f] [-p] [-ignoreCrc] [-crc] <src> ... <localdst>]
[-count [-q] [-h] [-v] [-t [<storage type>]] [-u] [-x] [-e] <path> ...]
[-cp [-f] [-p | -p[topax]] [-d] <src> ... <dst>]
[-createSnapshot <snapshotDir> [<snapshotName>]]
[-deleteSnapshot <snapshotDir> <snapshotName>]
[-df [-h] [<path> ...]]
[-du [-s] [-h] [-v] [-x] <path> ...]
[-expunge]
[-find <path> ... <expression> ...]
[-get [-f] [-p] [-ignoreCrc] [-crc] <src> ... <localdst>]
[-getfacl [-R] <path>]
[-getfattr [-R] {-n name | -d} [-e en] <path>]
[-getmerge [-nl] [-skip-empty-file] <src> <localdst>]
[-head <file>]
[-help [cmd ...]]
[-ls [-C] [-d] [-h] [-q] [-R] [-t] [-S] [-r] [-u] [-e] [<path> ...]]
[-mkdir [-p] <path> ...]
[-moveFromLocal <localsrc> ... <dst>]
[-moveToLocal <src> <localdst>]
[-mv <src> ... <dst>]
[-put [-f] [-p] [-l] [-d] <localsrc> ... <dst>]
[-renameSnapshot <snapshotDir> <oldName> <newName>]
[-rm [-f] [-r|-R] [-skipTrash] [-safely] <src> ...]
[-rmdir [--ignore-fail-on-non-empty] <dir> ...]
[-setfacl [-R] [{-b|-k} {-m|-x <acl_spec>} <path>]|[--set <acl_spec> <path>]]
[-setfattr {-n name [-v value] | -x name} <path>]
[-setrep [-R] [-w] <rep> <path> ...]
[-stat [format] <path> ...]
[-tail [-f] [-s <sleep interval>] <file>]
[-test -[defsz] <path>]
[-text [-ignoreCrc] <src> ...]
[-touch [-a] [-m] [-t TIMESTAMP ] [-c] <path> ...]
[-touchz <path> ...]
[-truncate [-w] <length> <path> ...]
[-usage [cmd ...]]
在終端輸入如下命令,可以查看具體某個命令的作用
例如:我們查看put命令如何使用,可以輸入如下命令
hadoop@hadoop-master:~$ hadoop fs -help put
-put [-f] [-p] [-l] [-d] <localsrc> ... <dst> :
Copy files from the local file system into fs. Copying fails if the file already
exists, unless the -f flag is given.
Flags:
-p Preserves access and modification times, ownership and the mode.
-f Overwrites the destination if it already exists.
-l Allow DataNode to lazily persist the file to disk. Forces
replication factor of 1. This flag will result in reduced
durability. Use with care.
-d Skip creation of temporary file(<dst>._COPYING_).
1.1 目錄操作
需要注意的是,Hadoop系統(tǒng)安裝好以后,第一次使用HDFS時,需要首先在HDFS中創(chuàng)建用戶目錄。本教程全部采用hadoop用戶登錄Linux系統(tǒng),因此,需要在HDFS中為hadoop用戶創(chuàng)建一個用戶目錄,命令如下:
hadoop@hadoop-master:~$ hdfs dfs -mkdir -p /user/hadoop
該命令中表示在HDFS中創(chuàng)建一個“/user/hadoop”目錄,“–mkdir”是創(chuàng)建目錄的操作,“-p”表示如果是多級目錄,則父目錄和子目錄一起創(chuàng)建,這里“/user/hadoop”就是一個多級目錄,因此必須使用參數(shù)“-p”,否則會出錯。
“/user/hadoop”目錄就成為hadoop用戶對應(yīng)的用戶目錄,可以使用如下命令顯示HDFS中與當(dāng)前用戶hadoop對應(yīng)的用戶目錄下的內(nèi)容:
hadoop@hadoop-master:~$ hdfs dfs -ls .
該命令中,“-ls”表示列出HDFS某個目錄下的所有內(nèi)容,“.”表示HDFS中的當(dāng)前用戶目錄,也就是“/user/hadoop”目錄,因此,上面的命令和下面的命令是等價的:
hadoop@hadoop-master:~$ hdfs dfs -ls /user/hadoop
如果要列出HDFS上的所有目錄,可以使用如下命令:
hadoop@hadoop-master:~$ hdfs dfs -ls
下面,可以使用如下命令創(chuàng)建一個input目錄:
hadoop@hadoop-master:~$ hdfs dfs -mkdir input
在創(chuàng)建個input目錄時,采用了相對路徑形式,實際上,這個input目錄創(chuàng)建成功以后,它在HDFS中的完整路徑是“/user/hadoop/input”。如果要在HDFS的根目錄下創(chuàng)建一個名稱為input的目錄,則需要使用如下命令:
hadoop@hadoop-master:~$ hdfs dfs -mkdir /input
可以使用rm命令刪除一個目錄,比如,可以使用如下命令刪除剛才在HDFS中創(chuàng)建的“/input”目錄(不是“/user/hadoop/input”目錄):
hadoop@hadoop-master:~$ hdfs dfs -rm -r /input
上面命令中,“-r”參數(shù)表示如果刪除“/input”目錄及其子目錄下的所有內(nèi)容,如果要刪除的一個目錄包含了子目錄,則必須使用“-r”參數(shù),否則會執(zhí)行失敗。
1.2 文件操作
在實際應(yīng)用中,經(jīng)常需要從本地文件系統(tǒng)向HDFS中上傳文件,或者把HDFS中的文件下載到本地文件系統(tǒng)中。
首先,使用vim編輯器,在本地Linux文件系統(tǒng)的“/home/hadoop/”目錄下創(chuàng)建一個文件myLocalFile.txt,里面可以隨意輸入一些單詞,比如,輸入如下三行:
hadoop@hadoop-master:~$ vim myLocalFile.txt
hadoop@hadoop-master:~$ cat myLocalFile.txt
Hadoop
Spark
XMU DBLAB
然后,可以使用如下命令把本地文件系統(tǒng)的“/home/hadoop/myLocalFile.txt”上傳到HDFS中的當(dāng)前用戶目錄的input目錄下,也就是上傳到HDFS的“/user/hadoop/input/”目錄下:
hadoop@hadoop-master:~$ hdfs dfs -put /home/hadoop/myLocalFile.txt input
可以使用ls命令查看一下文件是否成功上傳到HDFS中,具體如下:
hadoop@hadoop-master:~$ hdfs dfs -ls input/
該命令執(zhí)行后會顯示類似如下的信息:
Found 1 items
-rw-r--r-- 1 hadoop supergroup 23 2022-04-18 10:09 input/myLocalFile.txt
下面使用如下命令查看HDFS中的myLocalFile.txt這個文件的內(nèi)容:
hadoop@hadoop-master:~$ hdfs dfs -cat input/myLocalFile.txt
Hadoop
Spark
XMU DBLAB
下面把HDFS中的myLocalFile.txt文件下載到本地文件系統(tǒng)中的“/home/hadoop/下載/”這個目錄下,命令如下:
hadoop@hadoop-master:~$ hdfs dfs -get input/myLocalFile.txt /home/hadoop/
可以使用如下命令,到本地文件系統(tǒng)查看下載下來的文件myLocalFile.txt:
hadoop@hadoop-master:~$ ls /home/hadoop/
myLocalFile.txt
最后,了解一下如何把文件從HDFS中的一個目錄拷貝到HDFS中的另外一個目錄。比如,如果要把HDFS的“/user/hadoop/input/myLocalFile.txt”文件,拷貝到HDFS的另外一個目錄“/input”中(注意,這個input目錄位于HDFS根目錄下),可以使用如下命令:
hadoop@hadoop-master:~$ hdfs dfs -cp input/myLocalFile.txt /input
hadoop@hadoop-master:~$ hdfs dfs -ls /input
Found 1 items
-rw-r--r-- 1 hadoop supergroup 23 2022-04-18 10:31 /input/myLocalFile.txt
2、利用Web界面管理HDFS
打開Linux自帶的Firefox瀏覽器,點擊此鏈接HDFS的Web界面,即可看到HDFS的web管理界面。WEB界面的訪問地址是http://localhost:9870。
3、利用Java API與HDFS進(jìn)行交互
Hadoop不同的文件系統(tǒng)之間通過調(diào)用Java API進(jìn)行交互,上面介紹的Shell命令,本質(zhì)上就是Java API的應(yīng)用。下面提供了Hadoop官方的Hadoop API文檔,想要深入學(xué)習(xí)Hadoop,可以訪問如下網(wǎng)站,查看各個API的功能。
利用Java API進(jìn)行交互,需要利用軟件Eclipse編寫Java程序。
3.1 在Ubuntu中安裝Eclipse
Eclipse是常用的程序開發(fā)工具,本教程很多程序代碼都是使用Eclipse開發(fā)調(diào)試,因此,需要在Linux系統(tǒng)中安裝Eclipse。可以到Eclipse官網(wǎng)(https://www.eclipse.org/downloads/)下載安裝包。
下面執(zhí)行如下命令對文件進(jìn)行解壓縮:
hadoop@hadoop-master:~$ sudo tar -xf eclipse-4.7.0-linux.gtk.x86_64.tar.gz -C /usr/local/
設(shè)置環(huán)境軟連接
hadoop@hadoop-master:~$ sudo mkdir -p /usr/local/eclipse/jre/bin/
hadoop@hadoop-master:~$ sudo ln -s /usr/lib/jvm/jdk1.8.0_162/bin/java /usr/local/eclipse/jre/bin/
然后,執(zhí)行如下命令啟動Eclipse:
hadoop@hadoop-master:~$ cd /usr/local/eclipse/
hadoop@hadoop-master:/usr/local/eclipse$ ./eclipse
這時,就可以看到Eclipse的啟動界面了。
3.2 使用Eclipse開發(fā)調(diào)試HDFS Java程序
Hadoop采用Java語言開發(fā)的,提供了Java API與HDFS進(jìn)行交互。上面介紹的Shell命令,在執(zhí)行時實際上會被系統(tǒng)轉(zhuǎn)換成Java API調(diào)用。Hadoop官方網(wǎng)站提供了完整的Hadoop API文檔,想要深入學(xué)習(xí)Hadoop編程,可以訪問Hadoop官網(wǎng)查看各個API的功能和用法。本教程只介紹基礎(chǔ)的HDFS編程。
為了提高程序編寫和調(diào)試效率,本教程采用Eclipse工具編寫Java程序。
現(xiàn)在要執(zhí)行的任務(wù)是:假設(shè)在目錄“hdfs://localhost:9000/user/hadoop”下面有幾個文件,分別是file1.txt、file2.txt、file3.txt、file4.abc和file5.abc,這里需要從該目錄中過濾出所有后綴名不為“.abc”的文件,對過濾之后的文件進(jìn)行讀取,并將這些文件的內(nèi)容合并到文件“hdfs://localhost:9000/user/hadoop/merge.txt”中。
3.2.1 在Eclipse中創(chuàng)建項目
啟動Eclipse。當(dāng)Eclipse啟動以后,會彈出如下圖所示界面,提示設(shè)置工作空間(workspace)。
可以直接采用默認(rèn)的設(shè)置/home/hadoop/workspace
,點擊launch
按鈕??梢钥闯?,由于當(dāng)前是采用hadoop用戶登錄了Linux系統(tǒng),因此,默認(rèn)的工作空間目錄位于hadoop用戶目錄/home/hadoop
下。
Eclipse啟動以后,會呈現(xiàn)如下圖所示的界面。
選擇“File–>New–>Java Project”菜單,開始創(chuàng)建一個Java工程,會彈出如下圖所示界面。
在Project name
后面輸入工程名稱HDFSExample
,選中Use default location
,讓這個Java工程的所有文件都保存到/home/hadoop/workspace/HDFSExample
目錄下。在“JRE”這個選項卡中,可以選擇當(dāng)前的Linux系統(tǒng)中已經(jīng)安裝好的JDK,比如jdk1.8.0_162
。然后,點擊界面底部的Next>
按鈕,進(jìn)入下一步的設(shè)置。
3.2.2 為項目添加需要用到的JAR包
進(jìn)入下一步的設(shè)置以后,會彈出如下圖所示界面。
需要在這個界面中加載該Java工程所需要用到的JAR包,這些JAR包中包含了可以訪問HDFS的Java API。這些JAR包都位于Linux系統(tǒng)的Hadoop安裝目錄下,對于本教程而言,就是在/usr/local/hadoop/share/hadoop
目錄下。點擊界面中的“Libraries”選項卡,然后,點擊界面右側(cè)的Add External JARs…
按鈕,會彈出如下圖所示界面。
在該界面中,上面的一排目錄按鈕(即usr
、local
、hadoop
、share
、hadoop
和common
),當(dāng)點擊某個目錄按鈕時,就會在下面列出該目錄的內(nèi)容。
為了編寫一個能夠與HDFS交互的Java應(yīng)用程序,一般需要向Java工程中添加以下JAR包:
/usr/local/hadoop/share/hadoop/common
目錄下的所有JAR包,包括hadoop-common-3.1.3.jar
、hadoop-common-3.1.3-tests.jar
、haoop-nfs-3.1.3.jar
和haoop-kms-3.1.3.jar
,注意,不包括目錄jdiff
、lib
、sources
和webapps
;/usr/local/hadoop/share/hadoop/common/lib
目錄下的所有JAR包;/usr/local/hadoop/share/hadoop/hdfs
目錄下的所有JAR包,注意,不包括目錄jdiff
、lib
、sources
和webapps
;/usr/local/hadoop/share/hadoop/hdfs/lib
目錄下的所有JAR包。
比如,如果要把/usr/local/hadoop/share/hadoop/common
目錄下的hadoop-common-3.1.3.jar
、hadoop-common-3.1.3-tests.jar
、haoop-nfs-3.1.3.jar
和haoop-kms-3.1.3.jar
添加到當(dāng)前的Java工程中,可以在界面中點擊目錄按鈕,進(jìn)入到common目錄,然后,界面會顯示出common目錄下的所有內(nèi)容(如下圖所示)。
請在界面中用鼠標(biāo)點擊選中hadoop-common-3.1.3.jar
、hadoop-common-3.1.3-tests.jar
、haoop-nfs-3.1.3.jar
和haoop-kms-3.1.3.jar
(不要選中目錄jdiff、lib、sources和webapps),然后點擊界面右下角的“確定”按鈕,就可以把這兩個JAR包增加到當(dāng)前Java工程中,出現(xiàn)的界面如下圖所示。
從這個界面中可以看出,hadoop-common-3.1.3.jar
、hadoop-common-3.1.3-tests.jar
、haoop-nfs-3.1.3.jar
和haoop-kms-3.1.3.jar
已經(jīng)被添加到當(dāng)前Java工程中。然后,按照類似的操作方法,可以再次點擊Add External JARs…
按鈕,把剩余的其他JAR包都添加進(jìn)來。需要注意的是,當(dāng)需要選中某個目錄下的所有JAR包時,可以使用Ctrl+A
組合鍵進(jìn)行全選操作。全部添加完畢以后,就可以點擊界面右下角的Finish
按鈕,完成Java工程HDFSExample的創(chuàng)建。
3.2.3 編寫Java應(yīng)用程序
下面編寫一個Java應(yīng)用程序。
請在Eclipse工作界面左側(cè)的Package Explorer
面板中(如下圖所示),找到剛才創(chuàng)建好的工程名稱HDFSExample
,然后在該工程名稱上點擊鼠標(biāo)右鍵,在彈出的菜單中選擇New–>Class
菜單。
選擇New–>Class
菜單以后會出現(xiàn)如下圖所示界面。
在該界面中,只需要在Name
后面輸入新建的Java類文件的名稱,這里采用名稱MergeFile
,其他都可以采用默認(rèn)設(shè)置,然后,點擊界面右下角Finish
按鈕,出現(xiàn)如下圖所示界面。
可以看出,Eclipse自動創(chuàng)建了一個名為“MergeFile.java”的源代碼文件,請在該文件中輸入以下代碼:
import java.io.IOException;
import java.io.PrintStream;
import java.net.URI;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.*;
/**
* 過濾掉文件名滿足特定條件的文件
*/
class MyPathFilter implements PathFilter {
String reg = null;
MyPathFilter(String reg) {
this.reg = reg;
}
public boolean accept(Path path) {
if (!(path.toString().matches(reg)))
return true;
return false;
}
}
/***
* 利用FSDataOutputStream和FSDataInputStream合并HDFS中的文件
*/
public class MergeFile {
Path inputPath = null; //待合并的文件所在的目錄的路徑
Path outputPath = null; //輸出文件的路徑
public MergeFile(String input, String output) {
this.inputPath = new Path(input);
this.outputPath = new Path(output);
}
public void doMerge() throws IOException {
Configuration conf = new Configuration();
conf.set("fs.defaultFS","hdfs://localhost:9000");
conf.set("fs.hdfs.impl","org.apache.hadoop.hdfs.DistributedFileSystem");
FileSystem fsSource = FileSystem.get(URI.create(inputPath.toString()), conf);
FileSystem fsDst = FileSystem.get(URI.create(outputPath.toString()), conf);
//下面過濾掉輸入目錄中后綴為.abc的文件
FileStatus[] sourceStatus = fsSource.listStatus(inputPath,
new MyPathFilter(".*\.abc"));
FSDataOutputStream fsdos = fsDst.create(outputPath);
PrintStream ps = new PrintStream(System.out);
//下面分別讀取過濾之后的每個文件的內(nèi)容,并輸出到同一個文件中
for (FileStatus sta : sourceStatus) {
//下面打印后綴不為.abc的文件的路徑、文件大小
System.out.print("路徑:" + sta.getPath() + " 文件大?。? + sta.getLen()
+ " 權(quán)限:" + sta.getPermission() + " 內(nèi)容:");
FSDataInputStream fsdis = fsSource.open(sta.getPath());
byte[] data = new byte[1024];
int read = -1;
while ((read = fsdis.read(data)) > 0) {
ps.write(data, 0, read);
fsdos.write(data, 0, read);
}
fsdis.close();
}
ps.close();
fsdos.close();
}
public static void main(String[] args) throws IOException {
MergeFile merge = new MergeFile(
"hdfs://localhost:9000/user/hadoop/",
"hdfs://localhost:9000/user/hadoop/merge.txt");
merge.doMerge();
}
}
3.2.4 編譯運行程序
在開始編譯運行程序之前,請一定確保Hadoop已經(jīng)啟動運行,如果還沒有啟動,需要打開一個Linux終端,輸入以下命令啟動Hadoop:
cd /usr/local/hadoop
./sbin/start-dfs.sh
然后,要確保HDFS的“/user/hadoop”目錄下已經(jīng)存在file1.txt、file2.txt、file3.txt、file4.abc和file5.abc,每個文件里面有內(nèi)容。這里,假設(shè)文件內(nèi)容如下:
file1.txt的內(nèi)容是: this is file1.txt
file2.txt的內(nèi)容是: this is file2.txt
file3.txt的內(nèi)容是: this is file3.txt
file4.abc的內(nèi)容是: this is file4.abc
file5.abc的內(nèi)容是: this is file5.abc
現(xiàn)在就可以編譯運行上面編寫的代碼??梢灾苯狱c擊Eclipse工作界面上部的運行程序的快捷按鈕,當(dāng)把鼠標(biāo)移動到該按鈕上時,在彈出的菜單中選擇Run As
,繼續(xù)在彈出來的菜單中選擇Java Application
,如下圖所示。
然后,會彈出如下圖所示界面。
在該界面中,點擊界面右下角的OK
按鈕,開始運行程序。程序運行結(jié)束后,會在底部的Console
面板中顯示運行結(jié)果信息(如下圖所示)。同時,Console
面板中還會顯示一些類似log4j:WARN…
的警告信息,可以不用理會。
如果程序運行成功,這時,可以到HDFS中查看生成的merge.txt文件,比如,可以在Linux終端中執(zhí)行如下命令:
hadoop@hadoop-master:~$ hdfs dfs -ls .
hadoop@hadoop-master:~$ hdfs dfs -cat merge.txt
this is file1.txt
this is file2.txt
this is file3.txt
3.2.5 應(yīng)用程序的部署
下面介紹如何把Java應(yīng)用程序生成JAR包,部署到Hadoop平臺上運行。首先,在Hadoop安裝目錄下新建一個名稱為myapp的目錄,用來存放我們自己編寫的Hadoop應(yīng)用程序,可以在Linux的終端中執(zhí)行如下命令:
hadoop@hadoop-master:~$ cd /usr/local/hadoop
hadoop@hadoop-master:/usr/local/hadoop$ sudo mkdir myapp
然后,請在Eclipse工作界面左側(cè)的Package Explorer
面板中,在工程名稱HDFSExample
上點擊鼠標(biāo)右鍵,在彈出的菜單中選擇Export
,如下圖所示。
然后,會彈出如下圖所示界面。
在該界面中,選擇Runnable JAR file
,然后,點擊Next>
按鈕,彈出如下圖所示界面。
在該界面中,Launch configuration
用于設(shè)置生成的JAR包被部署啟動時運行的主類,需要在下拉列表中選擇剛才配置的類MergeFile-HDFSExample
。在Export destination
中需要設(shè)置JAR包要輸出保存到哪個目錄,比如,這里設(shè)置為/usr/local/hadoop/myapp/HDFSExample.jar
。在Library handling
下面選擇Extract required libraries into generated JAR
。然后,點擊Finish
按鈕,會出現(xiàn)如下圖所示界面。
可以忽略該界面的信息,直接點擊界面右下角的OK
按鈕,啟動打包過程。打包過程結(jié)束后,會出現(xiàn)一個警告信息界面,如下圖所示。
可以忽略該界面的信息,直接點擊界面右下角的OK
按鈕。至此,已經(jīng)順利把HDFSExample工程打包生成了HDFSExample.jar
??梢缘絃inux系統(tǒng)中查看一下生成的HDFSExample.jar
文件,可以在Linux的終端中執(zhí)行如下命令:
hadoop@hadoop-master:/usr/local/hadoop$ ll /usr/local/hadoop/myapp/
總用量 56332
drwxr-xr-x 2 root root 4096 4月 18 16:13 ./
drwxr-xr-x 12 root root 4096 4月 18 16:03 ../
-rw-r--r-- 1 root root 57673000 4月 18 16:13 HDFSExample.jar
可以看到,/usr/local/hadoop/myapp
目錄下已經(jīng)存在一個HDFSExample.jar
文件。
由于之前已經(jīng)運行過一次程序,已經(jīng)生成了merge.txt,因此,需要首先執(zhí)行如下命令刪除該文件:
hadoop@hadoop-master:/usr/local/hadoop$ hdfs dfs -rm -r merge.txt
現(xiàn)在,就可以在Linux系統(tǒng)中,使用hadoop jar命令運行程序,命令如下:
hadoop@hadoop-master:/usr/local/hadoop$ hadoop jar ./myapp/HDFSExample.jar
上面程序執(zhí)行結(jié)束以后,可以到HDFS中查看生成的merge.txt文件,比如,可以在Linux終端中執(zhí)行如下命令:
hadoop@hadoop-master:/usr/local/hadoop$ hdfs dfs -ls .
Found 8 items
......
merge.txt
drwxrwxrwx - hadoop supergroup 0 2022-04-14 19:38
......
hadoop@hadoop-master:/usr/local/hadoop$ hdfs dfs -cat merge.txt
this is file1.txt
this is file2.txt
this is file3.txt
4、附錄:自己練習(xí)用的代碼文件
下面給出幾個代碼文件,供讀者自己練習(xí)。
4.1 寫入文件
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.FSDataOutputStream;
import org.apache.hadoop.fs.Path;
public class Chapter3 {
public static void main(String[] args) {
try {
Configuration conf = new Configuration();
conf.set("fs.defaultFS","hdfs://localhost:9000");
conf.set("fs.hdfs.impl","org.apache.hadoop.hdfs.DistributedFileSystem");
FileSystem fs = FileSystem.get(conf);
byte[] buff = "Hello world".getBytes(); // 要寫入的內(nèi)容
String filename = "test"; //要寫入的文件名
FSDataOutputStream os = fs.create(new Path(filename));
os.write(buff,0,buff.length);
System.out.println("Create:"+ filename);
os.close();
fs.close();
} catch (Exception e) {
e.printStackTrace();
}
}
}
4.2 判斷文件是否存在
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
public class Chapter3 {
public static void main(String[] args) {
try {
String filename = "test";
Configuration conf = new Configuration();
conf.set("fs.defaultFS","hdfs://localhost:9000");
conf.set("fs.hdfs.impl","org.apache.hadoop.hdfs.DistributedFileSystem");
FileSystem fs = FileSystem.get(conf);
if(fs.exists(new Path(filename))){
System.out.println("文件存在");
}else{
System.out.println("文件不存在");
}
fs.close();
} catch (Exception e) {
e.printStackTrace();
}
}
}
4.3 讀取文件
import java.io.BufferedReader;
import java.io.InputStreamReader;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.fs.FSDataInputStream;
public class Chapter3 {
public static void main(String[] args) {
try {
Configuration conf = new Configuration();
conf.set("fs.defaultFS","hdfs://localhost:9000");
conf.set("fs.hdfs.impl","org.apache.hadoop.hdfs.DistributedFileSystem");
FileSystem fs = FileSystem.get(conf);
Path file = new Path("test");
FSDataInputStream getIt = fs.open(file);
BufferedReader d = new BufferedReader(new InputStreamReader(getIt));
String content = d.readLine(); //讀取文件一行
System.out.println(content);
d.close(); //關(guān)閉文件
fs.close(); //關(guān)閉hdfs
} catch (Exception e) {
e.printStackTrace();
}
}
}
本文摘自 :https://www.cnblogs.com/