빅데이터

[Spark] Spark Windows 설치

기억력이 점점 나빠진다 2023. 5. 12. 11:14
반응형

Spark를 이용해 여러가지 테스트를 하기 위해 설치를 진행해 보았다

Linux 환경에 설치를 하거나 docker를 사용하는게 더 편하지만

환경이 여의치 않아 Windows OS의 PC에 설치해 보았다

 

Spark를 설치하고 이용하기 위해 hadoop을 설치해야 하는데

hadoop 설치 없이 하는 방법도 작성하였다

 

hadoop을 설치하고 Spark를 활용할 사람은 이전글을 참조하여 hadoop을 설치하자

2023.05.11 - [빅데이터] - [Hadoop] Hadoop Windows 설치(오프라인, StandAlone) 1

 

[Hadoop] Hadoop Windows 설치(오프라인, StandAlone) 1

hadoop을 Windows OS에서 사용하기 위해 설치하는 과정을 정리해 보았다 일단 hadoop은 Linux 환경에 설치하는게 편한데 필자는 로컬 PC에 Standalone으로 돌리면서 테스트를 해보기 위해 설치하였다 Ambari

boring-notes.tistory.com

 

1. Spark 다운로드 및 설치

필자는 기존에 사용하던 버전이 hadoop3.0.0  spark2.4.0 이어서

처음에 2.4.0버전의 spark를 설치하였는데 이후에 3.4.0버전을 설치하여 테스트 해보았는데 잘 동작하였다

3.4.0 버전은 hadoop3.3 이후 버전을 사용해야 한다고 되어있지만 3.0.0에서도 잘 동작하는 걸 확인할 수 있었다

hadoop은 가장 최신버전을 사용하면 Java 버전도 올려줘야하니

필자가 설치한 환경을 추천한다

- Spark : spark 3.4.0

- Java : java 1.8.0_371

- hadoop : hadoop 3.0.0

테스트 결과 Java는 1.8 어느 버전을 사용해도 동작하였고

hadoop은 설치 없이 몇개의 파일만 받아도 가능하다(되도록 3.2.0 이후 버전은 피하자 이유는 이전 글에 명시되어 있다)

 

먼저 Spark를 아래 사이트에서 다운받자

https://spark.apache.org/downloads.html 

 

Downloads | Apache Spark

Download Apache Spark™ Choose a Spark release: Choose a package type: Download Spark: Verify this release using the and project release KEYS by following these procedures. Note that Spark 3 is pre-built with Scala 2.12 in general and Spark 3.2+ provides

spark.apache.org

사이트 아래쪽에 Spark release archives 메뉴를 선택하면 이전 버전을 다운 받을 수 있으니

자신에게 맞는 버전을 다운 받자

필자는 spark-3.4.0-bin-hadoop3.tgz 파일과 spark-2.4.0-bin-hadoop2.7.tgz  spark-2.4.0-bin-without-hadoop.tgz 파일을 다운받아 설치했었다

해당 파일을 다운받아 임의의 경로에 압축을 해제하자

 

2.  환경변수 설정

이제 환경변수를 설정하자

환경변수에는 기본적으로 JAVA_HOME, SPARK_HOME, HADOOP_HOME 세가지가 추가되어 있으면 된다

 

추가로 필자와 같이 local에서 StandAlone으로 사용할때 local PC의 host명을 찾지 못하는 경우가 발생할 수도 있는데

이때는 환경변수에 하나 더 추가해야한다

관련 내용은 아래 글을 참조하자

2023.05.12 - [분류 전체보기] - [Spark] Spark Windows 설치 오류(SparkException: Invalid Spark URL)

 

일단 Windows 시스템 변수에 JAVA_HOME, SPARK_HOME, HADOOP_HOME 세가지를 각자 환경에 맞게 추가하자

필자의 환경변수 들의 경로는 아래와 같으니 참조바란다

JAVA_HOME             D:\java\jdk\jre-1.8

SPARK_HOME          D:\dev\spark-3.4.0-bin-hadoop3

HADOOP_HOME      D:\dev\hadoop-3.0.0     (hadoop 설치 X 사용하려면 SPARK_HOME과 동일하게 지정)

 

위 3가지 환경변수를 추가하고 path에도 %SPARK_HOME%\bin   추가하는 것도 잊지 말자

 

※ hadoop 설치 없이 사용하려면 아래 내용을 참조하면 된다

더보기

1. 환경변수 HADOOP_HOME을 SPARK_HOME과 동일한 경로로 지정

HADOOP_HOME       D:\dev\spark-3.4.0-bin-hadoop3

2. [HADOOP_HOME]\bin 경로에 winutils.exe 파일 복사

winutils 파일 받는 방법은 이전글 참조

2023.05.11 - [빅데이터] - [Hadoop] Hadoop Windows 설치(오프라인, StandAlone) 1

 

3. Spark 실행 및 확인

이제 설정이 끝났으니 Spark가 잘 동작하는지 확인해 보자

명령 프롬프트나 Windows PowerShell에서 아래 명령어를 수행해 보자

spark-shell

아래와 같은 화면이 나오면 정상 작동 한 것이다

 

spark-shell 명령어를 못 찾는다면 환경변수 설정을 다시 확인해 보아라

 

반응형