Spark 환경에서 데이터 전처리를 연습해보기위해 설치를 진행해보겠다.
자바, 파이썬, 스파크 설치가 필요하다.
아래 링크에서 로그인 후 JAVA 11버전 Windows x64 Installer을 다운로드한다.
https://www.oracle.com/kr/java/technologies/javase/jdk11-archive-downloads.html
폴더를 지정하여 설치한다.
윈도우 검색창에 '고급 시스템 설정 보기'를 검색하여 환경변수 창을 연다.
새로 만들기를 눌러 JAVA_HOME을 만들어준다. 변수 값은 자바를 설치한 경로로 입력한다.
시스템 변수의 Path에 자바 경로를 추가해주어야한다.
Path를 찾아 편집을 누르고. %JAVA_HOME%\bin 을 추가한 후 확인을 눌러주면 끝이다.
❗이미 JAVA의 다른 버전이 있다면,
버전을 11로 변경해주어야한다.
사용자 변수(혹은 시스템 변수)의 JAVA_HOME의 경로를 새로 설치한 11버전의 경로로 수정 후 저장한다.
아래 링크에서 최신버전의 python을 다운로드한다.
https://www.python.org/downloads/
절차에 따라 설치해주면 된다.
아래 링크에서 버전을 선택하여 압축 파일을 다운로드 한다.
https://spark.apache.org/downloads.html
원하는 경로에 압축을 해제한다.
hadoop 환경처럼 winutils 파일이 필요하다.
아래 링크에서 spark버전에 맞는 hadoop버전의 winutils파일을 다운로드한다.
https://github.com/cdarlint/winutils
Hadoop 3.3이 필요하기때문에 hadoop-3.3.6/bi의 winutils.exe파일만 다운로드해주었다. ![]
그리고 원하는 경로에 Hadoop > bin 폴더를 만들어, winutils.exe파일을 옮겨준다.
Java와 마찬가지로 환경변수 등록이 필요하다.
새로 만들기를 눌러 SPARK_HOME을 만들어준다. 변수 값은 스파크를 설치한 경로로 입력한다.
HADOOP_HOME도 만들어준다.
마찬가지로 path에 경로 추가가 필요하다.
%SPARK_HOME%\bin 과 %HADOOP_HOME%\bin 을 추가하면 끝이다.
명령프롬프트에서 spark-shell을 입력했을때 아래 결과가 나오면 설치 완료!
.
.
.
혹시 그대로 했는데도 경로 오류가 발생한다면, 시스템변수가 아닌 사용자 변수에서 환경변수 작업을 해보는 것을 추천한다.
나도 시스템변수에 입력했다가 계속 오류가 떠서 사용자변수로 다시 시도해봤더니 성공했다..
PySpark vs Dask (0) | 2024.09.15 |
---|