
NEWPySpark: 대용량 분산 처리 DataFrame 기초
PySpark는 Apache Spark를 Python 환경에서 사용할 수 있게 해주는 API로, 대량의 데이터를 분산 처리할 수 있다. 핵심 구조로는 Driver Node, Worker Node, Cluster Manager가 있으며, RDD와 DataFrame이 주요 데이터 구조이다. 학습 로드맵은 DataFrame 기초 조작, 스파크 최적화 및 고급 기능, 확장 모듈 다루기로 구성된다. Lazy Evaluation, SparkSession 생성, 데이터 불러오기 및 변환, 집계, 조인 등의 기법을 통해 성능을 최적화할 수 있다. 또한, Spark SQL, Structured Streaming, MLlib 등의 확장 모듈을 활용하여 데이터 엔지니어링을 강화할 수 있다.



![[Review] AWS Certified Solutions Architect - Associate 합격 후기](/_next/image?url=https%3A%2F%2Fwww.notion.so%2Fimage%2Fattachment%253A44c7d16f-9a0a-407d-a27a-f8a386d4da24%253Aaws-saa-c03-2weeks-review.png%3Ftable%3Dblock%26id%3D2fbf7343-f364-802a-a7d6-fdf97ffda78c%26cache%3Dv2&w=3840&q=75)
![[SQL] 개발자가 반드시 알아야 할 쿼리 튜닝의 핵심](/_next/image?url=https%3A%2F%2Fwww.notion.so%2Fimage%2Fattachment%253Aa9476e05-643e-4db3-8280-8b83d382ee31%253Aimage.png%3Ftable%3Dblock%26id%3D2e3f7343-f364-805a-984b-d6ede33e67cf%26cache%3Dv2&w=3840&q=75)
