⚙️ Data Engineering

데이터 엔지니어링 2025년 전망: 실무자의 시선으로 읽기

status

Public

date

Dec 23, 2024

slug

data-engineering-predictions-2025-review

summary

AI 컴퓨팅과 SLM의 부상, Data IDE의 필요성 등 2025년 데이터 엔지니어링 트렌드를 실무 경험에 비추어 분석했습니다. 데이터 품질과 엔지니어의 역할 변화에 대한 고찰을 담았습니다.

type

Post

1. AI 컴퓨팅의 발전과 데이터 수급

AI가 고도화될수록 결국 승부처는 '데이터'다. 특히 성능 향상을 위해서는 양질의 데이터가 필수적인데, 여기서 두 가지 흐름이 필연적으로 보인다.

데이터 프라이버시: 법규는 계속 강화될 것이므로, 이를 준수하며 데이터를 수급하는 파이프라인 구축이 핵심이 될 것이다.

On-Device 처리: 언제 어디서든(Ubiquitous) AI가 동작하려면 서버가 아닌 디바이스단에서의 비정형 데이터 처리 능력이 중요해진다.

2. 도메인 특화 모델 (SLMs)의 진화

1번과 연결되는 맥락이다. 모든 처리를 거대 언어 모델(LLM)에 의존하는 건 비용과 속도 면에서 비효율적이다. 디바이스 환경에서 유연하게 돌아가기 위해서는 가볍고 특정 도메인에 최적화된 소형 언어 모델(SLMs)이 비용 효율성과 적응성 측면에서 주목받을 수밖에 없다.

3. AI 오케스트레이터와 추론의 변화

ChatGPT의 발전사를 보면 '추론'의 주체가 바뀌고 있다. 초기엔 프롬프트 엔지니어링으로 인간이 다단계 추론을 유도했다면, 최신 o1 모델은 모델 내부에서 스스로 추론(Chain of Thought)을 수행한다.

사람도 "그냥" 말하는 것보다 육하원칙에 따라 논리를 빌드업할 때 더 좋은 답이 나온다. AI도 이 과정을 내재화한 셈이다.

흥미로운 건 그다음이다. 예전 기사에서 AI가 인간이 상상하지 못한 방식('Alien'스러운 수)으로 추론해 사람을 당황시켰다는 내용을 본 적이 있다. 지금은 인간이 이해 가능한 다단계 추론을 모방하고 있지만, 기술이 더 발전한다면 우리가 이해할 수 없는 'AI적 추론'의 영역으로 넘어가지 않을까?

4. 차세대 데이터 통합 개발 환경 (Data IDE)

이 부분은 읽으면서 무릎을 쳤다. "배포 전 통합 테스트"가 얼마나 중요한지 뼈저리게 겪은 경험이 있기 때문이다.

과거 sitemap.xml 업데이트를 위해 배포 테스트를 하던 중, DB 연결 확인을 위해 지속적인 READ 요청을 보낸 적이 있다. 단순 반복 요청이었지만, 이로 인해 기존 크롤링 데이터 적재 쿼리와 병목이 생겨 DB가 느려졌고, 결국 인스턴스 사양을 두 단계나 급하게 올려야 했다.

단순 배치성 요청이라 안일하게 생각했던 내 실수였지만, 만약 IDE 차원에서 데이터 접근 부하를 미리 감지하거나 거버넌스 체크를 해줬다면 피할 수 있었을 것이다.

내장된 데이터 품질 검사가 Python의 Marshmallow 라이브러리만큼 심플하고 강력하게 지원된다면, 운영 사고를 획기적으로 줄일 수 있을 것이다.

5. LakeDB: 경계가 사라지는 저장소

데이터 레이크, 웨어하우스, DB의 경계가 무너지고 있다. Spark 같은 무거운 프레임워크 없이도 S3 같은 객체 스토리지에 있는 데이터를 DB처럼 쿼리할 수 있다면?

AWS 환경을 주로 쓰는 스타트업 입장에서는 매우 매력적인 선택지다. 비싼 RDBMS 비용을 아끼면서 S3의 가성비를 누릴 수 있기 때문이다.

6. Zero ETL과 연합 아키텍처 (현실적인 의문)

Zero ETL이나 Data Mesh가 이상적인 미래인 건 맞지만, "지금 당장 가능한가?"에는 물음표가 뜬다.

내가 다뤘던 주요 광고 플랫폼(Meta, Twitter, LinkedIn 등)만 봐도 데이터 구조가 제각각이다. 캠페인-애드셋-크리에이티브로 이어지는 계층 구조(Hierarchy)를 클라우드 단에서 통일해서 보여준다? 플랫폼사들이 API를 열고 표준을 맞추지 않는 한 힘든 일이다.

결국 기업 내부는 당분간 자체 ETL을 유지해야 할 것이다. 물론 CRM 마케팅 시장이 커지면 플랫폼들이 데이터를 연동하는 기능을 강화하겠지만, 당장은 시기상조로 보인다.

결론

트렌드를 살펴보니 결론은 명확하다. AI가 중요해질수록, 그 재료가 되는 데이터를 다루는 '데이터 엔지니어'의 역할은 더 무거워진다.

모델 아키텍처보다 '어떤 데이터를 어떻게 먹이느냐'가 AI 서비스의 품질을 결정하는 시대다. 파이프라인을 단순 구축하는 것을 넘어, 데이터의 품질을 보장하고 효율적으로 공급하는 것이 엔지니어의 핵심 역량이 될 것이다.

← Back ↑ Top

⚙️ Data Engineering

NEWPySpark: 대용량 분산 처리 DataFrame 기초

Mar 30, 2026

PySpark는 Apache Spark를 Python 환경에서 사용할 수 있게 해주는 API로, 대량의 데이터를 분산 처리할 수 있다. 핵심 구조로는 Driver Node, Worker Node, Cluster Manager가 있으며, RDD와 DataFrame이 주요 데이터 구조이다. 학습 로드맵은 DataFrame 기초 조작, 스파크 최적화 및 고급 기능, 확장 모듈 다루기로 구성된다. Lazy Evaluation, SparkSession 생성, 데이터 불러오기 및 변환, 집계, 조인 등의 기법을 통해 성능을 최적화할 수 있다. 또한, Spark SQL, Structured Streaming, MLlib 등의 확장 모듈을 활용하여 데이터 엔지니어링을 강화할 수 있다.

데이터를 움직이는 힘: 데이터 거버넌스 & 엔지니어링 실전 강의 정리

Dec 6, 2025

모두의 연구소 [데이터를 움직이는 힘: 데이터 거버넌스 & 엔지니어링 실전] 강의 수강

Data Engineering

데이터를 움직이는 힘

⚙️ Data Engineering

Series: Tech Blog InQuery

AWS DataZone에서 OpenLineage 기반의 Airflow 데이터 계보 그리기

May 2, 2025

AWS DataZone과 OpenLineage를 연동하여 Airflow 기반의 데이터 계보(Lineage)를 시각화하는 아키텍처와 구축 방법을 다룹니다. 이를 통해 복잡한 데이터 파이프라인의 흐름을 투명하게 관리하고 추적성을 확보하는 기술적 노하우를 확인해 보세요.

Airflow

Data Lineage Tracking

📚 Study

Series: Designing Data-Intensive Applications

Designing Data-Intensive Applications - (2) Defining NonFunctional Requirements

Mar 7, 2026

이 챕터는 데이터 중심 애플리케이션의 핵심인 세 가지 비기능적 요구사항(신뢰성, 확장성, 유지보수성)을 정의합니다. 트위터의 타임라인 구축 사례를 통해 읽기/쓰기 시점의 부하 분산 전략(Fan-out)과 트레이드오프를 살펴보고, p99.9와 같은 꼬리 지연 시간(Tail Latency) 관리의 중요성을 강조합니다. 최종적으로는 복잡성을 제어하는 추상화와 변화에 유연한 설계가 장기적인 시스템 운영에 어떤 영향을 미치는지 다룹니다. This chapter defines the three pillars of data-intensive applications: Reliability, Scalability, and Maintainability. Through the case study of X (Twitter) home timelines, it explores the trade-offs of fan-out strategies between write and read paths. It also emphasizes the importance of managing tail latencies (p99.9) and explains how abstraction and evolvability are crucial for long-term system health and managing accidental complexity.

Designing Data