안녕하세요! 주니어 데이터 엔지니어 yoda.jedi 입니다!
많은 데이터를 관리하는 부서에서, 데이터량이 증가함에 따라 데이터를 효과적으로 활용하는 방법에 대해 고민을 하게됩니다. 처리하는 각각의 데이터가 요구하고 있는 것과, 목표가 제각각 다릅니다. 각자 다양한 형태 & 성격에 따른 데이터 관리 방식에 대해 제가 고민한 점들을 많은 분들과 공유하고 싶어 이렇게 글을 작성하게되었습니다. 해당 포스팅은 “데이터 관리방식에 대한 고찰”을 메인 주제로 “데이터매시” 에 집중하였습니다.
현재 우리는 정보의 바다 시대에 있습니다. 시대가 진화함에 따라, 기하급수적으로 늘어나는 데이터, 해당 데이터를 활용하는 다양한 시도를 하고있습니다.
기존엔, 백엔드 개발자가 데이터를 처리하는 형태였으나, 다양한 데이터에 대한 시도를 진행함에 따라, 전문성이 요구되는 “데이터 배관공” 데이터 엔지니어라는 특화된 직군 또한 생겨나게되었습니다. 이에 데이터를 처리하고, 관리하는 방식 또한 많이 생겨나게됩니다.
대부분의 데이터 엔지니어 분들이 하는 고민이라 생각합니다. “요구사항에 대한 이해도가 부족한데 내가 뭘 어떻게 해줘야하지? “, “일단 요구사항에 대해 데이터 수집부터 하자. 알아서 하겠지.”, “아 몰라 일단 만들어.”
이렇게 만들어진 데이터 파이프라인은 기술적으로 동작할지언정, 요구사항에 부합하지 않는다면 실질적인 가치를 실현하지 못합니다. 의미 있는 데이터 파이프라인을 구축하는 것은 데이터의 힘을 실제 활용하기 위한 핵심이라 생각합니다. 이러한 고찰을 통해, 데이터 엔지니어링 작업은 단순히 기술적인 구현이 아니며,
데이터 소비자의 도메인 통찰력 + 엔지니어의 견고한 데이터 파이프라인이 톱니바퀴처럼 맞물려 돌아야 가치있는 일이라 생각합니다.