새소식

반응형
공통

[공통] 나혼자 데이터환경 구성 - 제 1부

  • -
반응형

나혼자 데이터환경 구성

 

안녕하세요. 주형권입니다. 

최근에 범용적인 글을 많이 쓰고 있고 경험을 공유하는 글을 많이 작성하고 있는데요. 이런 글을 많이 쓰다 보니 기존에 했었던 노하우(?)를 공유해 달라는 요청이 몇 개 있어서 제가 전에 다녔던 G사에서 구성하였던 데이터 환경을 어떻게 구성하였는지 정리해 볼까 합니다. 이미 퇴사한 회사라서 회사명을 언급하진 않겠으나 G사면 어디인지 다들 아실 거라 생각합니다. 

 

회사에서 팀장이였는데 데이터엔지니어링팀에 저 혼자였고 1인 팀장이었습니다... 그래서 혼자서 구축하였으니 제가 했던 게 전부라고 할 수 있겠네요. 아마도 이 글은 스타트업에 혼자서 데이터 환경을 어떻게 구성해야 할지 고민인 분들에게 많은 도움이 될 것으로 보입니다. 또한 이 글은 기존의 여러 가지 글을 짜깁기 하여 쓴 글이며, 총정리의 개념으로 생각해 주시면 좋을 거 같습니다. 아마도 링크만 걸어서 추가 설명을 하지 않는 것도 많을 것 같습니다.  그리고 이 글의 기반은 BigQuery를 사용하였으며 GCP 환경에서 구축되었습니다. 주로 나오는 이야기는 정형(RDB) 데이터이며, 반정형도 어느 정도 있습니다.  


Warming-up

 

제1부는 이 글을 쓰는 목적과 어떤 내용을 담을지에 대해서 설명하는 warming-up 단계입니다. 글은 주기적으로 올리도록 노력하겠으나 내용과 자료 수집(기억을 정리하는..?) 단계가 많으면 많을수록 느릴 수 있습니다. 


글 작성 목적

제가 수많은 데이터를 하시는 분들과 이야기를 해보면(특히 주니어) 혼자 또는 경험이 없는 사람들끼리 처음부터 시작을 하는데 어떻게 하는지 전혀 모르겠다고 하는 고민을 많이 이야기합니다. 개발, 운영 등의 경험이 전혀 없고 조언을 구할 사람이 없는 상황에서 혼자 야생에 던져 저서 시작해야 하는 입장이라고 많이 힘들어합니다. 

 

그래서 이 글을 통해서 조금이나마 감(?)을 잡을 수 있도록 도움을 줄 수 있도록 하기 위해서 글을 작성 하였습니다. 최소한 방향성을 잡는데 참고할 수 있을 것이라고 생각됩니다. 아무것도 없이 아무런 방향성 없이 시작하는ㅂ 것보다는 많이 도움 될 것이라고 봅니다. 

 


글 내용 구성

글은 총 4부작으로 작성 할 예정이며 각 글마다 특정이 있습니다. 그 특징을 나열하면 다음과 같습니다.

 

제1부 - 글의 목적과 내용을 설명하는 에필로그 단계

제2부 - 데이터 환경을 구성하기 위한 준비를 하는 경험과 방법에 대해서 작성

제3부 - 데이터 환경을 구성하는 실제 개발 과정의 경험과 방법에 대해서 작성

제4부 - 데이터 환경 구성 이후의 운영과 했었던 내용에 대해서 작성 

 

위의 내용은 파편적이긴 하지만 제가 그전에 모두 썼던 내용입니다. 하지만 한 곳에 모아둔 내용이 없고 파편적이라서 보시기 불편하실 것 같습니다. 그래서 한 곳에 모아서 써야겠다 싶어서 글을 정리하여 다시 작성하고자 합니다. 그리고 제가 경험한 내용이 생각보다 아무나 할 수 없는 경험이라서 그 경험과 노하우를 수많은 데이터엔지니어 분들에게 공유하고자 합니다. 

 


마치며...

글은 차근차근 시간날때마다 작성하여 올리겠습니다. 오래 걸리면 한 달씩 써야 해서... 

아무리 제가 기획,설계,개발,운영을 다 하였다고 하지만 기억이 가물가물 한 것도 많습니다. 그래서 기억을 더듬어서 써야 하기 때문에 조금 시간이 걸릴 수 있습니다. 

 

원래 글을 쓰는 목적은 스타트업에서 데이터 환경을 구축했던 경험에 대해서 쓰려고 했는데, 사실 이와 비슷한 것을 대기업에서도 많이 적용해 봤습니다. (현재 다니는 회사 포함) 그래서 어느 회사든 이러한 환경을 구축하여 사용하면 많은 도움이 될 것 같습니다. 데이터가 생각보다 성숙한 곳이 많이 없고 구성을 잘해서 운영을 잘하는 곳도 많이 드물다고 생각됩니다. 그래서 많은 회사에서 글을 보고 도움이 되셨으면 좋겠습니다. 

 

 

 

반응형
Contents

포스팅 주소를 복사했습니다

이 글이 도움이 되었다면 공감 부탁드립니다.