새소식

반응형
공통

데이터 엔지니어를 준비하거나 이제 막 시작 하는 분들에게 2탄

  • -
반응형

 

안녕하세요. 주형권입니다. 

지난번에 썼던 데이터 엔지니어를 준비하거나 이제 막 시작 하는 분들에게 글이 인기가 꽤 많아서 2탄을 준비 하였습니다.

 

데이터 엔지니어를 준비하거나 이제 막 시작 하는 분들에게

안녕하세요.데이터 엔지니어 주형권입니다. 오늘은 보편적인(?) 이야기를 하려고 합니다. 데이터 엔지니어를 준비하시거나 데이터 엔지니어를 이제 막 시작하신 분들에게 드리는 이야기입니다

burning-dba.tistory.com

 

링크드인의 조회수가 10,000을 넘어서 11,000을 달리고 있어서 꽤 인기가 많이 있습니다. 기술적인 이야기보다는 확실히 범용적인 이야기가 인기가 많은 거 같습니다. 그리고 많은 분들이 공감을 해주셨고 많은 메시지와 문의가 있었습니다. 그래서 그 인기(?)에 힘입어 2탄을 준비하였습니다.

 

1탄에서도 이야기드렸지만 어디까지나 저의 경험이며 저의 개인적인 생각이므로 재미로 봐주시면 좋을 거 같습니다. 그럼 시작하겠습니다.

 


데이터가 예쁘게 들어오는 경우는 굉장히 드물다.

 

데이터 엔지니어로 일하면서 데이터가 예쁘게? 들어오는 경우는 진짜 손에 꼽습니다. 그래서 가끔씩 신규입사자 또는 새롭게 보직을 변경해서 오는 분들이 많이 질문하는 게 여기가 회사가 작아서 아니면 여기가 아직 조직이 덜 성숙해서 그런가요?라는 질문을 많이 합니다. 

 

대답은 "아뇨 보통이래요"입니다. 제 링크드인을 보시면 저는 이직을 정말 많이 했고 이쪽 업계에도 아는 분이 상당히 많습니다. 파일에 쓰여있는 데이터는 당연하고 RDB에서 가져오는 데이터도 엉망인 경우 굉장히 많습니다. 그럼 그것을 로그를 만드는 주체에 모든 잘못이 있나?라고 한다면 그것도 아니라고 봅니다. 로그의 종류가 워낙 다양하고 저마다 제약조건이 굉장히 많습니다. 실제로 하드웨어 제약이나 프로그램상 제약으로 로그를 어쩔 수 없이 이렇게 심어야 하는 경우는 정말 많습니다. RDB도 마찬가지고요. 스타트업일수록 RDB의 정규화나 성능을 고려하기 어려운 경우가 많습니다. 제대로 만들면 당연히 좋겠지만 지금 그게 문제가 아니고... 당장 돈을 벌어야...

 

그래서 데이터 정의서는커녕 진짜 이상하게 들어오는 경우도 많습니다. 지금 내가 다니는 회사가 안 좋아서라고 생각하지 마세요. 제 경험과 제 인맥들의 경험상 거의 다 그래요.. 데이터 클렌징이 괜히 데이터엔지니어의 주요 업무 중 하나가 아닙니다.

 


성장은 굉장히 매우 초울트라 어렵다.

 

제가 면접관으로 들어가거나 메일이나 링크드인으로 많이 듣는 고민이 제가 들어가서 물어볼 사람이 없어요. 뭐 부터해야해요? 가 진짜 많습니다. 가장 많이 하는 고민이 지금 다니는 회사의 규모가 작아서 또는 위에 물어볼 사수나 시니어가 없어서 자기가 성장을 못해서 고민이라거나 발전이 없어서 고민이라고 합니다.

 

사실 그런 거 없습니다. 본인이 그 어려움에서 시행착오 겪고 테스트해보시서 성장하세요. 그리고 그럼 뭐부터 해요?라는 질문은 가장 바보 같은 거예요. 지금 교 X문고만 가도 빅데이터 코너가 따로 있을 정도인데, 그리고 인터넷만 치면 엄청나게 나오고 볼게 엄청나게 많은데 왜 없을까요...?

 

그럼 이걸 다해요?라고 역으로 물어보시면 예... 뭐 스페셜 리스트까진 아니라도 어느 정도는 대화할 수준은 하죠...ㅎㅎ 저도 신입 사 원 때 너무 많이 혼나서 블로그 시작했고, 주말마다 공부했고 지금도 해요. 제 블로그에 최근 데이터브릭스 관련 글이 많은데, 왜 그런지 돌아보면 답이 나옵니다. 성장은 매우 어렵고 고통이 따릅니다. 


기초(컴퓨터공학) 공부하면 좋다.

아마도 컴퓨터 공학과를 졸업하셨으면 기본적인 CS( Computer science - Wikipedia ) 지식은 있다고 생각됩니다. 하지만 졸업을 한 뒤로 거의 안 봐서 까먹거나 요즘은 비전공자도 많으셔서 기초를 거의 모르는 사람이 많습니다. 자료구조나 네트워크, OS 등등 여러 가지 CS 지식은 생각보다 굉장히 큰 도움이 됩니다. 

 

이거 생각보다 알고 모르고 가 큰 작업 할 때 디테일면에서 굉장히 큰 차이를 만듭니다. (제 실제 경험) 이론이 별거 아닐 수 있다고 생각할 수 있지만 이론을 모르면 실전에서 왜 이게 될까?라는 궁금증이 안 생깁니다. 그럼 이게 그냥 아 되는구나 하고 넘어가기 쉽고 그리고 더 빠르고 더 저렴하게 만들기도 어렵습니다. 

 


공식문서 / AI / 인터넷 다 믿지 마라

 

100%는 아닙니다. 공식문서가 맞는 경우가 대부분이고 AI도 맞기도 하고 인터넷도 진짜 도사 같은 분들 많습니다. 그런데 맹신하는 게 문제라고 생각합니다. 여기서 문제는 내가 직접 테스트 안 해보고 그대로 믿는 게 문제입니다. 생각보다 안 그런 게 많습니다. 어떠한 문서를 봐도 내가 실제로 해보시고 적용하는 게 좋습니다.

 

실제로 문서만 보고 만들었다가 낭패를 보는 경우가 많습니다. 이론과 실전은 상당히 다릅니다. 본인이 찾은 지식을 실제로 테스트해보고 실무에 적용해보세요. 조금 해서 나쁠 건 전혀 없습니다. 

반응형
Contents

포스팅 주소를 복사했습니다

이 글이 도움이 되었다면 공감 부탁드립니다.