This time, I wrote this article after experiencing a very big(?) problem. It was my first time experiencing a problem while using Databricks, and above all, I had a very hard time resolving it because there was no related information. To conclude, it was a bug in Databricks. In the end, I opened a CASE and the backend engineer at the headquarters resolved the problem. ⚠️ Problem foundWe have a t..
안녕하세요. 주형권입니다. 이번에 아주 커다란(?) 장애를 겪고 글을 작성하였습니다. Databricks를 쓰면서 처음 겪는 장애였고, 무엇보다 관련 자료가 전무한 상황이라서 굉장히 해결에 어려움을 겪었습니다. 결론부터 말씀 드리면 Databricks의 버그입니다. 결국 CASE를 열어서 본사의 Back-end 엔지니어가 장애를 해결해줬습니다.⚠️ 문제 발견 저희는 DELETE를 하는 작업이 있습니다. 그런데 어느 날 다음의 ERROR가 나오면서 DELETE가 실패하는 증상이 나타났습니다. 메시지는 다음과 같습니다.[DELTA_DELETION_VECTOR_SIZE_MISMATCH] Deletion vector integrity check failed. Encountered a size mismatch...
안녕하세요. 주형권입니다.Databricks에서는 다양한 테이블을 만들 수 있습니다. 외부(external) 테이블도 그중 한 가지입니다. 외부 테이블은 csv / json / parquet 등의 데이터를 그대로 Databricks에서 볼 수 있도록 만들어 줍니다. 그래서 Delta로 만드는 수고를 덜어줘서 굉장히 많이 쓰이는 기술입니다. ⚠️ 무엇이 문제였는가?Databricks에서 외부 테이블을 만들때 하위의 모든 폴더를 포함해서 하나의 테이블로 만들고자 할 때는 잘 안됩니다. 특정 폴더 안에 모든 파일이 있으면 모르겠지만 YYYY/MM/DD와 같이 폴더가 년/월/일로 구분이 되어 있고 이 폴더를 모두 포함해서 하나의 테이블로 만들려고 하면 정상적으로 되지 않습니다. CREATE TABLE san..
안녕하세요. 데이터엔지니어 주형권입니다.어느덧 Databricks를 맡고 운영한 지 5개월 정도가 흘렀습니다. 초반에 데이터 아키텍처와 정책을 잡고 서서히 물리적인 데이터를 운영 함에 있어서 꼭 알아야 하는 개념이 무엇일까 하다가 2가지 내용이 있어서 공부 겸 찾아보고 개념을 정리하였습니다. 위의 2개의 작업은 Databricks를 운영 하면서 필수적인 내용이므로 꼭 해줘야 하는 작업으로 보입니다. 정확히는 Optimize에 z-Ordering이 포함(?)인 것으로 옵션입니다. 하지만 할 때 같이 해주는 게 성능에 큰 영향을 미치는 것으로 보입니다. 개념과 함께 실제로 실행했을 때 알아야 하는 내용에 대해서도 공유하고자 합니다. Databricks의 테이블과 데이터 파일 처리 원리Databricks에 ..
안녕하세요.데이터 엔지니어 주형권입니다. 오늘은 보편적인(?) 이야기를 하려고 합니다. 데이터 엔지니어를 준비하시거나 데이터 엔지니어를 이제 막 시작하신 분들에게 드리는 이야기입니다. 데이터 엔지니어를 시작하려고 하거나 시작했을 때 많은 사람들이 느끼는 이질감과 내가 생각했던 일이 아닌데?라고 생각 하는 분들이 많이들 계실 거 같아서, 10년 넘은 경력자의 입장에서 말씀드리고자 합니다. 실제 경력자분들은 공감되는 내용도 있고 공감이 가지 않는 내용도 있을 수 있으니 재미로 봐주시면 좋겠습니다. 1. 데이터 엔지니어는 노가다다 데이터 엔지니어를 시작하실 때 많은 학원과 많은 언론에서 고액 연봉과 미래에 유망한 직업이며 많은 사람들의 선망의 대상이라고 광고합니다. 화려한 모습만을 내세우며 많은 사람들에게 매..
안녕하세요. 데이터엔지니어 주형권입니다.오늘 Databricks Workflow에서 아주 황당한(?) 문제를 발견하여 공유하고자 글을 적습니다. Databricks에서 작업을 실행하기 위해서 많은 사람들이 Workflow를 사용합니다. Workflow에서 Notebook의 SQL 또는 Python 코드등을 실행하는 경우가 있는데 이때 Job cluster에 Worker 유형을 선택할 수 있으며 분산처리를 위해서 최소~최대 Worker의 개수를 설정할 수 있습니다. 그런데 오늘 정말 이상하게도 작업을 수행하고 계속해서 Worker의 수가 2개 (Driver 1개 / Worker 1개)로 유지되면서 Scale Out이 안되는 현상을 경험하였습니다. 제가 Spark의 옵션을 잘못 설정해서 Worker의 수가..
⚠️Issue)When you DROP in Databricks, it is not immediately deleted from S3. This is a device that Databricks has in place in case a user accidentally DROPs a table. When you delete a table, the actual physical file in AWS's S3 is not deleted but is kept for 30 days and is automatically deleted after 30 days. dropping a managed table does not remove the underlying filesthe documentation states t..
⚠️이슈)Databricks에서 DROP을 날리면 S3에 즉시 삭제되지 않습니다. 이는 Databricks에서 사용자가 실수로 테이블을 DROP 하였을 때를 대비하여 마련해 둔 장치입니다. 테이블을 삭제하면 30일 동안 AWS의 S3에 있는 실제 물리적 파일은 삭제되지 않고 보관하고 있다가 30일 이후에 자동으로 삭제가 됩니다. dropping a managed table does not remove the underlying filesthe documentation states that "drop table": Deletes the table and removes the directory associated with the table from the file system if the table is ..
안녕하세요. 주형권입니다.요즘 Databricks를 사용하면서 WebUI를 통해서 하다가 답답함과 여러 기능을 손쉽게 사용하기 위해서 DBeaver를 연결 사용 방법을 하다가 방법을 발견하여 공유드립니다. 물론 공식문서에서 제공하긴 하지만 설명이 불친절(?)하여 제가 정리하였습니다. 저는 Azure Databricks와 DBeaver 통합이란 글을 보고 설정하였습니다. Databricks 공식 가이드와 동일하지만 한글이 지원되므로 보기 더욱 편합니다. Azure Databricks와 DBeaver 통합 - Azure DatabricksAzure Databricks와 함께 DBeaver를 사용하는 방법을 알아봅니다. DBeaver는 개발자 및 데이터베이스 관리자를 위한 오픈 소스 데이터베이스 도구입니다...
안녕하세요. 주형권입니다.제1부 - warming-up에 이어서 두 번째 이야기입니다. 두 번째 이야기는 데이터 환경을 구성하기 위해서 하는 준비 과정을 작성하였습니다. "생각보다 그냥 하면 되는 거 아니야?"라고 생각할 수 있지만 준비할 게 정말 많습니다. 저 같은 경우 사람들을 설득시키는 과정이 굉장히 힘들었고 인식을 바꾸는 과정이 가장 어려웠던 거 같습니다. 물론 사람의 입장의 차이가 모두 있고 팀의 사정이 저마다 다르기에 우리의 일을 모두 좋게 바라볼순 없습니다. 또한 여러 가지 이해관계가 엮여 있으므로 당연히 풀어야 하는 문제입니다. 무조건 우리 쪽의 입장만 들어주고 데이터를 만들어준다면 정말 편하겠지만 상대방의 입장과 상대방의 팀의 입장이 있고 변경하기 어려운 점이 분명히 존재하므로 여러 가..
내 블로그 - 관리자 홈 전환 |
Q
Q
|
---|---|
새 글 쓰기 |
W
W
|
글 수정 (권한 있는 경우) |
E
E
|
---|---|
댓글 영역으로 이동 |
C
C
|
이 페이지의 URL 복사 |
S
S
|
---|---|
맨 위로 이동 |
T
T
|
티스토리 홈 이동 |
H
H
|
단축키 안내 |
Shift + /
⇧ + /
|
* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.