데이터브릭스
-
안녕하세요. 주형권입니다.Databricks에서는 다양한 테이블을 만들 수 있습니다. 외부(external) 테이블도 그중 한 가지입니다. 외부 테이블은 csv / json / parquet 등의 데이터를 그대로 Databricks에서 볼 수 있도록 만들어 줍니다. 그래서 Delta로 만드는 수고를 덜어줘서 굉장히 많이 쓰이는 기술입니다. ⚠️ 무엇이 문제였는가?Databricks에서 외부 테이블을 만들때 하위의 모든 폴더를 포함해서 하나의 테이블로 만들고자 할 때는 잘 안됩니다. 특정 폴더 안에 모든 파일이 있으면 모르겠지만 YYYY/MM/DD와 같이 폴더가 년/월/일로 구분이 되어 있고 이 폴더를 모두 포함해서 하나의 테이블로 만들려고 하면 정상적으로 되지 않습니다. CREATE TABLE san..
[Databricks] 여러 폴더를 외부(external) 테이블로 만들기안녕하세요. 주형권입니다.Databricks에서는 다양한 테이블을 만들 수 있습니다. 외부(external) 테이블도 그중 한 가지입니다. 외부 테이블은 csv / json / parquet 등의 데이터를 그대로 Databricks에서 볼 수 있도록 만들어 줍니다. 그래서 Delta로 만드는 수고를 덜어줘서 굉장히 많이 쓰이는 기술입니다. ⚠️ 무엇이 문제였는가?Databricks에서 외부 테이블을 만들때 하위의 모든 폴더를 포함해서 하나의 테이블로 만들고자 할 때는 잘 안됩니다. 특정 폴더 안에 모든 파일이 있으면 모르겠지만 YYYY/MM/DD와 같이 폴더가 년/월/일로 구분이 되어 있고 이 폴더를 모두 포함해서 하나의 테이블로 만들려고 하면 정상적으로 되지 않습니다. CREATE TABLE san..
2024.12.26 -
안녕하세요. 데이터엔지니어 주형권입니다.어느덧 Databricks를 맡고 운영한 지 5개월 정도가 흘렀습니다. 초반에 데이터 아키텍처와 정책을 잡고 서서히 물리적인 데이터를 운영 함에 있어서 꼭 알아야 하는 개념이 무엇일까 하다가 2가지 내용이 있어서 공부 겸 찾아보고 개념을 정리하였습니다. 위의 2개의 작업은 Databricks를 운영 하면서 필수적인 내용이므로 꼭 해줘야 하는 작업으로 보입니다. 정확히는 Optimize에 z-Ordering이 포함(?)인 것으로 옵션입니다. 하지만 할 때 같이 해주는 게 성능에 큰 영향을 미치는 것으로 보입니다. 개념과 함께 실제로 실행했을 때 알아야 하는 내용에 대해서도 공유하고자 합니다. Databricks의 테이블과 데이터 파일 처리 원리Databricks에 ..
[Databricks] Optimize / VACUUM안녕하세요. 데이터엔지니어 주형권입니다.어느덧 Databricks를 맡고 운영한 지 5개월 정도가 흘렀습니다. 초반에 데이터 아키텍처와 정책을 잡고 서서히 물리적인 데이터를 운영 함에 있어서 꼭 알아야 하는 개념이 무엇일까 하다가 2가지 내용이 있어서 공부 겸 찾아보고 개념을 정리하였습니다. 위의 2개의 작업은 Databricks를 운영 하면서 필수적인 내용이므로 꼭 해줘야 하는 작업으로 보입니다. 정확히는 Optimize에 z-Ordering이 포함(?)인 것으로 옵션입니다. 하지만 할 때 같이 해주는 게 성능에 큰 영향을 미치는 것으로 보입니다. 개념과 함께 실제로 실행했을 때 알아야 하는 내용에 대해서도 공유하고자 합니다. Databricks의 테이블과 데이터 파일 처리 원리Databricks에 ..
2024.12.02 -
안녕하세요. 데이터엔지니어 주형권입니다.오늘 Databricks Workflow에서 아주 황당한(?) 문제를 발견하여 공유하고자 글을 적습니다. Databricks에서 작업을 실행하기 위해서 많은 사람들이 Workflow를 사용합니다. Workflow에서 Notebook의 SQL 또는 Python 코드등을 실행하는 경우가 있는데 이때 Job cluster에 Worker 유형을 선택할 수 있으며 분산처리를 위해서 최소~최대 Worker의 개수를 설정할 수 있습니다. 그런데 오늘 정말 이상하게도 작업을 수행하고 계속해서 Worker의 수가 2개 (Driver 1개 / Worker 1개)로 유지되면서 Scale Out이 안되는 현상을 경험하였습니다. 제가 Spark의 옵션을 잘못 설정해서 Worker의 수가..
[Databricks] Workflow Worker(Excutor) scale out 안되는 문제안녕하세요. 데이터엔지니어 주형권입니다.오늘 Databricks Workflow에서 아주 황당한(?) 문제를 발견하여 공유하고자 글을 적습니다. Databricks에서 작업을 실행하기 위해서 많은 사람들이 Workflow를 사용합니다. Workflow에서 Notebook의 SQL 또는 Python 코드등을 실행하는 경우가 있는데 이때 Job cluster에 Worker 유형을 선택할 수 있으며 분산처리를 위해서 최소~최대 Worker의 개수를 설정할 수 있습니다. 그런데 오늘 정말 이상하게도 작업을 수행하고 계속해서 Worker의 수가 2개 (Driver 1개 / Worker 1개)로 유지되면서 Scale Out이 안되는 현상을 경험하였습니다. 제가 Spark의 옵션을 잘못 설정해서 Worker의 수가..
2024.11.11 -
⚠️이슈)Databricks에서 DROP을 날리면 S3에 즉시 삭제되지 않습니다. 이는 Databricks에서 사용자가 실수로 테이블을 DROP 하였을 때를 대비하여 마련해 둔 장치입니다. 테이블을 삭제하면 30일 동안 AWS의 S3에 있는 실제 물리적 파일은 삭제되지 않고 보관하고 있다가 30일 이후에 자동으로 삭제가 됩니다. dropping a managed table does not remove the underlying filesthe documentation states that "drop table": Deletes the table and removes the directory associated with the table from the file system if the table is ..
[Databricks] 이미 삭제(DROP)한 테이블 S3 파일 위치 찾기⚠️이슈)Databricks에서 DROP을 날리면 S3에 즉시 삭제되지 않습니다. 이는 Databricks에서 사용자가 실수로 테이블을 DROP 하였을 때를 대비하여 마련해 둔 장치입니다. 테이블을 삭제하면 30일 동안 AWS의 S3에 있는 실제 물리적 파일은 삭제되지 않고 보관하고 있다가 30일 이후에 자동으로 삭제가 됩니다. dropping a managed table does not remove the underlying filesthe documentation states that "drop table": Deletes the table and removes the directory associated with the table from the file system if the table is ..
2024.10.21 -
안녕하세요. 주형권입니다.요즘 Databricks를 사용하면서 WebUI를 통해서 하다가 답답함과 여러 기능을 손쉽게 사용하기 위해서 DBeaver를 연결 사용 방법을 하다가 방법을 발견하여 공유드립니다. 물론 공식문서에서 제공하긴 하지만 설명이 불친절(?)하여 제가 정리하였습니다. 저는 Azure Databricks와 DBeaver 통합이란 글을 보고 설정하였습니다. Databricks 공식 가이드와 동일하지만 한글이 지원되므로 보기 더욱 편합니다. Azure Databricks와 DBeaver 통합 - Azure DatabricksAzure Databricks와 함께 DBeaver를 사용하는 방법을 알아봅니다. DBeaver는 개발자 및 데이터베이스 관리자를 위한 오픈 소스 데이터베이스 도구입니다...
[Databricks] DBeaver 연결 방법안녕하세요. 주형권입니다.요즘 Databricks를 사용하면서 WebUI를 통해서 하다가 답답함과 여러 기능을 손쉽게 사용하기 위해서 DBeaver를 연결 사용 방법을 하다가 방법을 발견하여 공유드립니다. 물론 공식문서에서 제공하긴 하지만 설명이 불친절(?)하여 제가 정리하였습니다. 저는 Azure Databricks와 DBeaver 통합이란 글을 보고 설정하였습니다. Databricks 공식 가이드와 동일하지만 한글이 지원되므로 보기 더욱 편합니다. Azure Databricks와 DBeaver 통합 - Azure DatabricksAzure Databricks와 함께 DBeaver를 사용하는 방법을 알아봅니다. DBeaver는 개발자 및 데이터베이스 관리자를 위한 오픈 소스 데이터베이스 도구입니다...
2024.07.24