'BigQuery' 태그의 글 목록

[BigQuery] Error: 80324028 발생 시 해결

BigQuery에서 가끔씩 Error: 80324028이 발생하면서 실행이 실패하는 경우가 있습니다. 이러한 현상을 구글링 해봤으나 별다른 성과가 없었으며, Slack overflow에서만 몇몇 답글이 달렸지만 해결방법은 없고 대부분이 "아마도 그럴 것이다?"라는 추측이었습니다. 무슨 작업을 했을 때 발생 하였는가? 그래서 몇 가지 의심 가는 정황을 포착해서 여러 가지 테스트를 해보았는데, 현재는 발생하지 않고 있습니다. 제가 하려던 작업은 ETL 작업이었고 Python Operator를 이용해서 작업을 부르고 그 안쪽에 BigQuery의 Query를 수행하는 작업이 몇 개 있었습니다. 대략 이러한 작업이었습니다. 이러한 여러 번의 Query를 수행하는 작업이 순차적으로 수행됩니다. drop_query ..

format_list_bulleted GCP/BigQuery
· 2023. 1. 16.
textsms

[BigQuery] Json 파일 Import 오류

안녕하세요. Python으로 BigQuery에 Json 형태의 데이터를 Import 하려고 할 때 다음과 같은 오류가 발생하여 계속해서 삽질을 하다가 원인을 찾고 해결하여 이러한 삽질을 방지하기 위해서 글을 올립니다. 1. 무엇을 하려고 하였나? RDB에 있는 데이터를 Json 형태로 Local에 다운로드 다운로드 한 Json 파일을 GCS로 업로드 GCS에 있는 Json 파일을 BigQuery에 Import 3번에서 에러가 발생하였습니다. 에러 내용은 python과 BigQuery web UI에서 테이블 생성 기능으로 2가지 상황에서 각각 다르게 발생하였습니다. 2. Error 내용 1. python에서 발생하는 Error google.api_core.exceptions.BadRequest: 400 E..

format_list_bulleted GCP/BigQuery
· 2022. 7. 12.
textsms

[BigQuery] 운영 2탄 / Query 사용량 관리하기

안녕하세요. 지난번의 BigQuery 운영 1탄 편이었던 불필요한 Dataset 삭제 이후에 2탄 BigQuery 사용량 관리에 대해서 글을 작성하였습니다. 어찌 보면 이 글이 1탄보다 훨씬 더 유용할 것으로 보입니다. Query 사용량의 경우 비용과 직결되는 부분이며, 데이터셋의 저장비용 보다 훨씬 많은 비용이 발생합니다. ( BigQuery 가격 ) Query를 어떻게 실행 하느냐에 따라서 엄청난 비용을 절약할 수 있고 이러한 모니터링을 만들어두면 여러모로 도움이 많이 됩니다. 사용자들에게 무작정 데이터를 많이 쓰지 못하게 하는 것보다는 효율적으로 만드는 방법을 알려줌으로써 모두가 데이터에 손쉽게 접근하고 손쉽게 사용하게 하는 것을 목적으로 하였기에 누구나 접근이 가능한 구조이므로, 데이터를 잘 모르..

format_list_bulleted GCP/BigQuery
· 2022. 1. 14.
textsms

BigQuery - clustering 이야기

안녕하세요. 오랜만에 글을 쓰는 것 같습니다. 연말이라서 대외적으로 여러 가지 약속도 많고 일이 있어서 글을 못 쓴 것 같습니다. 써야 할 글은 많은데, 그러지 못한 거 같습니다. 다시 열심히 써야 할 것 같습니다. 오늘 소개 할 내용은 BigQuery의 클러스터링입니다. 이걸 처음 알았을 때 정말로 신선하고 너무 좋은 기능이라고 생각해서 나름대로 공부를 해서 이렇게 글을 올립니다. 클러스터링은 제가 공부하면서 개인적으로 생각하기에 RDB의 인덱스와 비슷한 것 같습니다. 어디까지나 개인적인 생각이지만 데이터를 정렬해서 가져오는 방법이나 클러스터링의 순서에 따라서 사용 여부가 결정되는 것을 보면 인덱스의 성질과 정말 비슷해 보입니다. RDB에서도 복합 인덱스를 생성할때 순서에 따라서 인덱스를 Seek 할지..

format_list_bulleted GCP/BigQuery
· 2022. 1. 4.
textsms

BigQuery - 운영 1탄 / 불필요한 dataset 삭제

안녕하세요. 제가 아무래도 DBA로 시작해서 그런지 자연스럽게 성향이 운영을 당연시합니다. 모니터링을 데이터를 기반으로 비용 절감과 고효율을 만들기 위해서 여러 가지 방법으로 고민을 합니다. 최근 트랜드에서 아쉬운 부분이 있다면, 많은 회사들은 개발을 빠르게 하기에 초점을 맞추다 보니 운영을 뒷전인 경우가 굉장히 많은 것 같습니다. 운영을 신경 쓰지 않으면 결국 시스템은 터지기 마련입니다. 그렇기에 이번에는 BigQuery에서 몇 가지 운영 관련한 내용을 정리하여 글을 쓰고자 합니다. 1. Dataset 왜 지우려고 하는가? BigQuery는 Dataset의 저장 비용이 매우 저렴합니다. 제가 생각하기에 BigQuery의 비용은 저장비용보다는 검색(SELECT)비용이 대부분이라고 봅니다. 다음의 내용을 ..

format_list_bulleted GCP/BigQuery
· 2021. 11. 10.
textsms

데이터 파이프라인 제작기 - 반정형 데이터편 (JSON)

안녕하세요. 이 내용을 쓸지 말지 정말 고민을 많이 했습니다. 예전에 링크드인에 관련하여 포트폴리오 형식으로 PPT를 만들어서 올렸는데요. 조회수가 3만에 육박하여 굉장히 많은 분들이 관심을 가져 주셨습니다. 그래서 매번 써야지 써야지 했는데 내용이 워낙 길어서 고민을 많이 했습니다. 간단하게 쓸 수 없었습니다... 1.0 개발 - 2개월 2.0 개발 - 2개월 3.0 개발 - 2개월 이렇게 총 3번의 버전 업데이트를 하였습니다. 처음에는 데이터를 볼 수 없어서 분석을 하지 못하였는데, BigQuery로 넣는 작업부터 시작하여... 재사용성을 고려하여 코드를 리팩토링 하였고, 마지막으로 multi thread를 적용하였습니다. 코딩을 2019년에 처음 시작하여, 지금의 회사에서 팀장님과 팀원들에게 많이 ..

format_list_bulleted Data pipeline/ETL
· 2021. 10. 26.
textsms

BigQuery - 테이블에서 스키마 추출

BigQuery의 다수의 테이블의 스키마를 Json으로 봐야 하는 작업이 있어서 한 땀 한 땀 열심히 만다가 문득 스키마를 추출해서 파일로 저장할 수 없을까?라는 생각이 들어서 찾아봤습니다. 🙋‍♂️ 들어가며 일단 해당 기능을 사용하기 위해서는 bq가 있어야 합니다. bq 설치는 아래를 참고해 주세요. 👇👇👇👇 https://cloud.google.com/bigquery/docs/bq-command-line-tool?hl=ko bq 명령줄 도구 사용 | BigQuery | Google Cloud 의견 보내기 bq 명령줄 도구 사용 bq 명령줄 도구는 BigQuery용 Python 기반 명령줄 도구입니다. 이 페이지에는 bq 명령줄 도구 사용에 대한 일반적인 정보가 포함되어 있습니다. 모든 bq 명령어 및..

format_list_bulleted GCP/BigQuery
· 2021. 9. 28.
textsms

BigQuery - JSON 컬럼 파싱하기

안녕하세요. BigQuery를 사용하다 보면 자주 접하는 Column이 있습니다. 바로 JSON으로 만들어진 Column입니다. 데이터의 형태가 계속해서 변하거나 항목들이 가변적으로 들어오는 경우 JSON 형태로 데이터를 넣어서 데이터를 적재하는 경우가 많습니다. 데이터를 JSON으로 저장할 경우 파싱 해서 데이터를 꺼내서 써야 하는 경우가 많은데요. 이러한 기능을 지원하는 함수를 소개하고자 합니다. 저도 이번에 처음으로 써봐서 아주 신기해서 글을 정리하려고 합니다. 💁‍♂️ 들어가며 ... 들어가기 앞서 여러 종류의 JSON 파싱 함수를 이 페이지에서 볼 수 있습니다. https://cloud.google.com/bigquery/docs/reference/standard-sql/json_function..

format_list_bulleted GCP/BigQuery
· 2021. 8. 10.
textsms

BigQuery 성능/비용 팁

BigQuery는 Google에서도 강조하듯이 저장 비용이 매우 저렴합니다. BigQuery 가격 책정 확인 👇 https://cloud.google.com/bigquery/pricing.html?hl=ko#storage 가격 책정 | BigQuery | Google Cloud BigQuery 가격 책정 개요 BigQuery는 서버리스 데이터 분석 플랫폼입니다. BigQuery를 사용하기 위해 개별 인스턴스 또는 가상 머신을 프로비저닝할 필요가 없습니다. 대신 BigQuery는 필요에 따라 컴퓨팅 cloud.google.com 하지만 여기서 문제는 BigQuery의 검색(SELECT) 비용입니다. 저장소의 비용은 저렴하지만 SELECT의 경우 빈번하게 일어나기 때문에 이를 무분별하게 사용하면 자칫 많은 ..

format_list_bulleted GCP/BigQuery
· 2021. 6. 11.
textsms

Python에서 BigQuery Query 실행 시 오류

안녕하세요. Python을 통해서 BigQuery에 Query를 실행하여 결과 값을 이용하려고 할 때 오류가 발생하였습니다. 무슨 코드를 날렸지? query_job = self.bigquery.query( f""" SELECT col1,col2,col3 FROM table WHERE date = {self.date} """ ) results = query_job.result() cs 위와 같이 매우 단순한 코드를 만들었습니다. Query를 BigQuery에 날려서 결과값을 가져와서 저장하고 이를 활용하고자 하였습니다. 오류 내용 google.api_core.exceptions.BadRequest: 400 No matching signature for operator = for argument types:..

format_list_bulleted GCP/BigQuery
· 2021. 6. 4.
textsms

superset BigQuery 데이터베이스 추가

superset은 무료로 쓸 수 있는 강력한 BI 도구입니다. 이번 글에서는 superset에서 BigQuery의 데이터를 읽어서 쓸 수 있도록 BigQuery를 연결하는 방법을 설명하고자 합니다. superset의 버전은 1.1.0 버전으로 2021.05.18 기준으로 최신으로 설치하였습니다. superset의 가장 상단에 메뉴에 data 부분에 Databases를 클릭하면 다음과 같이 나옵니다. 우측 상단에 + DATABASE 버튼을 클릭하면 새로운 DATABASE를 추가할 수 있습니다. 다른 옵션은 크게 채우지 않고 최소한의 옵션으로 BigQuery를 연결하도록 하겠습니다. DATABASE NAME* : 사용할 DATABASE 명 SQLALCHEMY URL* : URL은 연결할 BigQuery 주소..

format_list_bulleted BI/Superset
· 2021. 5. 18.
textsms

geojson 파일을 bigquery 적재 (geography 활용)

여러 가지 형태의 데이터를 bigquery에 넣어서 볼 수 있습니다. 이번 포스트에서는 그중에 하나인 geojson을 bigquery에 업로드하는 방법을 정리하였습니다. 이미 몇몇 블로그에서 geojson 적재하는 방법을 소개하고 있는데요. 안 되는 부분이 많아서 제가 직접 정리하였습니다. 사용된 환경은 MAC입니다. 또한 추가적으로 Python3가 필요합니다. 우선 geojson을 다운로드합니다. ( geojson 샘플 다운로드 ) 아래와 같이 지정하고 Save 부분을 누르면 geojson으로 다운로드 가능합니다. 다운로드한 파일을 bigquery에 넣을 수 있도록 줄 바꿈 형태의 JSON 파일로 만들어야 합니다. 저 같은 경우 jq를 사용하였습니다. 1 brew install jq cs 간단하게 다운..

format_list_bulleted GCP/BigQuery
· 2020. 10. 6.
textsms

How to save big query cost

Hello. Many people seem to know the part of optimizing cost and performance by fetching data without reading unnecessary parts in big queries using partition columns. There are many advantages to using partitioned columns as above, but there may be cases where you cannot. If there are several date columns in the table, the case where the date column to be used is not partitioned is as follows. B..

format_list_bulleted GCP/운영관련 개발
· 2020. 9. 29.
textsms

big query 비용을 줄이기 위한 전략

안녕하세요. big query에서 파티션 컬럼을 사용하여 불필요한 부분을 읽지 않고 데이터를 가져옴으로써 비용과 성능을 최적화하는 부분은 많은 분들이 알고 계실 듯합니다. 위와 같이 파티션 컬럼을 이용할 경우 많은 이점을 가질 수 있지만 그렇게 하지 못하는 경우가 존재할 수 있습니다. 만약에 테이블에 날짜 컬럼이 여러 가지인데, 사용하고자 하는 날짜 컬럼이 파티션 되지 않은 경우가 다음과 같은 경우입니다. big query에서는 일반 RDB처럼 여러 개의 인덱스(파티션 칼럼)를 제공하지 않습니다. 그렇기 때문에 1개의 파티션 칼럼을 통해서 성능을 향상해야 하는데요. 이 경우 매우 난감한 상황이 발생합니다. 기준으로 하는 날짜 컬럼으로 값을 가져올 경우 데이터가 맞지 않는데 성능, 비용 때문에 이를 써야 ..

format_list_bulleted GCP/BigQuery
· 2020. 3. 4.
textsms

big query(빅쿼리)에서 멱등성을 위한 전략

멱등성이란 DW에서 데이터를 적재 할때 자주 사용 합니다. DW에서 이따금씩 재처리를 하는 경우 기존의 잘못된 데이터를 지우고 재적재 해야 합니다. 그렇지 않으면 데이터의 중복이 발생하여 데이터가 이상하게 증가하거나 결과값이 이상하게 나올 수 있습니다. 그런데 big query에서 제가 겪은 상황에서 멱등성을 고려 하여 프로세스를 구성하였다가 큰 낭패를 본적이 있습니다. 상황은 다음과 같습니다. bucket에 JSON 형태로 쌓이는 데이터가 있습니다. 데이터는 YYYY/MM/DD 형태로 쌓이고 있습니다. 그런데 데이터를 적재할때 2020/02/26 폴더의 데이터에 서버에서 조금씩 지연되서 들어오는 경우 2020-02-27의 데이터가 들어오는 경우가 있습니다. (한개의 파일에 다른 날짜의 데이터가 들어옴)..

format_list_bulleted GCP/BigQuery
· 2020. 2. 26.
textsms