Data pipeline/Embulk
-
embulk plugin에서 embulk-output-bigquery부분에서 아래와 같은 오류가 날 때 해결 방법에 대해서 적어 봤습니다. Incompatible table partitioning specification when copying to the column partitioned table 위의 오류는 mysql -> big query로 갈 때 big query 쪽에 이미 partition이 되어 있는 경우 발생하였습니다. 상황에 따라서 다양하게 발생하는 것으로 보이는데 저의 경우 위의 상황으로 발생하였습니다. 관련해서 embulk plugin 쪽에 내용을 보면 다음과 같이 표기되어 있습니다. 아래의 내용은 mode에서 replace를 사용할 때 관련된 내용인 거 같은데, 사실 해결 방법과 별..
Incompatible table partitioning specification when copying to the column partitioned tableembulk plugin에서 embulk-output-bigquery부분에서 아래와 같은 오류가 날 때 해결 방법에 대해서 적어 봤습니다. Incompatible table partitioning specification when copying to the column partitioned table 위의 오류는 mysql -> big query로 갈 때 big query 쪽에 이미 partition이 되어 있는 경우 발생하였습니다. 상황에 따라서 다양하게 발생하는 것으로 보이는데 저의 경우 위의 상황으로 발생하였습니다. 관련해서 embulk plugin 쪽에 내용을 보면 다음과 같이 표기되어 있습니다. 아래의 내용은 mode에서 replace를 사용할 때 관련된 내용인 거 같은데, 사실 해결 방법과 별..
2019.10.28 -
환경 - OS : Mac OS - Input : mysql (AWS) - Output : big query (GCP) 오류 내용 org.embulk.exec.PartialExecutionException: java.lang.RuntimeException: java.sql.SQLException: The server time zone value 'KST' is unrecognized or represents more than one time zone. You must configure either the server or JDBC driver (via the serverTimezone configuration property) to use a more specifc time zone value if you..
embulk Error (server Timezone)환경 - OS : Mac OS - Input : mysql (AWS) - Output : big query (GCP) 오류 내용 org.embulk.exec.PartialExecutionException: java.lang.RuntimeException: java.sql.SQLException: The server time zone value 'KST' is unrecognized or represents more than one time zone. You must configure either the server or JDBC driver (via the serverTimezone configuration property) to use a more specifc time zone value if you..
2019.10.25 -
이 테스트 시나리오는 sql-server to sql-server입니다. 다른 시나리오와 맞지 않을 수 있으니 꼭 참고 부탁 드립니다. Ⅰ. Embulk 프로세스 1. Embulk를 실행 시 적용된 쿼리를 읽어서 하나의 Transaction으로 만듭니다.2. 생성 된 Transaction을 각각의 task로 쪼개는 작업을 합니다.이때 테이블이 Thread 개수에 맞게 생성되는 것을 볼 수 있습니다.3. 해당 Thread 개수 만큼의 테이블을 생성하여, 각각 테이블에 parallel 처리로 데이터를 Insert 시킵니다.4. Temp Table에 데이터를 모두 넣으면 이것을 모두 Union 하여, 최종 목적지 테이블에 insert into 시킵니다. 위에 프로세스를 보면 CPU 성능이 매우 중요합니다. 그..
Embulk 테스트 하면서 정리 한 글이 테스트 시나리오는 sql-server to sql-server입니다. 다른 시나리오와 맞지 않을 수 있으니 꼭 참고 부탁 드립니다. Ⅰ. Embulk 프로세스 1. Embulk를 실행 시 적용된 쿼리를 읽어서 하나의 Transaction으로 만듭니다.2. 생성 된 Transaction을 각각의 task로 쪼개는 작업을 합니다.이때 테이블이 Thread 개수에 맞게 생성되는 것을 볼 수 있습니다.3. 해당 Thread 개수 만큼의 테이블을 생성하여, 각각 테이블에 parallel 처리로 데이터를 Insert 시킵니다.4. Temp Table에 데이터를 모두 넣으면 이것을 모두 Union 하여, 최종 목적지 테이블에 insert into 시킵니다. 위에 프로세스를 보면 CPU 성능이 매우 중요합니다. 그..
2019.03.13 -
Embulk를 요즘 ETL 툴로 많이 사용하고 있는데, 계속 설치하다가 오류가 나서, 여기저기 찾아보았으나 안되서 삽질 하루종일 하다가 참 쉽게(?) 방법을 알아내서 글을 올립니다. 환경은 다음과 같이 구축하려고 하였습니다. - Embulk를 Windows Server에 설치하여, 사용하고자 함 보통 Embulk는 Linux에서 사용하는 것으로 알고 있습니다. ( Plugin 이 호환이 안되는 경우가 많다고...)하지만 이미 Windows Server에 구축이 되어있는 상황이므로 어쩔수 없이 써야 할 경우였기 때문에 Windows Server에 설치를 시도하였습니다. 그런데, 다음과 같은 오류가 발생 합니다. 인터넷에 찾아보았으나, 역시 해결되지 않았습니다. 그래서 다음과 같이 설치하였습니다. Step ..
Embulk windows 설치 오류Embulk를 요즘 ETL 툴로 많이 사용하고 있는데, 계속 설치하다가 오류가 나서, 여기저기 찾아보았으나 안되서 삽질 하루종일 하다가 참 쉽게(?) 방법을 알아내서 글을 올립니다. 환경은 다음과 같이 구축하려고 하였습니다. - Embulk를 Windows Server에 설치하여, 사용하고자 함 보통 Embulk는 Linux에서 사용하는 것으로 알고 있습니다. ( Plugin 이 호환이 안되는 경우가 많다고...)하지만 이미 Windows Server에 구축이 되어있는 상황이므로 어쩔수 없이 써야 할 경우였기 때문에 Windows Server에 설치를 시도하였습니다. 그런데, 다음과 같은 오류가 발생 합니다. 인터넷에 찾아보았으나, 역시 해결되지 않았습니다. 그래서 다음과 같이 설치하였습니다. Step ..
2018.07.25