'분류 전체보기' 카테고리의 글 목록 (2 Page)

2024.04.15· Hadoop Eco

모든 복제과정은 사전에 source클러스터에 존재하는 테이블과 동일한 테이블을 target에 만들어 놓고 데이터 복제를 수행했다. 1번 kudu table copy의 경우 kudu테이블 생성 옵션이 있긴 하지만 결국 impala를 통해 테이블을 사용하기 때문에 impala에서 테이블 생성해놓고 진행했다. 1. kudu table copy cli kudu command 보안(kerberos) 클러스터의 경우 kudu 서비스 keytab 또는 권한 가지는 유저로 kinit 필요 kerberos 없을 경우 sudo -u kudu 이용 kudu table copy 옵션 참조: https://kudu.apache.org/docs/command_line_tools_reference.html#table-copy Ap..

Redhat8 swappiness 설정 이슈

2024.04.05· Linux

Cloudera에서는 클러스터 성능을 위해 swap을 최소로 사용하도록 설정할 것을 권고한다. https://docs.cloudera.com/cdp-private-cloud-base/7.1.7/managing-clusters/topics/cm-setting-vmswappiness-linux-kernel-parameter.html Redhat7에서는 sysctl.conf에 vm.swappiness 설정을 추가하는 것으로 문제가 없지만 Redhat8 일부 버전에서 sysctl.conf의 vm.swappiness설정이 전체 프로세스로 적용이 안되는 현상. 관련 링크(https://access.redhat.com/solutions/6785021) 확인 방법 예시 1. 현재 os 설정값 1 확인 $ sysctl ..

Hive Metastore에서 테이블 리스트 추출

2024.04.05· Hadoop Eco

metastore 가 mariadb로 설치된 상태 1. db_name, tbl_name 형태로 추출하기 select name AS db_name,tbl_name FROM TBLS INNER JOIN DBS ON TBLS.DB_ID = DBS.DB_ID WHERE DBS.name='default' 1) 테이블 리스트 추출해서 msck repair 하는 쿼리로 mysql -u${user} -p${password} metastore -N -e "select concat('msck repair table ', DBS.name,'.',TBLS.tbl_name,' drop partitions;') FROM TBLS INNER JOIN DBS ON TBLS.DB_ID = DBS.DB_ID WHERE DBS.name=..

impala 통계 정보

2024.04.01· Hadoop Eco

impala는 테이블 사이즈가 큰지 작은지, distinct 값들이 많은지 적은지 등에 대한 정보가 있다면 join 쿼리나 insert 작업을 적절하게 구조화하고 병렬화할 수 있다. 1. COMPUTE STATS COMPUTE STATS [db_name.]table_name [ ( column_list ) ] -- column_list 여러개면 ,로 구분 1) compute incremental stats COMPUTE INCREMENTAL STATS [db_name.]table_name [PARTITION (partition_spec)] incremental 만 partition지정 가능하다 compute stats와 compute incremental stats를 한 테이블에 같이 사용하지 않는다. ..

티스토리툴바