[HBase] Scanner Caching vs Batching

HBase는 데이터베이스 시스템에서의 커서와 유사한 스캔 기능을 제공합니다. 스캔은 HBase에서 순차적이고 정렬된 저장 구조를 활용하는 방식입니다. 스캔을 사용하면 로우 키를 기반으로 하여 여러 데이터를 가져올 수 있습니다. 스캔은 로우 키가 정확히 일치하지 않아도 사용이 가능합니다.

이와 같이 스캔은 여러 데이터를 가져오는데 하나의 로우당 하나의 RPC가 수행됩니다. 매번 하나의 셀을 처리할 때마다 RPC가 발생하면 성능 측면에서 좋지 않습니다. 그렇기 때문에 HBase에서는 한 번의 RPC에 여러 개의 로우를 요청할 수 있는 방법을 제공합니다. 이 기능을 스캐너 캐싱(Scanner caching)이라고 합니다. 이 스캐너 캐싱을 설정하는 방법은 다음과 같습니다.

Scan 클래스에 setCaching 메소드를 통해 설정
Configuration 옵션인 hbase.client.scanner.caching을 통해서 설정(기본값은 Integer.MAX_VALUE)
TableMapReduceUtil.setScannerCaching()을 통해 설정(hbase.client.scanner.caching 값을 설정해주는 역할)

이와 같이 캐싱 기능을 통해서 각 RPC를 통해 반환되는 로우 개수를 사용자가 제어할 수 있습니다. 이 설정은 클라이언트와 서버에서 사용되는 메모리 양이 증가하므로 애플리케이션에 알맞는 효율적인 값을 설정해야 합니다. 이와 같이 로우 개수를 사용자가 지정하는 경우는 next() 함수에서 특정 수 이상의 행이 필요하지 않다는 것을 개발자가 미리 인지하고 있는 경우에 사용합니다.

위에서 설명한 것과 같이 hbase.client.scanner.caching의 기본값은 Integer.MAX_VALUE라고 했습니다. 이 의미는 스캐너가 동작할 때 가능한 캐시를 사용하겠다는 의미입니다. 기본적으로 로우의 크기는 테이블마다 다르기 때문에 특정 로우 수에 의해 제한하는 것이 아니라 네트워크 상에서 hbase.client.scanner.max.result.size에 정의된 청크 크기를 채우게 됩니다. 이와 같이 max size와 cache size가 함께 잘 동작해야지 스캔이 원할하게 이루어집니다. 여기서 hbase.client.scanner.max.result.size는 setMaxResultSize로 설정할 수 있습니다. 이것의 기본값은 2MB입니다.

그리고 setCaching을 통해서 설정하는 값으로 인해 호출 사이의 시간이 hbase.client.scanner.timeout.period이 시간보다 오래걸리게 설정하면 안됩니다. HBase에서는 제한 시간에 도달하면 서버는 그 시점까지 축적된 결과를 반환합니다. 결과 값이 비어 있는 경우도 있는데 검색 시간이 타임아웃 시간보다 오래 걸리는 질의 패턴이 포함된 경우입니다.

스캐너 캐싱 값을 높이면 대부분 성능은 향상시키지만 이 값을 너무 높이면 next() 메소드를 호출할 때마다 클라이언트에서 전송되는 데이터양이 많아지기 때문에 메소드 수행 시간이 길어지고 OOM(OutOfMemoryException)이 발생할 수 있습니다.

스캐너 캐싱의 경우 로우 기반의 요청이라고 했습니다. 그러나 로우가 큰 경우 하나의 청크로 반환되는 결과가 클라이언트 메모리에 맞지 않을 수 있습니다. 이러한 경우 setBatch 메소드를 이용할 수 있습니다. setBatch는 ResultScanner의 next() 메소드가 실행될 때마다 반한되는 컬럼의 개수를 제어할 수 있습니다. 다음 예제를 통해 캐시와 배치 설정으로 결과가 어떻게 달라지는지 살펴보겠습니다. 살펴보는 예제의 테이블은 컬럼패밀리가 2개이고, 로우가 10개, 각 컬럼 패밀리당 컬럼 10개를 갖습니다. 로우당 20개의 컬럼을 갖고 있으며 컬럼에는 버전이 1개여서 총 200개의 컬럼 혹은 셀이 존재합니다.

Caching	Batch	Results	RPCs	설명
1	1	200	201	각 컬럼이 하나의 Result 인스턴스가 됩니다. RPC가 하나 더 있는 이유는 스캔이 완료되었는지 확인하기 위해서입니다.
200	1	200	2	각 컬럼이 하나의 Result 인스턴스가 되지만 이 모두가 한 번의 RPC로 전송됩니다.(스캔 완료를 위한 RPC로 인해 2가 됩니다.)
2	10	20	11	배치는 한 로우가 가진 컬럼의 절반인 10개이고, 200 / 10 = 20이므로 Result는 20개가 필요합니다. 그리고 이를 전송하는데 RPC는 10번이 필요합니다. (마찬가지로 스캔 완료를 위한 RPC가 추가됩니다.)
5	100	10	3	로우의 길이인 20보다 배치 값이 더 크므로, 하나의 로우가 가진 모든 컬럼(20개)이 모두 일괄 처리됩니다. 이 경우 Result는 10개가 필요하고, 캐싱이 5개이므로 RPC는 2번이 필요합니다.
5	20	10	3	위와 동일하게 처리됩니다.
10	10	20	3	배치 설정으로 Result 인스턴스는 10개이고, 캐시 설정이 10이므로 RPC가 를 2번 요청합니다.(마찬가지로 스캔 완료를 위한 RPC가 추가됩니다.)

캐시와 배치가 조합되서 동작하기 때문에 애플리케이션의 성능을 높이기 위해 두 설정의 최적값을 찾아 적용해야 합니다.

[HBase] Scanner Caching vs Batching

References