본문 바로가기

IT신제품정보/BI_KMS

ETT의 정의

ETT의 정의

ETT는 데이터의 추출(Extraction), 가공(Transformation), 전송(Transportation)의 약자이다. 여기에 데이터를 소스 시스템에서 추출하여 데이터웨어하우스에 로드시켜 정제작업까지 이르는 것을 포함하는 과정을 의미한다. 즉, 원시데이터를 획득, 데이터를 변환, 데이터의 정제 그리고 목표 시스템 (데이터웨어하우스)으로 전송, 관리 및 스케줄링 하는 것이다.



데이터의 추출 (Extraction)

데이터웨어하우스는 과거 수년간의 데이터를 보관해야 하며 시스템을 가동하면 주기적으로 소스 시스템에서 데이터가 넘어오게 된다.

초기 데이터는 대개의 경우 수 년간의 많은 데이터이기 때문에 일괄 작업을 통해 데이터웨어하우스 로 로딩하며 주로 오프라인 방식을 선택하게 된다.
주기적인 데이터는 초기 데이터가 구축되고 시스템이 가동하기 시작하면 일 단위 또는 월 단위로 소스 시스템에서 데이터웨어하우스로 넘어 오는 데이터이다. 데이터의 양이 많을 경우는 주로 오프라인 방식으로 처리하며, 데이터의 양이 많지 않다면 주로 온라인 방식으로 처리한다.
또는 특정 조건을 만족시키는 레코드만 추출하고 특정한 필드만을 로딩할 수 있도록 하는 기반인 툴을 사용하는 방법도 있다.


데이터의 변환 (Transformation)

데이터웨어하우스의 사실 테이블은 특정한 포맷으로 되어 있고 여러 개의 소스 시스템의 테이블이 조인되어지는 경우가 많으며 소스 코드가 일치하지 않을 수도 있기 때문에 소스 시스템에서 추출한 데이터는 그대로 사용할 수 없다. 따라서 소스 데이터는 수많은 변환 과정을 거쳐야 하는 것이다. EBCDIC를 ASCII 코드로 변환하여야 하며 숫자 및 문자에 대한 유효성을 검사(validation)하여 그 결과를 logging하고 실제 데이터를 다시 정제하는(cleansing) 재작업을 반복해야 한다. · 데이터의 정제

소스 데이터의 수많은 변환 과정 및 사용자 환경에 맞는 여러가지 방식이 혼합된 ETT 구축으로 인해 수많은 오류 (운영계 시스템 데이터 자체의 오류, 입력시 오류, 프로그램 자체의 오류 등)가 존재할 수 있으므로 데이터의 정확도는 천차만별이라 할 수 있다. 따라서 이러한 데이터웨어하우스로 올리게 되는 운영계 데이터의 오류를 발견해내고 수정하는 단계를 데이터 정제작업(data cleansing)이라고 한다.


데이터의 전송 (Transportation)

데이터웨어하우스를 위한 데이터마트 형태의 새로운 테이블에 다차원 형태의 분석이 용이하도록 모델링하여 적재된다. 전송 방법에는 소스 시스템에서 데이터를 SAM 화일로 만들어서 데이터웨어하우스로 보내는 오프라인 방식과 소스 시스템의 DB와 데이터웨어하우스 DB를 오픈 게이트웨이나 분산옵션을 통해 DB내에 있는 데이터를 직접 로딩하는 방식인 온라인 방식, 운영계 시스템(OLTP) 내에 사용자 로그 화일을 만들어 데이터웨어하우스 서버가 이 로그 파일을 주기적으로 체크하여 테이터웨어하우스로 가져오는 방식인 semi-온라인 방식이 있다.

ETT도입시 필수적으로 고려하여야 할 요소는 각 소스 시스템을 분석 설계하여 궁극적으로는 일련의 ETT 과정이 자동화되어, 필요한 시점에 원하는 데이터를 적절한 시간 내에 가져올 수 있어야 하고 시스템 운영시 유기적으로 데이터가 정확히 반영되어 원하는 성능과 데이터의 무결성이 보장되도록 설계되어야 한다.