장윤석/SAS코리아 차장
EDW(Enterprise Data Warehouse)는 기존 DW(Data Warehouse)를 전사적으로 확장한 모델인 동시에 BPR과 CRM, BSC 같은 다양한 분석 애플리케이션들을 위한 원천이 된다. 따라서 EDW를 구축하는 것은 단순히 정보를 빠르게 전달하는 대형 시스템을 도입한다는 의미가 아니라 기업 리소스의 유기적 통합, 다원화된 관리 체계 정비, 데이터의 중복 방지 등을 위해 시스템을 재설계 하는 것으로 이해해야 한다.
데이터 웨어하우징(Data Ware-housing)의 개념은 기간계의 주요 데이터를 주제별로 통합하여 현업 부서의 정보분석 요구를 신속히 충족시키는 시스템을 의미한다. 이를 위해 기업의 정보기반이 되는 인프라를 구축하고 이를 IT부서의 도움 없이 액세스하는 방법을 제공하게 된다. EDW는 이 개념을 기업의 전사적인 영역으로 확장시킨 개념이라고 볼 수 있다.
그렇다면 EDW의 범주를 어디까지 보아야 할까? 기업에서 최근 일반적으로 구성되는 표준 모델의 형태는 <그림>과 같다.
<그림>에서 보면 이전과 같이 전면에 포지셔닝 되는 그림이 아닌 BI(Business Intelligence) 애플리케이션을 위한 데이터 인프라로서의 역할이 강조되는 것을 확인할 수 있다. 이와 같이 EDW란 것은 이전의 DW를 전사적으로 확장하려고 하는 부분에서 생긴 다양한 시스템간의 인터페이스와 데이터 통합, 표준화 등을 중요시한 DW의 확장 모델인 동시에 기업 정보에 관한 프로세스의 표준화와 개선, 즉 BPR적 영역을 포함한다. 또한 CRM, BSC 같은 다양한 분석적 애플리케이션들을 위한 데이터의 원천이 된다.
EDW의 출현 배경
IT시장에 DW의 개념이 나오고 일반화된지 거의 10년이 되어가고 있지만 초기의 정의와 역할과는 다르게 최근 DW의 의미는 거의 분석계 플랫폼의 전체를 지칭하는 명사로 인식되고 있다. 단순히 데이터를 주제별로 통합해 OLAP 시스템을 통한 다차원의 분석을 가능케 하는 초기 정의와는 달리 2000년대 들어서는 정제되고 통합된 데이터를 거의 모든 BI 애플리케이션(ABM, BSC, CRM 등)에게 제공해 주는 데이터 인프라 측면이 강조되었다.
이에 따라 ABM, BSC, 혹은 CRM 프로젝트란 이름 하에 각 시스템의 분석 마트를 설계하는 프로젝트들이 진행되어 왔다. 또한 근래에 들어서는 RTE(Real Time Enterprise), EAI와의 연동을 통한 좀더 기술적, 비즈니스적으로 진보된 플랫폼으로 구축하려는 시도를 보이고 있다.
사실 처음 EDW란 용어가 시장에 나왔을 때 당혹해 하는 사람들도 많았을 것이다. DW 시장 도입 초기단계에서는 시스템 발전에 따른 비용부담의 감소로 인해 이전에 할 수 없었던 대용량의 데이터 분석이 가능해졌고, 이로 인해 기업 내 데이터의 전사적인 인프라 구축과 정보 조회가 가능하다고 소개를 했다.
하지만 이후 단순한 데이터만으로는 사용자의 다양한 구미에 맞는 모든 경우의 주제 모델링이 불가능해지자 각각의 목적에 맞게 데이터 마트를 구축하는 것이 흐름으로 이어져 새로운 DW 구축 프로젝트를 만들어 나가기 시작했다. 그러나 데이터 마트도 기본적으로는 DW를 잘 설계했다면 불필요한 모델이었을 것이다.
그 러나 중요한 것은 각 벤더의 이해가 달린 새로운 개념의 출현이 아니다. 새로운 개념이 출현했다고 해서 꼭 그것을 반영하고 도입해야 할 이유도 없고, 그것이 정답이 될 수도 없기 때문이다. 중요한 것은 각 기업의 상황에 맞는 가장 적절하고 유용한 시스템을 구축하는 것이다. 이는 DW 도입의 초기 단계에서부터 줄곧 주장되어 온 것으로 현재의 상황에서도 적합한 말이다. 단지 그것이 확장되고 진보되었을 뿐이다.
DW가 한 순간의 유행으로 끝나지 이유는 기업의 정보 데이터 인프라를 구축하는 최적의 개념이고 필수적인 요소이기 때문이다.
EDW의 이슈와 과제
각 컨설팅업체와 벤더들 사이에서 EDW에 대한 나름의 이론을 내놓고 있다. 기업 운영 과정에서 생산되는 전체 데이터를 한 통에 남김없이 모두 적재해 데이터의 중복을 방지하고 동기화를 보장해야 한다거나, 여러 종류의 마트 중심으로 데이터를 구축하는 것이 차후의 여러 BI 시스템의 확장에 유연하게 대처할 수 있다는 등 벤더 위주의 정의들을 내리고 있다.
그러나 실제 이상주의적인 개념들과는 달리 현실 세계에서의 EDW 구축에서는 정답이 없다는 것이 필자의 생각이다. 실제로 많은 회사에서 DW를 구축했고, 부서 단위의 분석 마트를 운영하며, 업무의 효율을 높이기 위해 노력하고 있다,
이들 또한 데이터들의 전사적인 관리와 통합이라는 측면에서 EDW 프로젝트를 준비하고 있는 것이 사실이다. 그러나 실제 EDW 프로젝트가 수행된 결과물을 보면, 단지 지금까지 있었던 DW를 크게 만들어 놓은 것과 크게 다르지 않아 보인다. I/O를 확장하고, 모델이 전사 영역으로 확장되고, CRM 등의 프론트 오피스를 하나 얹어 놓는 등의 형태로 구축되는 것이 현재 거의 모든 사이트에서 진행되는 EDW의 형태인 것이다.
물론 전사영역으로 확장하는 것만으로도 충분히 많은 경비와 인력과 노력을 요하는 것은 사실이다. 그러나 과연 이것이 EDW의 전부일까? 물리적으로 데이터를 모아놓는다는 측면에서만 생각하면 이같은 형태를 EDW라고 할 수도 있지만 진정한 기업의 인프라로서의 EDW란 데이터 측면만으로 부족하다.
기업 데이터를 하나의 분석플랫폼에 모아놓으려는 의도는 무엇인가? 모든 데이터의 접근성을 용이하게 하고, 각 데이터의 주제적 연관성을 보장하여 기업이 가진 정보의 가치를 높이는 것이 EDW라 하면 이 작업은 데이터의 수집만이 아닌 프로세스 개선과 POS에서 백오피스, 분석계까지의 모든 데이터 표준화와 동기화를 말하는 것이다.
이를 위해 필요한 것은 몹시 크고 빠른 공룡 같은 새로운 시스템을 도입하는 것이 아니다. 기업들이 모든 리소스들의 아키텍처 개선을 통한 유기적인 통합과 다원화된 관리 체계를 재정비하여 불필요하게 낭비되는 관리비용을 줄이고, 데이터의 중복을 방지할 수 있는 방향으로 시스템을 재설계 하는 것이 EDW의 중요한 초석일 것이다.
EDW의 기술적 문제점 시스템이 빨라지고 가격이 낮아져 대용량의 데이터를 처리할 수 있게 됐다고 하지만 그 속도에 맞추어 분석에 대한 요구도 복잡해지고, 데이터의 수도 크게 늘어난 것이 사실이다. 이에 따라 DW의 초기부터 논의되고 시간이 지나면 해결될 것으로 봤지만 여전히 해결되지 않고 있는 부분이 몇 가지 있다.
우선 추출에서의 Real Time, 즉 실시간 데이터 처리 문제와 인덱스의 발전에도 불구하고 수GB 이상의 테이블 간 결합을 통한 대량의 데이터 분석 문제, DRS 등으로 표현되는 백업과 복구에 관한 문제 등이 그것이다. 특히 EDW에서는 이와 같은 처리의 중요성이 더욱 부각되고 있지만 현재 시장에 나와 있는 기술로는 완벽한 해결책을 제시하지 못하고 있다.
실시간 처리의 대안으로 EAI 또는 DB의 로그를 처리하는 기술이 부각되고 있지만, 이 역시 많은 코딩을 필요로 하고 실시간으로 요약 데이터에 반영해줄 수는 없다. 실제 OLTP를 사용하는 것과 같은 EDW에 변경 분을 반영하는 것은 적어도 향후 5년 정도 뒤에나 가능할 것으로 보인다.
또한 대량의 트랜잭션을 처리하는 기업과 통신사의 콜 데이터나 은행의 트랜잭션들은 발전된 하드웨어의 속도가 무색할 정도로 증가하고 있다. 하루에도 수십 GB씩 쌓이는 이들 데이터를 처리하고 분석하기 위해 파티션 기법, 비트맵 인덱싱들의 기술들이 사용되고 있으나 근본적인 문제의 해법을 제시해 주지 못하고 있다.
한편 백업의 경우에는 각 DB 벤더들이 솔루션을 보유하고 있고, 나름의 복구 방안을 제시하고 있지만 사용이 어렵고 신뢰성도 부족하기 때문에 전체 파일 시스템의 백업 방법을 쓰고 있는 회사가 대부분이다.
EDW 는 그 기술의 근간을 RDBMS에 두고 있다. 이는 분석의 한계 역시 SQL의 영역에 국한됨을 의미한다. 이러한 약점에 따라 이전의 OLTP용 DB를 사용할 경우는 MOLAP을 DW의 부가적인 분석을 제공하는 시스템으로 구축하고 마트를 만들어 왔다.
그 러나 분석 전용 DB의 등장과 ROLAP 툴의 발달로 MOLAP은 서서히 그 효용가치를 잃어가고 있는 상황이다. 그러나 이와 같은 관계형 DB기술의 발달에도 불구하고, 여전히 관계형 DBMS는 사용자의 고차원적인 분석 욕구를 해결해 주지 못하고 있는 것 또한 현실이다.
EDW 시장 동향
근래 들어 전 산업에 걸쳐 고르게 EDW의 수요가 증가하고 있다. 작년 한해 동안 금융권에서는 조흥은행, 우리은행, 국민은행 등이 구축을 완료하거나 현재 진행 중이고 현대카드, 신용보증기금, 대한생명, 농협, 교보생명, 우리증권 등이 올해 신규로 EDW를 준비중이다. 또 제조·유통 쪽에서는 롯데백화점, 신세계 이마트, 제일모직, LG패션 등이 지난해 구축을 완료했거나 현재 진행 중이다.
통신산업에서는 KT가 현재 전사적인 EDW를 진행 중이고, 정보통신부도 각각의 업무 부서별로 여러 건의 DW 프로젝트가 진행 중이거나 신규도입을 준비하고 있다. 이외에도 연세의료원, 건국대 병원 등 많은 종합 병원들이 올해 DW의 도입을 계획하고 있는 상황이다.
근래에 와서 BI 애플리케이션의 수요가 증가하고 있다. 이는 기존의 모델링 방법론의 실패 요인을 줄이는 한편 각 인더스트리의 선진 기술에 프로세스를 맞추어 개발 기간을 단축하고, 많은 부분이 표준화되어 있는 리포지토리를 도입해 업무의 효율을 높이려는 시도라고 볼 수 있다.
그렇다면 높은 비용에도 불구하고 OLAP 툴을 쓰는 이유는 무엇일까? 이는 기존의 OLTP 시스템 개발과 같이 충분히 개발을 할 수 있는 기술이 있음에도 미리 개발되어 있는 컴포넌트들을 사용함으로써 빠른 시간에 프로젝트를 완료하고, 완성도 높은 분석을 제공하기 위함이다.
이러한 BI 애플리케이션들이 아무리 좋은 선진 프로세스와 첨단 기능을 제공한다할 지라도 기존 분석의 근간이 되는 데이터가 부족하고 데이터의 신뢰성이 없다면 또 하나의 유행에 의한 시스템이 될 뿐이다.
이러한 문제의식은 기반 데이터의 통합과 정제라는 기본에서 출발해야 하는 공통의 인식을 가지게 하였고, 거의 모든 기업에서 EDW는 필수적인 정보인프라로 자리매김하게 된 것이다.
또한 기존에 EDW를 구축한 기업에서는 고도화를 통해 새로운 활용처를 모색하게 되었고, 보다 고급화되고 정밀한 분석을 위해 즉시성의 데이터 요구가 생기게 되었다.
이 를 위해 기존의 일 배치나 월 배치의 형태에서 벗어나 데이터의 업데이트 주기를 최소화하는 Near Real Time 처리 방법에 대한 논의가 활발하게 이루어지고 있으며 기존의 DW, OLAP의 분석으로 만족할 수 없었던 집단(마케팅이나 정보분석실과 같은 부서)을 위해 IT의 주도 하에 이루어지던 주제 영역의 모델링, 데이터 조작 등의 작업 주도권과 사용권한을 사용자에게 줄 수 있는 고급분석 시스템에 대한 요구가 증가하고 있다.