시맨틱웹이란

software 2007. 8. 6. 11:18
출처 : http://www.kosen21.org/pls/kosendev/menu.home_index?vc_url=
/pls/kosendev/WEBZINE_CLIENT.contents_view?n_webzine_seq=
61%26n_board_seq=646%26n_data_seq=1032%26n_total=4

성원경
 한국과학기술정보연구원

[시맨틱 웹 기술과 응용 시스템]

시맨틱 웹에 대한 Tim Berners-Lee의 정의는 시맨틱 웹을 “확장된 현재의 웹(an extension of the current web)”으로 명시하였다. 그러나 시맨틱 웹은 이미 웹의 범위를 넘어, 정보서비스 분야와 같은 여타 분야에서도 정보 접근성(information accessibility) 향상을 위한 기술로서 폭넓게 응용되고 있다. 이는 시맨틱 웹의 구현을 위한 요소 기술들이 “시맨틱 웹 기술”이라는 하나의 독자적인 기술 영역으로 확장되었으며, 현재 웹의 확장으로서의 시맨틱 웹은 결과적으로 정보서비스 분야와 마찬가지로 “시맨틱 웹 기술”의 한 응용 영역이 되었음을 의미한다고 말할 수 있을 것이다.

시맨틱 웹 응용 시스템에서 시맨틱 웹 기술은 다음의 영역들에서 중요한 역할을 한다.

- 콘텐츠 부문
시맨틱 웹 응용 시스템에서 콘텐츠는 매우 중요한 위치를 점한다. 이는 시맨틱 웹 기술이 전술한 바와 같이 메타데이터에 기반하기 때문이다. 시맨틱 웹 기술에서의 콘텐츠는 정보 자원을 모델링하기 위한 OWL 온톨로지와 이에 기초하여 RDF 트리플 형태로 만들어진 정보 자원에 대한 메타데이터들로 구성된다. 여기서 한 가지 지적해야 할 것은 OWL이 유일한 온톨로지 표현 언어가 아니라는 것이다. 온톨로지는 오래 전부터 인공지능 분야의 주요 연구 대상이었으며 그 결과 KIF/S CL, OKBC, F-Logic, LOOM 및 UML 등과 같은 다양한 표현 체계가 사용되어 왔었다. 그러나 적어도 시맨틱 웹 기술 분야에서는 OWL이 표준 온톨로지 표현 언어로 지정되었으므로 시스템 및 콘텐츠 부문의 호환성과 상호운용성(interoperability)을 고려한다면 OWL의 사용은 필수적이라고 할 수 있다.

- 지원 도구 부문
지원 도구는 시맨틱 웹 응용 시스템의 개발을 지원하기 위한 것으로서 대표적인 지원도구로는 온톨로지 편집기인 Protégé(http://protege.stanford.edu/)와 시맨틱 정보 주석(semantic annotation) 도구인 Amaya(http://www.w3.org/Amaya/)가 있다. Protégé는 맨체스터 대학과 협력하여 스탠포드 대학에서 2007년 현재 버전 3.3 베타까지 개발되었으며 RDF, RDFS 및 OWL을 지원한다. 또한 Protégé의 기능 확장을 위해 함께 사용될 수 있는 87개의 다양한 플러그 인(plug-in)이 현재 제공되고 있다.
한편 W3C에서 개발된 Amaya는, html 문서 편집 기능뿐만 아니라 html 문서 내의 정보 개체에 시맨틱 정보를 부착할 수 있는 주석 기능도 갖추고 있어서, 시맨틱 웹 환경에 게시될 수 있는 웹 문서의 제작을 지원하는 도구로서 활용될 수 있다.
온톨로지 편집기나 시맨틱 주석 도구와 함께 언급될 만한 또 다른 지원 도구로는 URI 관리기를 들 수 있다. URI는 정보 자원의 정의와 식별을 위해 일종의 식별자(identifier)로 부여되는 것으로서, 동일 대상을 지칭하는 다양한 형태의 정보 자원들에게는 동일한 URI가 부여되어야 하며, 반대로 동일한 형태의 정보 자원들이라도 다른 대상을 지칭한다면 별개의 URI가 부여되어야 한다. 이는 같은 이름을 가져도 다른 사람이라면 다른 주민등록번호가 부여되는 것과 마찬가지 이치이다. 따라서 URI의 일관성 유지는 정보 자원들 간의 통합•연계 및 추론 과정의 일관성 확보를 위해 반드시 필요한 것이라 할 수 있다. 그러나 이와 같은 중요성에도 불구하고, 현재까지 URI의 일관성 유지에 대한 연구는 소수에 그치고 있으며 구현된 도구도 한국과학기술정보연구원(KISTI)의 OntoURI가 유일한 실정이다. 이는 아마도 시맨틱 웹 기술에 대한 연구가 온톨로지와 추론에 집중되고 있기 때문일 것이나 현실적인 시맨틱 웹 응용 시스템의 개발을 위해서는 반드시 다루어져야 할 사항이다.

- 엔진 부문
엔진 부문에는 시맨틱 웹 응용 시스템의 실행을 위해 필요한 소프트웨어들이 포함되며 OWL 추론 엔진이 그 대표적인 예이다. OWL 추론 엔진은 OWL 온톨로지와 대용량의 RDF 인스턴스 데이터를 저장하는 기능과 함께 추론 메커니즘을 따라 저장된 정보에 대한 질의 및 탐색을 고속으로 처리하는 기능을 수행한다.
OWL 추론 엔진은 추론 방식에 따라 “DL 기반 엔진”과 “규칙 기반 엔진”으로 구분된다. DL 기반 엔진은 tableaux 알고리듬을 사용하여 추론을 하며 RacerPro, FaCT, Pellet 등이 대표적이다. 반면 규칙 기반 엔진들은 FOL(First-order Logics), F-Logic, Production Rule 등으로 기술된 메타 추론 규칙을 사용하여 추론을 수행하는 것으로서 Jena, Bossam, JTP, XSB 등이 그 예에 속한다. 추론 엔진은 그 기능상 시맨틱 웹 응용 시스템의 성능을 좌우하는 핵심 엔진이다. 그러나 아직까지는 대개의 상용/비상용 추론 엔진들의 처리 대상 데이터의 규모가 작고 느린 응답 속도가 문제점으로 지적되고 있어 추가적인 개선이 필요한 실정이다.

- 표준 부문
시맨틱 웹 기술과 관련된 표준은 크게 수평적 표준(horizontal standard)와 수직적 표준(vertical standard)으로 구분된다. 수평적 표준은 시맨틱 웹 기술 일반 표준으로서 W3C의 RDF, RDFS 및 OWL에 대한 표준이 그 예이다. 현재까지의 시맨틱 웹의 수평적 표준들에는 온톨로지와 그 인스턴스들인 RDF 트리플들을 “어떻게 표현하는가?”에 대한 규정만이 언급되고 있으며 “어떤 방법으로 구축하며, 어떻게 적용하는가?”에 대한 규정은 존재하지 않는다. 그러나 구축 방법과 관련하여서는, 표준화된 것은 아니지만, CYC 방법론, KACTUS 방법론 등 다양한 방법론 등이 사용되고 있으며, 적용 방안 역시, 많은 관련 연구들이 진행 중이므로 추가적인 표준안이 마련될 수 있을 것으로 기대한다.
수평적 표준에 대비되는 수직적 표준은 특정한 분야의 특정 목적을 위해 제정된 것들로서, 시맨틱 웹 기술과 관련된 주요 수직적 표준들로는 저작물의 메타데이터 표현을 위한 DC(Dublin Core), 블로그와 같이 갱신이 잦은 디지털 콘텐츠의 배포를 위한 RSS(Really Simple Syndication) 그리고 세계 표준은 아니지만 의료 분야의 용어 표준화 및 통제를 위하여 사실상 의료 분야의 표준으로 활용되고 있는 UMLS(Unified Medical Language System) 등이 있다.

[시맨틱 웹 기술의 응용 분야]

다음 그림은 현재 시맨틱 웹 기술이 활용되고 있거나 활용이 가능한 다양한 응용 분야를 예시한다.



위의 응용 분야들에서의 시맨틱 웹 기술의 활용 범위는 크게 “시맨틱 정보 주석”, “온톨로지 기반의 통합” 및 “추론”으로 구분된다. 이 가운데서 “시맨틱 정보 주석”은 시맨틱 웹 기술을 가장 기초적인 수준에서 응용하는 것으로서, 최근 웹 2.0에서 많이 언급되고 있는 사용자 태그 또는 folksonomy를 활용하여 문서 정보뿐만 아니라 멀티미디어 정보들을 분류•연계하는 포털들이 그 대표적인 응용 사례에 속한다. 그러나 사용자 태그의 경우, 태그들의 의미와 태그들 간의 관계에 대한 명확한 정의가 없다는 것은 문제점으로 지적될 수 있을 것이다. 동일한 태그도 사용된 의미와 용도가 다르다면 태그를 통한 정보의 의미적 분류 및 연계는 불가능하기 때문이다. 이와 같이 주석 정보의 활용은 반드시 온톨로지를 전제로 한다.

시스템 통합과 상호운용성 분야도 온톨로지가 매우 유용하게 사용될 수 있는 분야이다. 통합과 상호운용성은 기본적으로 구문적(syntactic), 구조적(structural) 합의가 필요하다. 구문적 합의를 통하여 교환되는 정보 또는 메시지의 형식을 정의하여야 하며 구조적 합의를 통하여 교환 정보의 구조를 통일하여야 한다. 그러나 진정한 통합 및 상호운용성을 위해서는 무엇보다도 교환되는 정보의 해석과 관련된 의미적 합의가 반드시 필요하며 이때 시맨틱 웹 기술의 온톨로지가 활용될 수 있다. 대표적인 사례로는 SOA(Service-Oriented Architecture)와 Web Services를 들 수 있는데, SOA와 Web Services는 컴포넌트 서비스에 대한 메타데이터의 생성과 관리에 온톨로지를 적용하여 서비스들 간의 의미적 통합 및 상호작용이 가능한 “시맨틱 SOA”, “시맨틱 Web Services”로 발전하고 있다.

마지막으로, 정보 검색 및 지식 관리 분야도 시맨틱 웹 기술의 적용이 시도되고 있는 주요 분야 중 하나이다. 이 분야에서는 정보 획득, 조직화 및 교환 측면에서 많은 난제들이 제기되어 왔었다. 키워드를 사용하는 기존 방식에서는 필요한 정보를 찾고, 분석하고 또한 이형의 시스템들 간의 정보를 공유•교환하는 것이 매우 어려웠기 때문이다. 시맨틱 웹 기술은 이러한 문제점들을 해결하기 위한 방안으로 적용이 시도되고 있으나 대상 데이터 규모가 방대하고 특히 앞에서 언급했듯이 추론 엔진의 성능이 아직은 충분하지 않아서 문제 해결에는 다소의 시간이 필요할 것으로 예상된다.

[시맨틱 웹 기술의 미래]

WWW2004 기조 연설에서 Tim Berners-Lee는 다음과 같이 말하였다.

“Semantic web is for connecting things“

(출처: http://www.w3.org/2004/Talks/0519-tbl-keynote/slide17-0.html)

이는 시스템이든 자원이든 연계가 필요한 영역이라면 모두 시맨틱 웹 기술의 적용이 가능하다는 것으로서, 달리 말하자면, 시맨틱 웹 기술은 정보기술 전반에 적용이 가능하다는 것을 의미한다.

정보기술 전반에는 이와 같이 시맨틱 웹 기술의 발전과 함께 변화의 물결이 일고 있으며 시맨틱 웹 기술은 그만큼 많은 관심과 기대의 대상이 되고 있다. 그러나 이러한 변화의 물결이 찻잔 속의 물결에 그치지 않기 위해서는 이미 구축되어 있는 정보들로부터 시맨틱 메타데이터를 생성하는 과정을 효율적으로 지원할 수 있는 기술 개발이 필요하다. 새로운 정보들은 시맨틱 웹 기술의 지식화 과정에 따라 구축하여 즉시 사용할 수 있겠으나, 이미 구축되어 있는 대량의 정보들은, 대응하는 시맨틱 메타데이터가 없을 경우, 시맨틱 웹 기술의 혜택을 볼 수 없기 때문이다. 시맨틱 웹 기술이 아무리 좋은 기술이더라도 이미 존재하는 대량의 정보들을 처리할 수 없다면 그 미래가 보장되기 어려울 것이라는 것은 자명하다.

그러나 시맨틱 웹 기술에서 무엇보다도 당장 필요한 것은 제기된 모든 문제를 해결하기 위하여 기술 자체를 고도화하는 것이 아니라 현실적인 상황에서 실제로 쓰이는 사례를 많이 만들어 내는 것일 것이다. 미흡한 부분이 있더라도 실제로 시맨틱 웹 기술이 적용되어 상당한 개선이 보이고 그 결과가 검증된다면 시맨틱 웹 기술을 활용하고자 하는 추세는 더욱 강화될 것이며 이로 인해 시맨틱 웹 기술의 더 많은 발전이 가능할 것이다.
Posted by ukmie
,