시소러스 – 용어의 관계를 나타내는 단어사전
온톨로지와 시맨틱웹의 개념과 관계
이번에는 메타데이터의 개념과 특징에 대하여 자료를 만들고자 한다. 이와 함께 메타데이터를 기술하는데 이용되는 언어인 HTML과 XML의 특징에 대해서도 간단히 살펴볼 것이다.
흔히 메타데이터를 정의하는데 가장 흔히 사용되는 말이 ‘데이터의 데이터’이다. 여기서 데이터는 전자자원을 의미하며 이는 자료의 생산자가 직접 작성하게 된다.
메타데이터의 개념
메타데이터는 검색엔진 등에 제공하기 위하여 데이터를 정보자원 자체에 포함하여 작성하게 되며, 이러한 정보에는 식별정보, 접근점, 소재정보를 포함한다.
메타데이터는 인터넷이 보편화되며 정보가 넘쳐나고 이에 대한 파일 형식이 다양화 되면서 필요성이 대두되었으며, 메타데이터를 통해 방대한 정보 속에서 사용자가 원하는 정보를 빠르고 쉽게 찾을 수 있는 것이다.
또한 메타데이터는 사용자 입장에서는 보이지 않는 정보여서 직접적으로 체감하기 어렵지만, 기계는 메타데이터의 내용을 읽고 이해하며 이를 이용하기 때문에 웹상에서 매우 중요한 데이터라고 할 수 있다.
메타데이터의 활용과 구성
Karen Coyle은 메타데이터를 ‘어떤 목적을 가지고 만들어진 데이터’라고 정의하였으며, 이러한 메타데이터는 서지사항을 기술하기 위한 목적으로 도서관에서 대표적으로 사용하고 있다.
도서관에서는 전통적으로 MARC(Machine Readable Cataloging)를 사용하고 있었으나, 1995년 OCLC와 NCSA에 의해 더블린코어(DC)라고 하는 새로운 메타데이터 형식이 만들어졌다. 이는 기존의 형식보다 이해하기 쉽도록 단순화하고 국제적으로 통용될 수 있도록 하였으며, 무엇보다 확장성을 가질 수 있도록 만들었다는 점이 돋보인다.
더블린코어 15요소
- 표제(Title)
- 제작자(Creator)
- 유형(Type)
- 기타제작자(Contributor)
- 발행처(Publisher)
- 날짜(Date)
- 언어(Language)
- 형식(Format)
- 설명(Description)
- 주제(Subject)
- 관계(Relation)
- 식별자(Identifier)
- 권한(Rights)
- 출처(Source)
- 범위(Coverage)
메타데이터를 XML로 작성하기 위해서는 기술요소 및 속성에 관한 설계가 선행되어야 하는데, 이러한 설계는 DTD나 XML스키마를 통해 설계한다.
그리고 이를 보여주기 위해서는 메타데이터 요소를 포함한 CSS(Cascading Style Sheets), XSL(eXtensible Style Language)로 정의해야 한다.
위와 같은 내용과 관련하여 메타데이터의 구성 및 특징을 정리한 내용은 다음과 같다.
XML의 구성
※ 기술요소(Element)
- 기술 규정이 지나치게 간소화되고 접근점과 식별정보를 구분하지 않아 일관성이 떨어진다.
- 접근점으로 사용될 정보의 형식 규정이 없다.
- 기술요소의 종류와 성격은 해당 분야에 따라 다양하다.
- 목록에서 8개의 사항으로 구분하는 것처럼 정보를 집단화하는 방식이 필요하다.
※ 기술속성(Attribute)
- 속성은 속성명과 속성값으로 구성되며 기술 스킴(Encoding Scheme)이 요구된다. 예) 날짜표기형식, 지명표기형식, DDC, KDC 등
- 시소러스/온톨로지 등의 통제어휘집이 필요하다.
※ 기술언어(Encoding Language)
- HTML – 웹상에서 문서의 양식(형식)을 규정한 언어로서 TAG와 속성(Attribute)를 규정한 국제표준 언어이다.
- XML – HTML을 확장하여 만든 언어로써, TAG를 정의하여 사용할 수 있다.
- XML-RDF
- RDF-OWL(W3C표준) – Lite, DL, FULL 세 종류가 있음
- Topic M APS(ISO 표준)
※ 형식 정의
- DTD – XML DTD(문서유형정의 : Document Type Definition)는 엘리먼트 유형정의, 속성리스트정의, 엔터티(개체) 선언, 노테이션 선언, 처리명령문, 주석을 포함한다.
- XML Schema – DTD의 문제점을 보완하기 위해 W3C(World Wide Web Consortium)에서 XML 스키마를 표준으로 제시한 것이다.
- RDF Schema – XML 스키마를 기반으로 서로 다른 스키마 간에도 데이터 합병이 가능하며, 어의, 구문, 구조에 대한 공통적인 규칙을 지원한다.
- OWL(Lite, DL, FULL) RDF Schema
HTML과 XML 비교
메타데이터를 표현하기 위한 목적으로 가장 대표적인 예가 HTML 태그라고 할 수 있다. HTML 태그는 <head>, <body>를 포함하고 있고 <body>안에는 <table>이, <table=표>안에는 <tr>, <tr=줄(행)>안에는 <td=칸(셀)>가 오는 등 상위에서 하위로 tree(나무) 형태의 계층적 구조를 가지고 있다.
HTML의 계층적 구조에 관해서는 글보다 위의 이미지를 보는 것이 조금 더 이해하기 쉬울 것이다.
그러나 HTML은 대표적으로 2가지 한계점을 가지고 있다.
하나는 문서 양식 표현을 위해 속성(글자, 색상 등)을 사용하는 데서 오는 문제이며, 다른 하나는 미리 정의되어 있는 TAG를 사용함으로써 새로운 TAG를 정의하여 사용할 수 없다는 점이다. 이에 대한 방안으로 HTML이 확장된 개념인 XML(eXtensible Mark-up Language)이 등장하였다.
이러한 문제해결을 위해 전자는 Cascading Style Sheet(CSS)나 eXtensible Stylesheet Language(XSL 언어)를 사용하여 표현하며, 후자의 TAG는 DTD(Document Type Definition)나 XML Schema로 정의함으로써 해결하게 된다.
이상으로 메타데이터의 개념 및 특징, 그리고 이와 관련하여 사용되는 언어인 HTML과 XML에 대하여 간단히 알아보았다. 복잡한 내용이지만 메타데이터에 대한 가장 핵심적인 내용은 방대한 정보의 홍수 속에서 원하는 정보를 효율적으로 찾기 위해 일정한 규칙에 따라 콘텐츠에 입력하는 데이터라는 것이다.
이러한 개념을 토대로 메타데이터에 대한 이해를 할 수 있었기를 바라며 메타데이터 및 HTML, XML에 대한 글을 이만 마친다.