설문지 작성하는 방법과 유의사항은 무엇일까?
메타데이터의 개념 및 특징 (HTML/XML 비교)
이번에는 원하는 자료를 탐색할 때 키워드들의 다양한 관계를 나타내 주는 단어사전인 시소러스에 대하여 자료를 만들어보고자 한다.
자료를 찾기 위해 입력하는 키워드(검색어) 간의 관계를 나타낸 사전을 시소러스라고 하며, 여기에는 동의어, 하위어, 관련어 등의 관계로 표현된다.
시소러스를 사용하는 이유는 검색에 사용되는 키워드 관련된 내용을 최대한 많이 꺼내, 보다 폭넓고 다양한 검색을 할 수 있도록 하기 위함이다. 여기에 더해 색인을 만들 때 일관성 있도록 하기 위한 목적도 있다.
일반적으로 포털 사이트 이용하는 유저에게는 비슷한 개념으로 연관검색어를 떠올리면 이해하기 쉬울 것이다. 물론 연관검색어와 폭넓은 관련어를 연결해주는 시소러스는 다르다.
시소러스는 다양한 뜻을 지닌 검색어와 문헌을 하나로 통합해 사용하기 위한 주제명표목표가 발전된 개념으로, 용어와 개념 간의 관계를 제시하여 적절한 용어를 선정하는데 도움을 주게 된다.
즉, 키워드와 관련된 용어를 한 번에 제시하여 효율적인 검색을 수행하도록 하기 위한 것으로 이해하는 것이 좋다.
시소러스 관계도
시소러스를 한눈에 알아볼 수 있도록 하기 위해 하나의 예시를 가져와 이미지로 만들어보았다. 여기서 선정한 키워드는 ‘블로그’이며, 시소러스에서 블로그를 검색하면 해당 용어에 대한 다양한 상위어(BT), 하위어(NT), 동의어(USE/UF), 관련어(RT), 설명(SN), 외국어 등이 나온다.
이렇게 관련된 다양한 용어들 간의 관계를 한 번에 확인함으로써, 검색자가 상식적으로 알고 있는 단어를 확장해 더욱 효율적인 검색을 수행할 수 있는 것이다.
위에서 언급한 용어들을 조금 더 자세하게 정리한 내용은 다음과 같다.
용어의 상호관계
- 동등관계(USE, UF) – 색인표목(기본형)으로 채택되지 않는 용어는 USE 참조표시로 채택된 색인표목으로 연결한다. 여기서 USE와 UF는 서로 역관계이다.
- 계층관계(BT, NT) – 특정 용어의 상위어(BT)나 하위어(NT) 간의 관계로써 종속관계(+G), 사례관계(+I), 전체와 부분(+P)의 관계로 표현되기도 한다. 여기서 BT와 NT는 서로 역관계이다. 예) 상위 종속관계(BT+I=BTI) / 하위 전체와 부분관계(NT+P=NTP)
- 연관(연상)관계(RT) – 동등관계나 계층관계에 포함되지 않는 용어는 대부분 관련성을 나타내는 연관관계에 포함되며 RT로 표현한다.
- 관계지시어 세부 명칭: SN(Scope Note), USE, UF(Used For), BT(Broader Terms), NT(Narrower Term), RT(Related Term)
- 계층관계 세부 명칭: G(Generic=포괄적), I(Instance=사례), P(Part=부분), TT(Top term=최상위)
- 외국어 : ENG(영어), GER(독어), FRA(불어), NK(북한어) 등
시소러스 예시
이러한 용어들 간의 관계를 단어사전 형태로 구성하여 검색할 수 있도록 서비스를 제공하고 있는 사이트는 국가기록원의 관련용어검색, 국사편찬위원회의 한국역사용어 시소러스, 고전용어 시소러스 등도 있지만 이러한 사이트는 특정한 분야를 대상으로 하기 때문에 탐색할 수 있는 단어가 제한적이다.
물론 역사, 고전 용어처럼 특정 분야에 대한 검색을 위한 것이라면 앞에서 언급한 사이트를 이용하는 것이 더 유용할 수 있다.
반면 우리말 시소러스라고 하는 사이트는 일상생활에서 접할 수 있는 용어까지 오랜 기간에 걸쳐 폭넓게 수집하여 다양한 검색 활용이 가능하기에 본 자료에서 예시로 소개해보고자 한다.
위의 이미지는 검색한 단어들의 관계를 알아볼 수 있는 사이트인 우리말 시소러스 메인화면 모습이다. 사이트의 메인화면 디자인은 구글처럼 검색에만 집중할 수 있도록 심플하다.
앞서 별도의 이미지로 소개했던 블로그 단어에 대한 관계도는 위의 검색결과를 토대로 만든 것이다. 사이트에서 표시된 글자들을 클릭하면 해당 단어에 대한 또 다른 상·하위 관련어 등을 살펴볼 수 있다.
그리고 우측 상단에 있는 ‘다이어그램 보기’를 누르면 아래와 같은 관계도가 그래프로 표시된다.
해당 사례의 경우는 연관어가 많지 않아 다이어그램이 깔끔하게 표시되었지만, 관련 단어가 많은 경우 글자가 겹치고 굉장히 복잡하게 표현되어 당황스러울 수 있다.
이럴 때는 다이어그램 위에 적힌 설명을 읽고 수치를 조정하여 화면 간격을 넓혀주면 된다.
이번에는 다른 사례로 ‘조조’라는 인물을 키워드로 하여 검색해 본 사례이다. 여기서 상위어로는 조조를 포함한 조씨 3부자가 표시되었고 하위어는 표현되지 않았다.
그리고 조조와 동급으로 표현되는 동의어에는 조조의 자인 ‘맹덕’과 위나라가 건국되며 받은 시호인 ‘무황제’가 표시되었다.
그리고 여기서 상위·하위어에 포함되지 않는 대부분의 단어는 관련어로 표시된다고 생각하면 된다.
조조와 관련한 단어를 다이어그램으로 표현된 내용은 위와 같다. 그리고 이러한 검색 결과로 느낄 수 있는 점은 결국 표현되는 정보에 한계가 있다는 점이다.
사실 따지고 보면 위에 표시된 단어 말고도 생각나는 단어들이 무수히 많으나 시소러스에서 표현되는 단어는 한계를 보이고 있다.
이는 다른 시소러스의 검색결과도 마찬가지이다. 이러한 것은 결국 시소러스 구축을 사람이 직접 일일이 작업하기 때문에 보이는 한계이다.
시소러스 개선을 위해서는?
시소러스 – 용어의 관계를 나타내는 단어사전
이러한 점을 해결하기 위해서는 A.I와 빅데이터 분석 기술이 더욱 발달하여 컴퓨터가 인터넷 상의 방대한 데이터를 수집하고 이들 단어 간의 연관성을 분석하여 관련 용어를 연결할 수 있어야 한다.
특히 기술이 실현되려면 딥러닝(deep learning)의 발달이 매우 중요하며, 현재 거대 빅테크 기업들이 집중적으로 투자하고 있는 분야이기도 하다. 결국 방대한 단어들을 연결할 수 있는 것은 추후에 스스로 학습하고 분류하는 컴퓨터만이 해결할 수 있는 문제로 여겨진다.
AI가 처음 등장하여 말도 안 되는 계산력으로 인간을 놀라게 했듯이, AI가 발전하고 이를 활용하면 더욱 발전한 시소러스를 기대할 수 있을 것이다.