[Dicta] 히브리어 스타일 분석기 소개

새소식에서 소개해 드린 DICTA 히브리어 분석 툴 가운데 가장 돋보이는 기능은 히브리어 스타일 분석기입니다. 이 툴에 대해서 튜토리얼을 올리려고 하는데요, 먼저 그 배경에 대한 이해를 가지면 좋을 것 같아 영상을 하나 공유합니다. 원래 이 프로젝트는 티베리아 프로젝트(Tiberias Project)라는 이름으로 시작을 했습니다. 이 프로젝트는 성서 문학 학회(Society of Biblical Literature)에서 발표되기도 했는데 아래 영상은 그 발표에 대한 소개영상입니다. 이 영상에는 스타일 분석기의 핵심적인 원리와 기능이 소개되어 있어 이 툴을 이해하는데 도움이 될 것 같아 공유해 드립니다.

 

DICTA – 이스라엘에서 만든 성서 히브리어 분석 도구

지난 주 DICTA(http://dicta.org.il)라는 사이트가 새롭게 오픈했습니다. 이 사이트에서는 성서 히브리어와 관련하여 이스라엘 발일란 대학교 모세 코펠 교수가 몇 년전부터 주도해서 시작한 프로젝트들을 선보이고 있습니다.

이 프로젝트는 성서 히브리어를 기계학습(Machine Learning)과 자연언어처리(Natural Language Processing) 등의 컴퓨터 기술을 활용하여 히브리어를 분석해 주는 다양한 툴을 개발하는 것입니다.

현재 공개되어 있는 툴들을 간략하게 소개하면 다음과 같습니다.

  • Search the Bible: 히브리어 성서 단어를 검색해 주는 툴입니다. 특정한 히브리어 단어를 입력하면 성서에서 나타나는 용례와 의미 구분까지 출력해 줍니다.
  • Nakdan: 히브리어 자음 텍스트를 입력하면 자동으로 히브리어 모음을 붙여주는 툴입니다. 현대 히브리어나 랍비 문헌들의 자음 텍스트도 사용할 수 있다고 합니다.
  • Classify Biblical Texts: 성서 히브리어의 고유 문체(style)를 분석/비교해 주는 툴입니다. 공개된 툴들 가운데 가장 주목받는 부분이기도 하고, 성서 텍스트를 언어적으로 이해하는데 새로운 장을 열 수 있는 도구라고 생각합니다. 이에 대한 자세한 사용법은 튜토리얼을 통해 나누도록 하겠습니다.
  • Pasuk Finder: 히브리어로 된 특정한 단락이나 글을 입력하면, 그 글 안에 성경 구절이 포함되어 있을 경우 어떤 구절이 포함되어 있는지 찾아주는 도구입니다.
  • Synopsis Builder: 다른 두 본문을 입력했을 때 두 본문 사이의 유사성과 차이점을 보여주는 툴입니다. 성서 문학 분석시 유사하다고 생각하는 텍스트들을 분석할 때 큰 도움이 될 것 같습니다.

그 외에도 다양한 툴들이 공개될 예정입니다. 자세한 내용은 DICTA 사이트에서 직접 확인해 보시면 좋을 것 같습니다.




[바이블웍스 – 초급] 통계 자료 활용하기

  • #vss in bk with hit: 각 책에서 검색 결과(단어, 구) 데이터를 포함하고 있는 절의 개수
  • #hits in bk: 각 책에서 검색 결과(단어, 구) 데이터 빈도수
  • %vss in bk with hit/vss in bk: 각 책에서 검색결과 데이터를 포함하고 있는 절의 개수 / 각 책의 총 절수 (각 책에서 검색결과를 포함하고 있는 구절의 비율은 얼마인가?)
  • %hits in bk/hits in versn:  각 책에서 검색결과 데이터 빈도수 / 해당 성경 버전 전체의 데이터 빈도수(각 책에서 검색결과 빈도수는 전체 성경의 검색결과 데이터 빈도수 대비해서 얼마의 비율을 나타내고 있는가?)
  • %vss in bk with hits / vss in vern: 각 책에서 검색결과 데이터를 포함하고 있는 절의 개수 / 해당 성경 버전 전체의 절수(각 책에서 검색결과를 포함하고 있는 구절의 비율은 전체 성경의 절수를 대비해서 얼마인가?)
  • %hits in bk/word in bk: 각 책에서 검색결과 데이터(단어) 빈도수/각 책의 전체 단어 개수 (각 책에서 검색결과 데이터(단어)의 빈도수의 비율은 해당 책의 전체 단어수에 대비해 볼때 얼마인가?) (*이 통계는 검색 결과 데이터가 하나의 단어일 때에만 의미가 있음.)
  • %hits in bk/words in vsrn:  각 책에서 검색결과 데이터(단어) 빈도수/해당 성경 버전 전체의 단어수(각 책에서 검색결과 데이터(단어)의 빈도수의 비율은 해당 성경 버전의 전체 단어수에 대비해 볼 때 얼마인가?)

Perseus 그리스 문헌 라이브러리

그리스어에 관심이 많으신 분들은 이미 아시겠지만 Tufts 대학에서 오랫동안 추진하고 있는 중요한 디지털 인문학 프로젝트가 있는데 페르세우스 프로젝트라고 불리우는 것이 그것입니다. 이 프로젝트는 그리스어로 된 다양한 문헌들을 디지털화한 자료입니다. 물론 여기에는 신약성서도 포함되어 있습니다.

그리고 이 프로젝트는 단순히 문헌을 열거해 주는 것에 그치는 것이 아니라 각 단어의 파싱 정보나, 사전 정보 및 다양한 문법 요소에 대한 정보가 있어서 그리스어 공부를 하는데 대단히 큰 도움이 되는 데이터베이스입니다. 그리고 지난 3월에 Scaife Viewer라는 웹앱을 출시했는데 보다 수려한 UI를 통해 텍스트에 접근하도록 했습니다. 그리고 무엇보다도 무료로 모든 자료에 접근이 가능합니다. 그리스어에 관심을 갖고 계신 분이라면 잘 이용해 보시는 것을 추천드립니다. 나중에 블로그 포스트를 통해 이 사이트를 활용하는 튜토리얼도 곧 올릴 예정입니다.

 

[바이블웍스-초급] 원클릭 기본 검색 #1

동영상 설명 유튜브 링크

먼저 바이블 원클릭 기본 검색 방법을 알아보도록 하겠습니다. 물론 여기서 다루는 검색 방법이 모두 원클릭으로 이루어지는 것은 아닙니다. (^^;; ) 원클릭 기본 검색에서는 바이블웍스에 내장된 메뉴만을 클릭하면서 간단하게 검색하는 방법을 다루게 될 것입니다. 먼저 아래와 같은 바이블웍스 화면 구성을 볼 수 있습니다.

바이블 웍스를 실행하면 위와 같은 화면이 나오는데요, 위 화면에서는 창이 4개로 분활되어 있습니다(이전 버전은 3개). 위 창들을 왼쪽에서부터 차례로 1 , 2 , 3 , 4 로 번호로 표시했습니다. 각 창들은 아래와 같은 기능을 갖습니다.

  1. 검색 결과 창: 검색 명령을 내렸을 때 결과가 출력되는 창입니다.
  2. 텍스트 창: 성서 텍스트를 출력하는 창입니다. 여러개의 역본들을 추가할 수 있습니다. 하나의 역본을 선택해서 위 발자국 버튼을 누르면 그 역본의 전체 텍스트가 출력되는 것을 볼 수 있습니다.
  3. 4. 이 두 창은 부가기능 창입니다. 3.4.번 창을 합칠 수도 있고 분할할 수도 있습니다. 이 창에는 사전 자료, 통계자료, 원어 파싱 정보 등 다양한 정보를 검색할 수 있습니다.

1. 더블 클릭

가장 기본적인 검색 방법은 독립된 단어 검색입니다. 위 화면은 창세기 1:12를 열고 히브리어 텍스트 버전 가운데 אלהים을 더블 클릭한 결과를 보여주고 있습니다. 텍스트 창에서 한 단어를 더블 클릭하면 그와 동일하게 생긴 단어들이 검색되어 왼쪽 창에 출력됩니다.  그리고 자신이 선택한 단어에 노란색으로 표시가 되어 알아보기 쉽게 출력해 줍니다.

검색 결과창 아래쪽에 보면 위와 같은 메시지를 확인할 수 있습니다. 위 의미는 אלהים 을 더블클릭해서 검색한 결과 635절을 찾았고, 단어 형태가 1가지 뿐이며(이에 대해서는 아래에서 설명할 예정) 680개의 빈도수를 찾았다는 것입니다. 그리고 검색하는데 걸린 시간은 0.04초. 빈도수가 구절수보다 많은 이유는 한 절에 אלהים이라는 단어가 여러번 사용되었기 때문입니다.

위 방법도 꽤 유용하고 많이 쓰이는 방법이지만 좀 더 심화된 기능을 사용해 보도록 하겠습니다.

 

2. 오른쪽 클릭

이제는 단어에 커서를 대고 더블 클릭이 아니라 오른쪽 클릭을 해 보겠습니다. 그러면 아래와 같은 팝업 메뉴가 뜹니다.

메뉴가 좀 복잡해 보이는데요 검색과 관련된 중요한 내용을 위주로 설명을 해 드리겠습니다. KWIC 기능에 대해서는 나중에 설명하겠습니다.

  • Search on Form: 검색자가 선택한 단어의 자음과 모음 형태가 동일한 단어를 검색함. 단어를 더블클릭해서 찾는 것과 동일한 결과.
  • Search on Lemma: 사전 상에 나타난 표제어의 형태와 동일한 단어를 검색함. 동음 이의어가 구별되지 않음.
  • Search on Homonym: 사전 상에 나타난 표제어의 형태와 동일한 단어를 검색함. 동음 이의어를 구별함.

Search on Form은 더블 클릭 검색 결과와 동일한 결과를 보여주기 때문에 부가적인 설명은 필요 없을 것 같습니다. Search on Lemma와 Search on Homonym

2.1. Lemma 검색

Search on Lemma와 Search on Homonym은 바이블웍스 검색이나 성서 히브리어에서 매우 중요한 개념이기 때문에 반드 숙지를 잘 하고 있어야 합니다. 먼저 Search on Lemma 기능을 살펴보도록 하겠습니다. אלהים을 더블클릭하는 대신에 Search on Lemma로 검색해 보도록 하겠습니다. 검색 결과창 아래를 보면 아래와 같은 통계를 확인할 수 있습니다.

2248 verses, 15 forms, 2602 hits 0.20 secs

더블 클릭해서 얻은 결과값보다 무려 4배 가까이 많은 구절들과 빈도수가 검색되었습니다. 이러한 차이를 만든 중요한 수치가 있는데 그것은 바로 단어 형태(form)입니다. 더블 클릭을 통해 검색했을 때에는 하나의 형태(1 form)만 출력되었지만, Lemma 검색의 결과는 15개의 형태(15 forms)가 출력되었다는 검색 결과가 나왔습니다(이 형태들을 찾는 방법은 나중에 설명해 드리겠습니다).

더블클릭 검색을 하면 바이블웍스는 검색자가 선택한 단어 형태와 100% 동일한 단어만을 찾아냅니다. 그런데 Lemma 검색은 사전 상에 나타난 표제어를 중심으로 검색하는 것입니다. 히브리어 단어는 문맥과 그 의미에 따라 그 형태가 변화하게 됩니다. 더블클릭 검색은 바로 이러한 변화된 형태를 찾지 못하는 반면, Lemma 검색은 변화된 형태를 알아채고 검색자가 선택한 단어를 변화된 형태까지도 포함해서 모두 찾아준다는 것입니다. 이를 표로 표현하면 아래와 같습니다.

אלהים 형태 개수 형태
더블클릭 검색 결과 1개 אלהים
Lemma 검색 결과 15개 אלהים, אלהינו, אלוהי, אלהיך ….  등

따라서 내가 찾고자 하는 단어의 구체적인 형태와 동일한 것을 찾으려면 더블클릭으로만으로 충분하지만 내가 찾고자 하는 단어, 예를 들면 אלהים이 어떤 형태로든 사용된 모든 결과를 찾으려면 Lemma 검색이나 Homonym 검색을 해야 합니다.

바이블 웍스 한글화 가능성

법적인 부분은 좀 따져봐야겠지만 바이블웍스 개발이 중단된 만큼 디컴파일을 통한 프로그램 일부 변경이 가능할 것 같습니다. 다른 부분보다 바이블웍스의 한글화가 안 되어 있는데 디컴파일을 해서 테스트를 해보니 다행히 메뉴 구조가 그리 복잡하게 되어 있지는 않네요. 아래와 같이 한글화 테스트를 해보니 메인메뉴는 기본적으로 잘 될 것 같습니다.

다른 부분들도 잘 살펴보고 한글화 작업이 가능하면 시간이 되는대로 천천히 해 보려고 합니다. 이런 부분을 보니 바이블웍스 플래폼을 잘 활용해서 발전시킬 수 있겠다는 생각도 듭니다. 좀 더 테스트 해보고 상황을 업데이트 해 드리도록 하겠습니다. ^^;




[바이블웍스-초급] 바이블웍스 기본 활용법 개요

바이블웍스(Bible Works)는 어콜던스(Accordance)와 쌍벽을 이루는 전문 성서 소프트웨어입니다. 어콜던스의 경우 맥OS에서만 작동했는데 몇년전부터 윈도우 플랫폼에도 진출하기 시작했습니다. 그래서 윈도우 환경에서는 바이블웍스와 어콜던스를 둘 다 사용할 수 있습니다. 그래도 오랫동안 윈도우를 사용한 사람들이라면 바이블웍스가 보다 익숙하리라 생각합니다.

바이블웍스나 어콜던스는 기본적으로 성서에 대한 전문적인 학술 지식을 갖고 있는 사람이거나 관련 학문을 공부하는 사람들을 위해 만들어진 소프트웨어입니다. 따라서 평신도나 성서학에 대한 전문적인 이해가 없는 분이라면 그 효용성은 매우 떨어질 수 밖에 없습니다. 그리고 이러한 프로그램들이 가지고 있는 중요한 기능을 사용하지 못한다면 그저 덩치 큰 성서 번역본 비교 프로그램 내지는 단순 단어 파싱 프로그램에 지나지 않는 것입니다. 성서 번역본 비교만을 위해서라면 무료 소프트웨어들도 많이 있고, 최근에는 웹에서 제공하는 성서 앱들도 많이 있기 때문에 굳이 이러한 프로그램을 사용할 필요가 없을 것입니다.

따라서 앞으로 종종 바이블웍스를 중심으로 전문 성서 프로그램을 활용하는 예를 함께 공부하고 나누려고 합니다.  그런데 이런 프로그램을 사용하기에 앞서 스스로 준비해야 할 것은 프로그램을 어떻게 사용하느냐보다도 내가 무엇을 하고자 하는가입니다. 즉, 내가 성서 프로그램을 통해 무엇을 찾고, 무엇을 배우기를 원하느냐가 중요한 질문인데요, 이는 차차 알아가게 될 것입니다.

먼저 연재를 시작할 주제는 성서 프로그램의 핵심이라 할 수 있는 “검색” 기능입니다. 바이블웍스는 성서의 특정 단어, 혹은 단어들이 조합, 원어 문법 검색 등 무궁무진한 검색 기능들을 제공하고 있습니다. 그런데 워낙에 다양한 검색 옵션들이 있기 때문에 선뜻 다가가기가 쉽지 않은 것은 사실입니다. 그래서 검색과 관련된 내용들을 중심으로 글을 연재하고자 합니다.

참고로 앞으로 할 연재는 바이블웍스9를 바탕으로 합니다. 그러나 기본적인 검색 기능은 최근 버전에는 크게 다르지 않은 것으로 알고 있으니 큰 문제는 없을 것입니다. 기본적인 연재 방식은 아래의 순서로 진행될 예정입니다.

  • 초급 – 원클릭 기본 검색
  • 중급 – 바이블웍스 내장 툴 활용
  • 고급 – 예제를 통해 배우는 Graphic Search Engine 사용법

알파알렙 성경 업데이트 소식

이미 공지가 나간지 꽤 된 것 같지만 오늘 바이블웍스가 6월 15일자로 개발 및 유지가 중단된다는 아쉬운 소식을 접했습니다. 비록 최근에는 많이 사용하지는 않았지만 신학생 시절부터 접했던 성경 소프트웨어가 중단된다고 하니 또 한 시절이 지나간다는 생각이 듭니다. 바이블웍스가 버전을 거듭하면서 UI 등이 약간 개선되기는 했지만, 주석이나 사전 자료들을 지금은 현재 거의 사용하지 않는 chm파일 포맷으로 유지하는 것을 보면서 소프트웨어의 근본적인 개선에 어려움을 겪고 있다는 것을 대충 짐작했지만, 이렇게 빨리 서비스 중단을 단행할지는 몰랐는데, 여러모로 아쉬운 느낌이 많이 있습니다. 바이블웍스가 가고 나면 이제 남은 대표적인 성서 소프트웨어는 (매우 비싼!) 로고스와 어콜던스 정도가 남았네요.

아무튼 이 상황을 보면서 알파알렙 성경(app.alphalef.com)의 기능을 하루 빨리 더 확장해서 많은 분들이 어려움 없이 원어 성경을 공부할 수 있도록 해야겠다는 생각이 듭니다. ^^;; 현재 알파알렙 성경은 대규모 업데이트 작업 가운데 있습니다. 메인 화면에 덩그러니 공약으로만 남아 있는 신약 본문도 작업하고 있고요. 일단 제 스스로가 생각해도 좀 보기 불편한 UI 등을 개선하는 중이고 프리 라이선스가 있는 번역본들을 좀 쉽게 볼 수 있도록 작업하는 중입니다. 성서 단어 사전 기능도 추가해야 하고 할일이 태산이네요. ㅜㅜ

잠시 현재 작업중인 부분을 맛보기로 보여드리면 아래와 같습니다.

위 화면은 번역본을 열람하는 화면입니다. 저작권이 풀린 개역한글판 본문입니다. 나중에 좀 여건이 되면 유로 저작권을 가진 본문도 넣을 예정인데 시간이 좀 필요할 듯 합니다. (^^;;) 오른쪽에 데이터 결과 들어가는 곳이라고 써 넣은 부분은 성서 지도라던지, 현재 구상하고 있는 오픈 주석, 단어 통계 등과 같은 부수적인 데이터를 출력하는 공간입니다.

현재 히브리어 분석 페이지 같은 경우도 단어분석, 절분석 결과를 오른쪽에 바로 출력해서 보기 좋게 정리중입니다. 이 외에도 단어 통계, BDB 사전 정보, 원어 검색창 등을 추가할 생각입니다.

드디어 오랜 동안 숙원사업이었던 신약 헬라어 본문을 추가했습니다. 아직 절분석 시스템도 추가해야 하고, 구문분석도 구현해야 하는 등이 일들이 많이 남아 있지만 차근차근 업데이트 중입니다. 그리고 위에 영문으로 결과값이 출력되는 것을 한글로 다시 파싱하는 작업도 해야 하고요. 이 역시 갈 길이 삼만리입니다. ^^;;

일단 여름이 가기전에 베타 테스트 버전으로 올려 놓고 부가 기능들을 차근차근 추가하는 방식으로 업데이트를 진행하려고 하는데, 변동 사항이 있을 수 있습니다. 그리고 알파알렙 성경을 올려 놓고 적극적으로 홍보를 하지는 않았는데, 이 부분도 신경을 좀 쓰려고 합니다.

혹시 이 블로그 포스트를 보시는 분들 가운데 추가하고 싶으시거나 필요한 기능이 있으시면 제안해 주시면 감사하겠습니다. 이 성경 앱은 모두가 함께 만들어서 모두가 쉽고 기능성 있게 (자유롭게 그리고 무료로! libre and free) 사용할 수 있는 앱이 되었으면 합니다. ^^;;

이에 관한 문의사항은 제 메일(kungsik@gmail.com)이나 본 포스트의 답글로 남겨 주시면 감사하겠습니다~

홈페이지 리뉴얼

알파알렙 커뮤니티 홈페이지를 새롭게 리뉴얼했습니다.

성서와 성서 언어, 그리고 이와 관련한 어플리케이션 등에 관한 정보등을 나누려고 합니다.

아직 많은 정보는 없지만 하나하나 차근차근 채워 나가려고 합니다.

여러분들의 많은 참여 부탁드립니다.

그리고 회원 가입(기본정보만 입력)을 해 주시면 질문 및 답글을 자유롭게 올리실 수 있습니다.

기존의 제 개인 블로그(http://kimsbible.com)도 계속 운영중이니 많이 방문해 주십시오~ ^^;;