선교지를 위한 알파알렙 성경

사실, 제가 이 프로젝트를 시작한 배경에는 개인적인 관심도 있기는 하지만, 프로젝트를 진행하다보니 선교지에서 공부하고 있는 현지 신학생들을 위한 유용한 도구가 될 수도 있겠다는 생각이 들었습니다. 선교지 상황상 성서 원어에 대한 교재나 도구들을 구하기 힘든 경우도 있고, 강사가 미비한 부분도 있을 수 있을 것 같습니다.

물론 현재 좋은 상용 소프트웨어들도 있기는 하지만 첫째는 가격이 문제이고(언어 교육을 위한 패키지를 포함하면 1 카피당 100만원 이상), 둘째는 영어권이 아닌 경우 프로그램 UI나 자료를 현지 언어화 하는 것이 거의 불가능하기 때문에 좀 비현실적인 부분이 있다고 생각합니다.

따라서 알파알렙 성경(앞으로 신약까지 포함된) 보급을 통해 원어 성경 학습을 주도적으로 할 수 있는 계획도 가져봅니다. 일단 당연히 프로그램 자체에 대한 가격 책정을 할 계획은 없고요(인터넷망이 아닌 USB나 기타 매체를 통해 전달할 때 비용이 들 수는 있겠지만), 소스코드도 모두 오픈시켰고, 현지 언어화할 수 있는 툴을 별도로 제공할 계획이 있기 때문에 현지 사정에 맞게 프로그램을 변형시킬 수 있을 것입니다.

물론 이것 또한 쉬운 일은 아니기 때문에 필요한 부분은 제가 도움을 드릴 예정입니다. 그리고 선교지의 인터넷 혹은 컴퓨터 환경에 따라 보급 방식을 아래와 같이 다변화할 필요는 있습니다.

    • 인터넷이 어려운 환경이나 컴퓨터를 사용할 수는 있다면 컴퓨터에 설치할 수 있는 설치형 알파알렙 성경 개발 (native application) (윈도우용, 혹은 저사양의 컴퓨터에 보다 효율적인 리눅스용)
    • 컴퓨터 자체를 사용하기 어려운 환경에 있다면 라즈베리 파이 등과 같은 미니 피씨 모듈과 스크린을 결합한 디바이스 제작
    • 위와 같은 도구들을 사용하는 것 자체가 어렵다면 프린트된 책 형태의 원어 분해 성경 책자의 형태로 보급. (데이터만 잘 갖추어져 있다면 다양한 형식의 문서로 출력하는 것은 어려운 일은 아닙니다.)
    • 각 선교지의 언어로 된 UI 및 성경 번역본 적용.

위 항목들 가운데 쉬운것은 하나도 없지만 차근차근 준비해 나가려고 합니다. 빠르면 내년 여름이 그 시작이 될 수 있을 것 같습니다. 이러한 시도를 통해 각 선교지에 매우 적은 비용(혹은 무료로) 성서 원어 교육을 위한 도구들이 전달될 수 있으리라 기대합니다.

[중급 성서 히브리어] 교재소개와 사전식 문법(Reference Grammar) 보는 법

아래는 중급 히브리어 강좌에서 도움이 되는 자료들에 대한 개략적인 소개입니다. 두 번째 영상에서는 그 가운데 가장 중요한 자료인 사전식 문법(Reference Grammar)을 보는 요령과 필요한 내용을 찾는 과정을 간단하게 소개하고 있습니다.

[교재]
  • 히브리 성서 (BHS)
  • 문법책
    • 기초문법(Beginner’s Grammar): 시중에 많이 나와 있는 히브리어 기본 문법책
      • 기초문법의 범위: 알파벳에서부터 규칙동사 변화. 간단한 산문체 텍스트 해석
    • 중급문법(Advanced Grammar), 구문론 (Syntax)
      • 초급문법을 넘어 실제로 텍스트를 해석하는 능력을 배양함.
      • 구문론: 어떻게 해석할 것인가? 파편적으로 알고 있었던 언어 지식을 통합하여 텍스트에 대한 해석과 이해를 높임.
      • 중급문법의 범위: 중/고급 수준의 산문체 텍스트. 운문. 히브리어의 역사(개론)
    • 사전식 문법(Referene Grammar)
      • 주옹 무라오까 히브리어 문법, 게제니우스 문법 등
      • 처음부터 끝까지 읽는 문법이라기 보다는 필요한 내용을 발췌하여 보는 방식
      • 본 강의에서 가장 중요하게 다룰 자료
  • 사전(Lexicon)
    • BDB, HALOT, Gesenius 등 다양한 사전이 있음.
  • 콘콜던스(Concordance)
    • 어떤 단어가 어떤 형태로 성경의 어느 구절에 나오는지를 보여주는 자료
    • 종이책 콘콜던스: 사전식으로 되어 있는 콘콜던스 (예시)
    • 전자 콘콜던스: 바이블웍스, 어콜던스, 알파알렙성경과 같이 검색 기능을 이용하여 콘콜던스로 활용
    • 유용한 자료 링크: http://biblehub.com/hebrew/

 

[사전식 문법의 구성]
  • 철자법(Orthography)
    • 글자와 기호에 관한 내용
    • 자음, 모음 글자, 기타 테아밈 등과 같은 부가적 기호에 대한 설명
  • 음운론, 음성론(Phonology)
    • 소리와 발음에 관한 내용
    • 예. ב가 어느 때 마찰음으로 발음되고, 어느 때 파열음으로 발음되는가?
  • 형태론(Morphology)
    • 단어의 형태에 관한 내용
    • 명사/동사/형용사/전치사 등의 문법요소의 형태가 어떻게 변화하는가?
    • 예. היה 동사의 경우 미완료형이 יהיה 와 יהי 로 표현될 수 있는데 어떤 경우에 이런 차이가 나타나는가?
  • 구문론(Syntax)
    • 구문, 문장의 해석에 관한 내용
    • 개별적인 문법요소들을 통합하여 어떤 의미가 나타나는지 분석
    • 예. 모두 과거의 사건을 서술하는 일반 완료형 동사가 이끄는 절과 봐브연속법 동사가 이끄는 절의 의미 차이는 무엇인가?

Text-Fabric과 R을 이용한 성서 히브리어 문체 분석 기초

성서는 하나의 책이지만 수천 년의 세월의 역사를 담고 있습니다. 그리고 한 사람이 한 자리에서 쓴 것이 아니라 여러 사람들의 손길을 거치고 오랜 시간에 걸쳐서 텍스트로 정착된 것이기 때문에 매우 다양한 언어적인 특징을 나타내고 있습니다. 그래서 성서의 역사를 밝혀내고자 하는 학자들은 언어적인 특징에 상당한 관심을 기울이고 있습니다. 왜냐하면 시대의 흐름에 따라 언어가 변화하는 특징을 가지고 있기 때문에 언어적인 특징을 잘 구분하면 해당 본문이 쓰여진 시대를 어느 정도 유추할 수 있기 때문에 그렇습니다.

본 포스팅은 구문 정보가 포함되어 있는 성서 데이터 베이스(Text-Fabric)와 다양한 통계 수치를 산출할 수 있는 통계 프로그램인 R을 이용하여 간단하게 성서 히브리어 문체 분석을 해 보도록 하겠습니다. 본 포스팅에서 사용한 데이터베이스와 데이터를 산출하기 위한 코드는 아래를 참조해 주십시오.

  • Text-Fabric: 어형, 구문 등과 같은 다양한 성서 히브리어 정보가 수록되어 있는 오픈 데이터베이스
  • Text-Fabric에서 필요한 데이터를 뽑아서 csv 포맷으로 저장해 주는 Python Code 소스
  • 통계 데이터를 산출하는 R 소스 코드  (제가 R을 개인적으로 공부한 지가 얼마 되지 않아 코드가 상당히 조잡합니다. ^^; )

데이터를 뽑고 R 코드 소스를 작성하는 방식에 대해서는 나중에 동영상으로 따로 업로드를 하려고 합니다. 아무튼 제가 간단한 성서 문체 분석을 하기 위해 수행한 절차는 아래와 같습니다.

  • 샘플 텍스트 선정: 샘플 텍스트는 텍스트의 시대 구분에 있어서 학자들의 이견이 거의 없는 것으로 선정을 해야 합니다. 저는 포로기 이전의 본문으로 사무엘서를 택하였고, 포로기 이후의 본문으로 역대기서를 택하였습니다.
  • 시험 텍스트 선정: 샘플 텍스트 분석을 통해 어느 정도 특징을 구별해 낼 수 있으면 이 데이터를 토대로 시대를 추측할 대상인 텍스트를 선정해야 합니다. 저는 레위기와 에스더를 선정했습니다. 이 책들이 포로기 이전의 언어에 가까운지, 포로기 이후의 언어에 가까운지 혹은 과도기적인 특징을 보이는 지를 살펴볼 것입니다.
  • 분류 기준 선정: 어느 특징에 따라 텍스트를 분류할 것인지를 결정해야 합니다. 정확한 분석을 위해서는 다양한 언어적인 특징들을 적용해야겠지만, 저는 프랑크 폴락(Frank Polak)이 제시한 여러 기준 가운데 명사절 비율[1]과 아비 후르비츠(Avi Hurwitz)가 제시한 여러 기준 가운데 אל과 על 전치사 사용 비율[2] 등을 기준으로 텍스트의 특징을 파악해 볼 것입니다.

일단 샘플 텍스트와 시험 텍스트의 데이터를 뽑아서 각각의 책들에서 나타나는 절 형태의 비율을 산출했고, 시각적으로 확인이 쉽도록 아래와 같이 그래프로 표현했습니다.

위 그래프는 책 별로 가장 많이 사용된 상위 5개의 절 유형을 분석하고 있는 그래프입니다. 각 지표는 아래와 같습니다.

  • InfC: 구문형 부정사 절
  • NmCl: 명사절
  • Ptcp: 분사절
  • Way0, WayX, WQtX: 봐브+동사로 이루어진 다양한 유형의 동사절

위 유형들 가운데 동사절을 제외한 구문형 부정사 절, 명사절, 분사절 등은 모두 명사적인 요소로 이루어진 절이라고 볼 수 있습니다. 위의 지표를 살펴보면 역대기에서 명사절의 비율이 상당히 높게 나타나는 것을 발견할 수 있습니다. 반면 사무엘서는 동사절의 비율이 매우 높습니다. 즉 후기의 책일수록 명사절의 비율이 높다는 폴락의 이론을 어느 정도 뒷받침해주는 지표라고 볼 수 있습니다.

그리고 레위기와 에스더서의 경우를 보면 레위기는 명사절보다는 동사절의 비율이 크게 나타나는 것을 볼 수 있습니다. 명사절의 비율만 놓고 본다면 레위기는 포로 후기의 문체를 보이고 있지는 않은 것 같습니다. 반면 에스더서는 명사절 비율이 높게 나타나는데 이는 에스더서가 포로 후기의 문체를 전형적으로 나타내 보이고 있는 것 같습니다. 좀 더 그 차이를 확실히 하기 위해 각 책의 명사절 요소들의 비율을 모두 합산하여 점 그래프로 아래와 같이 만들어 보았습니다.

위에서 유추한대로 역대기서와 에스더서, 그리고 레위기와 사무엘서과 명확하게 구별됨을 볼 수 있습니다. 레위기는 사무엘서보다도 명사문장의 비율이 상당히 낮게 나오는 것을 볼 수 있는데 편의 상 상위 5개의 문체들만 가지고 통계를 낸 것이라 실제로  레위기의 명사문장 비율은 이보다는 더 높게 나올 수 있습니다. 아무튼 레위기는 사무엘서에 보다 가까운 문체 특징을 보이고 있습니다.

다음으로 전치사의 사용 스타일을 보도록 하겠습니다. 위에서 했던 대로 우선 각 책에서 나타나는 전치사 사용 비율을 아래와 같이 그래프로 표현해 보았습니다.

한 눈에 봐도 ל 전치사가 가장 많이 사용되고 있는 전치사임을 볼 수 있습니다. 각각 전치사의 사용 비율을 살펴보면 그렇게 의미 있는 데이터는 눈에 띄지 않습니다. 그런데 앞서 제가 언급했듯이 여기서 중요한 것은 אל과 על의 사용 비율입니다. 사무엘서는 אל이 על보다 빈번하게 사용되고 있는 것을 볼 수 있습니다. 그런데 역대기에서는 완전히 반대입니다. על이 אל보다 훨씬 많은 비율로 사용되고 있습니다. 레위기와 에스더에서도 על이 많이는 아니지만 보다 더 많이 사용되고 있는 것 같습니다.

이 데이터를 על의 사용 수 / אל의 사용 수 공식을 이용하여 사용 비율 값을 구한 뒤 아래와 같이 점 그래프로 표현해 보았습니다. 값이 크면 클 수록 על의 사용 비율이 보다 높다는 의미입니다.

매우 재미있는 결과가 나왔습니다. 위의 그래프에서 볼 수 있듯이 역대와 사무엘서의 특징이 명확하게 구분됩니다. 그런데 에스더서와 레위기는 거의 중간 값을 가지고 있는 것을 볼 수 있습니다. 전치사의 특징 만으로 본다면 에스더서와 레위기는 과도기적인 언어 특징을 보이고 있다고 볼 수 있습니다.

위의 명사 문장 데이터와 전치사 사용 비율 데이터를 통합하여 생각해 본다면 에스더와 레위기는 기본적으로 포로기 이전에서 포로기 이전 말이나 포로기로 넘어가는 시대의 과도기적인 언어 특징을 보이고 있다고 볼 수 있습니다. 물론 에스더서는 내용상으로 볼 때 포로기 이후의 책임에는 틀림이 없습니다. 그런데 저자는 의식적으로 어느 정도 포로기 이전의 성서 히브리어를 작성하려고 애를 썼는지도 모르겠습니다. 그리고 레위기는 그 시대 구분에 있어 학자들의 논쟁이 매우 뜨거운 책입니다. 섣불리 단언할 수는 없지만 위의 데이터를 통해 볼 때 레위기는 아주 늦은 시대는 아니고 포로기 이전 후기 정도의 과도기적 특징을 보이는 것이 아닌가 하는 생각이 듭니다. 정리하면 아래와 같습니다.

사무엘서(포로기 이전) -> 레위기(포로기 이전 후기) -> 에스더(포로기 이후 전기) -> 역대기(포로기 이후 후기)

본 포스팅은 매우 일부분으로 성서의 문체를 간단하게 유추한 것에 지나지 않습니다. 그러나 앞으로 이러한 통계 툴 등을 통해 성서 문체 연구를 지속해 나갈 예정이고, 성서 문체를 분석할 수 있는 툴도 앞으로 선보일 예정입니다. 이에 관해 질문이 있으신 분들은 언제나 환영입니다. ^^

 


[1] 명사절 비율이 높을수록 구어체보다는 문어체에 가까우며 이는 포로 후기 서기관 전통을 반영하는 것이다.

[2] 포로 후기 문헌으로 갈수록 아람어의 영향으로 אל 보다는 על을 선호하는 경향이 강하다.

[Dicta] 히브리어 스타일 분석기 소개

새소식에서 소개해 드린 DICTA 히브리어 분석 툴 가운데 가장 돋보이는 기능은 히브리어 스타일 분석기입니다. 이 툴에 대해서 튜토리얼을 올리려고 하는데요, 먼저 그 배경에 대한 이해를 가지면 좋을 것 같아 영상을 하나 공유합니다. 원래 이 프로젝트는 티베리아 프로젝트(Tiberias Project)라는 이름으로 시작을 했습니다. 이 프로젝트는 성서 문학 학회(Society of Biblical Literature)에서 발표되기도 했는데 아래 영상은 그 발표에 대한 소개영상입니다. 이 영상에는 스타일 분석기의 핵심적인 원리와 기능이 소개되어 있어 이 툴을 이해하는데 도움이 될 것 같아 공유해 드립니다.

 

DICTA – 이스라엘에서 만든 성서 히브리어 분석 도구

지난 주 DICTA(http://dicta.org.il)라는 사이트가 새롭게 오픈했습니다. 이 사이트에서는 성서 히브리어와 관련하여 이스라엘 발일란 대학교 모세 코펠 교수가 몇 년전부터 주도해서 시작한 프로젝트들을 선보이고 있습니다.

이 프로젝트는 성서 히브리어를 기계학습(Machine Learning)과 자연언어처리(Natural Language Processing) 등의 컴퓨터 기술을 활용하여 히브리어를 분석해 주는 다양한 툴을 개발하는 것입니다.

현재 공개되어 있는 툴들을 간략하게 소개하면 다음과 같습니다.

  • Search the Bible: 히브리어 성서 단어를 검색해 주는 툴입니다. 특정한 히브리어 단어를 입력하면 성서에서 나타나는 용례와 의미 구분까지 출력해 줍니다.
  • Nakdan: 히브리어 자음 텍스트를 입력하면 자동으로 히브리어 모음을 붙여주는 툴입니다. 현대 히브리어나 랍비 문헌들의 자음 텍스트도 사용할 수 있다고 합니다.
  • Classify Biblical Texts: 성서 히브리어의 고유 문체(style)를 분석/비교해 주는 툴입니다. 공개된 툴들 가운데 가장 주목받는 부분이기도 하고, 성서 텍스트를 언어적으로 이해하는데 새로운 장을 열 수 있는 도구라고 생각합니다. 이에 대한 자세한 사용법은 튜토리얼을 통해 나누도록 하겠습니다.
  • Pasuk Finder: 히브리어로 된 특정한 단락이나 글을 입력하면, 그 글 안에 성경 구절이 포함되어 있을 경우 어떤 구절이 포함되어 있는지 찾아주는 도구입니다.
  • Synopsis Builder: 다른 두 본문을 입력했을 때 두 본문 사이의 유사성과 차이점을 보여주는 툴입니다. 성서 문학 분석시 유사하다고 생각하는 텍스트들을 분석할 때 큰 도움이 될 것 같습니다.

그 외에도 다양한 툴들이 공개될 예정입니다. 자세한 내용은 DICTA 사이트에서 직접 확인해 보시면 좋을 것 같습니다.