[게임 한글화 강좌]제 2장 - 게임 분석하기 1편[게임 한글화 강좌]제 2장 - 게임 분석하기 1편

Posted at 2011. 3. 20. 15:00 | Posted in 이전 카테고리/한글화 강좌 시즌 1

본 강좌의 무단 스크랩을 금지합니다.
문의사항은 댓글 또는 mingi2007@gmail.com 으로 메일 주십시오.

게임 분석하기 1편에서는 게임 한글화에 필요한 기본적인 폰트, 대사 찾기에 대해 알아보겠습니다.

여기부터는 기본적인 컴퓨터 지식이 필요하며 곳곳에 설명이 들어있으므로 참고해주시기 바라며
게임 중에는 아래 설명된 경우에 해당하지 않는 게임도 있습니다.


대부분의 게임에는 대사를 출력하기 위한 폰트가 들어있습니다.
폰트는 글자이미지로 저장해둔 데이터이고 게임 대사에 맞춰 이 폰트를 불러들여 화면에 출력하게됩니다.

위에서 폰트는 글자를 이미지로 저장해둔 데이터라고 했는데 그렇다면 그래픽이 아닌가?
라고 생각하실 분들도 계실거라고 생각합니다.
하지만 폰트와 그래픽은 간단하게 구별이 가능합니다.

우선 폰트는 문장 단위가 아닌 글자 단위로 저장이 되어있습니다.
즉 [안녕하세요.] 이런 식으로 문장 단위가 아닌 [.] [] [] [] [] [] (가나다 순으로 정렬하였습니다.) 글자 하나하나마다 별개의 데이터로 저장이 되어있습니다.

만약 [안녕하세요.] 처럼 문장 단위로 저장되어있다면 대사 파일이 존재할 필요가 없고 대사를 수정하기 위해서는 이미지 전체를 바꿔야하므로 번거롭습니다.

하지만 폰트로 저장되어있다면?
이럴때는 대사 파일에서 글자 배열만 바꿔주면 [안녕하세요.]를 [하세요 안녕.] 처럼 쉽게 수정할 수가 있습니다.

게임 뿐만 아니라 윈도우에서도 이런식의 폰트가 저장되어 있기 때문에 한글의 입출력이 가능한 것입니다.

게임을 한글화하려면 우선 폰트를 찾아야합니다.

실습에서 자세히 알아보겠지만 게임에 따라 폰트가 저장되있는 방식이 다르고 게임기 펌웨어에 들어있는 내장 폰트를 사용하는 경우도 있습니다.(주로 PC게임이나 PSP에서 내장 폰트 사용)
또는 폰트가 압축되어있는 경우도 있습니다.

다음으로 인코딩이라는것에 대해 알아봅시다.

인코딩은 쉽게 말하면 폰트속의 각 글자마다 번호를 정해주는것을 뜻합니다.
이렇게 번호를 정해주는 이유는 컴퓨터는 2진수를 사용하며 영어나 한글등 사람이 사용하는 언어를 알아듣지 못합니다.

2진수는 0과 1로 모든 데이터를 표시하는 방법이고 각각의 0과 1을 비트라고 합니다.
비트가 4개 모이면 1 니블이 되고 1 니블은 0000(0) 부터 1111(15, 0xF) 총 16개까지 표현이 가능하고
비트가 8개 모이면 1 바이트가 되고 1 바이트는 00000000(0) 부터 11111111(255, 0xFF) 까지
총 256개까지 표현이 가능합니다.

우리들은 10진수를 사용하지만 이 10진수는 2의 배수가 아니므로 2진수를 표현하기에는 적합하지 않습니다.
따라서 8진수나 16진수를 사용하지만 주로 16진수를 사용합니다.

Tip. 숫자 앞에 0x가 붙어있으면 16진수라는 것을 의미합니다.

윈도우 XP의 내장 계산기

윈도우 7의 내장 계산기


16진수를 10진수로 변환하거나 10진수를 16진수로 변환하는건 윈도우에 내장된 계산기로도 가능합니다.
XP에서는 공학용, 7에서는 프로그래머용으로 설정하시면 확장된 메뉴가 나타납니다.

Hex는 16진수를 의미하고 Dec는 10진수 Oct는 8진수 Bin은 2진수입니다.

그래픽 데이터는 니블 단위로 계산이 되며(바이트 단위로 되는 경우도 있습니다.)
인코딩에서는 바이트 단위를 사용합니다.

[.] [] [] [] [] []와 같은 폰트 데이터가 있다면

01 = .
02 = 녕
03 = 세
04 = 안
05 = 요
06 = 하
 

이렇게 순서대로 1~6라는 번호를 붙여주고
[04] [02] [06] [03] [05] [01] 이렇게 입력해주면 [안녕하세요.] 가 출력됩니다.

인코딩에는 표준 인코딩이라는 것이 국가마다 존재합니다.
한국에서는 주로 [EUC-KR,949](뒤에 949는 인코딩 번호이며 중요한건 아닙니다.) 이라는 인코딩을 사용하고 일본에서는 [Shift-JIS,932]라는 인코딩을 사용합니다.

또한 전세계 표준으로 지정된 [유니코드,1200,1201,65001 등]도 있습니다.
유니코드에는 전 세계의 문자가 대부분 들어있어서 국가끼리 호환이 가능하며 최근에 출시되는 게임들은 유니코드를 사용하는 경우가 많습니다.

표준 인코딩을 사용하지 않는 경우 고유 인코딩을 사용하므로 [고유번호표]라는 것이 필요합니다.

여러가지가 있지만 우선 Shift-JIS에 대해 알아보겠습니다.

Shift-JIS는 일본에서 사용하는 표준 인코딩이며(줄여서 SJIS라고 합니다.)
SJIS 인코딩에는 한글 코드가 들어있지 않으므로 SJIS 인코딩을 사용하는 게임에서는 바로 한글의 출력이 불가능합니다.

하지만 SJIS에는 한자 영역이 있습니다.
이 한자 영역에 한글 코드를 넣어주고 한자 폰트를 한글 폰트로 교체한다면 비로소 한글의 출력이 가능해집니다.

SJIS의 한자영역은
889F=亜
88A0=唖
88A1=娃
88A2=阿
88A3=哀
88A4=愛
88A5=挨
88A6=姶
88A7=逢
.....
FC48=鵫
FC49=鶴
FC4A=鸙
FC4B=黑

0x889F-0xFC4B까지 넓은 한자영역을 제공합니다.(이론적으로는 0xFC4B-0x889F 까지 0x73AC개의 한자 영역이 있으나 중간에 사용하지 않는 코드도 있으므로 실제는 좀더 적습니다.)

이 SJIS영역에 한글 코드를 대입해보겠습니다.
889F=가
88A0=각
88A1=간
88A2=갇
88A3=갈
88A4=갉
88A5=갊
88A6=감
88A7=갑
88A8=값
88A9=갓
.....
94FC=힝

이렇게 한글 코드를 넣을 수가 있습니다.(SJIS를 사용하는 게임이라도 한자를 사용하지 않는 게임의 경우 폰트 확장이 필요하며 SJIS에 있는 한자 폰트가 모두 들어있지 않은 게임도 있습니다.)

그리고 한자 영역에 있는 폰트를 한글 폰트로 교체해주면 한글 출력이 가능해집니다.
(이는 실습강좌에서 자세히 알려드리겠습니다.)


게임 내의 데이터는 무작위로 배열되어 있는 것이 아닌 구조적으로 배열이 되어있습니다.
다만 게임 기기마다 정형화된 구조로 된 데이터가 있는 반면에 게임이 컴파일 되기 전의 소스 코드에서의 순으로 데이터가 들어있는 경우도 있습니다.

대표적으로 패미컴,슈퍼패미컴,N64,게임보이게임보이 어드밴스는 소스코드에서의 순서대로 데이터가 들어있어서 파일 자체를 분해하기에는 어려움이 있습니다.

PSP,NDS,Gamecube,Wii,PS2,PS3 등의 비교적 신형 게임는 데이터의 배열이 정형화되어있고(물론 게임마다 예외는 존재합니다.) 이럴 경우에는파일을 분해하여 다시 재배열할 수 있습니다.

그럼 다음은 한글화에 가장 중요한 요소인 대사에 대해 알아보겠습니다.

대사는 인코딩과 밀접한 관련이 있습니다.
위에서 말씀드린대로 대사 데이터는 사람이 사용하는 언어가 아닌 컴퓨터의 언어 즉 인코딩으로 저장이 되어있습니다.
따라서 대사를 추출하려면 게임이 사용하는 인코딩을 알아낼 수 있어야합니다.

대사 추출의 과정을 간략히 소개하자면 아래와 같습니다.
1. 게임에서 사용하는 인코딩을 알아낸다.
2. 대사 파일을 찾는다. 대사 파일이 압축되어있다면 압축 해제 코드를 만들거나 압축 툴을 사용한다.
3. 대사 파일 내의 포인터나 구조를 분석하고 그에 맞는 추출툴을 제작한다.
4. txt파일로 추출하여 번역가분에게 전달한다.


다음은 드디어 실습편입니다.
실습편에서는 닌텐도 DS 게임의 실제 폰트를 찾아보고 대사를 수정해보도록 하겠습니다.

읽어주셔서 감사합니다. 
//