devmoa

한/글 문서 파일 형식: Python을 통한 HWP 포맷 파싱하기 (2)

한글과컴퓨터·2025년 9월 29일·00
HWPPython파일 파싱문서 형식Section 스트림레코드

AI 요약

Beta

이 글은 Python을 사용하여 한글(HWP) 문서 파일의 본문 데이터를 파싱하는 과정을 상세히 설명합니다. HWP 파일의 BodyText 스토리지 내 Section 스트림에 저장된 본문 정보가 어떻게 구성되는지 분석하고, zlib 압축 해제 후 문단 단위 레코드를 읽어 텍스트, 제어 문자, 글자 모양(CharShape), 문단 모양(ParaShape) 등을 파싱하는 구체적인 절차를 Python 코드로 제시합니다.

또한, 샘플 파일을 통해 파싱된 서식이 실제 렌더링 결과와 일치함을 검증합니다. 본문 파싱에 대한 내용을 다루며, 다음 글에서는 표와 그림 등 복잡한 컨트롤 객체 파싱 방법을 이어서 설명할 예정입니다.

이 글이 궁금하신가요?

원문 블로그에서 전체 내용을 확인해 보세요

원문 읽으러 가기

AI 추천 연관 게시글

이 글과 관련된 다른 기술 블로그 글을 AI가 추천합니다