본문 바로가기

Office

NcExtractPdf (PDF 이미지 텍스트 추출기)




PDF 추출기


2013.11.14 /  한세기 여행자


기능 : 

PDF에서 이미지와 텍스트를 추출해줍니다. 그러나 파일에 따라 텍스트 추출이 안되는 경우가 있습니다. 64비트 윈도우에서 작동되는지는 확인 못해봤습니다. 잘되면 댓글 남겨주세요.


사용법 :

아무곳에 압축 풀고 파일을 실행하면 됩니다.


만약 실행이 안되면 :

아래 주소에서 닷넷3.5 프로그램을 설치하세요.

http://www.microsoft.com/downloads/details.aspx?FamilyID=333325fd-ae52-4e35-b531-508d977d32a6&DisplayLang=ko


저작권 :

본 프로그램은 자유 소프트웨어(GPLv2)로 개인, 기업(단체) 모두 무료로 사용가능하며 소스코드를 수정 및 재배포에 제한이 없습니다. 단, 수정 및 재배포시 소스코드를 누구나 잘 보이도록 공개 첨부해야 합니다.


다운로드 : 

프로그램 (9Mb)

NcExtractPdf.zip


소스코드 (9Mb)

NcExtractPdf_sourceCode.zip


개발환경

닷넷 3.5 / C#


사용 기술

고스트 스크립트(GNU license) : http://www.ghostscript.com/

- PDF에서 글, 이미지를 저장시키는 콘솔 프로그램

iTextSharp 라이브러리(Affero GNU license) : http://sourceforge.net/projects/itextsharp/

- PDF에서 글을 추출하는 라이브러리

Cyoutek.GhostScript.PdfConversion 라이브러리(CPOL license) : http://cyotek.com/

- 고스트 스크립트 콘솔 프로그램에서 나오는 결과를 c# 코드 내 변수로 받아주는 라이브러리


코드 내용

파일리스트를 드래&드롭으로 얻은 후 GhostScript를 이용해 PDF를 이미지로 iTextSharp을 이용해 텍스트로 변환합니다.



[프로그램 버그나 평가를 남겨주시면 많은 분들에게 도움이 됩니다.]