PDF 추출기
2013.11.14 / 한세기 여행자
기능 :
PDF에서 이미지와 텍스트를 추출해줍니다. 그러나 파일에 따라 텍스트 추출이 안되는 경우가 있습니다. 64비트 윈도우에서 작동되는지는 확인 못해봤습니다. 잘되면 댓글 남겨주세요.
사용법 :
아무곳에 압축 풀고 파일을 실행하면 됩니다.
만약 실행이 안되면 :
아래 주소에서 닷넷3.5 프로그램을 설치하세요.
저작권 :
본 프로그램은 자유 소프트웨어(GPLv2)로 개인, 기업(단체) 모두 무료로 사용가능하며 소스코드를 수정 및 재배포에 제한이 없습니다. 단, 수정 및 재배포시 소스코드를 누구나 잘 보이도록 공개 첨부해야 합니다.
프로그램 (9Mb)
소스코드 (9Mb)
개발환경
닷넷 3.5 / C#
사용 기술
고스트 스크립트(GNU license) : http://www.ghostscript.com/
- PDF에서 글, 이미지를 저장시키는 콘솔 프로그램
iTextSharp 라이브러리(Affero GNU license) : http://sourceforge.net/projects/itextsharp/
- PDF에서 글을 추출하는 라이브러리
Cyoutek.GhostScript.PdfConversion 라이브러리(CPOL license) : http://cyotek.com/
- 고스트 스크립트 콘솔 프로그램에서 나오는 결과를 c# 코드 내 변수로 받아주는 라이브러리
코드 내용
파일리스트를 드래&드롭으로 얻은 후 GhostScript를 이용해 PDF를 이미지로 iTextSharp을 이용해 텍스트로 변환합니다.
[프로그램 버그나 평가를 남겨주시면 많은 분들에게 도움이 됩니다.]