단순히 pdf 문서의 텍스트만을 추출할 때는 매우 간단합니다. 크롬에서 pdf 문서를 열고 텍스트를 선택 > 복사 > 메모장에 붙여 넣으면 되죠.
크롬이 설치되어 있다면 보통 pdf 문서가 바로 연결 됩니다. 하지만 크롬으로 연결되지 않는 경우 해당 파일을 선택하고 마우스 우클릭 > 연결 프로그램 > 크롬을 선택해 주시면 됩니다.
하지만 pdf 문서에 락이 걸려 있다면 별도의 과정이 필요합니다. 오늘은 pdf 텍스트 추출 방법들을 한 번 알아 보려고 하는데요. 몇 가지 프로그램을 이용해 볼 예정이니 마음에 드는 프로그램을 사용 하시기 바랍니다.
pdf 락 해제 하기
https://www.ilovepdf.com/unlock_pdf
위 사이트는 락걸린 PDF 문서를 해제해 주는 사이트입니다. 링크를 클릭해 사이트로 이동해 주세요.
해제할 PDF 파일을 선택합니다. 구글 드라이브와 드롭박스에 있는 파일도 지원하고 있습니다.
Unlock PDF 를 클릭하면 해당 문서에 걸린 락이 해제 됩니다.
알 pdf로 텍스트 추출 하기
https://www.altools.co.kr/download/alpdf.aspx
알 PDF는 무료 프로그램이니 참고 하시고요. 위 링크를 클릭해 프로그램을 설치해 주세요.
설치가 완료되면 변환하고자 하는 파일을 불러온 후 홈 메뉴에 있는 텍스트로 아이콘을 클릭합니다. 이렇게 하면 텍스트 파일로 익스포트 되는데요. 텍스트 파일 외에도 한글, 워드, 엑셀 등 여러가지 프로그램을 지원하고 있습니다. 다른 파일 아이콘을 클릭하면 HTML 이나 또 다른 형식으로 저장할 수 있습니다.
그런데 지금처럼 텍스트 형식이 아닌 이미지로 만들어진 PDF 파일이 있습니다. 이런 경우에 이미지에 있는 텍스트를 추출해야 하는데요.
알 PDF에서 문자인식을 지원하고 있습니다. 홈 메뉴에 보면 문구 추가 옆에 문자인식(OCR) 아이콘이 있습니다. 해당 아이콘을 클릭 하세요. 해당 메뉴를 클릭하면 별도의 프로그램이 다시 설치 되고요. 설치가 완료 되면 알PDF를 재실행 하셔야 올바르게 작동합니다. 이후 해당 문서를 다시 불러온 후 문자 인식(OCR) 실행을 클릭 합니다.
확인을 클릭해 계속 진행합니다.
NPDF로 텍스트 추출하기
이 프로그램 역시 무료 프로그램으로 간단히 사용할 수 있습니다. 해당 링크로 이동 하셔서 프로그램을 다운 받고 설치해 주세요.
프로그램을 설치한 후 추출을 원하는 PDF를 불러 옵니다. 파일을 불러 오면 여러가지 기능을 지원하는 것을 볼 수 있는데요. 여기서 PDF파일에서 텍스트 추출을 클릭해 계속 진행합니다.
지금까지 pdf 텍스트 추출 방법에 대해서 알아봤는데요. 락이 걸린 문서나 이미지로 된 텍스트를 추출할 때 외에는 그냥 크롬을 이용하시는 것이 가장 편합니다. 만약 락이 걸렸거나 이미지에 있는 텍스트를 추출할 때는 알 PDF를 이용 하시는 것이 좋을 것 같네요.