PDF 및 이미지 파일에서 텍스트 추출

모든 텍스트를 추출하려는 PDF 문서(PDF document) 가 있습니까 ? 편집 가능한 텍스트로 변환하려는 스캔 문서의 이미지 파일은 어떻습니까? 이것은 파일 작업을 할 때 직장에서 본 가장 일반적인 문제 중 일부입니다.

이 기사에서는 PDF(PDF) 나 이미지에서 텍스트를 추출하는 여러 가지 방법에 대해 설명 합니다. 추출 결과는 PDF 또는 이미지(PDF or image) 의 텍스트 유형과 품질(type and quality) 에 따라 달라집니다 . 또한 결과는 사용하는 도구에 따라 다르므로 최상의 결과를 얻으려면 아래 옵션을 최대한 많이 시도하는 것이 가장 좋습니다.

이미지 또는 PDF에서 텍스트 추출

가장 간단하고 빠른 시작 방법은 온라인 PDF 텍스트 (PDF text) 추출기 서비스를 사용(extractor service) 하는 것 입니다. 이들은 일반적으로 무료이며 컴퓨터에 아무 것도 설치하지 않고도 원하는 것을 정확하게 제공할 수 있습니다. 다음은 내가 매우 좋은 결과에서 우수한 결과로 사용한 두 가지입니다.

PDF 추출

추출 PDF

ExtractPDF 는 (ExtractPDF)PDF 파일(PDF file) 에서 이미지, 텍스트 및 글꼴(text and fonts) 을 가져오는 무료 도구 입니다. 유일한 제한 사항은 PDF 파일의 최대 크기 (PDF file)(max size) 10MB라는 것입니다. 조금 작습니다. 따라서 더 큰 파일이 있는 경우 아래의 다른 방법을 시도해 보십시오. 파일을 선택한 다음 파일 보내기(Send file) 버튼을 클릭합니다. 결과는 일반적으로 매우 빠르며 텍스트 탭(Text tab) 을 클릭하면 텍스트 미리보기가 표시되어야 합니다 .

텍스트 다운로드

필요한 경우를 대비 하여 PDF 파일(PDF file) 에서 이미지를 추출하는 것도 좋은 추가 이점입니다 ! 전반적으로 온라인 도구는 훌륭하게 작동하지만 재미있는 결과를 제공 하는 몇 가지 PDF 문서 를 실행했습니다. (PDF docs)텍스트는 잘 추출되지만 어떤 이유로 각 단어 뒤에 줄 바꿈 이 있습니다! (line break)짧은 PDF 파일(PDF file) 에는 큰 문제가 아니지만 텍스트가 많은 파일에는 확실히 문제입니다. 그런 일이 발생하면 다음 도구를 사용해 보십시오.

온라인 OCR

온라인 OCR 은 일반적으로 (Online OCR)ExtractPDF 로 제대로 변환되지 않은 문서에 대해 작동하는 경향이 있으므로 두 서비스를 모두 사용하여 더 나은 출력을 제공하는 서비스를 확인하는 것이 좋습니다. 또한 온라인 OCR(Online OCR) 에는 전체 문서가 아닌 몇 페이지의 텍스트만 변환해야 하는 대용량 PDF 파일(PDF file) 을 가진 사람에게 유용할 수 있는 몇 가지 더 좋은 기능이 있습니다 .

가장 먼저 할 일은 무료 계정을 만드는 것입니다. 약간 성가시지만 무료 계정을 만들지 않으면 전체 문서가 아닌 부분적으로만 PDF 를 변환합니다. (PDF)또한 5MB 문서(MB document) 만 업로드할 수 있는 대신 계정으로 파일당 최대 100MB까지 업로드할 수 있습니다.

온라인 ocr

먼저 언어를 선택한 다음 변환된 파일에 대해 원하는 출력 형식 유형을 선택합니다. 몇 가지 옵션이 있으며 원하는 경우 둘 이상을 선택할 수 있습니다. 여러 페이지 문서(Multipage document) 에서 페이지 번호(Page numbers) 를 선택한 다음 변환할 페이지만 선택할 수 있습니다 . 그런 다음 파일을 선택하고 변환 (Convert)을 클릭합니다(file and click) !

온라인 ocr 문서

변환 후 문서(Documents) 섹션(로그인한 경우)으로 이동하여 사용 가능한 무료 페이지 수와 변환된 파일을 다운로드할 수 있는 링크를 볼 수 있습니다. 하루에 25페이지만 무료로 제공되는 것 같아서 그 이상이 필요하면 조금 기다리거나 추가 페이지를 구매해야 합니다.

온라인 OCR(Online OCR) 은 텍스트의 실제 레이아웃을 유지할 수 있었기 때문에 내 PDF 를 훌륭하게 변환 했습니다. 테스트에서 글머리 기호, 다양한 글꼴 크기 등을 사용 하는 Word 문서 를 (Word doc)PDF 로 변환했습니다 . 그런 다음 Online OCR 을 사용하여 (Online OCR)Word 형식으로(Word format) 다시 변환 했는데 원본과 약 95% 동일했습니다. 그것은 나에게 꽤 인상적이다.

또한 이미지를 텍스트로 변환하려는 경우 Online OCR 을 사용하면 (Online OCR)PDF 파일 에서 텍스트를 추출하는 것처럼 쉽게 변환할 수 있습니다.

무료 온라인 OCR

이미지에서 텍스트로 OCR(OCR) 에 대해 이야기했기 때문에 이미지에서 정말 잘 작동하는 또 다른 좋은 웹사이트를 언급하겠습니다. 무료 온라인 OCR(Free Online OCR) 은 테스트 이미지에서 텍스트를 추출할 때 매우 훌륭하고 정확했습니다. 나는 책, 팜플렛 등의 페이지에서 내 iPhone으로 몇 장의 사진을 찍었고 텍스트를 얼마나 잘 변환할 수 있는지에 놀랐습니다.

무료 온라인 ocr

파일을 선택한 다음 업로드 버튼(Upload button) 을 클릭합니다 . 다음 화면에는 몇 가지 옵션과 이미지 미리보기가 있습니다. 전체 OCR을 원하지 않으면 자를 수 있습니다. 그런 다음 OCR 버튼 을 클릭하기만 하면 변환된 텍스트가 (OCR button)이미지 미리보기(image preview) 아래에 나타납니다 . 또한 제한이 없어서 정말 좋습니다.

온라인 서비스 외에도 변환을 수행하기 위해 컴퓨터에서 로컬로 실행되는 소프트웨어가 필요한 경우를 대비하여 두 가지 프리웨어 PDF 변환기가 있습니다. (PDF)온라인 서비스를 사용하면 항상 인터넷 연결(Internet connection) 이 필요 하며 모든 사람에게 가능한 것은 아닙니다. 그러나 나는 프리웨어 프로그램의 변환 품질이 웹 사이트의 변환 품질보다 훨씬 나쁘다는 것을 알았습니다.

A-PDF 텍스트 추출기

A-PDF Text Extractor 는 (A-PDF Text Extractor)PDF 파일(PDF file) 에서 텍스트를 상당히 잘 추출하는 프리웨어입니다 . 다운로드하여 설치 했으면 (Once)열기 버튼 을 클릭하여 (Open button)PDF 파일(PDF file) 을 선택하십시오 . 그런 다음 텍스트 추출(Extract text) 을 클릭 하여 프로세스를 시작합니다.

PDF 추출기

텍스트 출력 파일(text output file) 을 저장할 위치를 묻고 추출을 시작합니다. 추출할 특정 페이지와 추출 유형 만 선택할 수 있는 (extraction type)옵션(Option) 버튼 을 클릭할 수도 있습니다 . 두 번째 옵션은 다른 레이아웃에서 텍스트를 추출하고 어떤 레이아웃이 최상의 출력을 제공하는지 확인하기 위해 세 가지 모두를 시도해 볼 가치가 있기 때문에 흥미롭습니다.

PDF2텍스트 지표

PDF2Text Pilot  은 텍스트 추출 작업을 잘 수행합니다. 옵션이 없습니다. 파일이나 폴더를 추가하고 변환하고 최선(convert and hope) 을 다하기만 하면 됩니다. 일부 PDF(PDFs) 에서는 잘 작동했지만 대부분의 경우 수많은 문제가 있었습니다.

pdf2text

파일 추가(Add Files) 를 클릭한 다음 변환(Convert) 을 클릭하기 만 하면 됩니다. 변환이 완료되면 찾아보기(Browse) 를 클릭 하여 파일을 엽니다. 이 프로그램을 사용하면 마일리지가 달라지므로 많은 것을 기대하지 마십시오.

또한 회사 환경에 있거나 직장에서 Adobe Acrobat 사본을 얻을 수 있다면 훨씬 더 나은 결과를 얻을 수 있다는 점을 언급할 가치가 있습니다. Acrobat 은 분명히 무료는 아니지만 PDFWord , Excel 및 HTML 형식(Excel and HTML format) 으로 변환하는 옵션이 있습니다 . 또한 원본 문서의 구조를 유지하고 복잡한 텍스트를 변환하는 데 최선을 다합니다.



About the author

저는 개인 정보 보호, 사용자 계정 및 가족 안전에 중점을 둔 컴퓨터 과학자입니다. 저는 지난 몇 년 동안 스마트폰 보안을 개선하기 위해 노력했으며 게임 회사와 협력한 경험이 있습니다. 또한 사용자 계정과 게임을 둘러싼 문제에 대해 여러 번 글을 썼습니다.



Related posts