모든 텍스트를 추출하려는 PDF 문서(PDF document) 가 있습니까 ? 편집 가능한 텍스트로 변환하려는 스캔 문서의 이미지 파일은 어떻습니까? 이것은 파일 작업을 할 때 직장에서 본 가장 일반적인 문제 중 일부입니다.
이 기사에서는 PDF(PDF) 나 이미지에서 텍스트를 추출하는 여러 가지 방법에 대해 설명 합니다. 추출 결과는 PDF 또는 이미지(PDF or image) 의 텍스트 유형과 품질(type and quality) 에 따라 달라집니다 . 또한 결과는 사용하는 도구에 따라 다르므로 최상의 결과를 얻으려면 아래 옵션을 최대한 많이 시도하는 것이 가장 좋습니다.
이미지 또는 PDF에서 텍스트 추출
가장 간단하고 빠른 시작 방법은 온라인 PDF 텍스트 (PDF text) 추출기 서비스를 사용(extractor service) 하는 것 입니다. 이들은 일반적으로 무료이며 컴퓨터에 아무 것도 설치하지 않고도 원하는 것을 정확하게 제공할 수 있습니다. 다음은 내가 매우 좋은 결과에서 우수한 결과로 사용한 두 가지입니다.
PDF 추출
ExtractPDF 는 (ExtractPDF)PDF 파일(PDF file) 에서 이미지, 텍스트 및 글꼴(text and fonts) 을 가져오는 무료 도구 입니다. 유일한 제한 사항은 PDF 파일의 최대 크기 (PDF file)가(max size) 10MB라는 것입니다. 조금 작습니다. 따라서 더 큰 파일이 있는 경우 아래의 다른 방법을 시도해 보십시오. 파일을 선택한 다음 파일 보내기(Send file) 버튼을 클릭합니다. 결과는 일반적으로 매우 빠르며 텍스트 탭(Text tab) 을 클릭하면 텍스트 미리보기가 표시되어야 합니다 .
필요한 경우를 대비 하여 PDF 파일(PDF file) 에서 이미지를 추출하는 것도 좋은 추가 이점입니다 ! 전반적으로 온라인 도구는 훌륭하게 작동하지만 재미있는 결과를 제공 하는 몇 가지 PDF 문서 를 실행했습니다. (PDF docs)텍스트는 잘 추출되지만 어떤 이유로 각 단어 뒤에 줄 바꿈 이 있습니다! (line break)짧은 PDF 파일(PDF file) 에는 큰 문제가 아니지만 텍스트가 많은 파일에는 확실히 문제입니다. 그런 일이 발생하면 다음 도구를 사용해 보십시오.
온라인 OCR
온라인 OCR 은 일반적으로 (Online OCR)ExtractPDF 로 제대로 변환되지 않은 문서에 대해 작동하는 경향이 있으므로 두 서비스를 모두 사용하여 더 나은 출력을 제공하는 서비스를 확인하는 것이 좋습니다. 또한 온라인 OCR(Online OCR) 에는 전체 문서가 아닌 몇 페이지의 텍스트만 변환해야 하는 대용량 PDF 파일(PDF file) 을 가진 사람에게 유용할 수 있는 몇 가지 더 좋은 기능이 있습니다 .
가장 먼저 할 일은 무료 계정을 만드는 것입니다. 약간 성가시지만 무료 계정을 만들지 않으면 전체 문서가 아닌 부분적으로만 PDF 를 변환합니다. (PDF)또한 5MB 문서(MB document) 만 업로드할 수 있는 대신 계정으로 파일당 최대 100MB까지 업로드할 수 있습니다.
먼저 언어를 선택한 다음 변환된 파일에 대해 원하는 출력 형식 유형을 선택합니다. 몇 가지 옵션이 있으며 원하는 경우 둘 이상을 선택할 수 있습니다. 여러 페이지 문서(Multipage document) 에서 페이지 번호(Page numbers) 를 선택한 다음 변환할 페이지만 선택할 수 있습니다 . 그런 다음 파일을 선택하고 변환 (Convert)을 클릭합니다(file and click) !
변환 후 문서(Documents) 섹션(로그인한 경우)으로 이동하여 사용 가능한 무료 페이지 수와 변환된 파일을 다운로드할 수 있는 링크를 볼 수 있습니다. 하루에 25페이지만 무료로 제공되는 것 같아서 그 이상이 필요하면 조금 기다리거나 추가 페이지를 구매해야 합니다.
온라인 OCR(Online OCR) 은 텍스트의 실제 레이아웃을 유지할 수 있었기 때문에 내 PDF 를 훌륭하게 변환 했습니다. 테스트에서 글머리 기호, 다양한 글꼴 크기 등을 사용 하는 Word 문서 를 (Word doc)PDF 로 변환했습니다 . 그런 다음 Online OCR 을 사용하여 (Online OCR)Word 형식으로(Word format) 다시 변환 했는데 원본과 약 95% 동일했습니다. 그것은 나에게 꽤 인상적이다.
또한 이미지를 텍스트로 변환하려는 경우 Online OCR 을 사용하면 (Online OCR)PDF 파일 에서 텍스트를 추출하는 것처럼 쉽게 변환할 수 있습니다.
무료 온라인 OCR
이미지에서 텍스트로 OCR(OCR) 에 대해 이야기했기 때문에 이미지에서 정말 잘 작동하는 또 다른 좋은 웹사이트를 언급하겠습니다. 무료 온라인 OCR(Free Online OCR) 은 테스트 이미지에서 텍스트를 추출할 때 매우 훌륭하고 정확했습니다. 나는 책, 팜플렛 등의 페이지에서 내 iPhone으로 몇 장의 사진을 찍었고 텍스트를 얼마나 잘 변환할 수 있는지에 놀랐습니다.
파일을 선택한 다음 업로드 버튼(Upload button) 을 클릭합니다 . 다음 화면에는 몇 가지 옵션과 이미지 미리보기가 있습니다. 전체 OCR을 원하지 않으면 자를 수 있습니다. 그런 다음 OCR 버튼 을 클릭하기만 하면 변환된 텍스트가 (OCR button)이미지 미리보기(image preview) 아래에 나타납니다 . 또한 제한이 없어서 정말 좋습니다.
온라인 서비스 외에도 변환을 수행하기 위해 컴퓨터에서 로컬로 실행되는 소프트웨어가 필요한 경우를 대비하여 두 가지 프리웨어 PDF 변환기가 있습니다. (PDF)온라인 서비스를 사용하면 항상 인터넷 연결(Internet connection) 이 필요 하며 모든 사람에게 가능한 것은 아닙니다. 그러나 나는 프리웨어 프로그램의 변환 품질이 웹 사이트의 변환 품질보다 훨씬 나쁘다는 것을 알았습니다.
A-PDF 텍스트 추출기
A-PDF Text Extractor 는 (A-PDF Text Extractor)PDF 파일(PDF file) 에서 텍스트를 상당히 잘 추출하는 프리웨어입니다 . 다운로드하여 설치 했으면 (Once)열기 버튼 을 클릭하여 (Open button)PDF 파일(PDF file) 을 선택하십시오 . 그런 다음 텍스트 추출(Extract text) 을 클릭 하여 프로세스를 시작합니다.
텍스트 출력 파일(text output file) 을 저장할 위치를 묻고 추출을 시작합니다. 추출할 특정 페이지와 추출 유형 만 선택할 수 있는 (extraction type)옵션(Option) 버튼 을 클릭할 수도 있습니다 . 두 번째 옵션은 다른 레이아웃에서 텍스트를 추출하고 어떤 레이아웃이 최상의 출력을 제공하는지 확인하기 위해 세 가지 모두를 시도해 볼 가치가 있기 때문에 흥미롭습니다.
PDF2텍스트 지표
PDF2Text Pilot 은 텍스트 추출 작업을 잘 수행합니다. 옵션이 없습니다. 파일이나 폴더를 추가하고 변환하고 최선(convert and hope) 을 다하기만 하면 됩니다. 일부 PDF(PDFs) 에서는 잘 작동했지만 대부분의 경우 수많은 문제가 있었습니다.
파일 추가(Add Files) 를 클릭한 다음 변환(Convert) 을 클릭하기 만 하면 됩니다. 변환이 완료되면 찾아보기(Browse) 를 클릭 하여 파일을 엽니다. 이 프로그램을 사용하면 마일리지가 달라지므로 많은 것을 기대하지 마십시오.
또한 회사 환경에 있거나 직장에서 Adobe Acrobat 사본을 얻을 수 있다면 훨씬 더 나은 결과를 얻을 수 있다는 점을 언급할 가치가 있습니다. Acrobat 은 분명히 무료는 아니지만 PDF 를 Word , Excel 및 HTML 형식(Excel and HTML format) 으로 변환하는 옵션이 있습니다 . 또한 원본 문서의 구조를 유지하고 복잡한 텍스트를 변환하는 데 최선을 다합니다.
Extract Text from PDF and Image Files
Have a РDF document that you wоuld like to extract all the text out of? What abоut image files of a scanned doсument that you want to convert into editable text? Thesе are some of the most common issues I’ve seen at the workplace when working with files.
In this article, I’ll talk about several different ways you can go about trying to extract text from a PDF or from an image. Your extraction results will vary depending on the type and quality of the text in the PDF or image. Also, your results will vary depending on the tool you use, so it’s best to try out as many of the options below as possible to get the best results.
Extract Text from Image or PDF
The simplest and quickest way to start is to try an online PDF text extractor service. These are normally free and can give you exactly what you are looking for without having to install anything on your computer. Here are two that I have used with very good to excellent results:
ExtractPDF
ExtractPDF is a free tool to grab images, text and fonts out of a PDF file. The only limitation is that the max size for the PDF file is 10 MB. That’s a bit small; so if you have a bigger file, try some of the other methods below. Choose your file and then click the Send file button. The results are normally very fast and you should see a preview of the text when you click on the Text tab.
It is also a nice added benefit that it extracts images out of the PDF file too, just in case you need those! Overall, the online tool works great, but I have run into a couple of PDF docs that give me funny output. The text is extracted just fine, but for some reason it’ll have a line break after each word! Not a huge problem for a short PDF file, but certainly an issue for files with lots of text. If that happens to you, try the next tool.
Online OCR
Online OCR usually tended to work for the documents that didn’t convert properly with ExtractPDF, so it’s a good idea to try both services to see which ones gives you better output. Online OCR also has some nicer features that can prove handy for anyone with a large PDF file that only needs to convert text on a few pages rather than the whole document.
The first thing you want to do is go ahead and create a free account. It’s a bit annoying, but if you don’t create the free account, it will only partially convert your PDF rather than the entire document. Also, instead of only being able to upload only a 5 MB document, you can upload up to 100MB per file with an account.
First, choose a language and then pick the type of output formats you would like for the converted file. You have a couple of options and you can choose more than one if you like. Under Multipage document, you can select Page numbers and then choose only the pages that you want to convert. Then you select the file and click Convert!
After conversion, you’ll be brought to the Documents section (if you’re logged in) where you can see how many available free pages you have left and links to download your converted files. It seems like you only have 25 pages for free a day, so if you need more than that, you’ll have to either wait a bit or buy more pages.
Online OCR did an excellent job of converting my PDFs because it was able to maintain the actual layout of the text. In my test, I took a Word doc that used bullets, different font sizes, etc and converted it to a PDF. Then I used Online OCR to convert it back to Word format and it was about 95% the same as the original. That’s pretty impressive for me.
Plus, if you are looking to convert an image to text, then Online OCR can do that just as easily as extracting text from PDF files.
Free Online OCR
Since were talking about image to text OCR, let me mention another good website that works really well on images. Free Online OCR was very good and very accurate when extracting text from my test images. I took a couple of photos from my iPhone of pages from books, pamphlets, etc and I was surprised at how well it was able to convert the text.
Choose your file and then click the Upload button. On the next screen, there are a couple of options and a preview of the image. You can crop it if you don’t want to OCR the whole thing. Then just click the OCR button and your converted text will appear below the image preview. It also doesn’t have any limitations, which is really nice.
In addition to the online services, there are two freeware PDF converters I want to mention in case you need software running locally on your computer to perform the conversions. With online services, you’ll always need an Internet connection and that may not be possible for everyone. However, I noticed that the quality of the conversions from the freeware programs were significantly worse than those of the websites.
A-PDF Text Extractor
A-PDF Text Extractor is freeware that does an fairly good job of extracting text from PDF files. Once you download it and install it, click the Open button to choose your PDF file. Then click Extract text to start the process.
It’ll ask you a location to store the text output file and then it will begin extracting. You can also click on the Option button, which lets you choose only certain pages to extract and the extraction type. The second option is interesting because it extracts the text in different layouts and it’s worth trying all three to see which ones gives you the best output.
PDF2Text Pilot
PDF2Text Pilot does an ok job of extracting text. It doesn’t have any options; you just add files or folders, convert and hope for the best. It worked well on some PDFs, but for the majority of them, there were numerous issues.
Just click Add Files and then click Convert. Once the conversion is complete, click on Browse to open the file. You mileage will vary using this program so don’t expect much.
Also, it’s worth mentioning that if you are in a corporate environment or can get your hands on a copy of Adobe Acrobat from work, then you can really get much better results. Acrobat is obviously not free, but it has options to convert PDF to Word, Excel and HTML format. It also does the best job of maintaining the structure of the original document and converting complicated text.