PDF 문서에서 표를 추출하는 방법
이 기사에서는 PDF 문서에서 표를 추출(extract tables from PDF documents) 하는 방법을 보여줍니다 . 개별적으로 사용하려는 여러 테이블이 포함된 많은 PDF 파일이 있을 수 있습니다. (PDF)해당 테이블을 복사(Copying) 하여 붙여넣는 것은 예상한 출력을 제공하지 않을 수 있으므로 좋은 옵션이 아닙니다. 따라서 PDF 파일에서 테이블을 추출하고 해당 테이블을 별도의 파일로 저장할 수 있는 다른 간단한 옵션이 필요합니다.
이러한 PDF 표 추출기 도구 의 대부분은 (PDF table extractor tools)PDF 표를 스캔 하면 도움이 되지 않습니다 . 이러한 경우에는 먼저 PDF를 검색 가능하게(make the PDF searchable) 만든 다음 이 옵션을 시도해야 합니다.
PDF 문서에서 테이블 추출
이 게시물에서는 PDF(PDF) 파일 에서 표를 추출하기 위해 2개의 무료 온라인 서비스와 3개의 무료 소프트웨어를 추가했습니다 .
- PDF를 XLS로
- PDFtoExcel.com
- 표
- ByteScout PDF 멀티툴
- Sejda PDF 데스크탑.
1] PDF에서 XLS로
PDF to XLS 는 (XLS)PDF 에서 테이블을 추출하는 최고의 옵션 중 하나입니다 . 그것은 그것을 편리하게 만드는 두 가지 기능이 있습니다. 20개의 PDF(20 PDF) 문서 에서 표를 함께 가져올 수 있습니다 . 또한 PDF 테이블 추출은 자동입니다. 출력을 XLSX 파일로 생성합니다. PDF 에 여러 테이블이 있는 경우 각 테이블은 출력 XLSX 파일의 다른 시트에 별도로 저장됩니다.
(Open the homepage)이 서비스 의 홈페이지를 엽니다 . 그런 다음 PDF(PDF) 파일 을 드래그 앤 드롭 하거나 UPLOAD FILES 버튼을 사용하십시오. 업로드된 각 PDF 는 자동으로 XLSX 형식 파일로 변환됩니다. 출력 파일이 준비되면 하나씩 다운로드하거나 모든 출력 파일이 포함될 ZIP 파일을 다운로드할 수 있습니다.(ZIP)
2] PDFtoExcel.com
PDFtoExcel.com 서비스는 한 번에 하나의 (PDFtoExcel.com)PDF 에서 테이블을 추출할 수 있지만 PDF 를 업로드하는 여러 플랫폼을 지원합니다 . PDF 를 업로드하기 위해 OneDrive , 데스크톱(desktop) , Google 드라이브(Google Drive) 및 Dropbox 플랫폼을 지원 합니다 . 또한 변환 프로세스는 자동입니다.
이 서비스 홈페이지는 여기(here) 입니다. 여기에서 업로드 옵션을 선택하여 PDF 를 추가 합니다. 그 후 PDF 를 자동으로 업로드하여 Excel ( XLSX ) 파일로 변환합니다. 출력이 준비되면 PDF(PDF) 테이블 이 포함된 출력 파일을 저장할 수 있는 다운로드 링크가 표시됩니다 .
참고: 이 서비스는 스캔한 (Note: )PDF 파일에서도 표를 추출할 수 있다고 언급했지만 저에게는 효과가 없었습니다. 스캔한 PDF(PDF) 에 대해 계속 시도할 수 있습니다 .
3] 표
Tabula 는 PDF 에 있는 테이블을 자동으로 감지하고 해당 테이블을 (PDF)TSV , JSON 또는 CSV 파일 로 저장할 수 있는 강력한 소프트웨어입니다. 각 PDF 테이블에 대해 별도의 (PDF)CSV 파일을 저장하거나 단일 CSV 파일에 모든 테이블 을 저장하는 옵션을 선택할 수 있습니다 .
이 오픈 소스(open-source) PDF 테이블 추출기 를 다운로드하려면 여기를 클릭하십시오(click here) . 또한 성공적으로 실행하고 사용 하려면 Java 가 필요합니다.(requires Java)
다운로드한 ZIP(ZIP) 파일 의 압축 을 풀고 tabula.exe 파일을 실행합니다. 기본 브라우저에서 페이지가 열립니다. 페이지가 열리지 않으면 브라우저에 http://localhost:8080 을 추가하고 Enter 키를 누릅니다(Enter) .
이제 찾아보기(Browse) 옵션을 사용하여 PDF 를 추가 할 수 있는 인터페이스가 표시됩니다 . 그런 다음 가져오기(Import) 버튼을 누릅니다. PDF 가 추가 되면 인터페이스에서 PDF 페이지를 볼 수 있습니다 .
표 자동 감지(Autodetect Tables) 버튼을 사용하면 해당 PDF 에 있는 모든 표가 자동으로 강조 표시 됩니다. 특정 테이블을 선택하여 테이블을 수동으로 강조 표시할 수도 있습니다. 원하는 경우 선택한 테이블(remove selected tables) 을 제거할 수도 있습니다.
이렇게 하면 원하는 테이블만 저장하는 데 도움이 됩니다. PDF 테이블이 강조 표시되면 추출 된 데이터 미리보기 및 내보내기(Preview & Export Extracted Data) 버튼을 클릭합니다.
마지막으로 상단에 있는 드롭다운 메뉴를 사용하여 출력 형식을 선택하고 내보내기(Export) 버튼을 누릅니다. 이렇게 하면 선택한 출력 형식 파일로 PDF 테이블이 저장됩니다.(PDF)
4] ByteScout PDF 멀티툴
이름에서 알 수 있듯이 이 소프트웨어에는 여러 도구가 함께 제공됩니다. PDF를 다중 페이지 TIFF로 변환(convert PDF to multipage TIFF) , PDF 문서 회전(rotate PDF document) , PDF를 검색 불가능하게 만들기, PDF (make PDF unsearchable)최적화, PDF(optimize PDF) 에 이미지 추가(add an image to PDF) 등과 같은 도구가 있습니다 . PDF 테이블 감지기 기능도 있습니다. 이 도구의 장점은 스캔한 PDF 에서도 표를 추출 할 수 있다는 것입니다. (extract tables from scanned PDF)여러 페이지에서 테이블을 감지한 다음 해당 테이블을 CSV , XLS , XML , TXT 또는 JSON 형식 파일로 추출할 수 있습니다. 추출하기 전에 페이지 범위 를 설정할 수도 있습니다.(page range)지정된 페이지에서만 테이블을 추출합니다.
여기에서(here) 이 소프트웨어를 얻을 수 있습니다 . 비상업적 용도로만 무료(free for non-commercial use) 입니다 . 설치 후 이 소프트웨어를 실행하고 문서 열기(Open Document) 옵션을 사용하여 PDF 를 추가하십시오 . 그런 다음 위의 이미지에서 강조 표시된 대로 테이블 검색 도구를 클릭합니다. (Detect tables)이 도구는 데이터 추출(Data Extraction) 범주에 있습니다.
테이블을 감지하기 위한 조건을 설정할 수 있는 상자가 열립니다. 예를 들어, 열, 행, 표 사이의 최소 줄 바꿈 수, 표 감지 모드를 테두리가 있는 표 또는 테두리 없는 표로 설정하는 등의 최소 수를 설정할 수 있습니다. 옵션을 사용하거나 기본 설정을 유지합니다.
그런 다음 해당 상자에서 다음 테이블 검색(Detect next table) 버튼을 누릅니다. 현재 페이지에서 테이블을 식별하고 선택합니다. 그런 식으로 다른 페이지로 이동하여 더 많은 테이블을 감지할 수 있습니다.
완료되면 추출 진행(Proceed to extraction) 버튼을 사용하고 출력 형식을 선택합니다. 마지막으로 옵션을 사용하여 현재 페이지의 테이블을 저장하거나 페이지 범위를 정의하고 출력을 저장할 수 있습니다.
이 도구는 만족스러운 출력을 제공합니다. 그러나 때로는 PDF 에서 다른 콘텐츠를 감지 할 수 있으며 여러 페이지에서 표를 추출하지 못할 수 있습니다. 이 경우 테이블을 하나씩 가져와서 저장하는 데 사용해야 합니다.
5] Sejda PDF 데스크탑
Sejda PDF Desktop 은 또한 다목적 소프트웨어입니다. PDF 를 최적화하거나 압축하고, PDF(compress PDF) 에 워터마크를 추가하고, PDF에서 제한을 제거하고 , (remove restrictions from PDF)PDF 문서 를 편집 하는 등의 작업을 수행할 수 있습니다. 그러나 무료 계획에는 제한이 있습니다. 무료 플랜에서는 하루에 3개의 작업만 수행할 수 있습니다. 또한 PDF 크기 제한은 50MB 또는 10페이지(10 pages) 입니다.
PDF에서 Excel 로의 변환 도구를 사용하여 (PDF to Excel)PDF 테이블 을 추출 할 수 있습니다 . PDF 페이지 의 테이블을 자동으로 감지하고 해당 테이블을 XLSX 또는 CSV 로 저장할 수 있습니다 .
다운로드 링크는 여기(here) 에 있습니다 . 설치 후 기본 인터페이스에서 PDF to Excel 도구를 사용하십시오. (Excel)해당 도구를 선택한 후 PDF 파일 선택(Choose PDF files) 버튼을 사용합니다. 무료 플랜에는 하나 의 PDF 만 추가할 수 있습니다.(PDF)
PDF 가 추가되면 PDF 를 CSV(Convert PDF to CSV) 로 변환 및 PDF를 Excel로 변환(Convert PDF to Excel) 버튼이 제공됩니다. 버튼을 사용하여 PC의 원하는 위치에 출력을 저장할 수 있습니다.
PDF 테이블 감지 도구가 좋습니다 . 수동으로 테이블을 검색할 필요가 없습니다. 그러나 때로는 다른 텍스트 콘텐츠를 PDF 테이블로 포함하고 출력에 저장할 수 있습니다. 그러나 전반적인 결과는 좋습니다.
그게 다야.
다음은 PDF(PDF) 에서 표를 추출하는 몇 가지 좋은 도구 입니다. Tabula 소프트웨어는 다른 도구보다 더 효과적입니다. 그래도 모든 도구를 사용해 보고 어떤 것이 도움이 되는지 확인할 수 있습니다.
비슷한 글:(Similar reads:)
- PDF에서 첨부 파일 추출(Extract attachments from PDF)
- PDF에서 강조 표시된 텍스트를 추출합니다(Extract highlighted text from PDF) .
Related posts
Document Converter : Convert DOC, PDF, DOCX, RTF, TXT, HTML 파일
PPS file 란 무엇입니까? PPS Windows 11/10에서 PDF로 변환하는 방법은 무엇입니까?
PDF text은 Windows 10에서 파일을 편집하거나 저장할 때 사라집니다
Best Free PDF Editor Online Tools 클라우드 기반입니다
편집 PDF 파일 무료 PDF Editor Online Tool - PDF Yeah
PRIMA Rapid Image Viewer을 통해 이미지 및 PDF 문서를 신속하게 봅니다
Documents을 Google Docs로 PDF로 변환하는 방법 브라우저 사용
PDF에서 Text File로 Highlighted Text을 추출하는 방법은 무엇입니까?
Convert Word, PowerPoint, Excel Documents Google Docs을 사용하여 PDF로
Download Windows Command Reference PDF Guide Microsoft에서
Plain Text Windows 10에서 Musical Notation PDF로 변환하는 방법
LightPDF는 모든 PDF 요구 사항에 대해 포괄적 인 온라인 PDF Editor tool입니다
Edge browser에서 PDFs에 대한 두 페이지 Layout을 설정하는 방법
PDF Candy는 PDFs을 관리하는 올인원 online tool입니다
PDF24 Creator은 PDF 파일을 생성, 변환, 병합하기위한 무료 PDF Creator입니다
PDF Fixer Tool Windows 10을 사용하여 PDF을 복구하는 방법
Convert PDF ~ PPT (PowerPoint)이 무료 software & online tools 사용
Convert JPG file ~ PDF Online Free
PDF Link Editor와 PDF Files에 Add, 제거 또는 편집 하이퍼 링크
Compress PDF Software : Compress PDF PDF Reducer online 도구를 사용하는 파일