PDF 문서에서 표를 추출하는 방법

이 기사에서는 PDF 문서에서 표를 추출(extract tables from PDF documents) 하는 방법을 보여줍니다 . 개별적으로 사용하려는 여러 테이블이 포함된 많은 PDF 파일이 있을 수 있습니다. (PDF)해당 테이블을 복사(Copying) 하여 붙여넣는 것은 예상한 출력을 제공하지 않을 수 있으므로 좋은 옵션이 아닙니다. 따라서 PDF 파일에서 테이블을 추출하고 해당 테이블을 별도의 파일로 저장할 수 있는 다른 간단한 옵션이 필요합니다.

이러한 PDF 표 추출기 도구 의 대부분은 (PDF table extractor tools)PDF 표를 스캔 하면 도움이 되지 않습니다 . 이러한 경우에는 먼저 PDF를 검색 가능하게(make the PDF searchable)  만든 다음 이 옵션을 시도해야 합니다.

PDF 문서에서 테이블 추출

이 게시물에서는 PDF(PDF) 파일 에서 표를 추출하기 위해 2개의 무료 온라인 서비스와 3개의 무료 소프트웨어를 추가했습니다 .

  1. PDF를 XLS로
  2. PDFtoExcel.com
  3. ByteScout PDF 멀티툴
  4. Sejda PDF 데스크탑.

1] PDF에서 XLS로

PDF를 XLS로 서비스

PDF to XLS 는 (XLS)PDF 에서 테이블을 추출하는 최고의 옵션 중 하나입니다 . 그것은 그것을 편리하게 만드는 두 가지 기능이 있습니다. 20개의 PDF(20 PDF) 문서 에서 표를 함께 가져올 수 있습니다 . 또한 PDF 테이블 추출은 자동입니다. 출력을 XLSX 파일로 생성합니다. PDF 에 여러 테이블이 있는 경우 각 테이블은 출력 XLSX 파일의 다른 시트에 별도로 저장됩니다.

(Open the homepage)이 서비스 의 홈페이지를 엽니다 . 그런 다음 PDF(PDF) 파일 을 드래그 앤 드롭 하거나 UPLOAD FILES 버튼을 사용하십시오. 업로드된 각 PDF 는 자동으로 XLSX 형식 파일로 변환됩니다. 출력 파일이 준비되면 하나씩 다운로드하거나 모든 출력 파일이 포함될 ZIP 파일을 다운로드할 수 있습니다.(ZIP)

2] PDFtoExcel.com

PDF 문서에서 테이블 추출

PDFtoExcel.com 서비스는 한 번에 하나의 (PDFtoExcel.com)PDF 에서 테이블을 추출할 수 있지만 PDF 를 업로드하는 여러 플랫폼을 지원합니다 . PDF 를 업로드하기 위해 OneDrive , 데스크톱(desktop) , Google 드라이브(Google Drive)Dropbox 플랫폼을 지원 합니다 . 또한 변환 프로세스는 자동입니다.

이 서비스 홈페이지는 여기(here) 입니다. 여기에서 업로드 옵션을 선택하여 PDF 를 추가 합니다. 그 후 PDF 를 자동으로 업로드하여 Excel ( XLSX ) 파일로 변환합니다. 출력이 준비되면 PDF(PDF) 테이블 이 포함된 출력 파일을 저장할 수 있는 다운로드 링크가 표시됩니다 .

참고: 이 서비스는 스캔한 (Note: )PDF 파일에서도 표를 추출할 수 있다고 언급했지만 저에게는 효과가 없었습니다. 스캔한 PDF(PDF) 에 대해 계속 시도할 수 있습니다 .

3] 표

표 PDF 추출기 소프트웨어

TabulaPDF 에 있는 테이블을 자동으로 감지하고 해당 테이블을 (PDF)TSV , JSON 또는 CSV 파일 로 저장할 수 있는 강력한 소프트웨어입니다. 각 PDF 테이블에 대해 별도의 (PDF)CSV 파일을 저장하거나 단일 CSV 파일에 모든 테이블 을 저장하는 옵션을 선택할 수 있습니다 .

이 오픈 소스(open-source) PDF 테이블 추출기 를 다운로드하려면 여기를 클릭하십시오(click here) . 또한 성공적으로 실행하고 사용 하려면 Java 가 필요합니다.(requires Java)

다운로드한 ZIP(ZIP) 파일 의 압축 을 풀고 tabula.exe 파일을 실행합니다. 기본 브라우저에서 페이지가 열립니다. 페이지가 열리지 않으면 브라우저에 http://localhost:8080 을 추가하고 Enter 키를 누릅니다(Enter) .

이제 찾아보기(Browse) 옵션을 사용하여 PDF 를 추가 할 수 있는 인터페이스가 표시됩니다 . 그런 다음 가져오기(Import) 버튼을 누릅니다. PDF 가 추가 되면 인터페이스에서 PDF 페이지를 볼 수 있습니다 .

표 자동 감지(Autodetect Tables) 버튼을 사용하면 해당 PDF 에 있는 모든 표가 자동으로 강조 표시 됩니다. 특정 테이블을 선택하여 테이블을 수동으로 강조 표시할 수도 있습니다. 원하는 경우 선택한 테이블(remove selected tables) 을 제거할 수도 있습니다.

이렇게 하면 원하는 테이블만 저장하는 데 도움이 됩니다. PDF 테이블이 강조 표시되면 추출 된 데이터 미리보기 및 내보내기(Preview & Export Extracted Data) 버튼을 클릭합니다.

마지막으로 상단에 있는 드롭다운 메뉴를 사용하여 출력 형식을 선택하고 내보내기(Export) 버튼을 누릅니다. 이렇게 하면 선택한 출력 형식 파일로 PDF 테이블이 저장됩니다.(PDF)

4] ByteScout PDF 멀티툴

ByteScout PDF Multitool- pdf 추가 및 테이블 감지

이름에서 알 수 있듯이 이 소프트웨어에는 여러 도구가 함께 제공됩니다. PDF를 다중 페이지 TIFF로 변환(convert PDF to multipage TIFF) , PDF 문서 회전(rotate PDF document) , PDF를 검색 불가능하게 만들기, PDF (make PDF unsearchable)최적화, PDF(optimize PDF) 에 이미지 추가(add an image to PDF) 등과 같은 도구가 있습니다 . PDF 테이블 감지기 기능도 있습니다. 이 도구의 장점은 스캔한 PDF 에서도 표를 추출 할 수 있다는 것입니다. (extract tables from scanned PDF)여러 페이지에서 테이블을 감지한 다음 해당 테이블을 CSV , XLS , XML , TXT 또는 JSON 형식 파일로 추출할 수 있습니다. 추출하기 전에 페이지 범위 를 설정할 수도 있습니다.(page range)지정된 페이지에서만 테이블을 추출합니다.

여기에서(here) 이 소프트웨어를 얻을 수 있습니다 . 비상업적 용도로만 무료(free for non-commercial use) 입니다 . 설치 후 이 소프트웨어를 실행하고 문서 열기(Open Document) 옵션을 사용하여 PDF 를 추가하십시오 . 그런 다음 위의 이미지에서 강조 표시된 대로 테이블 검색 도구를 클릭합니다. (Detect tables)이 도구는 데이터 추출(Data Extraction) 범주에 있습니다.

테이블을 감지하기 위한 조건을 설정할 수 있는 상자가 열립니다. 예를 들어, 열, 행, 표 사이의 최소 줄 바꿈 수, 표 감지 모드를 테두리가 있는 표 또는 테두리 없는 표로 설정하는 등의 최소 수를 설정할 수 있습니다. 옵션을 사용하거나 기본 설정을 유지합니다.

그런 다음 해당 상자에서 다음 테이블 검색(Detect next table) 버튼을 누릅니다. 현재 페이지에서 테이블을 식별하고 선택합니다. 그런 식으로 다른 페이지로 이동하여 더 많은 테이블을 감지할 수 있습니다.

테이블 감지 및 선택한 출력으로 PDF 테이블 저장

완료되면 추출 진행(Proceed to extraction) 버튼을 사용하고 출력 형식을 선택합니다. 마지막으로 옵션을 사용하여 현재 페이지의 테이블을 저장하거나 페이지 범위를 정의하고 출력을 저장할 수 있습니다.

이 도구는 만족스러운 출력을 제공합니다. 그러나 때로는 PDF 에서 다른 콘텐츠를 감지 할 수 있으며 여러 페이지에서 표를 추출하지 못할 수 있습니다. 이 경우 테이블을 하나씩 가져와서 저장하는 데 사용해야 합니다.

5] Sejda PDF 데스크탑

pdf to 엑셀 변환기가 있는 Sejda PDF 데스크탑

Sejda PDF Desktop 은 또한 다목적 소프트웨어입니다. PDF 를 최적화하거나 압축하고, PDF(compress PDF) 에 워터마크를 추가하고, PDF에서 제한을 제거하고 , (remove restrictions from PDF)PDF 문서 를 편집 하는 등의 작업을 수행할 수 있습니다. 그러나 무료 계획에는 제한이 있습니다. 무료 플랜에서는 하루에 3개의 작업만 수행할 수 있습니다. 또한 PDF 크기 제한은 50MB 또는 10페이지(10 pages) 입니다.

PDF에서 Excel 로의 변환 도구를 사용하여 (PDF to Excel)PDF 테이블 을 추출 할 수 있습니다 . PDF 페이지 의 테이블을 자동으로 감지하고 해당 테이블을 XLSX 또는 CSV 로 저장할 수 있습니다 .

다운로드 링크는 여기(here) 에 있습니다 . 설치 후 기본 인터페이스에서 PDF to Excel 도구를 사용하십시오. (Excel)해당 도구를 선택한 후 PDF 파일 선택(Choose PDF files) 버튼을 사용합니다. 무료 플랜에는 하나 의 PDF 만 추가할 수 있습니다.(PDF)

PDF 가 추가되면 PDF 를 CSV(Convert PDF to CSV)변환 및 PDF를 Excel로 변환(Convert PDF to Excel) 버튼이 제공됩니다. 버튼을 사용하여 PC의 원하는 위치에 출력을 저장할 수 있습니다.

pdf 테이블을 Excel 또는 csv로 변환

PDF 테이블 감지 도구가 좋습니다 . 수동으로 테이블을 검색할 필요가 없습니다. 그러나 때로는 다른 텍스트 콘텐츠를 PDF 테이블로 포함하고 출력에 저장할 수 있습니다. 그러나 전반적인 결과는 좋습니다.

그게 다야.

다음은 PDF(PDF) 에서 표를 추출하는 몇 가지 좋은 도구 입니다. Tabula 소프트웨어는 다른 도구보다 더 효과적입니다. 그래도 모든 도구를 사용해 보고 어떤 것이 도움이 되는지 확인할 수 있습니다.

비슷한 글:(Similar reads:)



About the author

저는 Windows MVP이고 2007년부터 Windows로 작업해 왔습니다. 제 경험에는 소프트웨어 개발, 하드웨어 및 사운드, Windows 앱이 포함됩니다. 저는 항상 제 작업에서 사용자 경험을 개선할 수 있는 최선의 방법을 찾고 있습니다. 따라서 소프트웨어 응용 프로그램을 설계하거나 개발하는 데 도움이 필요하면 제 서비스를 제공할 수 있습니다.



Related posts