PDF에서 강조 표시된 텍스트를 텍스트 파일로 추출하는 방법은 무엇입니까?

PDF 문서 에서 텍스트를 강조 표시하면 나중에 빠르게 액세스할 수 있는 중요한 영역을 표시하는 데 편리합니다. Microsoft Edge를(Microsoft Edge to highlight PDF) 사용 하여 PDF  또는 PDF 강조 표시 기능과 함께 제공되는 기타 소프트웨어를 강조 표시할 수 있습니다. 때로는 모든 필수 텍스트가 포함된 PDF 요약을 볼 수 있도록 강조 표시된 텍스트만 있어야 한다고 느꼈을 수도 있습니다 . PDF 에서 강조 표시된 텍스트만 (PDF)TXT 파일 로 저장하는 방법을 찾고 있다면 이 게시물이 도움이 될 수 있습니다.

PDF에서 강조 표시된 텍스트 추출

PDF 파일 에서 강조 표시된 텍스트를 추출하여 텍스트 파일로 저장하는 무료 소프트웨어와 서비스가 있습니다.

  • PDF 하이라이트 추출기
  • Foxit 리더
  • Sumnotes.net
  • DyAnnotationExtractor.

이 PDF Highlight Extractor(PDF Highlight Extractor) 소프트웨어를 하나씩 확인합시다 .

1] PDF 하이라이트 추출기

PDF 하이라이트 추출기 소프트웨어

PDF Highlight Extractor 는 (PDF Highlight Extractor)PDF 파일 에서 강조 표시된 텍스트를 추출하는 가장 쉬운 옵션 중 하나입니다 . 이 오픈 소스 (open-source) PDF 텍스트 하이라이트 추출기(PDF text highlight extractor) 에는 주의를 끄는 두 가지 기능이 있습니다. 소프트웨어 인터페이스에서 강조 표시된 PDF 텍스트를 미리 볼(preview highlighted text) 수 있습니다 .

두 번째 기능은 시작 또는 끝 페이지 또는 페이지 범위를 설정하여 텍스트를 추출할 수 있다는 것(set start or end page or page range to extract the text) 입니다. 따라서 전체 PDF 를 스캔하는 대신 페이지 번호를 정의하여 강조 표시된 텍스트를 얻을 수 있습니다.

또 다른 좋은 기능은 텍스트를 일반 텍스트(save text as plain text) 또는 Excel 파일(Excel file) 로 저장할 수 있다는 것 입니다.

인터페이스 에서 주어진 옵션을 사용하여 PDF 파일을 추가한 다음 (PDF)추출(Extract) 버튼을 누릅니다. 페이지 범위를 설정하거나 그대로 두려면 모든 페이지(All Pages) 옵션을 선택 취소 하십시오. 텍스트를 가져오면 미리 볼 수 있습니다. 마지막으로 Text 또는 Excel 버튼을 눌러 강조 표시된 텍스트를 저장합니다.

여기(here) 에서 이 소프트웨어를 다운로드할 수 있습니다 . 이 소프트웨어를 사용하려면 Java(Java) 도 필요합니다. 따라서 Java 를 설치 하고(아직 설치하지 않은 경우) 이 소프트웨어를 실행하여 사용하십시오.

2] Foxit 리더

PDF에서 강조 표시된 텍스트 추출

Foxit Reader는 최고의 무료 PDF 리더 중 하나입니다 . 여러 PDF 파일을 별도의 탭에서 열고, (PDF)PDF 를 강조 표시 하고, 메모를 추가하고, 주석을 내보내고(export comments) , 서명(add signatures) 을 추가하는 등의 작업을 수행할 수 있습니다. 방대한 기능 목록 중 PDF 에서 강조 표시된 텍스트를 추출하는 기능 도 있습니다. 이 기능의 가장 좋은 점 은 추출된 텍스트와 함께 페이지 번호도 저장(saves page numbers along with the extracted text) 한다는 것 입니다.

PDF 에서 강조 표시된 텍스트를 가져오려면 인터페이스에서 PDF 파일을 열고(PDF) 주석 (Comment) 에 액세스합니다. 해당 탭에서 댓글 관리(Manage Comments) 섹션 에서 사용할 수 있는 내보내기(Export) 옵션 을 클릭합니다. 강조 표시된 텍스트(Highlighted Text) 옵션 이 표시됩니다. 해당 옵션을 사용하면 강조 표시된 모든 텍스트를 텍스트 파일로 저장할 수 있습니다.

다음(Here) 은 이 소프트웨어의 다운로드 링크입니다. 설치하는 동안 이 소프트웨어의 필수 구성 요소만 포함하도록 사용자 지정 설치(custom installation) 를 선택해야 합니다.

3] 섬노트.넷

요약

Sumnotes.net 은 (Sumnotes.net)PDF 에 주석을 달고 강조 표시된 텍스트를 추출 할 수 있는 무료 서비스입니다 . 강조 표시된 모든 텍스트는 왼쪽 사이드바에 별도로 표시됩니다. 해당 사이드바를 사용하여 필요하지 않은 강조 표시된 텍스트를 제거한(remove highlighted text that you don’t need) 다음 강조 표시된 나머지 텍스트를 다운로드할 수도 있습니다.

강조 표시된 텍스트를 다운로드하기 전에 페이지 번호를 포함하고 특정 색상(highlighted text of specific color) 의 강조 표시된 텍스트를 제외(exclude) 할 수도 있습니다 .

PDF에서 강조 표시된 텍스트를 Excel(save highlighted text from PDF as Excel) 또는 Word 파일로 저장할 수도 있습니다 . 그래서 기능이 좋습니다. 무료 플랜에 가입한 다음 다운로드당 (per download)50개의 하이라이트(extract 50 highlights) 또는 주석 을 추출할 수 있습니다 . 대부분의 경우 충분합니다.

다음(Here) 은 홈페이지 링크입니다. PDF 에서 강조 표시된 텍스트를 추출하려면 PC 또는 Google 드라이브 에서 (Google Drive)PDF 를 추가합니다 . PDF 가 업로드 되면 주석과 강조 표시된 텍스트가 왼쪽에 표시됩니다. 주석 다운로드(Download Annotations) 옵션을 사용 하면 강조 표시된 텍스트를 TXT , XLSX 또는 DOC 형식 파일로 저장할 수 있습니다.

4] DyAnnotationExtractor

DyAnnotationExtractor 명령줄 소프트웨어

DyAnnotationExtractor 소프트웨어를 사용 하면 PDF 문서에서 강조 표시된 텍스트와 주석 을 추출할 수 있습니다. (comments)명령줄(command-line) 소프트웨어이지만 사용하는 것은 매우 간단합니다 . 단 하나의 명령으로 입력 PDF 파일에서 강조 표시된 텍스트를 가져옵니다.

이 링크(this link) 를 사용하여 이 소프트웨어를 얻을 수 있습니다 . ZIP 파일을 (ZIP)다운로드(Download) 한 다음 압축을 풉니다. 명령을 더 쉽게 실행하려면 이 소프트웨어를 추출한 동일한 폴더에 PDF 도 넣어야 합니다. 그런 다음 해당 폴더에서 명령 프롬프트(Command Prompt) 창을 엽니다 . 해당 폴더의 주소 상자에 cmd 를 입력 한 다음 Enter 키를 누르면 됩니다.

CMD 창이 열리면 이 소프트웨어의 BAT 파일, 입력 PDF 의 경로를 포함한 입력 명령 , 출력 명령, 출력 파일 이름을 '.txt' 확장자와 함께 추가합니다. 전체 명령은 다음과 같습니다.

DyAnnotationExtractor.bat -input path of input PDF -output outputfilename.txt

명령을 실행합니다. 몇 초만 기다리면 해당 (Wait)PDF 에서 가져온 모든 강조 표시된 텍스트와 주석이 포함된 일반 텍스트 파일이 준비됩니다 . 출력 파일은 동일한 입력 폴더에 저장됩니다.

따라서 다음은 PDF(PDF) 에서 강조 표시된 텍스트를 추출한 다음 출력을 텍스트 파일로 저장하는 데 사용할 수 있는 몇 가지 옵션 입니다. 도움(Hope) 이 되기를 바랍니다.



About the author

저는 10년 이상의 경험을 가진 전문 오디오 및 키보드 기술자입니다. 저는 기업 세계에서 컨설턴트 및 제품 관리자로 일했으며 가장 최근에는 소프트웨어 엔지니어로 일했습니다. 저의 기술과 경험을 통해 중소기업에서 대기업에 이르기까지 다양한 유형의 프로젝트를 수행할 수 있습니다. 저는 또한 Windows 11의 전문가이며 현재 2년 이상 새 운영 체제에서 작업하고 있습니다.



Related posts