웹사이트를 스크랩하는 방법

(Web) 스크래핑은 거의 모든 산업에서 인터넷에서 데이터를 추출하고 분석하는 데 사용됩니다. 기업은 수집된 데이터를 사용하여 새로운 비즈니스 전략과 제품을 제시합니다. 귀하의 데이터는 소중합니다. 귀하가 귀하의 개인 정보를 보호하기 위한 조치를 취하지 않는 한 회사는 귀하의 데이터를 사용하여 돈을 벌고 있습니다.

대기업이 하고 있다면 당신도 하지 않겠습니까? 웹사이트를 긁는 방법을 배우면 최고의 거래를 찾고, 비즈니스에 대한 리드를 수집하고, 새 직업을 찾는 데 도움이 될 수 있습니다. 

웹 스크래핑 서비스 사용

인터넷에서 데이터를 수집하는 가장 빠르고 간단한 방법은 전문적인 웹 스크래핑 서비스를 이용하는 것입니다. 많은 양의 데이터를 수집해야 하는 경우 Scrapinghub 와 같은 서비스 가 적합할 수 있습니다. 그들은 온라인 데이터 수집을 위해 사용하기 쉬운 대규모 서비스를 제공합니다.  

더 작은 규모의 무언가를 찾고 있다면 ParseHub 가 몇 개의 웹사이트를 긁어모아 볼 가치가 있습니다. 모든 사용자는 신용 카드가 필요 없는 무료 200페이지 플랜으로 시작하며, 나중에 계층형 가격 책정 시스템을 통해 구축할 수 있습니다.

웹 스크래핑 앱

웹사이트를 무료로 빠르고 편리하게 스크랩하려면 Web Scraper Chrome 확장 프로그램(Web Scraper Chrome Extension) 을 사용하는 것이 좋습니다.

약간의 학습 곡선이 있지만 개발자는 환상적인 문서(documentation)튜토리얼 (tutorial )비디오(videos) 를 제공 했습니다. Web Scraper 는 소규모 데이터 수집을 위한 가장 단순하고 최고의 도구 중 하나 이며 대부분의 것보다 무료(Free) 계층에서 더 많은 것을 제공합니다. 

Microsoft Excel(Use Microsoft Excel) 을 사용하여 웹 사이트 스크랩(Website)

좀 더 친숙한 것을 위해 Microsoft Excel 은 기본적인 웹 스크래핑 기능을 제공합니다. 사용해 보려면 새 Excel 통합 문서를 열고 데이터(Data) 탭을 선택하십시오. 도구 모음 에서 웹(From Web) 에서를 클릭 하고 마법사의 지시에 따라 컬렉션을 시작합니다.

여기에서 스프레드시트에 데이터를 저장하는 몇 가지 옵션이 있습니다. 전체 자습서는 Excel을 사용한 웹 스크래핑 가이드를(guide to web scraping with Excel) 확인하세요 .

Scrapy Python 라이브러리 사용(Use the Scrapy Python Library)

Python 프로그래밍 언어(Python programming language) 에 익숙 하다면 Scrapy(Scrapy) 가 완벽한 라이브러리입니다. 정보를 추출하기 위해 웹사이트를 크롤링하는 맞춤형 "스파이더"를 설정할 수 있습니다. 그런 다음 프로그램에서 수집한 정보를 사용하거나 파일로 내보낼 수 있습니다.

Scrapy 튜토리얼 은 기본 웹 스크래핑에서 전문가 수준의 다중 거미 예약 정보 수집에 이르기까지 모든 것을 다룹니다. Scrapy 를 사용 하여 웹 사이트를 긁는 방법을 배우는 것은 자신의 필요에 유용한 기술이 아닙니다. Scrapy 사용법을 아는 개발자 는 수요가 높으며 이는 (Developers)완전히 새로운 경력(a whole new career) 으로 이어질 수 있습니다 .

Beautiful Soup Python 라이브러리 사용(Use The Beautiful Soup Python Library)

Beautiful Soup 은 웹 스크래핑을 위한 Python 라이브러리입니다. Scrapy 와 비슷 하지만 훨씬 더 오래 사용되었습니다. 많은 사용자는 Beautiful Soup 이 (Soup)Scrapy 보다 사용하기 쉽다고 생각 합니다.

Scrapy 만큼 완전한 기능은 아니지만 대부분의 사용 사례에서 Python 프로그래머 를 위한 기능과 사용 편의성 사이의 완벽한 균형 입니다.

웹 스크래핑 API 사용

웹 스크래핑 코드를 직접 작성하는 것이 편하다면 여전히 로컬에서 실행해야 합니다. 소규모 작업에는 문제가 없지만 데이터 수집이 확장됨에 따라 귀중한 대역폭을 사용하여(use up precious bandwidth) 잠재적으로 네트워크 속도가 느려질 수 있습니다(slowing down your network) .

웹 스크래핑 API 를 사용하면 일부 작업을 코드를 통해 액세스할 수 있는 원격 서버로 오프로드할 수 있습니다. 이 방법에는 Dexi(Dexi) 와 같은 모든 기능을 갖춘 전문적인 가격 옵션과 ScraperAPI 와 같은 단순히 제거된 서비스를 비롯한 여러 옵션이 있습니다 .

둘 다 사용하는 데 비용이 들지만 ScraperAPI 는 약정하기 전에 서비스를 시도하기 위해 지불 전에 1000개의 무료 API 호출을 제공합니다.(API)

IFTTT를 사용하여 웹사이트 스크랩

IFTTT 는 강력한 자동화 도구입니다. 데이터 수집 및 웹 스크래핑을 포함하여 거의 모든 것을 자동화하는 데 사용할(use it to automate almost anything) 수 있습니다 .

IFTTT 의 큰 이점 중 하나는 많은 웹 서비스와의 통합입니다. Twitter 를 사용하는 기본 예 는 다음과 같습니다.

  • IFTTT에 로그인하고 만들기 를 선택합니다.(Create)
  • 서비스 메뉴에서 트위터(Twitter) 선택
  • 트윗에서 새 검색(New Search From Tweet) 선택
  • 검색어 또는 해시태그를 입력하고 트리거 생성 을 클릭합니다.(Create Trigger)
  • 작업 서비스로 Google 스프레드시트(Google Sheets) 를 선택 하세요.
  • 스프레드시트에 행 추가를(Add Row to Spreadsheet) 선택 하고 단계를 따릅니다.
  • 작업 만들기를(Create Action) 클릭 합니다.

몇 단계만 거치면 검색어나 해시태그에 연결된 트윗과 사용자 이름을 게시한 시간과 함께 문서화하는 자동 서비스를 만들 수 있습니다.

온라인 서비스를 연결하는 옵션이 너무 많기 때문에 IFTTT 또는 그 대안 중 하나는(IFTTT, or one of its alternatives) 웹사이트를 스크랩하여 간단한 데이터 수집을 위한 완벽한 도구입니다.

Siri 단축어 앱으로 웹 스크래핑하기(Web Scraping With The Siri Shortcuts App)

iOS 사용자의 경우 Shortcuts 앱은 디지털 생활을 연결하고 자동화하기 위한 훌륭한 도구입니다. 캘린더, 연락처 및 지도 간의 통합에(integration between your calendar, contacts, and maps) 익숙할 수도 있지만 훨씬 더 많은 기능을 사용할 수 있습니다.

자세한 게시물에서 Reddit 사용자(Reddit user) u/keverridge 는 Shortcuts 앱에서 정규식을 사용하여(how to use regular expressions with the Shortcuts app) 웹사이트에서 자세한 정보를 얻는 방법에 대해 설명합니다.

정규식 은 훨씬 더 세분화된 검색을 허용하고 여러 (Expressions)파일(can work across multiple files) 에서 작업하여 필요한 정보만 반환할 수 있습니다.

(Use Tasker)Android용 (Android)Tasker 를 사용하여 (Web) 검색

Android 사용자인 경우 웹사이트를 스크랩하는 간단한 옵션이 없습니다. 위에 설명된 단계에 따라 IFTTT 앱을 사용할 수 있지만 Tasker 가 더 적합할 수 있습니다.

Available for $3.50 on the Play Store 있으며 많은 사람들 이 Tasker 를 IFTTT의 형으로 보고 있습니다. 자동화를 위한 광범위한 옵션이 있습니다. 여기에는 사용자 지정 웹 검색, 선택한 웹사이트의 데이터가 변경될 때 알림, Twitter에서 콘텐츠를 다운로드(download content from Twitter) 하는 기능이 포함됩니다 .

전통적인 웹 스크래핑 방법은 아니지만 자동화 앱은 온라인 데이터 수집 서비스를 코딩하거나 비용을 지불하는 방법을 배울 필요 없이 전문적인 웹 스크래핑 도구와 거의 동일한 기능을 제공할 수 있습니다.

자동화된 웹 스크래핑

비즈니스를 위한 정보를 수집하고 싶든 삶을 더 편리하게 만들고 싶든 웹 스크래핑은 배울 가치가 있는 기술입니다.

수집한 정보는 일단 적절하게 분류(once properly sorted) 되면 귀하, 귀하의 친구 및 귀하의 비즈니스 고객이 관심을 갖는 것에 대해 훨씬 더 큰 통찰력을 제공할 것입니다.



About the author

안녕! 제 이름은 하드웨어 해커입니다. 저는 10년 이상의 컴퓨터 수리 및 개조 경험이 있습니다. 노트북에서 태블릿, 스마트 TV에 이르기까지 거의 모든 것을 고칠 수 있습니다. 내 기술을 통해 고객이 문제를 빠르고 효율적으로 해결하도록 도울 수 있습니다. 내 블로그는 사람들이 올바른 도구를 사용하여 컴퓨터와 가전제품을 수리하는 방법을 배울 수 있도록 돕는 데 전념하고 있습니다. 그리고 내 Facebook 페이지는 컴퓨터와 관련된 모든 것에 대한 팁, 트릭 및 통찰력을 공유하는 곳입니다!



Related posts