웹 스크래핑(Web scraping) 은 자동화된 방법을 사용하여 웹 사이트에서 데이터, 정보 또는 이미지를 추출하는 행위입니다. 완전 자동에서 복사하여 붙여넣는(copy and paste) 것으로 생각하십시오 .(Think)
우리는 앱을 작성하거나 사용하여 원하는 웹 사이트로 이동하고 해당 웹 사이트에서 원하는 특정 항목의 복사본을 만듭니다. 전체 웹사이트를 다운로드하는 것보다 훨씬 정확합니다.
다른 도구와 마찬가지로 웹 스크래핑은 선이나 악을 위해 사용될 수 있습니다. 웹 사이트를 스크랩하는 더 좋은 이유 중 일부는
콘텐츠, 가격 비교 쇼핑 또는 (price comparison shopping)주식 시장 정보(stock market information) 모니터링
을 기반으로 검색 엔진(search engine) 에서 순위를 매기는 것 입니다. 일종의 연구 도구(research tool) 로 사용할 수도 있습니다 .
Excel 로 웹사이트를 스크랩하려면 어떻게 해야 합니까?
믿거나 말거나 Excel 은 적어도 (Excel)Excel 2003 이후로 오랫동안 웹 사이트에서 데이터를 추출하는 기능을 가지고 있었습니다 . 웹 스크래핑은 대부분의 사람들이 생각 하지 않는 것입니다. (t think)스프레드시트 프로그램(spreadsheet program) 을 사용하여 작업을 수행하는 것은 말할 것도
없습니다. 그러나 놀랍도록 쉽고 강력합니다. Microsoft Office 키보드(Microsoft Office keyboard)
단축키 모음을 만들어 수행하는 방법을 알아보겠습니다 .
스크랩하고 싶은 사이트 찾기
우리가 할 첫 번째 일은 정보를 얻고자 하는 특정 웹 페이지를 찾는 것입니다. https://support.office.com/ 에서 검색해(source and search) 보겠습니다 . "자주 사용하는 단축키" 라는 검색어(search term) 를 사용하겠습니다 . Outlook , Excel , Word 등과 같은 특정 앱의 이름을 사용하여 더 구체적으로 만들 수 있습니다 . 쉽게 돌아갈 수 있도록 결과 페이지를 북마크에 추가하는 것이 좋습니다.
(Click)검색 결과(search result) " Windows용 Excel 의 바로 가기 키" 를 클릭 합니다 . 해당 페이지에서 Excel 버전 목록을 찾아 (Excel)최신 버전(Newer Versions) 을 클릭합니다 . 이제 우리는 최신의 최고와 협력하고 있습니다.
검색 결과 페이지로 돌아가서 다른 모든 Office 앱(Office apps) 에 대한 결과를 자체 탭에서 열고 책갈피에 추가할 수 있습니다. 이 운동을 위해서라도 좋은 생각입니다. 여기에서 대부분의 사람들은 Office 바로 가기 수집을 중단하지만 우리는 그렇지 않습니다. 우리는 그것들을 엑셀(Excel) 에 넣어 우리가 원할 때 언제든지 그것들로 무엇이든 할 수 있도록 할 것입니다.
Excel을 열고 스크랩
Excel 을 열고 새 통합 문서를 시작합니다. 통합 문서를 Office 바로 가기(Office Shortcuts) 로 저장합니다 . OneDrive가 있는 경우 자동 저장(AutoSave ) 기능이 작동하도록 저장하세요.
통합 문서가 저장되면 데이터(Data) 탭을 클릭합니다.
데이터 탭(Data tab) 의 리본 에서 웹에서(From Web) 를 클릭합니다 .
웹에서(From Web ) 마법사 창이 열립니다. 여기에 데이터를 스크랩하려는 웹 사이트 의 웹 주소 또는 URL 을 입력합니다. (web address or URL)웹 브라우저로 전환 하고 URL 을 복사 합니다.(copy)
웹에서 마법사 의 (From Web wizard)URL
필드에 URL을 붙여넣습니다 . 기본(Basic) 또는 고급(Advanced) 모드 에서 이것을 사용하도록 선택할 수 있습니다 . 고급 모드(Advanced mode) 는 웹사이트에서 데이터에 액세스하는 방법에 대한 더 많은 옵션을 제공합니다. 이 연습에서는 기본 모드만 필요합니다. 확인 을 (OK)클릭(Click) 합니다.
이제 Excel(Excel) 에서 웹 사이트에 연결을 시도합니다. 몇 초 정도 걸릴 수 있습니다. 그렇다면 진행 창이 표시(progress window) 됩니다 .
네비게이터(Navigator)
창이 열리고 왼쪽 웹사이트의 테이블 목록이 표시됩니다 . 하나를 선택하면 오른쪽에 테이블 미리보기가 표시됩니다. 자주 사용하는 단축키(Frequently used shortcuts ) 표를 선택합시다 .
원하는 테이블을 둘러봐야 하는 경우 웹 보기(Web
View) 탭을 클릭 하여 실제 웹 사이트를 볼 수 있습니다. 찾으면 클릭하면 가져오기로 선택됩니다.
이제
이 창 하단 에 있는 로드 버튼을 클릭합니다. (Load)우리가 선택할 수 있는 다른 옵션이 있습니다. 더 복잡하고 첫 번째 스크래핑을 수행하는 범위를 벗어납니다. 그들이 있다는 사실만 알아두세요. Excel의 웹 스크래핑 기능은 매우 강력합니다.
웹 테이블(web table) 은 몇 초 후에 Excel 에 로드됩니다 . 아래 그림에서 숫자 1 이 왼쪽에 있는 데이터를 볼 수 있습니다. 숫자 2
는 웹사이트에서 데이터를 가져오는 데 사용 된 쿼리(Query) 를 강조 표시합니다 . 통합 문서에 여러 쿼리가 있는 경우 여기에서 사용할 쿼리를 선택합니다.
데이터(Notice) 가 스프레드시트에 Excel 테이블로 제공됩니다. 데이터를 필터링하거나 정렬할 수 있도록 이미 설정되어 있습니다.
Outlook , Word , Access , PowerPoint 및 기타 Office 앱(Office app) 에 대해 원하는 Office 바로 가기 가 있는 다른 모든 웹 페이지에 대해 이 프로세스를 반복할 수 있습니다 .
Excel 에서 스크랩한 데이터를 최신 상태(Scraped Data Current) 로 유지
보너스로 Excel(Excel) 에서 스크랩한 데이터를 최신 상태로 유지하는 방법을 배울 것 입니다. 이것은 Excel(Excel) 이 데이터 스크래핑에 얼마나 강력한지를 보여주는 좋은 방법 입니다. 그래도 엑셀(Excel) 이 할 수 있는 가장 기본적인 스크래핑만 하고 있습니다.
이 예에서는 https://www.cnbc.com/stocks/주식 정보(stock information) 웹 페이지 를 사용하겠습니다 .
이전에 수행한 작업을 살펴 보고 주소 표시줄(address bar) 에서 새 URL 을 (URL)복사하여 붙여넣(copy and paste) 습니다 .
네비게이터 창(Navigator window) 으로 이동하면 사용 가능한 테이블이 표시됩니다. 주요 미국 주가 지수(Major U.S. Stock Indices) 를 선택하겠습니다 .
데이터가 스크랩되면 다음 스프레드시트가 표시됩니다.
오른쪽에는 주요 미국 주가 지수(Major U.S. Stock Indexes) 에 대한 쿼리가 표시 됩니다.
강조 표시되도록 선택 합니다. (Select)테이블 도구(Table Tools) 탭과 디자인(Design)
영역 에 있는지(Make) 확인 합니다. 그런 다음 새로 고침(Refresh) 아래의 아래쪽 화살표를 클릭합니다 . 그런 다음 연결 속성(Connection Properties) 을 클릭합니다 .
쿼리 속성(Query
Properties ) 창의 사용(Usage) 탭 에서
이 정보를 새로 고치는 방법을 제어할 수 있습니다. 특정 기간을 새로 고치거나 다음에 통합 문서를 열 때 새로 고치거나 백그라운드에서 새로 고치거나 이들의 조합을 설정할 수 있습니다. 필요한 것을 선택했으면 확인(OK) 을 클릭하여 창을 닫고 계속하십시오.
그게 다야! 이제 Excel 스프레드시트(Excel spreadsheet) 에서 주가, 스포츠 경기 결과 또는 자주 변경되는 기타 데이터를 추적할 수 있습니다 . Excel 방정식과 함수에 능숙하다면 데이터로 원하는 거의 모든 작업을 수행할 수 있습니다.
주식 추세를 파악하거나 직장에서 판타지 스포츠 풀을 운영하거나 날씨를 추적하려고 할 수 있습니다. 누가 알아? 당신의 상상력과 인터넷(Internet) 에서 사용할 수 있는 데이터가 유일한 한계입니다.
Use Excel as a Tool to Copy Data from the Web
Wеb scraping іs the act of extraсting data, information, or images from a website υsing аn aυtomated method. Think of it as copy and paste on full automatic.
We either write or use an app to go to the websites we want it to and make a copy of the specific things we want from those websites. It’s much more precise than downloading an entire website.
Like any tool, web scraping can be used for good or evil.
Some of the better reasons for scraping websites would be ranking it in a
search engine based on its content, price comparison shopping, or monitoring
stock market information. You might even use it as a research tool of sorts.
How Can I Scrape Websites with Excel?
Believe it or not, Excel has had the ability to extract data
from websites for a long time, at least since Excel 2003. It’s just that web
scraping is something most people don’t think of, let alone think of using a
spreadsheet program to do the job. But it’s surprisingly easy, and powerful.
Let’s learn how it’s done by making a collection of Microsoft Office keyboard
shortcuts.
Find the Sites You Want to Scrape
The first thing we’re going to do is find the specific web pages from which we want to get information. Let’s go to the source and search at https://support.office.com/. We’re going to use the search term “frequently used shortcuts”. We can make it more specific by using the name of the specific app, like Outlook, Excel, Word, and so on. It may be a good idea to bookmark the results page so we can easily get back there.
Click on the search result, “Keyboard shortcuts in Excel for
Windows”. Once on that page, find the list of Excel versions and click on Newer Versions. Now we’re working with
the latest and greatest.
We could go back to our search results page and open the
results for all the other Office apps in their own tabs and bookmark them. It’s
a good idea, even for this exercise. This is where most people would stop in
collecting Office shortcuts, but not us. We’re going to put them in Excel so we
can do whatever we want with them, whenever we want.
Open Excel and Scrape
Open Excel and start a new workbook. Save the workbook as Office Shortcuts. If you have OneDrive,
save it there so the AutoSave feature
will work.
Once the workbook is saved, click on the Data tab.
In the ribbon of the Data tab, click on From Web.
The From Web wizard
window will open. This is where we put the web address or URL of the website
from which we want to scrape data. Switch to your web browser and copy the URL.
Paste the URL in to the URL
field of the From Web wizard. We could choose to use this in Basic or Advanced mode. The Advanced mode gives us a lot more options on how
to access the data from the website. For this exercise, we only need Basic
mode. Click OK.
Excel will now attempt to connect to the website. This may
take a few seconds. We’ll see a progress window, if it does.
The Navigator
window will open, and we’ll see a list of tables from the website on the left.
When we select one, we’ll see a table preview on the right. Let’s select the Frequently used shortcuts table.
We can click on the Web
View tab to see the actual website, if we need to look around for the table
we want. When we find it, we can click on it and it will be selected for
import.
Now, we click on the Load
button at the bottom of this window. There are other options we could choose,
which are more complex and beyond the scope of doing our first scrape. Just be
aware that they are there. Excel’s web scraping capabilities are very powerful.
The web table will be loaded in Excel after a few seconds.
We’ll see the data on the left, where the number 1 is in the picture below. Number 2 highlights the Query
used to get the data from the website. When we have multiple queries in a work
book, this is where we select the one we need to use.
Notice that the data comes into the spreadsheet as an Excel
table. It’s already set up for us to be able to filter or sort the data.
We can repeat this process for all the other web pages that
have the Office shortcuts that we want for Outlook, Word, Access, PowerPoint,
and any other Office app.
Keeping Scraped Data Current in Excel
As a bonus for you, we’re going to learn how to keep our
scraped data fresh in Excel. This is a great way to illustrate just how
powerful Excel is for data scraping. Even with this, we’re only doing the most
basic scraping that Excel can do.
For this example, let’s use a stock information web page like https://www.cnbc.com/stocks/.
Go through what we did before and copy and paste the new URL from the address bar.
You’ll get to the Navigator window and see the tables available. Let’s select the Major U.S. Stock Indices.
Once the data is scraped we’ll see the following
spreadsheet.
On the right, we see the query for Major U.S. Stock Indexes.
Select that so it is highlighted. Make sure we’re in the Table Tools tab and in the Design
area. Then click on the down arrow under Refresh.
Then click on Connection Properties.
In the Query
Properties window, under the Usage
tab, we can control how this information refreshes. We can set a specific time
period to refresh, or to refresh when we open the workbook the next time, or to
refresh in the background, or any combination of these. Once we choose what we
need, click on OK to close the
window and continue.
That’s it! Now you can track stock prices, sports scores, or any other data that changes frequently from an Excel spreadsheet. If you’re good with Excel equations and functions, you can do almost anything you want with the data.
Maybe try to identify stock trends, run a fantasy sports pool at work, or maybe just keep track of the weather. Who knows? Your imagination and the data available on the Internet, are the only limits.