대부분의 사람들은 데이터 분석을 생각할 때 Microsoft Excel과 같은(like Microsoft Excel) 도구에서 데이터를 조작하고 분석하는 것을 생각 합니다. 현실은 데이터 분석이 데이터가 전달하는 이야기를 조작하고 이해하기 위한 광범위한 도구와 다양한 방법을 포함한다는 것입니다.
데이터 분석이란 무엇입니까? 비즈니스 데이터, 제조 데이터, 마케팅 데이터 또는 귀하가 운영하는 산업 및 비즈니스 관련 데이터에 대해 이야기하는 경우 데이터 분석은 매우 다르게 사용됩니다.(Data)
이 기사에서는 데이터 분석의 다양한 측면, 의미 및 일반적으로 전반적으로 사용되는 방법에 대해 알아봅니다.
데이터 수집(Data Collection)
모든 데이터 분석의 첫 번째 단계는 데이터 수집입니다. 이것은 단순히 필요한 정보를 보유하고 있는 모든 소스에서 데이터를 수집하는 것을 의미합니다.
데이터에는 다음과 그 이상이 포함될 수 있습니다.
- 제조 기계 컨트롤러
- 누군가 수동으로 데이터를 컴퓨터에 입력
- 온도, 압력 등을 측정하는 센서
- 클라우드 기반(Cloud based) 데이터 소스
- 날씨 또는 정부 데이터베이스와 같은 인터넷 정보
- (Databases)회사 네트워크에 보관된 데이터베이스
많은 조직의 주요 과제는 해당 정보를 수집하는 데 사용할 수 있는 기술 도구를 파악하는 것입니다. 대부분의 경우 소프트웨어는 해당 원격 장치 또는 데이터 소스에 연결한 다음 내부 데이터베이스 또는 데이터 히스토리언 시스템으로 끌어오는 데 필요합니다.
이러한 저장 영역을 종종 "데이터 웨어하우스"라고 합니다.
정보가 조직 내부의 데이터 웨어하우스에 수집되면 다양한 도구를 사용하여 실제 데이터 분석을 수행할 수 있습니다.
비즈니스 인텔리전스(Business Intelligence)
데이터가 수집되면 다음 단계는 해당 데이터로 무엇을 할 것인지 결정하는 것입니다. 비즈니스 인텔리전스와 관련하여 필요한 데이터는 조직이 더 나은 비즈니스 결정을 내리는 데 도움이 되어야 합니다.
Business Intelligence (BI) reports and dashboards help managers and other business leaders better understand trends and gain insights into various aspects of the business.
These aspects include:
- Supply chain needs or limitations
- Reducing costs
- Improving sales
- Customer needs and behaviors
- Predicting future sales or market demands
- Logistics and shipping
Gathering data from all of these different systems throughout your organization lets you build connections between information that may never have been possible before.
Manufacturing Intelligence
The difficulty when it comes to gathering data from manufacturing processes is that usually there’s just so much of it.
If you think about a typical manufacturing facility, every single machine on the shop floor collects dozens to hundred of data points that include:
- 온도 및 압력
- 부품 또는 제품
- 사용된 원료
- 불량 부품 폐기
- 오작동 카운트 및 알람
대부분의 경우 제조 장비는 PLC (Programmable Logic Controller )를 사용하여 자동화됩니다. 이러한 장치는 프로그래밍된 방식에 따라 장비를 실행할 뿐만 아니라 해당 장비에서 데이터를 수집하고 수집합니다.
이러한 PLC(PLCs) 에서 데이터를 가져오려면 해당 PLC(PLCs) 와 동일한 네트워크의 서버에서 실행되는 소프트웨어가 필요합니다 . 컨트롤러에서 데이터 히스토리언 또는 데이터베이스로 데이터를 가져오는 소프트웨어를 작성한 공급업체가 많이 있습니다.
이 분야의 데이터 히스토리언 리더는 다음과 같습니다.
- OSIsoft : 이 회사는 수십 년 동안 존재했으며 거의 모든 종류의 프로세서, 센서 또는 데이터베이스에서 데이터를 가져올 수 있는 "통합자" 또는 드라이버를 포함합니다.
- Factorytalk : 오랜 기간 자동화 리더인 로크웰 오토메이션(Rockwell Automation) 은 고객이 기계 프로세서에서 데이터를 수집할 수 있도록 돕기 위해 Factorytalk 라는 자체 데이터 히스토리안을 제작했습니다 .
- Aveva : 이전에 Wonderware 로 알려졌던 AVEVA Historian 은 프로세스 데이터, 알람, 이벤트 등과 같은 기계 데이터에 대한 "개방형 액세스"를 제공할 것을 약속합니다.
- Iconics : 데이터 히스토리언 시장의 소규모 업체인 Iconics의 제조업체는 "고속 아카이빙"을 제공하여 저장된 데이터 해상도가 시스템에서 원래 발생한 것과 일치하도록 약속합니다.
거의 모든 소프트웨어 제공업체에는 데이터 히스토리언 솔루션과 함께 사용할 데이터 분석 도구가 포함되어 있습니다. 제조 시설에 적합한 데이터 수집 및 분석 솔루션을 선택하는 것은 실제로 사용하는 컨트롤러, 데이터 저장 방법, 지출할 금액에 따라 다릅니다.
데이터 시각화
비즈니스 데이터를 수집, 분석 및 시각화하는 데 가장 널리 사용되는 도구는 Microsoft PowerBI 입니다.
PowerBI 는 다양한 데이터 원본에서 데이터를 가져올 수 있는 Microsoft 에서 제공하는 강력한 시각화 도구 입니다. 그런 다음 다양한 원형 및 막대 차트, 선 그래프, 테이블 등에 걸쳐 데이터를 분할 및 분석할 수 있습니다.
다양한 데이터 소스의 정보를 결합하는 기능을 통해 이전에는 불가능했던 상관 관계를 찾을 수 있습니다. 이것이 현대 데이터 분석의 마법입니다. 다양한 소스의 데이터를 시각화할 수 있는 도구 이전에는 불가능했던 통찰력을 얻을 수 있는 기능을 제공합니다.
PowerBI 는 이러한 방식으로 데이터를 조작하고 시각화할 수 있는 유일한 앱이 아닙니다. 실제로 이러한 유형의 도구에 대한 시장이 성장하고 있습니다.
오늘날 최고의 데이터 시각화 도구에는 다음이 포함됩니다.
- Metabase : 조직의 사람들이 "질문을 하고 데이터에서 배울 수 있도록" 하는 오픈 소스(무료) 솔루션입니다.
- Tableau : 다양한 산업 분야에서 널리 사용되는 데이터 시각화 플랫폼입니다. 다양한 데이터 소스와의 연결 이 가능합니다.(Connectivity)
- Whatagraph : 이해하기 쉬운 보고서를 쉽게 작성할 수 있어 마케팅 대행사에서 인기가 높습니다. 이 도구에는 자동화된 보고서 생성이 포함되어 있으며 이를 누구에게나 자동으로 이메일로 보낼 수 있습니다.
- JasperReports : 이것은 또 다른 오픈 소스 보고 솔루션입니다. 인쇄된 문서, PDF(PDFs) 및 웹 기반 보고서와 같은 다양한 형식으로 보고서를 출력할 수 있는 능력에서 그 힘이 나옵니다 .
선택하는 옵션은 실제로 귀하 또는 귀하의 조직이 하고자 하는 투자에 따라 다릅니다. 고맙게도 시작해야 하는 곳이라면 훌륭한 오픈 소스 옵션을 사용할 수 있습니다.
데이터 수집
가장 강력한 새로운 데이터 분석 기술 중 하나는 데이터 마이닝입니다.
데이터(Data) 마이닝은 통계 모델링을 사용하여 미래의 추세를 예측하기 위해 많은 양의 데이터에서 패턴과 추세를 끌어내는 데 중점을 둡니다.
데이터 마이닝 통계 분석을 수행할 수 있는 응용 프로그램은 고도로 전문화되어 있으며 당면한 응용 프로그램이나 상황에 맞게 사용자 정의해야 하는 경우가 많습니다.
데이터 마이닝 분석 유형은 다음과 같습니다.
- 탐색적 데이터 분석(Exploratory Data Analysis) ( EDA ): 이것은 새로운 경향을 식별하거나 새로운 정보를 배우기 위해 데이터의 패턴을 검색하는 것을 포함합니다.
- 확증 데이터 분석(Confirmatory Data Analysis) ( CDA : 수집된 모든 데이터를 사용하여 의심되는 상관 관계가 사실인지 여부를 확인합니다.
오늘날 시장에서 사용할 수 있는 주요 데이터 마이닝 소프트웨어 도구는 다음과 같습니다.
- Rapid Miner : Java 로 작성된 우수한 오픈 소스 예측 분석 시스템입니다 . 기계 학습, 예측 분석 및 텍스트 마이닝이 가능합니다.
- Sisense : 대규모 조직에 맞게 확장할 수 있는 비즈니스 인텔리전스에 맞게 조정된 라이선스 소프트웨어입니다. 여기에는 우수한 보고 모듈이 포함되어 있습니다.
- Oracle : 데이터 산업의 선두주자 중 하나인 Oracle 은 조직이 (Oracle)Oracle 데이터베이스 에 저장된 데이터를 사용할 수 있도록 SQL 내에서 데이터 마이닝 기능을 제공 합니다.
- IBM Cognos : 이 소프트웨어는 중요한 추세를 식별하기 위해 대용량 데이터를 처리할 수 있습니다. 관리 또는 다른 사람을 위한 보고서를 생성하는 데 사용할 수 있습니다.
- SAS : 데이터 산업의 또 다른 큰 이름인 Statistical Analysis System ( SAS )은 분석 결과를 기반으로 데이터를 마이닝, 관리 및 업데이트하도록 특별히 설계되었습니다.
보시다시피 데이터 분석에는 많은 측면이 있으며 사용해야 하는 도구는 실제로 해당 데이터에서 무엇을 배우기를 원하는지에 따라 다릅니다.
데이터 분석의 발전은 매년 계속 진행되고 있으며 업계에서 앞서고자 하는 기업이나 조직은 사용 가능한 데이터 분석 도구를 파악하고 최대한 활용해야 합니다.
What Is Data Analysis And The Best Tools To Use
When most рeople think of data anаlysіs, they think of manipulating and analyzing data in a tool like Microsoft Excel. The reality is that data analysis encompasses a wide range of tools and a lot of different methods to manipulate and understand the story that the data tells.
What is data analysis? Data analysis is used very differently if you’re talking about business data, manufacturing data, marketing data, or data specific to the industry and business that you operate.
In this article, you’ll learn about the different aspects of data analysis, what they mean, and how they’re generally used across the board.
Data Collection
The first stage of any data analysis is data collection. This simply means gathering data from all of the sources that hold information you need.
Data can include any of the following and more:
- Manufacturing machinery controllers
- Someone manually entering data into a computer
- Sensors that measure temperature, pressure, and more
- Cloud based data sources
- Information from the internet like weather or government databases
- Databases housed on your company network
A major challenge for a lot of organizations is figuring out what technical tools are available to gather that information. Most of the time software is required to connect to that remote device or data source and then pull them into an internal database or data historian system.
These storage areas are often referred to as a “data warehouse”.
Once information is collected into a data warehouse inside an organization, various tools can be used to conduct the actual data analysis.
Business Intelligence
Once data is collected, the next step is deciding what to do with all that data. When it comes to business intelligence, the required data should help an organization make better business decisions.
Business Intelligence (BI) reports and dashboards help managers and other business leaders better understand trends and gain insights into various aspects of the business.
These aspects include:
- Supply chain needs or limitations
- Reducing costs
- Improving sales
- Customer needs and behaviors
- Predicting future sales or market demands
- Logistics and shipping
Gathering data from all of these different systems throughout your organization lets you build connections between information that may never have been possible before.
Manufacturing Intelligence
The difficulty when it comes to gathering data from manufacturing processes is that usually there’s just so much of it.
If you think about a typical manufacturing facility, every single machine on the shop floor collects dozens to hundred of data points that include:
- Temperatures and pressures
- Parts or product made
- Raw material used
- Bad parts scrapped
- Malfunction counts and alarms
In most cases, manufacturing equipment is automated by the use of a programmable logic controller (PLC). These devices not only run the equipment according to how they’re programmed, but they also collect and gather data from that equipment.
Getting data out of those PLCs involves software that runs on a server on the same network as those PLCs. There are many vendors that have written software to get data out of those controllers and into a data historian or a database.
The data historian leaders in this area include:
- OSIsoft: This company has been around for decades, and includes “integrators” or drivers that can get data out of almost any kind of processor, sensor, or database.
- Factorytalk: Long time automation leader Rockwell Automation produced their own data historian called Factorytalk to help their customers collect data from machine processors.
- Aveva: Formerly known as Wonderware, the AVEVA Historian promises to provide “open access” to machine data like process data, alarms, events, and more.
- Iconics: A smaller player in the data historian marketplace, the makers of Iconics promise to provide “high-speed archiving” so the stored data resolution matches what originally occurred on the machine.
Nearly all of these software providers include data analysis tools to go along with their data historian solution. Choosing the right data collection and analytics solution for your manufacturing facility really depends on the controllers you use, how you want to store the data, and how much you are willing to spend.
Data Visualization
The most popular tool for collecting, analyzing, and visualizing business data is Microsoft PowerBI.
PowerBI is a powerful visualization tool offered by Microsoft that lets you bring in data from many different data sources. You can then slice and dice the data across various pie and bar charts, line graphs, tables, and more.
The ability to combine information from various data sources lets you find correlations that wouldn’t have been possible before. This is the magic of modern data analysis. It provides the ability to gain insights that were never before possible before tools that let you visualize data from many sources.
PowerBI isn’t the only app with the ability to manipulate and visualize data in this way. In fact, there’s a growing market for just these types of tools.
The leading data visualization tools today include:
- Metabase: An open-source (free) solution that touts itself as letting people in your organization “ask questions and learn from data”.
- Tableau: A popular data visualization platform used across many different industries. Connectivity with many different data sources is available.
- Whatagraph: Popular among marketing agencies because it’s easy to produce easy-to-understand reports. The tool includes automated report generation and can automatically email those to anyone.
- JasperReports: This is another open-source reporting solution. It’s power comes from the ability to output reports in many different formats like printed documents, PDFs, and web-based reports.
The option you decide to go with really depends on the investment you or your organization wants to make. Thankfully there are excellent open-source options available if that’s where you need to start.
Data Mining
One of the most powerful new data analysis techniques is something called data mining.
Data mining focuses on using statistical modeling to pull patterns and trends out of a large volume of data in order to predict future trends.
The applications that can perform data mining statistical analysis are highly specialized and often need to be customized to the application or situation at hand.
Types of data mining analysis include:
- Exploratory Data Analysis (EDA): This involves searching for patterns in data in order to identify new trends or learn new information.
- Confirmatory Data Analysis (CDA: This involves using all of the collected data to try and determine whether suspected correlations are true.
Some of the leading data mining software tools available on the market today include:
- Rapid Miner: An excellent open-source predictive analysis system written in Java. It’s capable of machine learning, predictive analysis, and text mining.
- Sisense: Licensed software tailored for business intelligence, with the ability to scale up for large organizations. It includes an excellent reporting module.
- Oracle: One of the leading names in the data industry, Oracle offers data mining feature within SQL that lets organizations use data stored in an Oracle database.
- IBM Cognos: This software is capable of processing large volumes of data to identify important trends. These can be used to generate reports for management or others.
- SAS: Another big name in the data industry, Statistical Analysis System (SAS) was specifically designed to mine, manage, and even update data based on analytical results.
As you can see, there are many facets to data analysis and the tools you need to use really depends on what you hope to learn from that data.
Advancements in data analysis continue to advance every year, and any company or organization that hopes to stay ahead in their industry needs to stay on top of what data analysis tools are available and to use them to their fullest potential.