Presentation is loading. Please wait.

Presentation is loading. Please wait.

Error Data Analysis of the Photovoltaic Energy Monitoring System Using the Prediction Interval for Multivariate Linear Regression SE Lab, Hongik University,

Similar presentations


Presentation on theme: "Error Data Analysis of the Photovoltaic Energy Monitoring System Using the Prediction Interval for Multivariate Linear Regression SE Lab, Hongik University,"— Presentation transcript:

1 Error Data Analysis of the Photovoltaic Energy Monitoring System Using the Prediction Interval for Multivariate Linear Regression SE Lab, Hongik University, Sejong, Korea Eunyoung Byun Professor : Robert Youngchul Kim Hello, I’m eun young Byun. My major is software engineering at hongik university. My topic is Error Data Analysis of the Photovoltaic Energy Monitoring System Using the Prediction Interval for Multivariate Linear Regression. Why we research this topic? We gonna find error prediction algorithm It’s to take care the system before a device is out of order. Let me briefly explain this research, We define the strategy to analyze the error data. Error data is the anomaly that occurs when a device is aging. This strategy is the solution that address the problem of Imbalanced data in this System big data. Using this strategy,, We will improve system efficiency as we detect error data and check or replace device before it break down. My major is software engineering in hongik university. Why we do reaseach, small company develop moniroign system during the two year. Every monitoring system take case After happening something problem. We are reaseache take care before happening something. Error prediction algorithm This reaseash gonea fine error predict algorithm. We gone a fine before system faults. 안녕하세요. 홍익대학교 SE Lab 변은영 입니다. 저는 Error Data Analysis of the Photovoltaic Energy Monitoring System using the Prediction interval for Multivariate Linear Regression을 주제로 발표하겠습니다. 내용에 대해 간단히 말씀 드리면, 태양광 모니터링 시스템에서 장비가 고장 나기 이전에 장비가 노후화되면서 나타내는 이상현상인 에러 데이터를 검출하기 위한 전략을 설명합니다. 이는 시스템 빅데이터의 불균형 데이터 문제를 해결할 수 있는 솔루션 입니다. 이 전략을 통해서, 우리는 시스템의 이상현상을 빠르게 검출함으로써 장비들이 고장나기 이전에 점검하거나 교체 할 수 있고 태양광 시스템의 발전 효율성을 높이고자 합니다.

2 Contents I. Motivation II. Related Work
III. Multivariate Linear Regression Analysis Strategy IV. Result I will present this order. Motivation, Related work, multivariate linear regression analysis strategy, I choose this algorithm to find error data. (then) Result and Evaluation. Finally conclusions and future works. These are contents of this presentation. Session 1 is Motivation. In this session, we describe the renewable energy growth rate and the importance of AI and Big data in the renewable energy system. Session 2 is Related work. In this session, we explain the problem of imbalanced data. Session 3 is Multivariate Linear Regression Analysis Strategy. In this session, we define the strategy for error data analysis. We apply the strategy to our Photovoltaic Monitoring System that was developed during the project. Session 4 is result and Session 5 is Evaluation. In these sessions, we describe the result and the evaluation of the strategy. Finally, we mention conclusions and the direction of the future works. 다음은 목차 입니다. 1장은 Motivation으로 신재생 에너지 성장률에 대해 설명하고 기존에 프로젝트에서 개발했던 모니터링 시스템의 이슈를 언급합니다. 2장은 Related Work로 모니터링 시스템 빅데이터의 문제점인 imbalanced data에 대해 설명합니다. 3장은 Multivariate Linear Regression Analysis Strategy입니다. 여기에서는 에러 데이터를 분석하기 위한 전략을 제안합니다. 4장과 5장은 result와 evaluation으로 이 전략의 결과를 설명하고 평가합니다. 마지막으로, 6장에서는 결론과 향후 연구를 언급합니다. V. Evaluation VI. Conclusions and Future Works

3 I. Motivation Average Annual Growth Rates of Renewable Energy 28 17
% 40 28 30 This is Motivation. Renewable Energy is contained various energy sources, such as Geothermal power, Hydro Power, Solar PV, CSP, Wind and so on. This graph shows the average annual growth rate of renewable energy. All of these have been increasing steadily. So, Renewable energy is now established in korea as major sources. Especially Solar Photovoltaic is higher than the others. Motivation 입니다. 신재생 에너지는 지열, 수력, 태양열, 풍력 등의 다양한 에너지원으로 구성됩니다. 아래의 그래프는 각 에너지원들의 평균 연간 성장률을 나타냅니다. 2010년부터 2015년 까지의 평균 성장률과 2015년의 성장률을 보면 모든 에너지원들의 성장률이 증가하고 있다는 것을 알 수 있습니다. 다만, 수력과 지열의 경우는 각각 지속적인 가뭄과 개발 위험의 문제로 인해 성장률이 감소하는 추세를 보였고, 풍력의 경우는 모두 17 퍼센트로 꾸준한 성장률을 보였습니다. 특히, 태양열의 경우는 2010년부터 2015년 동안에도 다른 에너지 원들에 비해 높은 42%의 성장률을 보였고, 2015년에도 28%로 제일 높은 성장률을 보였습니다. Growth rates for various renewable energy technologies reflect a number of factors, including falling renewable energy technology costs and increasing competition for policy support and investment among different renewable technologies. 20 17 9.7 10 2.4 2.7 3.7 2.9 42 35 17 Geothermal power Hydro power Solar PV CSP Wind Ref. Average Annual Growth Rates of Renewable Energy Capacity and Biofuels Production

4 I. Motivation Solar Panel Efficiency is increasing and Solar Panel Price is decreasing It comes down to increasing solar panel efficiency and decreasing solar panel price. The race to solar panel efficiency has been a long one. And it is more heating up right now. Solar Panel Price is not too much cheap. But, it is decreasing gradually. For these reasons, Photovoltaic system has achieved the high growth rate and supply rate. But, the efficiency of this system could be decreased by not only Environmental impacts but also device aging and fault. To solve these problems, Many Photovoltaic power plants introduce a monitoring system to manage the power generation economically. In 2016, it has decreased about 6 times of its price in 2014. This device is contained panel, inverter and so on. 그 이유는 태양광 패널의 효율성 증가와 태양광 시스템의 가격 감소의 영향이 큽니다. 태양광 발전 시스템은 1960년도부터 시작되어 패널 효율성이 점진적으로 증가하였지만, 최근 들어 더 가열되고 있는 추세입니다. 태양열 시스템의 가격은 2014년에는 약 3.8 dollor 였고, 점진적으로 감소하여 2016년에는 약 6배 이상으로 감소했습니다. 이로 인해서 태양광 에너지는 높은 성장률과 보급률을 보이게됬습니다. 하지만, 태양광 발전량의 효율성은 환경적 요소뿐만 아니라 패널이나 인버터와 같은 장비 노후화, 장비 고장과 같은 발전 시스템 장비의 문제에 의해서 감소할 수 있습니다. 이러한 문제들로부터 태양광 발전 시스템을 효율적으로 관리하기 위해 많은 발전소에서는 모니터링 시스템을 도입하고 있습니다. But, the efficiency of Photovoltaic system could be decreased by not only Environmental impacts but also Device(panel, inverter and so on) aging and Fault. Monitoring System Ref. EnergySage

5 I. Motivation We develop the photovoltaic monitoring system during the two years with HS Solar Company. We develop the photovoltaic monitoring system during the two years with HS solar. This is the structure of this system. First, The power generation system consist of Solar Arrays, Junction Boxes and Inverters. Second, the local store the data from the devices. Third, the Server receives the real-time data from clients and stores this in Big data. Then, server provides clients with the monitoring system. Through this process, clients can monitor the real-time power generation. First, clients store the data such as power generation, horizontal solar radiation, solar radiation on slope, module temperature and external temperature from Photovoltaic system. Then, the Server receives the real-time data from clients and stores this in Big data. At last, based on big data, Server 우리도 HS solar회사와의 프로젝트 과정에서 신재생 에너지 모니터링 시스템을 개발했습니다. 이 시스템의 전체적인 구조는 다음과 같습니다. 클라이언트가 태양광 발전 시스템으로 부터 발전량과 수평 일사량, 경사 일사량, 모듈 온도, 외부 온도와 같은 센서 정보를 저장하고 서버가 클라이언트에 저장되는 데이터를 실시간으로 전달받아 서버에 구축된 빅데이터에 저장합니다. 서버는 저장된 데이터를 기반으로 클라이언트들에게 오른쪽 그림과 같은 모니터링 시스템을 제공합니다. 따라서 사용자들은 실시간으로 발전량 정보를 확인할 수 있습니다. 이 논문에서는 시스템 빅데이터의 실시간 데이터를 분석함으로써 장비의 고장을 예측하고자 합니다. 장비들은 갑자기 어떤 사고로 인해서 고장이 나는 경우도 있지만 일반적으로는 시간이 지남에 따라 노후화됨으로써 고장 나는 경우가 많습니다. 이 경우는 고장 이전에 노후화가 되는 과정에서 이상현상이 발생하게 됩니다. 태양광 시스템의 경우는 발전량이 점점 줄어드는 경우를 이상현상으로 설명할 수 있습니다. 이 이상현상들을 빠르게 검출함으로써 시스템이 완전히 고장이 나서 에너지 발전이 이루어지기 이전에 장비를 검사하거나 교체할 수 있을 것입니다. 이를 통해서 태양광 시스템의 발전 효율을 높일 수 있을 것이라 기대합니다.. We detect anomalies like Environmental impacts, panel aging and system fault that is explain before by analyzing the real-time data of Photovoltaic monitoring System

6 I. Motivation AI Big Data An issue of Photovoltaic Monitoring System
◦ We can take action only after a failure occurs. ◦ It is difficult to handle the problem that occurs in not only difficult-to-reach areas but also urban areas immediately. ◦ To solve this problem, We need a research about taking action before a failure occurs. ◦ Any accident may lead to break down a device. But Device failure generally occurs because of getting old. ◦ In this case, an anomaly occurs ◦ We attempt to detect a anomaly. As a result, We will check and replace the device before it is out of order. ◦ For the research , AI and Big Data are applied to Photovoltaic System. Nowadays, There is an issue of this System. We can take action only after a failure occurs. Moreover, It is difficult to handle the problem that occurs in not only difficult-to-reach areas but also urban areas immediately. To solve this problem, we need a research about taking action before a failure occurs. Any accident may lead to break down a device. But Device failure generally occurs because of getting old. In this case, An anomaly occurs. For example, the power generation is gradually decreased in this System. So, We attempt to detect an anomaly. As a result, we will check and replace the device before it’s out of order. For the research, AI and Big data are applied to this system. 태양광 모니터링 시스템의 효율성을 높이기 위한 이슈는 다음과 같습니다. 현재는 고장이 발생한 후에 조치를 취할 수 있습니다. 그런데, 산악지역과 같은 접근이 어려운 지역 뿐만 아니라 도심 지역에서도 문제가 발생할 시에 즉각적인 처리가 어렵다는 문제가 있습니다. 이 문제를 해결하기 위해서 장비의 고장이 발생하기 전에 예측하는 기술에 대한 연구가 필요했습니다. 장비들은 갑자기 어떤 사고로 인해서 고장이 나는 경우도 있지만 일반적으로는 시간이 지남에 따라 노후화됨으로써 고장 나는 경우가 많습니다. 이 경우는 고장 이전에 노후화가 되는 과정에서 이상현상이 발생하게 됩니다. 태양광 시스템의 경우는 발전량이 점점 줄어드는 경우를 하나의 이상현상으로 설명할 수 있습니다. 이 이상현상들을 빠르게 검출함으로써 장비가 완전히 고장이 나기 전에 장비를 검사하거나 교체할 수 있을 것입니다. 이런 연구를 위해서 AI와 Big Data를 신재생 에너지 시스템에 적용했습니다. 산악 지역, 접근이 어려운 지역 뿐만 아니라 일상적인 곳에서도 문제가 생기면 즉각적으로 처리하기 어려움 선처리(고장 나기 전에 미래 고장 예측) technology 에 대한 연구들이 필요 AI Big Data

7 I. Motivation The effects of the Big Data & AI
Higher Performance / AEP Improved Compliance Advanced Predictability Superior Asset Management Better Productivity These are effects of the Big data & AI. It contain the higher performance, advanced predictability, better productivity, improved compliance and superior asset management. Through these effects, we will improve the efficiency of Photovoltaic System. 이렇게 Big Data와 AI를 신재생 에너지 발전 시스템에 적용함으로써 얻을 수 있는 효과에는 높은 성능, 향상된 예측 가능성, 생산성 향상, 개선된 Compliance, 더 나은 자산 관리가 가능합니다. 이런 효과들을 통해서 결과적으로 신재생 에너지 발전 시스템의 효율성을 개선할 수 있습니다. 이를 목표로, 이 논문에서는 신재생 에너지 발전 시스템의 효율성을 낮추는 이상현상인 에러 데이터를 분석하여 빠르게 검출하는 전략에 대해서 연구했습니다. AI Big Data

8 II. Related work Imbalanced data : between normal data and error data.
case #1 “I have a binary classification problem and one class is present with 60:1 ratio in my training set. I used the logistic regression and the result seems to just ignores one class.” case #2 “I am working on classification model. In my dataset I have three different labels to be classified, let them be A, B and C. But in the training dataset I have A dataset with 70% volume, B with 25% and C with 5%. Most of time my results are overfit to A.” Data Ratio 60 1 Overfit Data A 70 B 25 Ratio C 5 Overfit This is related work. There is a problem in this System Big data. It is the imbalance between normal data and error data. This problem comes up in various data like following two cases. In this case, the category which has high percentage of data is overfitted. As a result, we can get more than 90% accuracy. So, we will think “we have a good result”. But, actually, this result is false because of the imbalanced data. We gonnal all data during two year Our system working normal. So we hava no enough error data. Because we store data during two year. We can not guarantee. 다음은 관련 연구입니다. 태양광 시스템의 데이터를 보면 정상 데이터와 오류 데이터가 균형 있지 않기 때문에 Prediction의 대표적인 알고리즘인 Classification을 적용하는데 문제가 있었습니다. 이러한 문제를 Imbalance Data라고 말합니다. 이 문제는 Our Program 뿐만 아니라 많은 곳에서 발견할 수 있었습니다. 두 가지의 경우를 보면, binary classification을 하는데 데이터의 비율이 60:1이라면 학습 결과 하나의 카테고리를 아예 무시하는 결과가 나오게 됩니다. 즉, 60비율의 카테고리에 overfitting이 발생해서 모든 데이터가 60비율의 카테고리로 분류가 됩니다. 또 세가지 카테고리 A,B,C를 분류하는 Classification에서는 그 비율이 70%, 25%, 5% 일 경우에는 A카테고리에 대해서 Overfitting이 나타나게 됩니다. 이 경우도 마찬가지로 B와 C에 포함되는 데이터를 A카테고리라고 잘못된 분류를 할 수가 있습니다. Overfitting으로 인한 학습결과는 90% 이상의 accuracy 정확도를 얻음으로써 학습이 잘되었다 라고 결과가 나오지만, 실제로는 제대로 학습이 이루어지지 못했다는 것을 의미합니다. Imbalanced class -> Overfitting We get 90% accuracy immediately. This result is false because of imbalanced data.

9 II. Related work 8 ways To solve the problem of Imbalanced Training Data Can you Collect More Data? Try Changing Your performance Metric Try Resampling Your Dataset Try Generate Synthetic Samples Try Different Algorithms These are solutions that solve this problem. First, Collect more Data. It is simple. But the ratio of data could not change because Data Occurrence Frequency is the same. Second, Changing performance metric. It is change a method of measuring accuracy. Third, Resampling dataset and the others. So, I choose number 5. To solve the problem, we apply a different algorithm. Classification is a most typical algorithm for prediction. But, this system has a problem of imbalanced data. Then We use the fifth method. It is different algorithm. Then we apply the regression algorithm not Classification to Photovoltaic Monitoring system. 첫 번째로 제일 간단한 방법은 데이터를 더 많이 수집하는 것이지만 실제로는 어려운 경우가 많습니다. 더 많은 데이터를 수집한다고 해도 실제 발생 비율은 동일하기 때문에 결국 카테고리별 비율은 크게 변하지 않을 수도 있습니다. 두 번째는 performance metrics을 바꾸는 방법이 있는데 accuracy를 측정하는 방법을 수정하는 것입니다. 세 번째는 Data Set을 Resampling하는 방법이고. 그리고 나머지 방법들이 있습니다. 이중에서 저는 다섯 번째 방법인 다른 알고리즘을 적용하는 방법을 선택했습니다. 그래서 Prediction의 대표적인 알고리즘인 Classification이 아닌 다른 알고리즘을 적용하고자 합니다. Try Penalized Models Try a Different Perspective Try Getting Creative ref. Semi-Supervised Learning Literature Survey, Technical Report 1530, Univ. of Wisconsin-Madison, 2006.

10 III. Multivariate Linear Regression Analysis Strategy
Overall Process Step2 Step3 Step1 This is Multivariate Linear Regression Analysis Strategy. You can see the picture of the overall process for this strategy. We perform the data preprocessing. In this step, we process the power generation and sensor data stored big data. This process comprise three steps. And then, we organize Training and Test Data Set. Training set contain only normal data. We apply the Multivariate Linear Regression to this data. Then we define a regression line and get a prediction interval. Test set contain normal and error data. We confirm whether each test data set is including in prediction interval or not. Through this, We evaluate the strategy. First, we explain about the data preprocessing. Later step is explained before. I’ll explain the result and the evaluation of this strategy After explaining about the data preprocessing, 이러한 전략을 기반으로 한 전체적인 프로세스는 다음과 같습니다. 태양광 모니터링 시스템 빅데이터에 저장된 발전량 데이터와 수평 일사량, 경사 일사량, 모듈 온도, 외부 온도와 같은 센서 데이터를 대상으로 데이터 전처리를 수행합니다. 데이터 전처리 과정은 크게 세가지 단계를 거치게 됩니다. 데이터 전처리를 마친 데이터들을 Regression을 수행할 트레이닝 셋과 러닝 결과를 평가하기 위한 테스트 셋으로 구분합니다. 트레이닝 셋은 완전하게 정상인 데이터들로 이 데이터들에 Multivariate Linear Regression 알고리즘을 적용하여 Regression Line을 찾고 prediction interval을 구합니다. 그리고 정상과 오류 데이터가 섞여 있는 테스트 셋을 대상으로 Prediction interva에 포함되는지 포함되지 않는지를 확인함으로써 에러 데이터를 분석하고 제안한 전략을 평가합니다. 뒷부분에 있는 단계는 앞에서 설명했던 전략과 같이 진행되고 앞단에서의 데이터 전처리 과정을 간략하게 설명하고 이 전략의 결과 평가를 말씀드리겠습니다.

11 III. Multivariate Linear Regression Analysis Strategy
Data Preprocessing According the data preprocessing, we can get various results. The process can be summarized in three steps : Step 1 : Select Data Step 2 : Preprocess Data Step 3 : Transform Data It is very important. According the data processing, we can get various results. It can be summarized in three steps. 데이터 전처리는 머신러닝에서 매우 중요한 과정으로, 데이터를 어떻게 전처리 하였는지에 따라서 매우 다른 결과들이 나올 수 있습니다. 과정은 크게 3가지로 Select Data, preprocess Data, Transform Data로 이루어집니다.

12 III. Multivariate Linear Regression Analysis Strategy
Data Preprocessing – Photovoltaic Energy Monitoring System Step 1 : Select Data We need to consider what data actually need to address the problem. Dependent variable : current power generation Independent variable : ? >> Correlation Analysis Data Example time :00 current_power 23 h_solar_rad 1225 s_solar_rad 1023 module_temp 16 ambient_temp error_id inverter_14 Step 1 is Select Data. We need to consider what data actually need to address the problem. For regression, we select dependent and independent variables. We select the current power generation as dependent variable. To search independent variables, we performed a correlation analysis. As a result, we can find the three variables that clear correlate with the current power generation. H variable means horizontal solar radiation. And S variable means slope solar radiation 태양광 에너지 모니터링 시스템에서의 데이터 선택 과정을 수행합니다. 우선 regression을 위해서는 independent value와 dependent value를 선택해야 합니다. 이 시스템에서 최종적으로 얻게 되는 데이터는 발전량 데이터 이기 때문에 dependent value를 발전량으로 설정합니다. 그리고 앞에서 설명한 대로 이 문제를 해결하기 위해 필요한 데이터들을 선택하게 되는데 이 문제는 센서 데이터들을 통해서 발전량을 예측하는 과정이기 때문에 발전량과 센서 데이터들간의 상관관계 분석이 필요합니다. 그 결과 시간, 경사 일사량, 수평 일사량과의 상관 관계가 확연히 나타났습니다. 따라서 이 데이터들을 independent variable로 사용합니다. dependent variable horizontal solar radiation slop solar radiation independent variable

13 III. Multivariate Linear Regression Analysis Strategy
Data Preprocessing – Photovoltaic Energy Monitoring System Step 2 : Preprocess Data - We need to consider how we are going to use the data. >> Formatting : All data is numerical value -> Not proceed >> Cleaning : Excluding the fault data -> Power generation = 0 >> Sampling : photovoltaic Monitoring System Big data is stored during the 2 years -> Not proceed Step 2 is preprocess data. We need to consider how we are going to use the data. There are three common steps. We skipped the formatting. Because all data is numerical value. In the cleaning, we exclude the fault data which is the current power generation is 0. Also, we skipped the sampling. Because we have been collecting the data during the 2 years so the data is not that huge. 태양광 에너지 모니터링 시스템에서의 데이터 전처리 과정을 수행합니다. 데이터들의 형식은 모두 수치 데이터 이므로 formatting 작업을 필요하지 않고, 러닝 과정에서는 완전히 고장난 데이터들을 제외시키기 위해서 발전량이 0인 데이터들을 대상으로 cleaning 작업을 수행합니다. 그리고 저희 시스템의 데이터는 약 1년 간의 데이터를 수집했으므로 그렇게 방대한 데이터가 아니므로 sampling 작업을 수행하지 않습니다.

14 III. Multivariate Linear Regression Analysis Strategy
Data Preprocessing – Photovoltaic Energy Monitoring System Step 3 : Transform Data We need to transform the data depended on the problem domain. >> Scaling : Photovoltaic Monitoring System Big data contain various scale data > Normalize all data between 0 and 1 >> Decomposition : ‘Date’ type data can be decomposed into year, month, day, hour, minute and second. -> Decompose ‘Date’ type data >> Aggregation : No data that need to aggregate -> Not proceed Step 3 is Transform data. We need to transform the data depended on the problem domain. There are three common steps. In the Scaling, we normalize all data between 0 and 1. Because this system big data contain various scale data. In the decomposition, Date type data decompose into year, month, day, hour and so on. And, we skipped the aggregation. 마지막 단계는 데이터 변형 입니다. 데이터를 선택한 후에 이 데이터 사용하기 위한 형식으로 처리합니다. 이 단계는 문제의 도메인에 따라 데이터들의 범위나 변형시킵니다. scaling하거나 데이터를 decomposition하거나 aggregation입니다. 이 과정은 문제의 도메인에 영향을 제일 많이 받기 때문에 사용자의 정확한 판단이 필요합니다. 태양광 에너지 모니터링 시스템에서의 데이터 변형 과정을 수행합니다. 데이터들의 scale이 다양하기 때문에 scaling 작업을 통해서 모든 데이터의 scale을 0과 1사이로 정규화합니다. 그리고 data type data의 경우는 여러 정보를 내포하고 있기 때문에 decomposition 작업을 수행하고 분해된 데이터 중 hour 데이터만을 사용합니다. Aggregation은 사용하지 않습니다. 이렇게 전처리를 완료한 데이터를 트레이닝 셋과 테스트 셋으로 구분하여 구성합니다. 이 데이터 셋들을 시용하여 앞에서 정의한 전략을 적용합니다. 이 과정은 구글에서 제공하는 open api은 tensorflow를 사용하여 진행 했습니다.

15 III. Multivariate Linear Regression Analysis Strategy
Overall Process Step2 Step3 Step1 I will present why we use the multivariate linear regression and the strategy using this algorithm. Later step is explained before. I’ll explain the result and the evaluation of this strategy After explaining about the data preprocessing, 이러한 전략을 기반으로 한 전체적인 프로세스는 다음과 같습니다. 태양광 모니터링 시스템 빅데이터에 저장된 발전량 데이터와 수평 일사량, 경사 일사량, 모듈 온도, 외부 온도와 같은 센서 데이터를 대상으로 데이터 전처리를 수행합니다. 데이터 전처리 과정은 크게 세가지 단계를 거치게 됩니다. 데이터 전처리를 마친 데이터들을 Regression을 수행할 트레이닝 셋과 러닝 결과를 평가하기 위한 테스트 셋으로 구분합니다. 트레이닝 셋은 완전하게 정상인 데이터들로 이 데이터들에 Multivariate Linear Regression 알고리즘을 적용하여 Regression Line을 찾고 prediction interval을 구합니다. 그리고 정상과 오류 데이터가 섞여 있는 테스트 셋을 대상으로 Prediction interva에 포함되는지 포함되지 않는지를 확인함으로써 에러 데이터를 분석하고 제안한 전략을 평가합니다. 뒷부분에 있는 단계는 앞에서 설명했던 전략과 같이 진행되고 앞단에서의 데이터 전처리 과정을 간략하게 설명하고 이 전략의 결과 평가를 말씀드리겠습니다.

16 III. Multivariate Linear Regression Analysis Strategy
If the ratio of normal data and error data is 50:50. Classification Novice DataSet Ideally, if the ratio of normal and error data is we can apply the classification But, This system has a problem of the imbalanced data. That is just (that) error data is far fewer than normal data. In this case, the overfit for the normal data draw the incorrect result. It is any novice dataset is classified the normal data. To solve this problem, we apply the regression algorithm to normal data excluding error data If 50 : 50 keep the data. This is Multivariate Linear Regression Analysis Strategy. As you can know, we apply regression not classification 다음은 Multivariate Linear Regression Analysis Strategy를 설명합니다. 이름에서 알 수 있듯이 classification이 아닌 regression을 적용했습니다. 이상적으로는, Normal Data와 Error Data의 비율이 동일하거나 혹은 비슷하다면 새로운 데이터 셋을 두 데이터 카테고리로 분류하는 것이기 때문에 Classification Algorithm을 사용하는 것이 일반적입니다. 하지만, 현재 태양광 모니터링 시스템의 빅데이터에는 앞에서 말했던 Imbalanced data 문제가 존재합니다. 즉, 다음과 같이 Error Data의 비율이 Normal Data보다 훨씬 작다는 것을 의미합니다. 이 경우는 Normal Data에 대한 Overfitting으로 인해서 어떤 새로운 데이터든 모두 Normal Data로 분류하는 잘못된 결과를 도출합니다. 이런 문제를 해결하기 위해 Error Data는 제외한 Normal Data를 대상으로 Regression Algorithm을 사용했습니다. 대한 학습을 통해 Normal Data Zone을 정의하고 이 외의 범위에 포함되는 데이터를 Error Data로 분류하고자 합니다. 따라서 이 논문에서는 Overfit Imbalanced Data Normal Data Error Data

17 III. Multivariate Linear Regression Analysis Strategy
estimated cost dependent variable Actual Let me briefly explain the Linear regression. Actual data is distributed as follows. Based on these, we define the regression line that is minimize the cost. Cost is the difference between estimated and actual value. Linear Regression에 대해 간단하게 설명하겠습니다. Linear Regression은 X축의 independent variable과 Y축의 dependent variable 간의 관계를 선으로 나타냅니다. 실제 데이터들은 다음과 같이 분포를 하게 되고 이들을 통해서 regression line을 찾게 됩니다. 이 때, 여러 개의 line을 그려보면서 line에 위치한 estimated와 actual 실제 값의 차이인 cost 값이 최소화 되는 regression line을 찾게 됩니다. X independent variable

18 III. Multivariate Linear Regression Analysis Strategy
estimated y ŷ = b + wx slope +w dependent variable This is the regression line formula. Y-hat is estimated y value, w is slope of the line, b is the y intercept. This algorithm is used for two purposes. First, predicting the dependent variable. Second, Explaining the effect of the independent variable. In this paper, we use this algorithm for prediction. So, we detect the error data according to the difference between actual and estimated variable. This slope of the line is +. because the relation between x and y is positive. cost가 최소인 linear regression을 공식으로 나타내면 다음과 같습니다. y-hat은 regression line에 의해 예측되는 y값을 의미하고 line의 기울기인 w, bias인 b 값에 의해서 계산됩니다. 여기에서는 x와 y가 positive 관계이기 때문에 w의 기호가 +로 regression line의 slope가 나타납니다. 이 알고리즘은 크게 두 가지의 목적으로 주로 사용됩니다. 새로운 independent variable의 dependent variable을 예측하거나 dependent variable이 independent variable에 미치는 영향을 설명하기 위해 사용됩니다. 이 논문에서는 첫번째 목적과 유사하게 prediction을 위해 Linear Regression을 적용하고, 새로운 데이터의 실제 dependent 값이 Prediction 수치와 얼마나 차이가 나는지에 따라서 에러 데이터를 식별합니다. Representative purpose Predict the dependent variable based on the independent variable. Explain the effect of the independent variables on the dependent variable. b y intercept X independent variable X1, X2, X3 Multivariate Linear Regression

19 III. Multivariate Linear Regression Analysis Strategy
ŷ ± 𝑡 𝑛−2 ★ 𝑠 𝑦 𝑛 + ( 𝑥 ★ − 𝑥 ) 2 (𝑛−1) 𝑠 𝑥 2 ŷ ± 𝑡 𝑛−2 ★ 𝑠 𝑦 𝟏+ 1 𝑛 + ( 𝑥 ★ − 𝑥 ) 2 (𝑛−1) 𝑠 𝑥 2 dependent variable To clarify the difference, confidence and prediction interval are used in regression algorithm. Confidence interval is 95% of average range. Prediction interval is 95% of all data range. These improve the accuracy by excluding the Outlier. These are formulas. It is hard to understand for me because my major is not math. But we can use these by the function in tensorflow. We use the prediction interval not the confidence interval. 이를 좀더 명확하게 하기 위해서 linear regression에서는 주로 Confidence Interval과 prediction Interval을 사용합니다. Confidence interval은 데이터들의 평균값에서 95%내의 범위를 의미하고, Prediction interval은 모든 데이터들 중에서 95% 내의 범위를 의미합니다. 두 경우 모두 95%라는 범위를 통해서 데이터의 Outlier 특이점들을 제외함으로 써 정확도를 높이고자 합니다. 이 두 구간을 구하기 위한 공식은 각각의 공식과 같습니다. 저는 소프트웨어 공학 전공자이기 때문에 이런 공식은 이해하기가 어렵지만 구글에서 제공하는 tensorflow에서 함수화 되어 있기 때문에 간단하게 사용할 수 있습니다. 두 가지 구간 중에서 저는 prediction을 필요로 하기 때문에 prediction interval을 사용합니다. Confidence interval : 95% of average range Prediction interval : 95% of all data range (Excluding Outlier) X independent variable

20 III. Multivariate Linear Regression Analysis Strategy
Prediction Interval Novice Data Error Data dependent variable As a result, Using tensorflow, we get the regression line and prediction interval. If we gonna get data in here. This mean is not belong in the prediction interval. So, This data is error data. How about data is here. That mean is belong in this interval. So, that is normal data. So, if each data is not belong in this interval, it is wrong. But, Still we don’t know which device affect this wrong data. So, we still should study. When Data is distributed as follow, we define the regression line and get the prediction interval. When a novice data comes, if this data is not contained in prediction interval, this data is classified into error data. And if this data is contained in this interval, this data is classified into normal data. 결과적으로 다음과 같이 데이터들이 분포할 때 Regression Line을 찾고, prediction interval을 구합니다. 그리고 새로운 데이터가 들어왔을 때 이 구간에 포함되지 않는 데이터의 경우는 Error Data로 식별하고 이 구간에 포함되는 데이터는 normal data로 식별합니다. Normal Data Novice Data X independent variable

21 +w b IV. Result ŷ = b + wx Regression Line & Prediction Interval
Error Data Zone Normal Data Zone +w ŷ = b + wx b = w = This is result. It is difficult to display the regression line because multivariate regression line is multi-dimension. So, to visualize the result, we select the horizontal solar radiation as the independent variable. Because this data has the highest correlation with the dependent variable. Using tensorflow, we find the regression line. You can see that data is set close to this line. Then, we get the prediction interval. It is normal data zone. And excluding normal data zone is called error data zone. Actual data is distributed as follow. We find the regression line. You can see that Data is set close to this line. These are the bias and the weight of regression line. 다음은 결과 입니다. Multivariate Regression을 다차원이기 때문에 시각화하는데 어려움이 있습니다. 결과의 시각화를 위해서, 발전량과 제일 높은 상관 관계를 보였던 일사량을 대상으로 시각화 했습니다. 실제 데이터는 다음과 같이 분포합니다. 중간 부에 데이터가 밀집되어 있는 것을 볼 수 있고 이 데이터들을 통해서 Linear regression line을 찾을 수 있습니다. 반복적인 learning을 통해서 regression line의 weight와 bias는 왼쪽과 같이 계산되었습니다. Prediction interval b ŷ ± 𝑡 𝑛−2 ★ 𝑠 𝑦 𝟏+ 1 𝑛 + ( 𝑥 ★ − 𝑥 ) 2 (𝑛−1) 𝑠 𝑥 2

22 V. Evaluation Evaluation for Test Data Set
Predicted: Normal Data Error Data Actual: 57 3 1 49 This is evaluation. We confirm the position of each test data set. Normal data is blue circle. Error data is red x. According to this, we get the 96% accuracy. 다음은 evaluation 입니다. 테스트 셋을 이용하여 분포하는 위치를 확인해봤습니다. 파란색 원형 데이터를 정상 데이터를 의미하고 빨간색 엑스 데이터는 에러 데이터를 의미합니다. 분포 결과를 통해서 정확도를 측정한 결과 0.96의 정확도를 얻을 수 있었습니다. = 58 = 52 Accuracy = (57+49) / ( ) = 0.96

23 VI. Conclusions and Feature Works
Using AI and Big Data technology, We attempt to predict a failure in Photovoltaic monitoring System. As we use multivariate linear regression to solve the imbalance between normal and error data, we get the prediction interval for normal data. Based on the prediction interval, we detect an anomaly that occur before a device is out of order. As a result, we will check and replace the device. Therefore, we will increase the power generating efficiency. *** Still we are not sure which device affect a particular error data. Future Works We will research this topic using the additional data such as big data using the inverter output current, inverter output voltage, inverter input current, inverter input voltage, etc. This is conclusions Using AI and Big Data technology, we attempt to predict a failure in this system. As we use multivariate linear regression to solve the imbalance between normal and error data, we get the prediction interval. Based on this interval, we detect an anomaly. As a result, we will check and replace the device before it break down. Therefore, we will increase the power generating efficiency. But, Still we are not sure which device effect to a particular error data. Therefore, in the future, we will research this topic using the additional data In the future, we will analyze 결론입니다. AI와 Big Data 기술을 사용해서 태양광 모니터링 시스템의 고장 예측을 시도 했습니다. Multivariate linear regression을 적용함으로써 노멀 데이터와 에러 데이터의 불균형 문제를 해결했고, 노멀 데이터들을 대상으로 prediction interval을 구했습니다. 이 노멀 데이터의 prediction interval을 기반으로 이상현상들을 검출합니다. 따라서 태양광 발전 효율을 높일 수 있씁니다. 하지만 어떤 장치의 결함으로 인해서 에러 데이터들이 발생하는지는 아직 확인할 수 없습니다. 향후에는 Something like else.

24 Thanks! Any Questions? Hongik University selab.hongik.ac.kr


Download ppt "Error Data Analysis of the Photovoltaic Energy Monitoring System Using the Prediction Interval for Multivariate Linear Regression SE Lab, Hongik University,"

Similar presentations


Ads by Google