Dobre dane i znajomość fizyki to podstawa Data Science w produkcji

Joanna Stefańska

Jakość danych jest kluczowym czynnikiem, od którego zależy sukces wszystkich przedsięwzięć i projektów opartych o dane. Efektywna optymalizacja i diagnoza infrastruktury wymaga poprawnych informacji z procesów i urządzeń. Nic dziwnego, że osoby odpowiedzialne za data science poświęcają około 80% czasu na samo przygotowanie danych.

W celu osiągnięcia zadowalającej jakości danych niezbędna jest ich inteligentna walidacja. Inteligentna nie oznacza od razu wykorzystania zaawansowanych algorytmów machine learning. W pierwszej kolejności należy podjąć próbę wykorzystania  metod obliczeniowych: wzorów matematycznych, fizycznych, chemicznych oraz wiedzy branżowej.

Do tego zadania niezbędne są odpowiednie narzędzia takie jak programy analityczne w chmurze. Dobre narzędzie powinno radzić sobie z time-series data (wiele odczytów z jednego urządzenia); umożliwiać wykorzystanie różnorodnych algorytmów od prostych obliczeniowych do zaawansowanych metod statystycznych oraz być intuicyjne i skalowalne.

Warto zaznaczyć, że nie spełnia tych warunków popularny Excel. Wśród naszych rozwiązań oferujemy Moduł Obliczeniowy Smart RDM w chmurze Azure oraz narzędzie partnera Seeq.

Skąd biorą się błędy w danych?

Przyczyn złej jakości danych jest kilka. Należą do nich nieodpowiednio przeprowadzone wdrożenia oprogramowania, które skutkują błędami lub niewłaściwą obsługą poszczególnych przypadków, na przykład zła konfiguracja systemu DCS/SCADA.

Inną przyczyną mogą być problemy na poziomie systemowym. Kiedy źródłem danych są układy telemetryczne, to odczyty są pobierane z realnych urządzeń. Urządzenia jak wiemy lubią się psuć, więc często błędy tworzą się już na etapie pomiaru lub przekazania wartości do systemu nadrzędnego. Powszechnie występują np.: błędy w transmisji, luki w danych oraz nieprawidłowe wartości – anomalie w odczytach. Czujniki  mogą ulec uszkodzeniu, co skutkuje odbiorem absurdalnych wartości.

Uszkodzony może być też sam system przesyłania danych, który został źle wyskalowany, lub w którym wymieniono urządzenie. Kolejną przyczyną złej jakości są zmiany w formacie danych, wpływające na źródła lub docelowe magazyny danych.

Etapy czyszczenia danych

Zebranie idealnych danych nie jest możliwe. Jak więc oczyścić dane, by nie doprowadziły nas one do mylnych interpretacji i wniosków? Musimy przejść przez wszystkie etapy czyszczenia danych:

 

  1. Identyfikacja – chcemy wiedzieć dokładnie, które dane pochodzą z którego urządzania. Na przykład jeden węzeł cieplny może mieć 5 mierników temperatury i 2 sensory pomiarów przepływu. Nie możemy przypadkowo korzystać z danych dostarczanych przez czwarty miernik, jeśli akurat potrzebne były te z pierwszego. Musimy wiedzieć, który jest który. W tym celu przypisujemy dane do odpowiednich urządzeń w sposób umożliwiający ich poprawną identyfikację i organizujemy w strukturę drzewa.
  1. Harmonizacja – Urządzenia różnych producentów używają innego kodowania, sposobu przesyłu danych, a nawet jednostek. Celem harmonizacji jest sprowadzenie wszystkich danych do wspólnego formatu i wprowadzeniu nazewnictwa opartego na znormalizowanym systemie kodowania.
  2. Sprawdzenie kompletności danych – musimy upewnić się, których danych brakuje i dlaczego. Nie ma sensu szacować odczytów dla urządzenia, które w danym momencie było specjalnie wyłączone np. z powodu konserwacji. Zidentyfikowane luki w danych, które wymagają wypełnienia są szacowane w kolejnych krokach procesu.
  3. Wypełnienie brakujących danych – w tym celu możemy zastosować różne metody: Zaczynając od obliczeniowych, przez statystyczne, po machine learning.

W przypadku metody obliczeniowej brakujące dane liczymy na podstawie pozostałych danych za pomocą działań arytmetycznych, wzorów fizycznych etc. Możemy użyć też aproksymacji liniowej, tzn. połączyć linią ostatnią daną jaką mieliśmy, z pierwszą, która się pojawia. Użycie trendu liniowego jest najprostsze, niestety często prowadzi do błędu.

Dlatego dobrym wyjściem jest zastosowanie metody statystycznej, tzn. liczymy na podstawie wcześniejszych danych, jakie dane teoretycznie powinny występować w określonym miejscu i używamy ich do wypełnienia luki. To szczególnie przydatne w przypadku zjawisk, których nie jesteśmy w stanie opisać za pomocą formuł obliczeniowych. Na przykład gdy chcemy znaleźć zależność między prędkością wiatru, a wibracjami turbiny wiatrowej pracującej na farmie wiatrowej w sąsiedztwie innych turbin.  Wtedy znaczenia nabiera chociażby kierunek wiatru, ponieważ turbiny zasłaniają się i wzajemnie zakłócają przepływ powietrza.

W końcu możemy wspomóc się modelami wykorzystującymi uczenie maszynowe. Modele te uczą się typowego zachowania maszyn w oparciu o dane historyczne. Na podstawie analizy zdarzeń, jakie występowały w historii, model próbuje przewidzieć jak maszyna zachowywała się w okresach, gdzie są luki w danych. Algorytmów jest wiele, można korzystać z gotowych lub tworzyć własne.

 

Istnieje jeszcze alternatywa w postaci analizy otoczenia – w danej lokalizacji możemy użyć danych z sąsiednich – podobnych urządzeń. Na przykład, gdy wiemy, że budynki stoją obok siebie, temperatury otoczenia nie musimy liczyć statystycznie – wystarczy „podglądnąć sąsiada”. Budujemy logikę opartą na systemie, który policzy parametry na podstawie zachowania całej rodziny podobnych obiektów znajdujących się obok siebie. To najbardziej zaawansowane podejście. Na tym etapie mamy już kompletny sygnał, w kolejnych krokach zajmiemy się sprawdzeniem jego prawidłowości.

5. Walidacja – wśród naszych danych mogą znajdować się dane fałszywe. Co ważne te dane są poprawne technicznie, ale nie pasują logicznie. Na przykład wiemy że odczyt temperatury na zewnątrz w zimie w Londynie nie może wynosić 120 stopni Celsjusza.

Tutaj ponownie najpierw wykorzystujemy matematykę do ustalenia zasad walidacji np. przyjmujemy, że temperatura na zewnątrz musi być w granicach, np. od -50 do +50 stopni Celsjusza. Dodajemy regułę, że dane poza tym zakresem są niepoprawne.

Teraz to my tworzymy luki, które potem będziemy wypełniać. Sprawdzamy, czy dane znajdują się w rozsądnym zakresie, lub czy dane nie zmieniają się zbyt szybko. Wszystkie dane wykraczające poza zakres uznajemy za nieprawidłowe.

Ponadto możemy użyć modelu fizycznego lub chemicznego do wykluczenia nieprawidłowych wartości. Podstawiamy do wzoru dane i wyrzucamy te, które nie dają prawidłowych wyników. Potem w celu uzupełnienia tych danych postępujemy analogicznie jak w kroku, w którym wypełnialiśmy luki. W zależności od skomplikowania danych i zależności wykorzystujemy matematykę, statystykę i machine learning.

W walidacji wykorzystujemy też wiedzę branżową, żeby odpowiednio oddać zachowanie danego urządzenia. Na przykład liczniki mają określony maksymalny zakres, po którego osiągnięciu przekręcają się na zero i zaczynają liczyć od nowa. Dzięki wiedzy eksperckiej możemy ustawić zasadę walidacyjną, która szuka takich “przekręceń” i pozwala śledzić poprawnie przyrost danych.

Po wykonaniu wszystkich tych kroków otrzymujemy czysty sygnał. Nasze poprawne dane pozwalają teraz na budowę zaawansowanych modeli opartych o zaawansowaną analitykę jak predictive maintenance, np. do wiarygodnej prognozy zapotrzebowania na energię lub bieżącą diagnostykę pracy urządzenia.

Dane historyczne

O ile w przypadku modeli matematycznych i fizycznych nie jest potrzebna historia pomiarów, tak w przypadku statystyki i machine learningu dane historyczne są niezbędne. Im więcej danych historycznych tym skuteczniejsza będzie nasza walidacja.

Modele uczące się nie są nieomylne, dlatego najlepiej stosować je w przemyśle jako systemy wspomagające, a nie podejmujące decyzję. Natomiast im więcej danych historycznych taki system przyjmie, tym większa jego niezawodność i precyzyjność.

Do przetwarzania danych historycznych w kontekście walidacji potrzebne są dedykowane rozwiązania takie jak Smartvee lub Seeq, które są przygotowane na analizowanie danych w postaci szeregów czasowych.

Dlaczego machine learning nie jest podstawową metodą?

Należy pamiętać, że uczenie maszynowe nie zastąpi termodynamiki, fizyki i matematyki. Najważniejsze jest poznanie zjawiska, które badamy. To od opisania znanych zjawisk powinna zacząć się budowa systemu z wykorzystaniem tego co wiemy z chemii, fizyki, biologii i innych dziedzin nauki. Dopiero po tym kroku możemy uznać za właściwe wykorzystanie machine learning.

W tym celu organizujemy warsztaty biznesowe z zespołami pracującymi z infrastrukturą i urządzeniami. Na warsztatach możemy zobaczyć dane, ocenić jakie zjawiska występują i zapytać o przyczyny anomalii. Zapraszamy inżynierów, zespół data science, użytkowników biznesowych i ekspertów branżowych.

Algorytm nie zawsze dobrze radzi sobie z nowymi, niespotykanymi wcześniej problemami. Dlatego modele uczące się powinny skupiać się na modelowaniu rzeczy, których nie umiemy opisać wzorami. Przy mniej złożonych procesach są to metody nieoptymalne. 

Efekty walidacji danych

Dane wyczyszczone są świetną bazą do wykonywania dalszych analiz, np. zużycia surowców albo planowania działań konserwacyjnych. Niestety niektóre firmy próbują przeskoczyć do analityki z pominięciem kroku przygotowania danych. Pamiętajmy, że nie możemy przygotować żadnej wiarygodnej analizy bez danych o dobrej jakości. 

W ConnectPoint oferujemy kompletne rozwiązanie: od zebrania do zaawansowanej analizy danych. Budujemy kompletne Repozytorium Danych, które pozwala na identyfikację i harmonizację danych. Następnie budujemy na nim kolejne warstwy analityczne dopasowane do potrzeb naszych klientów. Napisz do nas by dowiedzieć się więcej jak możesz poprawić wykorzystanie danych w Twojej organizacji.