Analiza przyczyn źródłowych (root cause failure analysis – RCFA) polega na interpretacji funkcji systemu lub komponentu w celu ustalenia, dlaczego nie działa on zgodnie z przeznaczeniem. Może to dotyczyć części lub całej maszyny, obszaru operacyjnego lub całego zakładu.
Wśród przyczyn źródłowych awarii można wyodrębnić trzy główne ich typy:
→ fizyczne – dotyczące awarii i uszkodzeń materiałów lub komponentów;
→ ludzkie – wywołane działaniami człowieka;
→ ukryte – w odniesieniu do nich podejmuje się decyzje i działania.
Najłatwiejsze do ustalenia są przyczyny fizyczne, natomiast ludzkie i ukryte nie są już rozpoznawalne tak łatwo. Znalezienie i wyeliminowanie ludzkich i ukrytych przyczyn awarii ma jednak o wiele większe znaczenie z punktu widzenia zwrotu poniesionych kosztów.
Posłużmy się przykładem maszyny, która zapaliła się, a zdarzenie to doprowadziło do uszkodzenia budynku i spowodowało długie przestoje w produkcji. Prosta analiza awarii, która określa fizyczną przyczynę pożaru maszyny, może pomóc w zapobieżeniu pożarom w przyszłości i zwiększeniu niezawodności urządzenia. Jednak analiza sięgająca przyczyn ludzkich i ukrytych może pozwolić na wyeliminowanie całych grup usterek, co w praktyce może prowadzić do ponadtysiąckrotnego zwrotu kosztów analizy.
Współwystępowanie różnych przyczyn źródłowych
W przypadku każdej awarii istnieje wiele przyczyn źródłowych, wzajemnie na siebie wpływających. Potwierdzają to szczegółowe badania niektórych katastrof, np. zatonięcia statku pasażerskiego Titanic, eksplozji w porcie Halifax, awarii w fabryce pestycydów w Bhopalu, wybuchu reaktora w elektrowni jądrowej w Czarnobylu, wycieku ropy z tankowca Exxon Valdez czy eksplozji platformy wiertniczej Deepwater Horizon w Zatoce Meksykańskiej.
Jeśli osoby dokonujące analizy nie zidentyfikują złożonych przyczyn zdarzenia, nie będą w stanie sformułować trafnego wniosku. Przykładem może być międzynarodowa konferencja, podczas której dwie organizacje analizowały te same dane w poszukiwaniu przyczyn awarii niektórych komponentów. Prezentowane przez nie wykresy słupkowe ilustrujące przyczyny awarii miały charakter edukacyjny, jednak znacznie różniły się od siebie, ponieważ każda z nich analizowała awarie jako mającą tylko jedną przyczynę.
Liczba współwystępujących przyczyn zależy zwykle od złożoności problemu. Na przykład prosta awaria pompy przemysłowej lub wentylatora ma zazwyczaj od czterech do siedmiu przyczyn. Z drugiej strony, w przypadku złożonego systemu, takiego jak awaria samolotu, liczba występujących przyczyn to 12–14, jak wynika z badań Amerykańskiej Narodowej Rady Bezpieczeństwa Transportu (NTSB).
Liczba stwierdzonych przyczyn źródłowych może również zależeć od skrupulatności w przeprowadzaniu analizy. Ze względu na swoje ogromne znaczenie dla bezpieczeństwa ludzi, NTSB posiada znacznie więcej środków finansowych i czasu na analizę wypadków. W przeciwieństwie do katastrof lotniczych, przyczyny awarii w wielu zakładach przemysłowych nie są poddawane tak drobiazgowej ocenie, ponieważ celem analizy jest szybkie ponowne uruchomienie zakładu. Problem z takimi analizami polega na tym, że pozostałe nierozpoznane i nieskorygowane przyczyny spowodują w przyszłości kolejną awarię. Należy więc w taki sposób dokonywać analizy przyczyn źródłowych awarii, by pozostając w granicach budżetu analizy, dzięki jej przeprowadzeniu przerwać łańcuch błędów i wyeliminować jak największą ilość przyczyn. Często, przy zachowaniu pewnej staranności, niektóre z przyczyn można wyeliminować bez ponoszenia jakichkolwiek kosztów lub przy niskim nakładzie finansowym.
Łańcuchy błędów
Osoby nieprzeszkolone rzadko zdają sobie sprawę z tego, że zawsze istnieje łańcuch zdarzeń, w którym uczestniczy wiele osób i który prowadzi do awarii lub wypadku. Powszechna jest tendencja do szukania rozwiązania wyłącznie fizycznego źródła problemu, a następnie zastanawiania się, dlaczego awaria powraca.
O błędach można myśleć jako o wyniku łańcucha zdarzeń lub serii powiązanych ze sobą luk. Charles Latino, jeden z autorytetów w dziedzinie analizy przyczyn źródłowych awarii, opracował schemat łańcucha błędów, które prowadzą do awarii lub wypadku (rys. 1).
Dr James Reason, ekspert w dziedzinie wpływu czynnika ludzkiego na niezawodność, wykorzystuje przykład obracających się kawałków sera szwajcarskiego – kawałki reprezentują błędy, a kiedy otwory się ze sobą pokrywają, następuje incydent. Błędy ostatecznie łączą się i powodują awarie, nie wiadomo jednak dokładnie, kiedy i jak często. Zdarzają się też sytuacje, że zdarzenie nie występuje, jeśli łut szczęścia albo obserwator przerwie ten łańcuch (rys. 2).
Analiza przyczyny źródłowej awarii dźwigu, który zrzucił 30-tonową kadź z płynnym metalem, ujawniła dwie bardzo oczywiste przyczyny ukryte i dwie przyczyny ludzkie, które doprowadziły do fizycznej przyczyny zerwania liny (rys. 3). Warto podkreślić, że czasami błędy te nie łączą się ze sobą i w efekcie nie dochodzi do awarii lub wypadku. W innej części tego samego zakładu nastąpiło to samo zdarzenie, lecz nie doszło do awarii, prawdopodobnie ze względu na łut szczęścia.
Przyczyny fizyczne vs. ludzkie
Podstawowym elementem RCFA jest dokładne określenie fizycznych przyczyn awarii. A ponieważ ustalenie przyczyny fizycznej pozwala na dotarcie do przyczyn ludzkich i ukrytych, właśnie od tego punktu należy rozpocząć analizę.
W szczegółowych badaniach ponad 120 różnych awarii, analizując przyczyny fizyczne i ludzkie, uzyskano takie dane:
→ przyczyny fizyczne wystąpiły w 1,4% błędów/awarii, przy czym wiele z nich wiązało się ze zużyciem zmęczeniowym materiału i korozją;
→ wśród przyczyn ludzkich wystąpiły różne rodzaje błędów:
•konstrukcyjne (59%),
•w zakresie konserwacji (38%),
•dotyczące czynności operacyjnych (24%),
•w zakresie instalacji (16%),
•w procesie produkcji (12%).
W przykładzie pokazanym na zdjęciu turbina o zmiennej prędkości obrotowej napędza sprężarkę tłokową przez reduktor. Urządzenie ulegało awarii kilkakrotnie z powodu dwóch rodzajów drgań: skrętnych i osiowych. Głównym błędem konstrukcyjnym popełnionym przez inżyniera było pominięcie wpływu częstotliwości rezonansowych na łożyska w przekładni. Po wielokrotnych awariach zdecydowano, że turbina będzie pracować tylko z określonymi prędkościami obrotowymi.
Przyczyny ukryte
Przyczyny ukryte mogą wynikać ze sposobu zarządzania zakładem lub jego projektu i prowadzić do wystąpienia przyczyn ludzkich. Wróćmy do dźwigu, w którym nastąpiło zerwanie liny. Gdy dwóch ekspertów badało usterkę zerwanej liny, w zasięgu ich wzroku doszło do kolejnego zdarzenia. Operator dźwigu podniósł kolejną 30-tonową kadź z płynnym metalem podczas ruchu suwnicy, co jest sprzeczne z jedną z podstawowych zasad: dźwig nigdy nie powinien się poruszać podczas podnoszenia ładunku, ponieważ siły bezwładności sumują się, co znacznie zwiększa rzeczywisty podnoszony ciężar. To, że stało się to w trakcie badania usterki, oznaczało, że rutynowo stosowano w zakładzie niebezpieczne procedury przy aprobacie kierownictwa.
Typowe ukryte przyczyny awarii to np.:
→ zatrudnienie projektantów w dziedzinach, w których się nie specjalizują, np. inżynierów mechaników do projektowania elektrycznego,
→ brak regularnego szkolenia pracowników,
→ niedocenianie znaczenia wykwalifikowanych pracowników,
→ powierzenie nowemu (lub najniżej ocenianemu) pracownikowi działu UR odpowiedzialności za smarowanie urządzeń.
Analiza przyczyn źródłowych awarii
Wszyscy popełniamy błędy, jednak jak często przeciętna osoba popełnia znaczący błąd? Znaczący, czyli taki, który może skutkować leczeniem lub spowodować istotne straty finansowe?
Dr James Reason twierdzi, że przeciętny człowiek popełnia sześć znaczących błędów tygodniowo, które mogłyby skutkować zdarzeniem wymagającym leczenia lub pokrycia strat finansowych. Tymczasem badania prowadzone w zakładach produkcyjnych od 1993 r. przez Neville’a W. Sachsa, inżyniera i absolwenta Stevens Institute of Technology, wskazują, że typowa osoba uważa, iż popełnia istotny błąd tylko raz na pięć miesięcy.
Dobry program analizy przyczyn źródłowych awarii może pomóc w zmniejszeniu liczby błędów i zwiększeniu oszczędności. Neville W. Sachs podaje dwa przykłady. Jeden dotyczy fabryki, w której w ciągu 8 lat kierownictwo zmniejszyło liczbę silników, które trzeba było wymieniać w ciągu roku, z 500 do 250. Redukcja kosztów wymiany była 50 razy większa niż wartość inwestycji, bez uwzględnienia oszczędności wynikających z możliwości ograniczenia personelu utrzymania ruchu oraz wzrostu jakości produktu ze względu na ciągłość produkcji. Drugim przykładem był zakład farmaceutyczny, w którym obniżono koszty konserwacji o 52% w przypadku silników stosowanych w zakładzie przez okres czterech lat. Ponadto o 60% zmniejszono straty w produkcji wyrobów farmaceutycznych, wynikające z awarii urządzeń.
Jak więc dokonać analizy przyczyn źródłowych awarii? Po pierwsze bezwzględnie konieczne jest zapewnienie pełnego zaangażowania i stałego wsparcia ze strony kierownictwa. Po drugie należy wybrać temat do analizy. W przypadku analizowania pracy oddziału lub jednostki organizacyjnej w firmie należy w miarę możliwości zacząć od najwyższego poziomu. W przypadku zepsutej maszyny można zacząć od wyliczenia wszystkich widocznych uszkodzeń fizycznych – innymi słowy, zaobserwowanych zjawisk lub warunków. Po trzecie należy powołać różnorodny, bezstronny zespół z liderem lub koordynatorem, który poprowadzi załogę i zachęci jej członków do dociekliwości. Po czwarte trzeba zastosować takie narzędzia jak drzewa logiczne, aby zrozumieć interakcję przyczyn. Należy ponadto wystrzegać się gotowych opinii lub uprzedzeń, które wpłynęłyby na wynik, szczególnie jednej osoby dominującej w procesie dokonywania analizy.
Koordynator i zespół
Funkcja koordynatora jest kluczowa dla procesu analizy. Koordynator przewodniczy posiedzeniom i pełni rolę moderatora. Nie musi rozumieć obszaru problemu, jednak powinien mieć ogólne pojęcie o nim.
Zadaniem koordynatora jest prowadzenie dochodzenia. Pomaga on zespołowi w zadawaniu pytań o to, jak mogło dojść do zdarzenia, i zapewnia, że odpowiedzi są oparte na faktach lub opinii eksperta. Koordynator jest ponadto odpowiedzialny za komunikację w zespole, a także opracowywanie, organizowanie i prezentowanie aktualnych danych i zadań.
Zespół analityczny powinien liczyć 5–10 osób – przedstawicieli różnych specjalności i działów. Choć koordynator prowadzi zespół, wszyscy jego członkowie powinni być traktowani jednakowo.
Drzewa logiczne
Drzewa logiczne są prostą i użyteczną metodą analityczną. Są łatwe do zastosowania przez uczestników, a także umożliwiają prezentowanie wyników innym osobom, np. kierownictwu. Co więcej, według Neville’a W. Sachsa inne metody, takie jak 5 Why czy opracowana przez Kepnera i Tregoe’a analiza potencjalnego problemu, nie są tak skuteczne w znajdowaniu przyczyn źródłowych i na ogół nie są łatwe do zrozumienia dla innych.
Dostępne jest komercyjne oprogramowanie do tworzenia i prezentacji drzew logicznych. Koordynator wprowadza awarię lub wybrany punkt początkowy do górnego pola na wykresie drzewa logicznego. Następny poziom pokazuje wszystkie wykrywane funkcje. W przypadku problemów z systemem trudniej jest wybrać punkt początkowy. Na przykład w przypadku zakładu, który produkuje nieefektywnie, można zacząć od analizy optymalnej zdolności produkcyjnej. Następnie należy przyjrzeć się każdemu elementowi lub zdarzeniu, które ogranicza tę wydajność. Kolejnym krokiem jest zrobienie wykresu Pareto, przedstawiającego wpływ tych przyczyn na całość. Analizę przyczyny źródłowej należy rozpocząć od najbardziej wymagających funkcji, zarówno z punktu widzenia ograniczeń czasowych, jak i finansowych. Kiedy problem zostanie rozwiązany, zespół przejdzie do następnej przyczyny, i tak dalej.
Przykład analizy
Aby zobrazować proces analizy, posłużmy się przykładem awarii w wytwórni papieru (rys. 4). Zastosowany rębak o mocy 2200 kW, pobierający jedną kłodę na sekundę, uległ poważnej awarii. Początkowo maszyna wykazywała kilkanaście uszkodzonych lub niesprawnych części, odnotowanych na żółtym poziomie w drzewie logicznym.
Rys. 5 i 6 ilustrują stan maszyny przed i po awarii. Kłody wprowadzane są do zsuwni na dole po prawej stronie. Dwa silniki napędzają przekładnię, która obraca wał, a ten obraca tarczę rębaka. Tarcza rębaka jest kołem zamachowym o średnicy 3,3 m z ostrzami tnącymi umieszczonymi na obwodzie. W wyniku poważnej awarii tarcza rębaka zmiażdżyła zsuwnię, która została wykonana ze stali o grubości 50 mm.
Zespół analizujący pracę rębaka składał się z: dwóch rzemieślników zajmujących się konserwacją, inspektora ds. UR, operatora, nadzorcy operacyjnego, kierownika operacyjnego, inżyniera ds. niezawodności, kierownika ds. niezawodności oraz konsultanta zewnętrznego. Zespół ustalił, że przyczyną fizyczną awarii było zużycie zmęczeniowe śrub – bardzo częsta przyczyna główna. Jedną z ukrytych przyczyn tego zjawiska była konstrukcja urządzenia, w którym śruby nie mogły być odpowiednio dokręcone. Inna polegała na próbie użycia części tłoczonej, która nie mogła zostać wykonana w odpowiedniej tolerancji. Inne ludzkie i ukryte przyczyny polegały na tym, że kierownictwo wyeliminowało przeglądy inżynierskie maszyn, ponieważ uważało, że jest to niepotrzebny krok w procesie; ponadto zostały odłączone niektóre czujniki z powodu zbyt częstych, wg części pracowników, alarmów.
O czym należy pamiętać
Często się zdarza, że osoba z oficjalną lub nieoficjalną funkcją kierowniczą będzie próbowała kontrolować proces – czy to przypadkowo, czy nieumyślnie. Może to mieć wpływ na jakość drzewa logicznego. Dlatego koordynator musi dbać o zaangażowanie wszystkich członków zespołu. Ponadto, aby wyeliminować przyczyny ukryte, potrzebny jest lider, który będzie śledził zmiany w zarządzaniu zakładem oraz ich efekty. I wreszcie: nie należy mieć obaw przed rozmową z profesjonalistą. Eksperci zewnętrzni mogą rzucić nowe światło na sytuację i dostarczyć wniosków niemożliwych do wysnucia przez członków zespołu.
Mary Beckman jest niezależną autorką tekstów technicznych. Artykuł po raz pierwszy ukazał się w magazynie STLE (Society of Tribologists and Lubrication Engineers) i jest oparty na prezentacji webcastowej Neville’a W. Sachsa „Root Cause Failure Analysis Webinar”.