Pamukkale Üniversitesi Mühendislik Bilimleri Dergisi

2147-5881

Pamukkale Üniversitesi

Optimization Techniques in Mechanical Engineering

Makine Mühendisliğinde Optimizasyon Teknikleri

Determining maintenance policies for partially observable multicomponent systems with deep reinforcement learning

Kısmi gözlemlenebilir çok bileşenli sistemler için bakım politikalarının pekiştirmeli derin öğrenme yöntemleri ile belirlenmesi

Karabağ

Oktay

İZMİR EKONOMİ ÜNİVERSİTESİ

04 29 2025

31 2 166 179 01 07 2024 06 30 2024

2013

Pamukkale Üniversitesi Mühendislik Bilimleri Dergisi

In this study, maintenance decisions for partially observable multicomponent systems are investigated. Such systems typically operate under conditions where the service provider is remote, and the wear levels of system components cannot be fully monitored with sensors’ assistance. Wind turbines provide a good example of these systems. For such systems, besides deciding when the service provider will perform a maintenance intervention, it is also necessary to determine which parts will be taken along to the maintenance point and which components will be replaced after the inspection at the maintenance point. In our study, this complex decision problem is modeled as a partially observable Markov decision process, and related numerical solutions are obtained employing the actor-critic reinforcement learning method. Our numerical studies demonstrate that the policies obtained with the reinforcement learning algorithm outperform several heuristic maintenance policies that are frequently used in practice and wellknown in the relevant literature. In some cases, compared to heuristic policies, these solutions have provided a cost reduction in the range of 10-15% on average. Additionally, it has been observed that the solution obtained with the reinforcement learning algorithm provides more advantages compared to heuristic policies, as the corrective maintenance cost, emergency order cost, and returning cost of excess spare parts increase.

Bu çalışmada, kısmi gözlemlenebilir çok bileşenli sistemler için bakım/onarım kararları incelenmiştir. Bu tip sistemler genellikle servis sağlayıcının uzakta olduğu koşullarda işletilmekte ve bileşenlerin aşınma seviyeleri genellikle sensörler yardımı ile tam olarak izlenememektedir. Rüzgâr türbinleri, bu tarz sistemlere birebir uyan bir örnek oluşturmaktadır. İlgili sistemlerde, servis sağlayıcı ne zaman bakım/onarım yapacağına, bakım kararı ile birlikte hangi parçaları bakım noktasına sevk edeceğine ve bakım noktasındaki incelemesinin ardından hangi sistem bileşenlerinin değiştirilmesi gerektiğine karar vermektedir. Çalışmamızda, bahsi geçen bu komplike karar problemi kısmi gözlemlenebilir Markov karar süreci olarak modellenmiş ve ilgili nümerik çözümler aktör kritik pekiştirmeli öğrenme yöntemi kullanılarak elde edilmiştir. Yaptığımız nümerik çalışmalar, pekiştirmeli öğrenme algoritması ile elde edilen çözümlerin pratikte ve literatürde yaygın olarak kullanılan sezgisel bakım/onarım politikalarına kıyasla daha iyi sonuçlar verdiğini göstermiştir. Bazı durumlarda, bu çözümlerin ortalamada %10-%15 düzeyinde bir iyileştirme sağladığı gözlemlenmiştir. Ayrıca, düzeltici bakım maliyeti, acil sipariş maliyeti ve fazla yedek parçayı geri döndürme maliyeti arttıkça, pekiştirmeli öğrenme algoritması ile elde edilen çözümlerin diğer sezgisel politikalara kıyasla daha fazla avantaj sağladığı da belirlenmiştir.

Kısmi gözlemlenebilir çok bileşenli sistemler Kısmi gözlemlenebilir Markov karar süreçleri Pekiştirmeli öğrenme metotları Koşula bağlı bakım problemler

Partially observable multi-component systems Partially observable Markov decision processes Reinforcement learning methods Condition-based maintenance problem

[1] Zhang M, Revie M. “Continuous-observation partially observable semi-Markov decision processes for machine maintenance”. IEEE Transactions on Reliability, 66(1), 202-218, 2016.

[2] Alaswad S, Xiang Y. “A review on condition-based maintenance optimization models for stochastically deteriorating system”. Reliability Engineering & System Safety, 157, 54-63, 2017.

[3] De Jonge B, Scarf PA “A review on maintenance optimization”. European Journal of Operational Research, 285(3), 805-824, 2020.

[4] Karabağ O, Bulut Ö, Toy AÖ, Fadıloğlu MF. “An efficient procedure for optimal maintenance intervention in partially observable multi-component systems”. Reliability Engineering & System Safety, 244, 1-11, 2024.

[5] Karabağ O, Eruguz AS, Basten R. “Integrated optimization of maintenance interventions and spare part selection for a partially observable multi-component system”. Reliability Engineering & System Safety, 200, 1-12, 2020.

[6] Karabağ O, Bulut Ö, Toy, AÖ. “Markovian decision process modeling approach for intervention planning of partially observable systems prone to failures”. International Conference on Intelligent and Fuzzy Systems (INFUS), İzmir, Türkiye, 19-21 July 2022.

[7] Quatrini E, Costantino F, Di Gravio G, Patriarca R. “Condition-based maintenance-an extensive literature review”. Machines, 8(2), 1-28, 2020.

[8] Gürsoy MÜ, Çolak UC, Gökçe MH, Akkulak C, Ötleş S. “Endüstri için kestirimci bakım”. International Journal of 3D Printing Technologies and Digital Industry, 3(1), 56-66, 2019.

[9] Van Horenbeek A, Buré J, Cattrysse D, Pintelon L., Vansteenwegen P. “Joint maintenance and inventory optimization systems: A review”. International Journal of Production Economics, 143(2), 499-508, 2013.

[10] Nguyen KT, Do P, Huynh KT, Bérenguer C, Grall A. “Joint optimization of monitoring quality and replacement decisions in condition-based maintenance”. Reliability Engineering & System Safety. 189(1), 177-95, 2019.

[11] Liu X, Sun Q, Ye ZS, Yildirim M. “Optimal multi-type inspection policy for systems with imperfect online monitoring”. Reliability Engineering & System Safety. 207(1), 1-11, 2021.

[12] Zhao Y, Smidts C. “Reinforcement learning for adaptive maintenance policy optimization under imperfect knowledge of the system degradation model and partial observability of system states”. Reliability Engineering & System Safety. 224(1), 1-13, 2022.

[13] Tseremoglou I, Santos BF. “Condition-Based Maintenance scheduling of an aircraft fleet under partial observability: A Deep Reinforcement Learning approach”. Reliability Engineering & System Safety. 241(1), 1-20, 2024.

[14] Andriotis CP, Papakonstantinou KG. “Managing engineering systems with large state and action spaces through deep reinforcement learning”. Reliability Engineering & System Safety. 191(1), 1-17, 2019.

[15] Andriotis CP, Papakonstantinou KG. “Deep reinforcement learning driven inspection and maintenance planning under incomplete information and constraints”. Reliability Engineering & System Safety. 212(1), 1-16, 2021.

[16] Zhang N, Si W. “Deep reinforcement learning for condition-based maintenance planning of multicomponent systems under dependent competing risks”. Reliability Engineering & System Safety. 203(1), 1-10, 2020.

[17] Mohammadi R, He Q. “A deep reinforcement learning approach for rail renewal and maintenance planning”. Reliability Engineering & System Safety. 225(1), 1-12, 2022.

[18] Lovejoy WS. “Computationally feasible bounds for partially observed Markov decision processes”. Operations Research, 39(1), 162-175, 1991.

[19] Kıvanç İ, Özgür-Ünlüakın D, Bilgiç T. “Maintenance policy analysis of the regenerative air heater system using factored POMDPs”. Reliability Engineering & System Safety, 219, 1-13, 2022.

[20] Ceyhan H, Kasapbaşı MC. “Üretim sistemlerinde makine öğrenmesi ile kestirimci bakım uygulaması ve modellemesi”. Avrupa Bilim ve Teknoloji Dergisi, 33, 167-175, 2022.

[21] Calayır GN, Kabak M. “Bakım için makine öğrenme tekniklerinin analizi ve bir uygulama”. Journal of Turkish Operations Management, 5(1), 662-675, 2021.

[22] Gençer MA, Yumuşak R, Özcan E, Tamer E. “An artificial neural network model for maintenance planning of metro trains”. Politeknik Dergisi, 24(3), 811-820, 2021.

[23] Güven Ö, Şahin H. “Predictive maintenance based on machine learning in public transportation vehicles”. Mühendislik Bilimleri ve Araştırmaları Dergisi, 4(1), 89-98, 2022.

[24] Soylu B, Yiğiter H, Sarıkaya V, Sandıkçı Z, Asena U. “Kestirimci bakım planlama için makine öğrenmesi temelli bir karar destek sistemi ve bir uygulama”. Verimlilik Dergisi, 2209(B), 48-66, 2022.

[25] Hatipoğlu A, Güneri Y, Yılmaz E. “Makine ve derin öğrenme temelli karşılaştırmalı bir öngörücü bakım uygulaması”. Gazi Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi, 39(2), 1037-1048, 2023.

[26] Bertsekas DP. Dynamic Programming and Optimal Control, Volume-II. 4th ed. Belmont, USA, Athena Scientific, 2012.

[27] Puterman ML. Markov Decision Process: Discrete Stochastic Dynamic Programming. 1st ed. Hoboken, USA, John Wiley & Sons, 2014.

[28] Sutton RS, Barto AG. Reinforcement Learning: An Introduction. Massachusetts, USA, MIT Press, 2018.

[29] Estanjini RM, Li K, Paschalidis IC. “A least squares temporal difference actor–critic algorithm with applications to warehouse management. Naval Research Logistics, 59(3‐4), 197-211, 2012.