Accurate and reliable sleep staging from electroencephalography (EEG) is essential for both research and clinical applications. However, evaluation practices differ widely, and subtle methodological choices can strongly influence reported results. In this study, we examined how cross-validation strategies and normalization protocols affect the reliability and generalizability of EEG-based sleep staging models. Two benchmark datasets, SleepEDF and ISRUC, were used to systematically compare common approaches. We found that record-wise evaluation, often used in the literature, leads to overly optimistic results, while subject-wise and leave-one-subject-out (LOSO) evaluations provide more realistic estimates. On SleepEDF and ISRUC, record-wise median Macro-F1 was 0.70 and 0.71, respectively; under subject-wise it was lower by 9 and 7 percentage points. Similarly, normalization strategies matter: although fold-aware normalization performed better in standard tests, subject-aware normalization combined with test-time adaptation produced the most consistent and clinically relevant outcomes, which improves calibration (lower ECE) and supports safer decisions. In particular, it reduced errors and improved both classification accuracy and probability reliability; for example, on ISRUC, subject-aware further improved Macro-F1 by 0.08, reduced ECE by 0.02, and increased kappa by 0.10, compared with fold-aware normalization. We present a protocol-level, model-independent proof that evaluation and normalization decisions can compete with model selection, particularly when datasets change. Better-calibrated predictions and safer clinical decisions are obtained by using subject-wise/LOSO for internal assessment and subject-aware normalization with test-time adaptation for deployment.
This study does not involve human or animal participants. All procedures followed scientific and ethical principles, and all referenced studies are appropriately cited.
This research received no external funding.
The author do not wish to acknowledge any individual or institution.
Elektroensefalografi (EEG) tabanlı uyku evreleme, hem araştırma hem de klinik uygulamalar için kritik öneme sahiptir. Ancak değerlendirme yaklaşımları literatürde büyük farklılıklar göstermekte ve yöntemsel tercihler raporlanan sonuçları güçlü biçimde etkileyebilmektedir. Bu çalışmada, çapraz doğrulama stratejileri ve normalizasyon protokollerinin EEG tabanlı uyku evreleme modellerinin güvenilirliği ve genellenebilirliği üzerindeki etkileri incelenmiştir. İki temel veri seti (SleepEDF ve ISRUC) kullanılarak yaygın yaklaşımlar sistematik biçimde karşılaştırılmıştır. Bulgular, literatürde sık kullanılan kayıt-bazlı değerlendirmenin aşırı iyimser sonuçlara yol açtığını; buna karşın birey-bazlı ve bir-birey-dışlama yaklaşımlarının daha gerçekçi tahminler sunduğunu göstermektedir. Benzer şekilde normalizasyon stratejileri de kritik rol oynamaktadır: standart testlerde kat-düzeyinde normalizasyon daha başarılı bulunurken, birey-düzeyinde normalizasyon yöntemi test-zamanlı uyarlama ile birlikte en tutarlı ve klinik açıdan en anlamlı sonuçları vermiştir. Özellikle test-zamanlı uyarlama, hataları azaltmış ve farklı veri setlerinde hem sınıflandırma doğruluğunu hem de olasılık güvenilirliğini artırmıştır. Sonuç olarak, değerlendirme protokollerinin seçiminde algoritma seçimi kadar dikkatli olunması gerektiği ortaya konmuştur. Daha titiz ve klinik odaklı değerlendirme stratejilerinin benimsenmesiyle EEG tabanlı uyku evreleme sistemleri daha güvenilir hale gelebilir ve gerçek sağlık uygulamaları için daha uygun bir yapıya kavuşabilir.
Elektroensefalografi (EEG) Uyku evreleme Çapraz doğrulama Normalizasyon Kalibrasyon Alan uyarlaması
| Primary Language | English |
|---|---|
| Subjects | Bioinformatics |
| Journal Section | Research Article |
| Authors | |
| Submission Date | August 28, 2025 |
| Acceptance Date | October 23, 2025 |
| Publication Date | January 21, 2026 |
| Published in Issue | Year 2026 Volume: 14 Issue: 1 |