Kənarlaşma (statistika)
Kənarlaşma və ya yanılma (ing. Outlier)[1] — statistikada verilənlər toplusunda normadan kəskin şəkildə fərqlənən və ya paylanmadan uzaqlaşan qiymətlərə verilən ad. Bu anlayış verilənlərin təhlili prosesində həm potensial dəyərli bir verilənlər mənbəyi, həm də qeyri-adi halların və ya səhvlərin göstəricisi kimi mühüm əhəmiyyət kəsb edir. Belə fərqli qiymətlərin təhlili verilənlərdən dəqiq nəticələr çıxarmaq və düzgün qərarlar qəbul etmək üçün vacibdir. Hər bir kənarlaşma nümunəsi diqqətlə araşdırılmalı və onun səbəbləri müəyyən edilməlidir.[2]
Termin
redaktəKənarlaşma termini adətən verilənlərdə normadan və ya əsas tendensiyalardan kəskin şəkildə kənara çıxan qiymətləri ifadə edir. Bu cür qiymətlər statistik analiz zamanı verilənlərin ümumi strukturuna və paylanmasına zidd olduğuna görə nəticələrin düzgünlüyünü təsir edə bilər. Belə fərqlənən qiymətlərin mövcudluğu həm verilənlərdəki səhvlərə, həm də xüsusi halların əksinə işarə edə bilər.[3][4]
Təsnifatı
redaktəKənarlaşmalar yuxarı kənarlaşma və aşağı kənarlaşma olaraq iki yerə bölünür.[5]
Yuxarı kənarlaşmalar verilənlər toplusunda gözlənilən və ya ümumi qiymətlərdən əhəmiyyətli dərəcədə yüksək olan dəyərləri ifadə edir. Belə kənarlaşmalar adətən verilənlərin əsas paylanma tendensiyasından kənara çıxaraq fərqli vəziyyətləri əks etdirir. Məsələn, bir şəhərdə əhalinin gəlir səviyyəsi araşdırıldığı zaman orta gəlir səviyyəsindən xeyli yüksək gəlirə malik bir şəxsin dəyəri yuxarı kənarlaşma kimi qəbul edilə bilər. Bu cür fərqlər bəzən nadir iqtisadi və ya sosial halları işarə edə bilər.
Aşağı kənarlaşmalar verilənlərdəki adi və ya gözlənilən dəyərlərdən əhəmiyyətli dərəcədə aşağı olan qiymətləri təsvir edir. Bu tip dəyərlər ümumi paylanmanın alt səviyyəsindən uzaqlaşaraq fərqli bir vəziyyətin mövcudluğunu göstərə bilər. Məsələn, bir məktəbdə şagirdlərin test nəticələri təhlil edildikdə, sinifdəki digər şagirdlərin nəticələrindən xeyli aşağı bal toplayan bir şagirdin göstəricisi aşağı kənarlaşma kimi təsnif edilə bilər. Bu, bəzi xüsusi təhsil problemlərinin və ya fərqli öyrənmə şərtlərinin göstəricisi ola bilər.
Təyin olunması
redaktəQutu diaqramı metodu minimum, maksimum, median, birinci kvartil (Q1) və üçüncü kvartil (Q3) kimk verilənlərin əsas göstəricilərinin vizual olaraq təsvir edilməsi üçün istifadə olunur. Qrafik vasitəsilə verilənlərdəki əsas tendensiyalar və kənarlaşmalar asanlıqla müəyyən edilir. Kənarlaşma kimi təsnif edilən qiymətlər Q1 - 1.5 * IQR və ya Q3 + 1.5 * IQR sərhədlərindən kənarda yerləşən dəyərlərdir. Burada IQR (interquartile range) birinci və üçüncü kvartillər arasındakı məsafəni ifadə edir və çıxıntıları müəyyən etmək üçün əsas ölçü rolunu oynayır.[6][7][8][9]
Z qiyməti üsulu hər bir verilən dəyərin orta göstəriciyə və standart sapmaya olan fərqini hesablayaraq kənarlaşmaları müəyyən edir. Z qiyməti 3-dən böyük olan qiymətlər normadan kənar hesab edilir, çünki bu qiymətlər ortalamadan üç standart sapma uzaqlıqda yerləşir. Bu metod əsasən normal paylanmaya malik verilənlər üçün daha uyğundur və kənarlaşmaların dəqiq şəkildə təhlili üçün istifadə edilir.[10][11]
IQR metodu IQR (interquartile range) birinci kvartil (Q1) ilə üçüncü kvartil (Q3) arasındakı məsafəni ölçən statistik göstəricidir. Bu metodda IQR-in 1.5 qatından kənara çıxan dəyərlər kənarlaşma hesab olunur. Məsələn, bir verilən Q1 - 1.5 * IQR və ya Q3 + 1.5 * IQR sərhədlərindən kənarda yerləşirsə, bu dəyər statistik olaraq normadan kənar sayılır.
Səbəbləri
redaktəKənarlaşmalar müxtəlif səbəblərdən yaranır. Bunlara verilənlər toplama prosesində baş verən səhvlər, nadir və qeyri-adi halların müşahidəsi və statistik modellərin uyğun gəlməməsi daxildir. Səhvlər verilənlərin yığılması və qeydiyyatı zamanı baş verən səhvlərdən irəli gələn kənarlaşmalardır. Nadir hadisələr elə hallardır ki, bu zaman kənarlaşmalar unikal və xüsusi halları əks etdirə bilər. Uyğunsuz model statistik modelin məlumatlara uyğun olmaması, normadan kənar qiymətlərin yaranmasına səbəb ola bilər.[12][13]
Analizi
redaktəKənarlaşmalar verilənlərdən yeni məlumatlar əldə etmək və modelləri təkmilləşdirmək baxımından əhəmiyyətli rol oynayır. Səhvlərin aşkar edilməsi verilənlərdəki səhv məlumatların müəyyən olunması və aradan qaldırılmasıdır. Yeni verilənlərin aşkarlanması ona gətirib çıxarır ki, kənarlaşmalar bəzən faydalı və yaradıcı məlumat mənbəyi ola bilər. Modelin təkmilləşdirilməsində kənarlaşmalar mövcud modelin uyğunluğunu qiymətləndirmək və yenidən tərtib etmək üçün göstərici ola bilər.[14]
Kənarlaşmaların analizi zamanı onları analizdən çıxarmaq və ya xüsusi hallar kimi təhlil etmək mümkündür. Səhvlərdən qaynaqlanan kənarlaşmalar çıxarıla bilər, lakin əhəmiyyətli məlumatlar ehtiva edənlər daha dərindən araşdırılaraq analizə daxil edilə bilər.[15]
İstinadlar
redaktə- ↑ Зайдель А.Н. Элементарные оценки ошибок измерений. Москва: Наука. 1965.
- ↑ https://www.merriam-webster.com/dictionary/outlier
- ↑ Grubbs, F. E. "Procedures for detecting outlying observations in samples". Technometrics. 11 (1). February 1969: 1–21. doi:10.1080/00401706.1969.10490657.
An outlying observation, or "outlier," is one that appears to deviate markedly from other members of the sample in which it occurs.
- ↑ Maddala, G. S. Outliers // Introduction to Econometrics (2nd). New York: MacMillan. 1992. 89. ISBN 978-0-02-374545-4.
An outlier is an observation that is far removed from the rest of the observations.
- ↑ Ripley, Brian D. 2004. Robust statistics Arxivləşdirilib 2012-10-21 at the Wayback Machine
- ↑ "Диаграмма размаха ("ящик с усами")". 2022-10-27 tarixində arxivləşdirilib. İstifadə tarixi: 2022-10-27.
- ↑ "Источник". 2022-10-27 tarixində arxivləşdirilib. İstifadə tarixi: 2022-10-27.
- ↑ "Коробчатая диаграмма". 2022-10-27 tarixində arxivləşdirilib. İstifadə tarixi: 2022-10-27.
- ↑ "Создание блочной диаграммы с ограничителями выбросов". 2023-05-30 tarixində arxivləşdirilib. İstifadə tarixi: 2024-01-11.
- ↑ Mulders, Martijn; Zanderighi, Giulia, redaktorlar 2015 European School of High-Energy Physics: Bansko, Bulgaria 02 - 15 Sep 2015. CERN Yellow Reports: School Proceedings. Geneva: CERN. 2017. ISBN 978-92-9083-472-4.
- ↑ Gross, Eilam. "Practical Statistics for High Energy Physics". CERN Yellow Reports: School Proceedings (ingilis). 4/2017. 2017-11-06: 165–186. doi:10.23730/CYRSP-2017-004.165.
- ↑ Pimentel, M. A., Clifton, D. A., Clifton, L., & Tarassenko, L. (2014). A review of novelty detection. Signal Processing, 99, 215-249.
- ↑ Grubbs, 1969. səh. 1 stating "An outlying observation may be merely an extreme manifestation of the random variability inherent in the data. ... On the other hand, an outlying observation may be the result of gross deviation from prescribed experimental procedure or an error in calculating or recording the numerical value."
- ↑ Karch, Julian D. "Outliers may not be automatically removed". Journal of Experimental Psychology: General. 152 (6). 2023: 1735–1753. doi:10.1037/xge0001357. hdl:1887/4103722. PMID 37104797 (#bad_pmid).
- ↑ Bakker, Marjan; Wicherts, Jelte M. "Outlier removal, sum scores, and the inflation of the type I error rate in independent samples t tests: The power of alternatives and recommendations". Psychological Methods. 19 (3). 2014: 409–427. doi:10.1037/met0000014. PMID 24773354.