Spearman'ın sıralama korelasyon katsayısı

İstatistik bilim dalında, Spearman'ın sıralama korelasyon katsayısı veya Spearman'ın rho, bu istatistiksel ölçüyü ilk ortaya atan İngiliz psikolog Charles Edward Spearman'a atfen adlandırılmıştır.[1] Matematik notasyon olarak çok defa eski Yunan harfi ρ (rho okunur) ile belirtilir. Bir parametrik olmayan istatistik ölçüsüdür ve iki değişken arasındaki bağımlılık, yani korelasyon, ölçüsü olarak bulunup kullanılır. Bu demektir ki Spearman'in rho (ρ) katsayısı iki değişken için çokluluklar dağılımı hakkında hiçbir varsayım yapmayarak, bu iki değişken arasında bulunan bağlantının herhangi bir monotonik fonksiyon ile ne kadar iyi betimlenebilineceğini değerlendirmek amaçlı incelemedir.[2][3]

Yöntem

Prensip olarak Spearman'ın sıralama korelasyon katsayısı ρ Pearson çarpım-moment korelasyon katsayısının özel bir halidir. ρ değerinin hesaplanması için iki değişken (Y ve X) içinde örneklem verilerinin sıralama düzeninde olmaları gereklidir. Genel olarak, örneklem verileri için bu koşul uygun değildir ve veriler sıralama düzeni halinde olmadan oransal ölçekli veya aralıksal ölçekli veya sırasal ölçekli olarak bulunur ve bu halde bir dönüşümle sıralama düzeni haline sokulurlar. Böylece ρ formülü için sıralama düzenli x i {\displaystyle x_{i}} ve y i {\displaystyle y_{i}} örneklem verileri kullanılır.[4]

Sonra iki değişken için karşılıklı veri elemanları ( x i {\displaystyle x_{i}} ve y i {\displaystyle y_{i}} )nin sıra numaraları arasındaki fark d i {\displaystyle d_{i}} i=1,...n olarak bulunur. Bu tüm karşılıklı veriler (i=1...n) için uygulanır. Eğer sıra numaraları arasında hiç beraberlik yoksa, ρ değerini bulmak için şu formül kullanılır:

ρ = 1 6 d i 2 n ( n 2 1 ) {\displaystyle \rho =1-{\frac {6\sum d_{i}^{2}}{n(n^{2}-1)}}}

Burada

d i = x i y i {\displaystyle d_{i}=x_{i}-y_{i}}  : i elamni X i {\displaystyle X_{i}} ile Y i {\displaystyle Y_{i}} sıra numaraları arasındaki fark;
n : iki değişkenli örneklemde toplam gözlem sayısı.

Eğer sıralama esnasında beraberlikler bulunursa, sıralama numaraları verileri olarak kullanılarak klasik Pearson çarpım-moment korelasyon katsayısı formülü kullanılması tavsiye edilir.[4] Bu halde sıralama düzeni hazırlanırken beraberlikler halinde kullanılacak strateji her beraber sıra numaralı veriye beraberlik sıra ortalama değeri verilmesidir (yani 1 2,5 2,5 4 stratejisinin uygulanmasıdır). Bu halde formül şu olur :

ρ = n ( x i y i ) ( x i ) ( y i ) n ( x i 2 ) ( x i ) 2   n ( y i 2 ) ( y i ) 2 . {\displaystyle \rho ={\frac {n(\sum x_{i}y_{i})-(\sum x_{i})(\sum y_{i})}{{\sqrt {n(\sum x_{i}^{2})-(\sum x_{i})^{2}}}~{\sqrt {n(\sum y_{i}^{2})-(\sum y_{i})^{2}}}}}.}

Spearman'in ρ katsayısı değerleri de (aynı Pearson'un çarpım-moment korelasyon katsayısı gibi) -1 ile +1 arasında değişir. Uç değerler (yani ρ=-1 ve ρ=+1 ve yakın değerler) iki değişken sıralaması arasında bağlantının çok iyi olduğunu (eğer sıralamalar noktalar olarak bir serpme diyagramına konulursa hepsinin çizilen bir doğru üzerinde olduğunu) gösterirler. Eğer ρ<0 ise, sıralamalar arasında indirek aksi değişme vardır; yani biri artınca diğeri azalır ve aksi olur. Eğer ρ>0 ise sıralamalar arasında birlikte (yani birlikte artma veya eksilme) değişme görülür. Eğer ρ=0 ise, sıralamalar arasında hiçbir bağlantını bulunmadığı (ve serpme diyagrami üzerinde noktaların rastgele dağıldıkları) sonucu çıkartılır.

Diğer sıralama korelasyon ölçüleriyle ilişki

Spearman'in ρ sıralama korelasyon katsayısı ile Kendal'ın sıralama korelasyon katsayısı τ, bu ölçüleri destekleyen varsayımlara göre, birbiri ile aynıdır. Ancak aynı örneklem veriler serisi ile hesaplanan Spearman ρ katsayısı değeri ile Kendal'ın τ katsayısı değeri birbirinden farklı olacaktır. Buna başlıca neden hesaplama formüllerin geliştirilmesi için kullanılan mantıksal önerimlerin başka olması ve bu nedenle bibirinden çok değişik iki formülün ortaya çıkmasıdır. Bu iki katsayı arasındaki ilişki bir eşitsizlik ile ifade edilmiştir:

-1 < = 3 * τ - 2 * ρ < = 1

[5] Spearman'in ρ katsayısı sıralama düzeni verileri ile Pearson çarpım-moment korelasyon katsayısının hesaplanmasıdır ve temel mantik olarak bu iki katsayı aynı önerimlere dayanırlar. Halbuki Kendal'in τ katsayısı bir olasılık ifade eder ve uyuşma ve uyuşmama puanları için gerçek toplam ile maksimum mümkün toplam arasında bir orantıdır.

Örneğin

Tabloda iki değişken X ve Y için n=8 gözlem sayılı örneklem verileri için Spearman'ın sıralama korelasyon katsayısı ρ hesaplanması için örneğin verilmektedir. [A] ve [B] sütunlarında bu iki değişken X ve Y için örneklem verileri verilmiştir. [C] ve [D] sütunlarında bu iki değişkenlerin verileri için ayrı ayrı sıralama düzeni uygulanıp sıra numaraları x ve y olarak verilmiştir. X için verilerde 2 değişik beraberlik görülmektedir: 3 ve 10. Bu nedenle iki tekrarlı 3 için verilen sıra numaraları ortalaması (2+3)/2= 2,5 dur. Aynı şeklide 2 tekrarlı 10 için sıra numaraları 7,5 7,5 olarak verilmiştir. Y için verilerde ise 1,5 için 2 beraberlik ve 5 için 2 beraberlik bulunmaktadır ve bunlara da ortalama sıra numaraları verilmiştir. Sütun [E]de sıra numaraları farkları d verilmekte ve son [F] sütununda fark kareleri d2 hesaplanmaktadır.

[A] [B] [C] [D] [E] [F]
X Y x : X için sıralama y : Y için sıralama d : Sıralama
farkları
d2 : Farkların karesi
2 1,5 1 2,5 -1,5 2,25
3 1,5 2,5 2,5 0 0
3 4 2,5 5 -2,5 6,25
5 3 4 4 0 0
5,5 1 5 1 4 16
8 5 6 6,5 -0,5 0,25
10 5 7,5 6,5 1 1
10 9,5 7,5 8 -0,5 0,25
        Kareler
Toplamı
26

Fark kareleri toplamı d i 2 = 26 {\displaystyle \sum d_{i}^{2}=26} olarak bulunmuştur. Hesapların değerleri formüle şöyle konulur:

ρ = 1 6 × 26 8 ( 8 2 1 ) {\displaystyle \rho =1-{\frac {6\times 26}{8(8^{2}-1)}}}

ve şu sonuç bulunur ρ = 0.6 {\displaystyle \rho =0.6} .

Bu ρ=0.6 değeri sıfıra yakın pozitiftir. Sıfıra yakınlığı X ve Y sıralamaları arasındaki bağlantının (korelasyonun) az olduğunu gösterir ve negatif olma ise var zayıf bağlantının aksi yönde olduğunu ifade eder (yani X sıralaması artarsa Y sıralaması düşer ve aksi olur).

Bu veriler içinde beraberlikler bulunmaktadır. Bu nedenle kullanılan genel ρ formülü uygun sonuç vermeyebilir. Daha uygun sonuç bulmak için x ve y sıra numaraları için Pearson'un çarpım-moment korelasyon katsayısı bulunması tavsiye edilmektedir.

ρ kestirimi için anlamlılık sınaması

Eğer hesaplar ve anlamlılık sınaması el hesap makineleri ile yapılmakta ise, klasik çıkarımsal istatistik yöntemleri kullanılmalıdır.

ρ kestirminin anlamlılık sınanması için en basit yaklaşım belirli gözlem sayısı ve belirli anlamlılık düzeyi değerleri için hazırlanmış özel tablolar kullanılarak başarılır.[5] Ancak bu tablolar belirli veri sayısı ve anlamlılık düzeyi dışında ise kullanılamaz.

Önemli kompüter istatistik paketleri Spearman'in sıralamalı korelasyon katsayısını hesapladıkları zaman ek olarak anlamlılık sınaması için p-değerini de yanında vermektedirler.

Diğer bir alternatif yaklaşım eğer örneklem hacmi 20'den büyük ise uygulanabilir. Bu halde Student'in t dağılımına bir yaklaşım kullanılır:

t = ρ ( 1 ρ 2 ) / ( n 2 ) {\displaystyle t={\frac {\rho }{\sqrt {(1-\rho ^{2})/(n-2)}}}}
ρ = t n 2 + t 2 {\displaystyle \rho ={\frac {t}{\sqrt {n-2+t^{2}}}}}

değişkeni sıfır hipotez olan ρ=0 için bir Student'in t dağılımı gösterir. Ancak karşıt hipotez biraz zayıftır ve sifir hipotez ret edilnece ρ'nun ne değer alacağını göstermez.

Gözümlenen ρ değerinin anlamlı şekilde 0dan başka değerde olmasını sınama için modern yaklaşım olarak tekrar örnekleme sınaması yöntemi kullanılmaktadır ve bu tip sınama için, sıfır hipotez verilmişse anakütle ρ değerinin örneklemle elde edilen değerde ve ondan büyük olma olasılığı hesap edilir. Bu modern sınama yöntemi ancak kompüter programı yazabilen ve kompüteri iyi kullanabilen bir bilim insanı için çok kolay olabilir.

Ayrıca bakınız

Kaynakça

  1. ^ Spearman,C.(1904) "The proof and measurement of association between two things" Amer.J.Psychol. C.15 say.72–101
  2. ^ Kendall,M.G. (1962) Rank correlation methods, Griffin
  3. ^ Hollander,M. ve Wolfe,D.A. (1973) Nonparametric statistical methods, New York:Wiley
  4. ^ a b Myers,J.L. ve Well,A.D. (2003), Research Design and Statistical Analysis (2.ed.), Lawrence Erlbaum
  5. ^ a b Siegel,S. ve Castellan,N.J. (1988), Nonparametric statistics for the behavioral sciences 2. ed. New York: McGraw-Hill

Dış bağlantılar

  • [1]14 Nisan 2012 tarihinde Wayback Machine sitesinde arşivlendi. Küçük örneklemler için ρ için kritik değerler tablosu.
  • [2] 17 Mayıs 2008 tarihinde Wayback Machine sitesinde arşivlendi. Online ρ hesaplayıcısı.
  • [3] Beraberlikler olursa kullanılabilecek bir diğer formül vermekte.
  • [4]30 Mart 2012 tarihinde Wayback Machine sitesinde arşivlendi. Spearman'ın sıralama korelasyon katsayısı: Öğrenciler için hazırlanmış bir örnek problem çözümü ve notlar. Hesaplama için Microsoft Excel kullanılması da gösterilir.
  • g
  • t
  • d
Betimsel istatistik
Sürekli veriler
Merkezî konum
Yayılma
Dağılım şekli
Varyans • Çarpıklık • Basıklık • Moment (matematik)
İstatistiksel tablolar
Sıklık dağılımı  • Çoklu sayılı özetleme tabloları  • İlişki tablosu  • Çoklu-yönlü sınıflandırma tabloları
İstatistiksel grafikler
Dairesel grafik • Çubuk grafiği • Kutu grafiği • Dal-yaprak grafikleri •Kontrol diyagramı • Histogram • Sıklık çizelgesi • Q-Q grafiği • Serpilme diyagramı
Veri toplama
Örnek tasarımı
Deneysel tasarım
Anakütle • İstatistiksel deneysel tasarım tipleri  • Deneysel hata  • Yineleme • Bloklama • Duyarlılık ve belirleme
Örneklem kavramları
Örneklem büyüklüğü • Sınama gücü  • Etki büyüklüğü • Örnekleme dağılımı •Standart hata
Çıkarımsal istatistik
ve
İstatistiksel kestirim ve testler
Çıkarımsal analiz tipleri
Kestirim  • Parametrik çıkarımsal analiz  •Parametrik olmayan çıkarımsal analiz  • Bayesci çıkarımsal analiz  • Meta-analiz
Çıkarımsal kestirim
Genel kestirim kavramları
Momentler yöntemi • Enbüyük olabilirlik • Enbüyük artçıl  • Bayes-tipi kestirimci • Minimum uzaklık • Maksimum aralık verme
Tekdeğişkenli kestirim
Kestirim  • Güven aralığı  • İnanılır aralık
Hipotez testi
İstatistiksel test ana kavramları
Sıfır hipotez  • I.Tür ve II.Tür hata  • Anlamlılık seviyesi  •p-değeri
Basit tek-değişkenli ve iki-değişkenli
parametrik hipotez testi
μ için testi •

π için test • μ12 için test • π12 için test  •

σ12 için test
Tek-değişkenli ve iki-değişkenli
parametrik olmayan test analizi
Medyan testi  • Ki-kare testi • Pearson ki-kare testi •Phi katsayısı  • Wald testi • Mann-Whitney U testi • Wilcoxon'in işaretli sıralama testi
Korelasyon
ve
Regresyon analizi
Korelasyon
Pearson çarpım-moment korelasyonu • Sıralama korelasyonu ( Spearman'in rho • Kendall'in tau)
Doğrusal regresyon
Regresyon analizi  • Doğrusal model • Genel doğrusal model • Genelleştirilmiş doğrusal model
Doğrusal olmayan regresyon
Parametrik olmayan • Yarıparametrik • Logistik
Varyans analizi
Tek-yönlü varyans analizi • Kovaryans analizi • Bloklu tek-yönlü varyans analizi • Etki karışımı değişkeni
Çokdeğişkenli istatistik
Çokdeğişkenli regresyon • temel bileşenler · Faktör analizi  •Kanonik korelesyon  • Uygunluk analizi  • Kümeleme analizi
Zaman serileri analizi
Yapısal model tanımlanması
Zaman serisi yapisal model ögeleri  • Zaman serisi ögeleri saptanması  • Zaman grafiği • Korrelogram
Zaman serileri kestirim teknik ve modelleri
Dekompozisyon • Trend uygulama kestirimi  • Üssel düzgünleştirme  • ARIMA modelleri  • Box–Jenkins  • Spektral yoğunluk kestirimi
Kestirim değerlendirmesi
Zaman seri kestirim değerlendirmesi
Sağkalım analizi
Sağkalım fonksiyonu • Kaplan–Meier • Log-sıra testi • Başarısızlık oranı • orantılı tehlikeler modeli
Kategori • Outline • Endeks