- Kahalagahan ng homoscedasticity
- Homoscedasticity kumpara sa heteroscedasticity
- Mga pagsubok sa homoscedasticity
- Mga standard na variable
- Mga di-graphical na pagsubok ng homoscedasticity
- Mga Sanggunian
Ang homoscedasticity sa isang nahuhulang istatistika modelo ay nangyayari kung ang lahat ng mga pangkat ng data ng isa o higit pang mga obserbasyon, ang pagkakaiba-iba (o independiyenteng) pattern na may paggalang sa mga variable na paliwanag ay mananatiling pare-pareho.
Ang isang modelo ng regression ay maaaring homoscedastic o hindi, kung saan pinag-uusapan natin ang heteroscedasticity.

Larawan 1. Limang mga set ng data at regression na angkop sa set. Ang pagkakaiba-iba tungkol sa hinulaang halaga ay pareho sa bawat pangkat. (upav-biblioteca.org)
Ang isang modelo ng istatistika ng regresyon ng ilang mga independiyenteng variable ay tinatawag na homoscedastic, kung ang pagkakaiba-iba ng error ng hinulaang variable (o ang karaniwang paglihis ng umaasang variable) ay nananatiling pare-pareho para sa iba't ibang mga grupo ng mga halaga ng paliwanag o malayang variable.
Sa limang pangkat ng data sa Figure 1, ang pagkakaiba-iba sa bawat pangkat ay kinakalkula, na may paggalang sa halaga na tinantya ng regression, na nagiging pareho sa bawat pangkat. Ipinapalagay na ang data ay sumusunod sa normal na pamamahagi.
Sa antas ng grapiko, nangangahulugan ito na ang mga puntos ay pantay na nakakalat o nakakalat sa paligid ng halaga na hinulaang ng regression fit, at na ang modelo ng regression ay may parehong error at pagiging totoo para sa saklaw ng variable na paliwanag.
Kahalagahan ng homoscedasticity
Upang mailarawan ang kahalagahan ng homoscedasticity sa mga nahuhula na istatistika, kinakailangan upang magkontra sa kabaligtaran na kababalaghan, heteroscedasticity.
Homoscedasticity kumpara sa heteroscedasticity
Sa kaso ng figure 1, kung saan mayroong homoscedasticity, totoo na:
Var ((y1-Y1); X1) ≈ Var ((y2-Y2); X2) ≈ …… Var ((y4-Y4); X4)
Kung saan ang Var ((yi-Yi); Xi) ay kumakatawan sa pagkakaiba-iba, ang pares (xi, yi) ay kumakatawan sa data mula sa pangkat i, samantalang si Yi ang halaga na hinula ng regression para sa ibig sabihin ng halaga Xi ng pangkat. Ang pagkakaiba-iba ng n data mula sa pangkat i ay kinakalkula tulad ng sumusunod:
Var ((yi-Yi); Xi) = ∑j (yij - Yi) ^ 2 / n
Sa kabaligtaran, kapag nangyayari ang heteroscedasticity, ang modelo ng regression ay maaaring hindi wasto para sa buong rehiyon kung saan ito ay kinakalkula. Ang Figure 2 ay nagpapakita ng isang halimbawa ng sitwasyong ito.

Larawan 2. Grupo ng data na nagpapakita ng heteroscedasticity. (Sariling pagsasaliksik)
Ang Figure 2 ay kumakatawan sa tatlong pangkat ng data at ang akma ng set gamit ang isang linear regression. Dapat pansinin na ang data sa pangalawa at pangatlong pangkat ay mas nagkakalat kaysa sa unang pangkat. Ang graph sa figure 2 ay nagpapakita rin ng mean na halaga ng bawat pangkat at error bar ± σ, kasama ang standard na paglihis ng bawat pangkat ng data. Dapat itong alalahanin na ang karaniwang paglihis σ ay ang parisukat na ugat ng pagkakaiba-iba.
Malinaw na sa kaso ng heteroscedasticity, ang error sa pagtantiya ng regression ay nagbabago sa saklaw ng mga halaga ng paliwanag o independyenteng variable, at sa mga pagitan kung saan napakalaki ang error na ito, ang hula ng regression ay hindi maaasahan o hindi maaari.
Sa isang modelo ng regression ang mga pagkakamali o tira (at -Y) ay dapat na ibinahagi na may pantay na pagkakaiba-iba (σ ^ 2) sa buong pagitan ng mga halaga ng independyenteng variable. Ito ay para sa kadahilanang ito na ang isang mahusay na modelo ng regression (linear o nonlinear) ay dapat pumasa sa homoscedasticity test.
Mga pagsubok sa homoscedasticity
Ang mga puntos na ipinakita sa figure 3 ay tumutugma sa data ng isang pag-aaral na naghahanap ng isang relasyon sa pagitan ng mga presyo (sa dolyar) ng mga bahay bilang isang function ng laki o lugar sa mga square meters.
Ang unang modelo na susubukan ay sa isang linear regression. Una sa lahat, nabanggit na ang koepisyent ng pagpapasiya R ^ 2 ng akma ay medyo mataas (91%), kaya maiisip na ang akma ay kasiya-siya.
Gayunpaman, ang dalawang rehiyon ay maaaring malinaw na makilala mula sa graph ng pag-aayos. Ang isa sa kanila, ang isa sa kanan na nakapaloob sa isang hugis-itlog, ay nagtutupad ng homoscedasticity, habang ang rehiyon sa kaliwa ay walang homoscedasticity.
Nangangahulugan ito na ang hula ng modelo ng regression ay sapat at maaasahan sa saklaw mula 1800 m ^ 2 hanggang 4800 m ^ 2 ngunit napaka kulang sa labas ng rehiyon na ito. Sa heteroscedastic zone, hindi lamang ang napakalaking error, kundi pati na rin ang data ay sumunod sa isang kakaibang takbo kaysa sa iminungkahi ng modelong linear regression.

Larawan 3. Ang mga presyo sa pabahay kumpara sa lugar at mapaghulaang modelo sa pamamagitan ng linear regression, na nagpapakita ng homoscedasticity at heteroscedasticity zone. (Sariling pagsasaliksik)
Ang graphic graph ng data ay ang pinakasimpleng at pinaka visual na pagsubok ng kanilang homoscedasticity, gayunpaman, sa mga okasyon kung saan ito ay hindi gaanong maliwanag tulad ng sa halimbawa na ipinakita sa figure 3, kinakailangan na mag-resort sa mga graph na may mga variable na katulong.
Mga standard na variable
Upang paghiwalayin ang mga lugar kung saan natutupad ang homoscedasticity at kung saan wala ito, ipinakilala ang mga pamantayang variable na ZRes at ZPred:
ZRes = Abs (y - Y) / σ
ZPred = Y / σ
Dapat pansinin na ang mga variable na ito ay nakasalalay sa inilapat na modelo ng regression, dahil ang Y ang halaga ng hula ng regression. Sa ibaba ay ang plot plot ng ZRes vs ZPred para sa parehong halimbawa:

Larawan 4. Dapat pansinin na sa homoscedasticity zone ang ZRes ay nananatiling pantay-pantay at maliit sa rehiyon ng hula (Sariling elaboration).
Sa graph sa Figure 4 na may standardized variable, ang lugar kung saan maliit ang natitirang error at uniporme ay malinaw na nahihiwalay mula sa lugar kung saan wala ito. Sa unang zone, ang homoscedasticity ay natutupad, habang sa rehiyon kung saan ang natitirang error ay lubos na variable at malaki, ang heteroscedasticity ay natutupad.
Ang pagsasaayos ng pagkabagabag ay inilalapat sa parehong pangkat ng data sa figure 3, sa kasong ito ang pagsasaayos ay hindi linya, dahil ang modelo na ginamit ay nagsasangkot ng isang potensyal na function. Ang resulta ay ipinapakita sa sumusunod na pigura:

Larawan 5. Ang mga bagong zone ng homoscedasticity at heteroscedasticity sa data na umaangkop sa isang non-linear regression model. (Sariling pagpapaliwanag).
Sa graph ng Figure 5, ang mga homoscedastic at heteroscedastic na lugar ay dapat na malinaw na mapapansin. Dapat ding tandaan na ang mga zone na ito ay pinagsama ng paggalang sa mga nabuo sa linear fit model.
Sa graph ng Figure 5 maliwanag na kahit na mayroong isang medyo mataas na koepisyent ng pagpapasiya ng akma (93.5%), ang modelo ay hindi sapat para sa buong agwat ng variable na paliwanag, dahil ang data para sa mga halaga mas malaki kaysa sa 2000 m ^ 2 kasalukuyan heteroscedasticity.
Mga di-graphical na pagsubok ng homoscedasticity
Ang isa sa mga di-grapikong pagsubok na ginagamit upang mapatunayan kung ang homoscedasticity ay natutugunan o hindi ay ang pagsusuri sa Breusch-Pagan.
Hindi lahat ng mga detalye ng pagsubok na ito ay ibibigay sa artikulong ito, ngunit ang mga pangunahing katangian nito at ang mga hakbang ng pareho ay halos nakabalangkas:
- Ang modelo ng regression ay inilalapat sa n data at ang pagkakaiba-iba ng pareho ay kinakalkula na may paggalang sa halaga na tinantya ng modelo σ ^ 2 = ∑j (yj - Y) ^ 2 / n.
- Ang isang bagong variable ay tinukoy ε = ((yj - Y) ^ 2) / (σ ^ 2)
- Ang parehong modelo ng regression ay inilalapat sa bagong variable at ang mga bagong parameter ng regression ay kinakalkula.
- Ang kritikal na halaga ng Chi square (χ ^ 2) ay tinutukoy, na ito ay kalahati ng kabuuan ng mga parisukat na mga bagong nalalabi sa variable ε.
- Ang talahanayan ng pamamahagi ng Chi square ay ginagamit na isinasaalang-alang ang antas ng kabuluhan (karaniwang 5%) at ang bilang ng mga degree ng kalayaan (# ng mga variable ng regression minus ang yunit) sa x-axis ng talahanayan, upang makuha ang halaga ng ang lupon.
- Ang kritikal na halaga na nakuha sa hakbang 3 ay inihambing sa halaga na matatagpuan sa talahanayan (χ ^ 2).
- Kung ang kritikal na halaga ay nasa ibaba ng talahanayan, mayroon kaming null hypothesis: mayroong homoscedasticity
- Kung ang kritikal na halaga ay nasa itaas ng talahanayan, mayroon kaming alternatibong hypothesis: walang homoscedasticity.
Karamihan sa mga statistical software packages tulad ng: SPSS, MiniTab, R, Python Pandas, SAS, StatGraphic at ilang iba pa ay isinasama ang Breusch-Pagan homoscedasticity test. Ang isa pang pagsubok upang mapatunayan ang pagkakapareho ng pagkakaiba-iba ay ang Levene test.
Mga Sanggunian
- Box, Mangangaso at Mangangaso. (1988) Mga istatistika para sa mga mananaliksik. Binaligtad ko ang mga editor.
- Johnston, J (1989). Mga pamamaraan ng Econometrics, mga editor ng Vicens -Vives.
- Murillo at González (2000). Manwal ng Econometrics. Pamantasan ng Las Palmas de Gran Canaria. Nabawi mula sa: ulpgc.es.
- Wikipedia. Homoscedasticity. Nabawi mula sa: es.wikipedia.com
- Wikipedia. Homoscedasticity. Nabawi mula sa: en.wikipedia.com
