- Paano makalkula ang koepisyent ng pagpapasiya?
- Nakalarawan kaso
- Pagbibigay kahulugan
- Mga halimbawa
- - Halimbawa 1
- Solusyon
- - Halimbawa 2
- Solusyon
- - Halimbawa 3
- Solusyon
- Pagkumpara sa paghahambing
- Konklusyon
- Mga Sanggunian
Ang koepisyent ng pagpapasiya ay isang numero sa pagitan ng 0 at 1 na kumakatawan sa maliit na bahagi ng mga puntos (X, Y) na sumusunod sa linya ng regression na magkasya ng isang set ng data na may dalawang variable.
Kilala rin ito bilang kabutihan ng karapat-dapat at tinutukoy ng R 2 . Upang makalkula ito, ang quotient sa pagitan ng pagkakaiba-iba ng data na tinantya ng modelo ng regression at ang pagkakaiba-iba ng data Yi na naaayon sa bawat Xi ng data ay kinuha.
R 2 = Sŷ / Sy
Larawan 1. Koepisyent ng korelasyon para sa apat na pares ng data. Pinagmulan: F. Zapata.
Kung ang 100% ng data ay nasa linya ng pag-andar ng regression, pagkatapos ay ang koepisyent ng pagpapasiya ay magiging 1.
Sa kabilang banda, kung para sa isang set ng data at isang tiyak na pag-aayos ng function ang koepisyenteng R 2 ay lumiliko na katumbas ng 0.5, kung gayon masasabi na ang pagsasaayos ay 50% kasiya-siya o mabuti.
Katulad nito, kapag ang modelo ng regression ay nagbubunga ng mga halaga ng R 2 na mas mababa kaysa sa 0.5, ipinapahiwatig nito na ang napiling function ng pagsasaayos ay hindi umaangkop nang kasiya-siya sa data, samakatuwid kinakailangan upang maghanap para sa isa pang pag-aayos ng function.
At kapag ang covariance o koepisyentasyon ng ugnayan ay may kaugaliang zero, kung gayon ang mga variable X at Y sa data ay walang kaugnayan, at samakatuwid ang R 2 ay may posibilidad ring zero.
Paano makalkula ang koepisyent ng pagpapasiya?
Sa nakaraang seksyon sinabi na ang koepisyent ng pagpapasiya ay kinakalkula sa pamamagitan ng paghahanap ng quotient sa pagitan ng mga pagkakaiba-iba:
-Nagpahiwatig ng pag-andar ng regression ng variable Y
-Ano ng variable Yi na naaayon sa bawat isa sa variable Xi ng mga pares ng data ng N.
Na-istate sa matematika, ganito ang hitsura nito:
R 2 = Sŷ / Sy
Mula sa pormula na ito ay sumusunod na ang R 2 ay kumakatawan sa proporsyon ng pagkakaiba-iba na ipinaliwanag ng modelo ng regression. Bilang kahalili, ang R 2 ay maaaring kalkulahin gamit ang sumusunod na pormula, ganap na katumbas sa naunang isa:
R 2 = 1 - (Sε / Sy)
Kung saan Kinakatawan ng Sε ang pagkakaiba-iba ng mga tira εi = Ŷi - Yi, habang ang Sy ay ang pagkakaiba-iba ng hanay ng mga halaga ng Yi ng data. Upang matukoy kung ang pag-andar ng regression ay inilalapat, na nangangahulugang kumpirmahin na Ŷi = f (Xi).
Ang pagkakaiba-iba ng data set Yi, na may i 1 hanggang N ay kinakalkula sa ganitong paraan:
Sy =
At pagkatapos ay magpatuloy sa isang katulad na paraan para sa Sŷ o Sε.
Nakalarawan kaso
Upang maipakita ang mga detalye kung paano ginawa ang pagkalkula ng koepisyent ng pagpapasiya, kukunin namin ang sumusunod na hanay ng apat na pares ng data:
(X, Y): {(1, 1); (2. 3); (3, 6) at (4, 7)}.
Ang isang linear regression fit ay iminungkahi para sa set ng data na ito, na nakuha gamit ang hindi bababa sa mga parisukat na pamamaraan:
f (x) = 2.1 x - 1
Paglalapat ng pagpapaandar na ito, ang mga torque ay nakuha:
(X, Ŷ): {(1, 1.1); (2, 3.2); (3, 5.3) at (4, 7.4)}.
Pagkatapos kinakalkula namin ang kahulugan ng aritmetika para sa X at Y:
Iba't ibang Sy
Sy = / (4-1) =
= = 7,583
Pagkakaiba-iba Sŷ
Sŷ = / (4-1) =
= = 7.35
Kakayahang pagpapasiya R 2
R 2 = Sŷ / Sy = 7.35 / 7.58 = 0.97
Pagbibigay kahulugan
Ang koepisyent ng pagpapasiya para sa nakalarawan na kaso na isinasaalang-alang sa nakaraang segment ay naging 0.98. Sa madaling salita, ang pag-aayos ng guhit sa pamamagitan ng pag-andar:
f (x) = 2.1x - 1
Ito ay 98% maaasahan sa pagpapaliwanag ng data na kung saan ito ay nakuha gamit ang hindi bababa sa parisukat na pamamaraan.
Bilang karagdagan sa koepisyent ng pagpapasiya, mayroong ang linear correlation coefficient o kilala rin bilang koepisyent ng Pearson. Ang koepisyent na ito, na tinukoy bilang r, ay kinakalkula ng sumusunod na ugnayan:
r = Sxy / (Sx Sy)
Narito ang numumer ay kumakatawan sa covariance sa pagitan ng mga variable X at Y, habang ang denominator ay produkto ng karaniwang paglihis para sa variable X at ang karaniwang paglihis para sa variable Y.
Ang koepisyent ng Pearson ay maaaring kumuha ng mga halaga sa pagitan ng -1 at +1. Kapag ang koepisyentong ito ay may kaugaliang +1 mayroong isang direktang pag-ugnay sa guhit sa pagitan ng X at Y. Kung ito ay may posibilidad na -1 sa halip, mayroong isang linear correlation ngunit kapag lumalaki ang X ay bumababa ang Y. Sa wakas, malapit ito sa 0 walang ugnayan sa pagitan ng dalawang variable.
Dapat pansinin na ang koepisyent ng pagpapasiya ay nag-tutugma sa parisukat ng koepisyent ng Pearson, lamang kapag ang una ay kinakalkula batay sa isang guhit na pagkakasunud-sunod, ngunit ang pagkakapantay-pantay na ito ay hindi wasto para sa iba pang mga di-guhit na magkasya.
Mga halimbawa
- Halimbawa 1
Ang isang pangkat ng mga mag-aaral sa high school ay nagtakda upang matukoy ang isang batas na empirikal para sa panahon ng isang pendulum bilang isang function ng haba nito. Upang makamit ang layuning ito, nagsasagawa sila ng isang serye ng mga pagsukat kung saan sinusukat nila ang oras ng isang pag-oscillation ng pendulum para sa iba't ibang haba na makuha ang mga sumusunod na halaga:
Haba (m) | Mga (mga) Panahon |
---|---|
0.1 | 0.6 |
0.4 | 1.31 |
0.7 | 1.78 |
isa | 1.93 |
1.3 | 2.19 |
1.6 | 2.66 |
1.9 | 2.77 |
3 | 3.62 |
Hiniling na gumawa ng isang magkakalat na balangkas ng data at magsagawa ng isang guhit na magkasya sa pamamagitan ng muling pag-urong. Gayundin, ipakita ang equation ng regression at ang koepisyent ng pagpapasiya.
Solusyon
Figure 2. Solusyon graph para sa ehersisyo 1. Pinagmulan: F. Zapata.
Ang isang medyo mataas na koepisyent ng pagpapasiya (95%) ay maaaring sundin, kaya maaaring isipin na ang linear fit ay optimal. Gayunpaman, kung ang mga puntos ay tiningnan nang magkasama, lumilitaw na may posibilidad na mag-curve pababa. Hindi detalyado ang detalyeng ito sa linear na modelo.
- Halimbawa 2
Para sa parehong data sa Halimbawa 1, gumawa ng isang nakakalat na balangkas ng data. Sa okasyong ito, hindi katulad sa halimbawa 1, isang pag-aayos ng regression ay hiniling gamit ang isang potensyal na function.
Larawan 3. graph ng solusyon para sa ehersisyo 2. Pinagmulan: F. Zapata.
Ipakita rin ang angkop na pag-andar at ang koepisyent ng pagpapasiya R 2 .
Solusyon
Ang potensyal na pag-andar ay ang form f (x) = Ax B , kung saan ang A at B ay mga constant na natutukoy ng hindi bababa sa paraan ng mga parisukat.
Ipinapakita ng nakaraang figure ang potensyal na pag-andar at mga parameter nito, pati na rin ang koepisyent ng pagpapasiya na may napakataas na halaga ng 99%. Pansinin na ang data ay sumusunod sa kurbada ng trend line.
- Halimbawa 3
Gamit ang parehong data mula sa Halimbawa 1 at Halimbawa 2, magsagawa ng isang ikalawang degree na polynomial fit. Ipakita ang graph, ang angkop na polynomial, at ang kaukulang koepisyent ng pagpapasiya R 2 .
Solusyon
Larawan 4. Solusyon ng graph para sa ehersisyo 3. Pinagmulan: F. Zapata.
Sa ikalawang antas ng polynomial fit maaari mong makita ang isang linya ng trend na akma nang maayos sa kurbada ng data. Gayundin, ang koepisyent ng pagpapasiya ay nasa itaas ng linear fit at sa ibaba ng potensyal na magkasya.
Pagkumpara sa paghahambing
Sa tatlong akma na ipinakita, ang isa na may pinakamataas na koepisyent ng pagpapasiya ay ang potensyal na akma (halimbawa 2).
Ang potensyal na akma ay magkakasabay sa pisikal na teorya ng pendulum, na, bilang kilala, ay nagtatatag na ang panahon ng isang pendulum ay proporsyonal sa parisukat na ugat ng haba nito, ang patuloy na proporsyonal na pagiging 2 being / √g kung saan ang g ay ang pagbilis ng grabidad.
Ang ganitong uri ng potensyal na magkasya hindi lamang ang may pinakamataas na koepisyent ng pagpapasiya, ngunit ang exponent at pare-pareho ng proporsyonal ay tumutugma sa pisikal na modelo.
Konklusyon
-Ang pag-aayos ng regression ay tumutukoy sa mga parameter ng pag-andar na naglalayong ipaliwanag ang data gamit ang pinakamababang pamamaraan ng mga parisukat. Ang pamamaraang ito ay binubuo ng pagliit ng kabuuan ng pagkakaiba-iba ng parisukat sa pagitan ng pagsasaayos ng halaga ng Y at ang halaga ng Yi ng data para sa mga halaga ng Xi ng data. Tinutukoy nito ang mga parameter ng function ng pag-tune.
-Ang nakita natin, ang pinakakaraniwang pag-aayos ng function ay ang linya, ngunit hindi ito ang isa lamang, dahil ang mga pagsasaayos ay maaari ding maging polynomial, potensyal, eksponensyal, logarithmic at iba pa.
-Sa anumang kaso, ang koepisyent ng pagpapasiya ay nakasalalay sa data at uri ng pagsasaayos at isang indikasyon ng kabutihan ng inilapat na pagsasaayos.
- Sa kabuuan, ang koepisyent ng pagpapasiya ay nagpapahiwatig ng porsyento ng kabuuang pagkakaiba-iba sa pagitan ng halaga ng Y ng data na may paggalang sa Ŷ na halaga ng pagsasaayos para sa ibinigay na X.
Mga Sanggunian
- González C. Pangkalahatang Istatistika. Nabawi mula sa: tarwi.lamolina.edu.pe
- IACS. Aragonese Institute of Health Sciences. Nabawi mula sa: ics-aragon.com
- Salazar C. at Castillo S. Mga pangunahing prinsipyo ng mga istatistika. (2018). Nabawi mula sa: dspace.uce.edu.ec
- Superprof. Koepisyent ng pagpapasiya. Nabawi mula sa: superprof.es
- USAC. Manwal na mga istatistika ng paglalarawan. (2011). Nabawi mula sa: statistics.ingenieria.usac.edu.gt.
- Wikipedia. Koepisyent ng pagpapasiya. Nabawi mula sa: es.wikipedia.com.