Minste kvadraters metode er inkludert i gruppen. Tilnærming av eksperimentelle data

Etter justering får vi en funksjon av følgende form: g (x) = x + 1 3 + 1 .

Vi kan tilnærme disse dataene med en lineær sammenheng y = a x + b ved å beregne de riktige parameterne. For å gjøre dette må vi bruke den såkalte minste kvadraters metoden. Du må også lage en tegning for å sjekke hvilken linje som best vil justere eksperimentelle data.

Hva er egentlig OLS (minste kvadraters metode)

Det viktigste vi må gjøre er å finne slike koeffisienter for lineær avhengighet hvor verdien av funksjonen til to variabler F (a, b) = ∑ i = 1 n (y i - (a x i + b)) 2 vil være minste. Med andre ord, for visse verdier av a og b, vil summen av kvadrerte avvik av de presenterte dataene fra den resulterende rette linjen ha en minimumsverdi. Dette er meningen med minste kvadraters metode. Alt vi trenger å gjøre for å løse eksemplet er å finne ytterpunktet for funksjonen til to variabler.

Hvordan utlede formler for beregning av koeffisienter

For å utlede formler for beregning av koeffisientene, er det nødvendig å komponere og løse et likningssystem med to variabler. For å gjøre dette, beregner vi de partielle deriverte av uttrykket F (a , b) = ∑ i = 1 n (y i - (a x i + b)) 2 med hensyn til a og b og likestiller dem til 0 .

δ F (a, b) δ a = 0 δ F (a, b) δ b = 0 ⇔ - 2 ∑ i = 1 n (y i - (a x i + b)) x i = 0 - 2 ∑ i = 1 n ( y i - (a x i + b)) = 0 ⇔ a ∑ i = 1 n x i 2 + b ∑ i = 1 n x i = ∑ i = 1 n x i y i a ∑ i = 1 n x i + ∑ i = 1 n b = ∑ y i = ∑ i = 1 n x i 2 + b ∑ i = 1 n x i = ∑ i = 1 n x i y i a ∑ i = 1 n x i + n b = ∑ i = 1 n y i

For å løse et ligningssystem kan du bruke hvilken som helst metode, for eksempel substitusjon eller Cramers metode. Som et resultat bør vi få formler som beregner koeffisientene ved å bruke minste kvadraters metode.

n ∑ i = 1 n x i y i - ∑ i = 1 n x i ∑ i = 1 n y i n ∑ i = 1 n - ∑ i = 1 n x i 2 b = ∑ i = 1 n y i - a ∑ i = 1 n

Vi har beregnet verdiene til variablene som funksjonen har
F (a , b) = ∑ i = 1 n (y i - (a x i + b)) 2 vil ta minimumsverdien. I tredje ledd skal vi bevise hvorfor det er slik.

Dette er bruken av minste kvadraters metode i praksis. Formelen hans, som brukes til å finne parameteren a , inkluderer ∑ i = 1 n x i , ∑ i = 1 n y i , ∑ i = 1 n x i y i , ∑ i = 1 n x i 2 , og parameteren
n - det angir mengden eksperimentelle data. Vi anbefaler deg å beregne hvert beløp separat. Koeffisientverdien b beregnes umiddelbart etter a .

La oss gå tilbake til det opprinnelige eksemplet.

Eksempel 1

Her har vi n lik fem. For å gjøre det mer praktisk å beregne de nødvendige beløpene som er inkludert i koeffisientformlene, fyller vi ut tabellen.

i = 1 i = 2 i = 3 i = 4 i = 5 ∑ i = 1 5
x i 0 1 2 4 5 12
y jeg 2 , 1 2 , 4 2 , 6 2 , 8 3 12 , 9
x i y i 0 2 , 4 5 , 2 11 , 2 15 33 , 8
x i 2 0 1 4 16 25 46

Beslutning

Den fjerde raden inneholder dataene oppnådd ved å multiplisere verdiene fra den andre raden med verdiene til den tredje for hver enkelt i . Den femte linjen inneholder dataene fra den andre kvadraten. Den siste kolonnen viser summene av verdiene til de enkelte radene.

La oss bruke minste kvadraters metode for å beregne koeffisientene a og b vi trenger. For å gjøre dette, bytt ut de ønskede verdiene fra den siste kolonnen og beregn summene:

n ∑ i = 1 n x i y i - ∑ i = 1 n x i ∑ i = 1 n y i n ∑ i = 1 n - ∑ i = 1 n x i 2 b = ∑ i = 1 n y i - a ∑ i = 1 3 x n = 3 - 12 12, 9 5 46 - 12 2 b = 12, 9 - a 12 5 ⇒ a ≈ 0, 165 b ≈ 2, 184

Vi fikk at den ønskede tilnærmede rette linjen vil se ut som y = 0 , 165 x + 2 , 184 . Nå må vi bestemme hvilken linje som best tilnærmer dataene - g (x) = x + 1 3 + 1 eller 0 , 165 x + 2 , 184 . La oss lage et estimat ved å bruke minste kvadraters metode.

For å beregne feilen må vi finne summen av kvadrerte avvik for dataene fra linjene σ 1 = ∑ i = 1 n (y i - (a x i + b i)) 2 og σ 2 = ∑ i = 1 n (y i - g (x i)) 2 vil minimumsverdien tilsvare en mer passende linje.

σ 1 = ∑ i = 1 n (y i - (a x i + b i)) 2 = = ∑ i = 1 5 (y i - (0 , 165 x i + 2 , 184)) 2 ≈ 0 , 019 σ 2 = ∑ i = 1 n (y i - g (x i)) 2 = = ∑ i = 1 5 (y i - (x i + 1 3 + 1)) 2 ≈ 0, 096

Svar: siden σ 1< σ 2 , то прямой, наилучшим образом аппроксимирующей исходные данные, будет
y = 0, 165 x + 2, 184.

Minste kvadraters metode er tydelig vist i den grafiske illustrasjonen. Den røde linjen markerer den rette linjen g (x) = x + 1 3 + 1, den blå linjen markerer y = 0, 165 x + 2, 184. Rådata er merket med rosa prikker.

La oss forklare hvorfor nøyaktige tilnærminger av denne typen er nødvendige.

De kan brukes i problemer som krever datautjevning, så vel som i de der dataene må interpoleres eller ekstrapoleres. For eksempel, i problemet diskutert ovenfor, kan man finne verdien av den observerte mengden y ved x = 3 eller ved x = 6 . Vi har viet en egen artikkel til slike eksempler.

Bevis på LSM-metoden

For at funksjonen skal ta minimumsverdien for beregnet a og b, er det nødvendig at på et gitt punkt matrisen til kvadratisk form av differensialen til funksjonen til formen F (a, b) = ∑ i = 1 n ( y i - (a x i + b)) 2 være positivt bestemt. La oss vise deg hvordan det skal se ut.

Eksempel 2

Vi har en annenordens differensial av følgende form:

d 2 F (a ; b) = δ 2 F (a ; b) δ a 2 d 2 a + 2 δ 2 F (a ; b) δ a δ b d a d b + δ 2 F (a ; b) δ b 2 d 2b

Beslutning

δ 2 F (a ; b) δ a 2 = δ δ F (a ; b) δ a δ a = = δ - 2 ∑ i = 1 n (y i - (a x i + b)) x i δ a = 2 ∑ i = 1 n (x i) 2 δ 2 F (a ; b) δ a δ b = δ δ F (a ; b) δ a δ b = = δ - 2 ∑ i = 1 n (y i - (a x i + b) ) x i δ b = 2 ∑ i = 1 n x i δ 2 F (a ; b) δ b 2 = δ δ F (a ; b) δ b δ b = δ - 2 ∑ i = 1 n (y i - (a x i +) b)) δ b = 2 ∑ i = 1 n (1) = 2 n

Det kan med andre ord skrives slik: d 2 F (a ; b) = 2 ∑ i = 1 n (x i) 2 d 2 a + 2 2 ∑ x i i = 1 n d a d b + (2 n) d 2 b .

Vi har fått en matrise med kvadratisk form M = 2 ∑ i = 1 n (x i) 2 2 ∑ i = 1 n x i 2 ∑ i = 1 n x i 2 n .

I dette tilfellet vil verdiene til individuelle elementer ikke endres avhengig av a og b . Er denne matrisen positiv bestemt? For å svare på dette spørsmålet, la oss sjekke om de kantede mindreårige er positive.

Beregn første ordens vinkelmoll: 2 ∑ i = 1 n (x i) 2 > 0 . Siden punktene x i ikke er sammenfallende, er ulikheten streng. Dette vil vi ha i bakhodet i videre beregninger.

Vi beregner andreordens vinkelmoll:

d e t (M) = 2 ∑ i = 1 n (x i) 2 2 ∑ i = 1 n x i 2 ∑ i = 1 n x i 2 n = 4 n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2

Deretter går vi videre til beviset på ulikheten n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 > 0 ved hjelp av matematisk induksjon.

  1. La oss sjekke om denne ulikheten er gyldig for vilkårlig n . La oss ta 2 og regne ut:

2 ∑ i = 1 2 (x i) 2 - ∑ i = 1 2 x i 2 = 2 x 1 2 + x 2 2 - x 1 + x 2 2 = = x 1 2 - 2 x 1 x 2 + x 2 2 = x 1 + x 2 2 > 0

Vi fikk riktig likhet (hvis verdiene x 1 og x 2 ikke stemmer overens).

  1. La oss anta at denne ulikheten vil være sann for n , dvs. n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 > 0 – sant.
  2. La oss nå bevise gyldigheten for n + 1, dvs. at (n + 1) ∑ i = 1 n + 1 (x i) 2 - ∑ i = 1 n + 1 x i 2 > 0 hvis n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 > 0 .

Vi beregner:

(n + 1) ∑ i = 1 n + 1 (x i) 2 - ∑ i = 1 n + 1 x i 2 = = (n + 1) ∑ i = 1 n (x i) 2 + x n + 1 2 - ∑ i = 1 n x i + x n + 1 2 = = n ∑ i = 1 n (x i) 2 + n x n + 1 2 + ∑ i = 1 n (x i) 2 + x n + 1 2 - - ∑ i = 1 n x i 2 + 2 x n + 1 ∑ i = 1 n x i + x n + 1 2 = = ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 + n x n + 1 2 - x n + 1 ∑ i = 1 n x i + ∑ i n (x i) 2 = = ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 + x n + 1 2 - 2 x n + 1 x 1 + x 1 2 + + x n + 1 2 - 2 x n + 1 x 2 + x 2 2 + . . . + x n + 1 2 - 2 x n + 1 x 1 + x n 2 = = n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 + + (x n + 1 - x 1) 2 + (x n + 1 - x 2) 2 + . . . + (x n - 1 - x n) 2 > 0

Uttrykket omsluttet av krøllete klammer vil være større enn 0 (basert på det vi antok i trinn 2), og resten av leddene vil være større enn 0 fordi de alle er kvadrater av tall. Vi har bevist ulikheten.

Svar: de funnet a og b vil tilsvare den minste verdien av funksjonen F (a, b) = ∑ i = 1 n (y i - (a x i + b)) 2, som betyr at de er de ønskede parameterne for minste kvadraters metode (LSM).

Hvis du oppdager en feil i teksten, merk den og trykk Ctrl+Enter

Hvis en fysisk mengde avhenger av en annen mengde, kan denne avhengigheten undersøkes ved å måle y ved forskjellige verdier av x. Som et resultat av målinger oppnås en rekke verdier:

x 1, x 2, ..., xi, ..., xn;

y 1 , y 2 , ... , y i , ... , y n .

Basert på dataene til et slikt eksperiment er det mulig å plotte avhengigheten y = ƒ(x). Den resulterende kurven gjør det mulig å bedømme formen til funksjonen ƒ(x). Imidlertid forblir de konstante koeffisientene som inngår i denne funksjonen ukjente. De kan bestemmes ved hjelp av minste kvadraters metode. Forsøkspunktene ligger som regel ikke nøyaktig på kurven. Metoden med minste kvadrater krever at summen av de kvadrerte avvikene til forsøkspunktene fra kurven, dvs. 2 var den minste.

I praksis brukes denne metoden oftest (og enklest) ved lineær sammenheng, dvs. når

y=kx eller y = a + bx.

Lineær avhengighet er svært utbredt i fysikk. Og selv når avhengigheten er ikke-lineær, prøver de vanligvis å bygge en graf på en slik måte at de får en rett linje. For eksempel, hvis det antas at brytningsindeksen til glass n er relatert til bølgelengden λ til lysbølgen ved forholdet n = a + b/λ 2, så plottes avhengigheten av n av λ -2 på grafen .

Vurder avhengigheten y=kx(rett linje som går gjennom origo). Komponer verdien φ - summen av de kvadrerte avvikene til punktene våre fra den rette linjen

Verdien av φ er alltid positiv og viser seg å være jo mindre jo nærmere punktene våre ligger den rette linjen. Metoden med minste kvadrater sier at for k skal man velge en slik verdi hvor φ har et minimum


eller
(19)

Beregningen viser at rot-middel-kvadratfeilen ved å bestemme verdien av k er lik

, (20)
hvor – n er antall målinger.

La oss nå vurdere et noe vanskeligere tilfelle, når punktene må tilfredsstille formelen y = a + bx(en rett linje som ikke går gjennom origo).

Oppgaven er å finne de beste verdiene av a og b fra det gitte settet med verdier x i, y i.

Igjen komponerer vi en kvadratisk form φ lik summen av de kvadrerte avvikene til punktene x i , y i fra den rette linjen

og finn verdiene a og b som φ har et minimum for

;

.

.

Fellesløsningen av disse ligningene gir

(21)

Rot-middel-kvadrat-feilene for å bestemme a og b er like

(23)

.  (24)

Når du behandler måleresultater med denne metoden, er det praktisk å oppsummere alle data i en tabell der alle summer som er inkludert i formlene (19)–(24) er foreløpig beregnet. Formene til disse tabellene er vist i eksemplene nedenfor.

Eksempel 1 Den grunnleggende ligningen for dynamikken til rotasjonsbevegelse ε = M/J (en rett linje som går gjennom origo) ble studert. For forskjellige verdier av øyeblikket M ble vinkelakselerasjonen ε til en viss kropp målt. Det er nødvendig å bestemme treghetsmomentet til denne kroppen. Resultatene av målinger av kraftmomentet og vinkelakselerasjonen er oppført i andre og tredje kolonne tabeller 5.

Tabell 5
n M, N m e, s-1 M2 M e ε - kM (ε - kM) 2
1 1.44 0.52 2.0736 0.7488 0.039432 0.001555
2 3.12 1.06 9.7344 3.3072 0.018768 0.000352
3 4.59 1.45 21.0681 6.6555 -0.08181 0.006693
4 5.90 1.92 34.81 11.328 -0.049 0.002401
5 7.45 2.56 55.5025 19.072 0.073725 0.005435
– – 123.1886 41.1115 – 0.016436

Ved formel (19) bestemmer vi:

.

For å bestemme rot-middel-kvadrat-feilen bruker vi formel (20)

0.005775kg-en · m -2 .

Ved formel (18) har vi

; .

SJ = (2,996 0,005775)/0,3337 = 0,05185 kg m 2.

Gitt påliteligheten P = 0,95 , i henhold til tabellen over Student-koeffisienter for n = 5, finner vi t = 2,78 og bestemmer den absolutte feilen ΔJ = 2,78 0,05185 = 0,1441 ≈ 0,2 kg m 2.

Vi skriver resultatene i skjemaet:

J = (3,0 ± 0,2) kg m 2;


Eksempel 2 Vi beregner temperaturkoeffisienten for motstanden til metallet ved å bruke minste kvadraters metode. Motstand avhenger av temperatur i henhold til en lineær lov

R t \u003d R 0 (1 + α t °) \u003d R 0 + R 0 α t °.

Frileddet bestemmer motstanden R 0 ved en temperatur på 0 ° C, og vinkelkoeffisienten er produktet av temperaturkoeffisienten α og motstanden R 0 .

Resultatene av målinger og beregninger er gitt i tabellen ( se tabell 6).

Tabell 6
n t°, s r, Ohm t-¯t (t-¯t) 2 (t-¯t)r r-bt-a (r - bt - a) 2,10 -6
1 23 1.242 -62.8333 3948.028 -78.039 0.007673 58.8722
2 59 1.326 -26.8333 720.0278 -35.581 -0.00353 12.4959
3 84 1.386 -1.83333 3.361111 -2.541 -0.00965 93.1506
4 96 1.417 10.16667 103.3611 14.40617 -0.01039 107.898
5 120 1.512 34.16667 1167.361 51.66 0.021141 446.932
6 133 1.520 47.16667 2224.694 71.69333 -0.00524 27.4556
515 8.403 – 8166.833 21.5985 – 746.804
∑/n 85.83333 1.4005 – – – – –

Ved formler (21), (22) bestemmer vi

R 0 = ¯ R- α R 0 ¯ t = 1,4005 - 0,002645 85,83333 = 1,1735 Ohm.

La oss finne en feil i definisjonen av α. Siden har vi ved formel (18):

.

Ved å bruke formler (23), (24) har vi

;

0.014126 Ohm.

Gitt påliteligheten P = 0,95, i henhold til tabellen over Students koeffisienter for n = 6, finner vi t = 2,57 og bestemmer den absolutte feilen Δα = 2,57 0,000132 = 0,000338 grader -1.

a = (23 ± 4) 10-4 hagl-1 ved P = 0,95.


Eksempel 3 Det er nødvendig å bestemme krumningsradiusen til linsen fra Newtons ringer. Radiene til Newtons ringer r m ble målt og antallet av disse ringene m ble bestemt. Radiene til Newtons ringer er relatert til krumningsradiusen til linsen R og ringtallet ved ligningen

r 2 m = mλR - 2d 0 R,

der d 0 er tykkelsen på gapet mellom linsen og den planparallelle platen (eller linsedeformasjonen),

λ er bølgelengden til det innfallende lyset.

X = (600 ± 6) nm;
r2m = y;
m = x;
λR = b;
-2d 0 R = a,

da vil ligningen ta formen y = a + bx.

.

Resultatene av målinger og beregninger legges inn tabell 7.

Tabell 7
n x = m y \u003d r 2, 10 -2 mm 2 m-¯m (m-¯m) 2 (m-¯m)y y-bx-a, 10-4 (y - bx - a) 2, 10 -6
1 1 6.101 -2.5 6.25 -0.152525 12.01 1.44229
2 2 11.834 -1.5 2.25 -0.17751 -9.6 0.930766
3 3 17.808 -0.5 0.25 -0.08904 -7.2 0.519086
4 4 23.814 0.5 0.25 0.11907 -1.6 0.0243955
5 5 29.812 1.5 2.25 0.44718 3.28 0.107646
6 6 35.760 2.5 6.25 0.894 3.12 0.0975819
21 125.129 – 17.5 1.041175 – 3.12176
∑/n 3.5 20.8548333 – – – – –

Minste kvadratiske metode

I den siste leksjonen av emnet vil vi bli kjent med den mest kjente applikasjonen FNP, som finner den bredeste anvendelsen innen ulike felt av vitenskap og praksis. Det kan være fysikk, kjemi, biologi, økonomi, sosiologi, psykologi og så videre og så videre. Etter skjebnens vilje må jeg ofte forholde meg til økonomien, og derfor vil jeg i dag ordne for deg en billett til et fantastisk land kalt Økonometri=) … Hvordan vil du ikke ha det?! Det er veldig bra der - du må bare bestemme deg! ...Men det du sannsynligvis vil er å lære å løse problemer minste kvadrater. Og spesielt flittige lesere vil lære å løse dem ikke bare nøyaktig, men også VELDIG RASK ;-) Men først generell problemstilling+ relatert eksempel:

La indikatorer studeres innen et fagområde som har et kvantitativt uttrykk. Samtidig er det all grunn til å tro at indikatoren er avhengig av indikatoren. Denne antakelsen kan både være en vitenskapelig hypotese og basert på elementær sunn fornuft. La oss imidlertid legge vitenskapen til side og utforske mer appetittvekkende områder – nemlig dagligvarebutikker. Angi med:

– butikkareal til en dagligvarebutikk, kvm,
- årlig omsetning for en dagligvarebutikk, millioner rubler.

Det er helt klart at jo større areal butikken er, jo større er omsetningen i de fleste tilfeller.

Anta at etter å ha utført observasjoner / eksperimenter / beregninger / dans med en tamburin, har vi numeriske data til vår disposisjon:

Med dagligvarebutikker tror jeg alt er klart: - dette er arealet til den første butikken, - dens årlige omsetning, - arealet til den andre butikken, - dens årlige omsetning, etc. Forresten, det er slett ikke nødvendig å ha tilgang til klassifisert materiale - en ganske nøyaktig vurdering av omsetningen kan fås ved å bruke matematisk statistikk. Imidlertid, ikke bli distrahert, løpet av kommersiell spionasje er allerede betalt =)

Tabelldata kan også skrives i form av punkter og avbildes på vanlig måte for oss. Kartesisk system .

La oss svare på et viktig spørsmål: hvor mange poeng trengs for en kvalitativ studie?

Jo større jo bedre. Minste tillatte sett består av 5-6 poeng. I tillegg, med en liten mengde data, bør ikke "unormale" resultater inkluderes i utvalget. Så, for eksempel, kan en liten elitebutikk hjelpe størrelsesordener mer enn "deres kolleger", og dermed forvrenge det generelle mønsteret som må finnes!



Hvis det er ganske enkelt, må vi velge en funksjon, rute som passerer så nærme punktene som mulig . En slik funksjon kalles tilnærmet (tilnærming - tilnærming) eller teoretisk funksjon . Generelt sett vises her umiddelbart en åpenbar "pretender" - et polynom av høy grad, hvis graf går gjennom ALLE punkter. Men dette alternativet er komplisert, og ofte rett og slett feil. (fordi diagrammet vil "vinde" hele tiden og reflekterer hovedtrenden dårlig).

Dermed må den ønskede funksjonen være tilstrekkelig enkel og samtidig reflektere avhengigheten tilstrekkelig. Som du kanskje gjetter, kalles en av metodene for å finne slike funksjoner minste kvadrater. La oss først analysere essensen på en generell måte. La en funksjon tilnærme de eksperimentelle dataene:


Hvordan evaluere nøyaktigheten av denne tilnærmingen? La oss også beregne forskjellene (avvikene) mellom de eksperimentelle og funksjonelle verdiene (vi studerer tegningen). Den første tanken som dukker opp er å anslå hvor stor summen er, men problemet er at forskjellene kan være negative. (For eksempel, ) og avvik som følge av slik summering vil oppheve hverandre. Derfor, som et estimat for nøyaktigheten av tilnærmingen, foreslår den seg selv å ta summen moduler avvik:

eller i foldet form: (for de som ikke vet: er sumikonet, og - hjelpevariabel - "teller", som tar verdier fra 1 til ) .

Ved å tilnærme de eksperimentelle punktene med forskjellige funksjoner vil vi få forskjellige verdier, og det er åpenbart hvor denne summen er mindre - den funksjonen er mer nøyaktig.

En slik metode finnes og kalles minste modul metoden. Men i praksis har det blitt mye mer utbredt. minste kvadrat-metoden, der mulige negative verdier elimineres ikke av modulen, men ved å kvadrere avvikene:



, hvoretter innsatsen rettes mot valg av en slik funksjon at summen av kvadrerte avvik var så liten som mulig. Faktisk, derav navnet på metoden.

Og nå kommer vi tilbake til et annet viktig poeng: som nevnt ovenfor, bør den valgte funksjonen være ganske enkel - men det er også mange slike funksjoner: lineær , hyperbolsk , eksponentiell , logaritmisk , kvadratisk etc. Og her vil jeg selvsagt umiddelbart «redusere aktivitetsfeltet». Hvilken klasse funksjoner å velge for forskning? Primitiv, men effektiv teknikk:

- Den enkleste måten å trekke poeng på på tegningen og analyser deres plassering. Hvis de har en tendens til å være i en rett linje, bør du se etter rettlinjeligning med optimale verdier og . Oppgaven er med andre ord å finne SLIKE koeffisienter – slik at summen av de kvadrerte avvikene blir minst.

Hvis punktene er plassert, for eksempel langs overdrivelse, så er det klart at den lineære funksjonen vil gi en dårlig tilnærming. I dette tilfellet ser vi etter de mest "gunstige" koeffisientene for hyperbelligningen - de som gir minimumsummen av kvadrater .

Legg nå merke til at i begge tilfeller snakker vi om funksjoner til to variabler, hvis argumenter er søkte på avhengighetsalternativer:

Og i hovedsak må vi løse et standardproblem - å finne minimum av en funksjon av to variabler.

Husk eksempelet vårt: anta at "butikk"-punktene har en tendens til å være plassert i en rett linje, og det er all grunn til å tro at de er tilstede lineær avhengighet omsetning fra handelsområdet. La oss finne SLIKE koeffisientene "a" og "be" slik at summen av kvadrerte avvik var den minste. Alt som vanlig - først partielle derivater av 1. orden. I følge linearitetsregel du kan skille rett under sum-ikonet:

Hvis du vil bruke denne informasjonen til et essay eller kurs, vil jeg være veldig takknemlig for lenken i kildelisten, du finner ikke slike detaljerte beregninger noe sted:

La oss lage et standard system:

Vi reduserer hver ligning med en "to", og i tillegg "bryter vi fra hverandre" summene:

Merk : analyser uavhengig hvorfor "a" og "be" kan tas ut av sumikonet. Forresten, formelt sett kan dette gjøres med summen

La oss omskrive systemet i en "anvendt" form:

hvoretter algoritmen for å løse problemet vårt begynner å bli tegnet:

Kjenner vi koordinatene til punktene? Vi vet. Summer kan vi finne? Enkelt. Vi komponerer det enkleste system av to lineære ligninger med to ukjente("a" og "beh"). Vi løser systemet f.eks. Cramers metode, noe som resulterer i et stasjonært punkt . Sjekker tilstrekkelig tilstand for et ekstremum, kan vi bekrefte at funksjonen på dette tidspunktet når presist minimum. Verifikasjon er forbundet med tilleggsberegninger og derfor vil vi la det stå bak kulissene. (om nødvendig kan den manglende rammen seesher ) . Vi trekker den endelige konklusjonen:

Funksjon den beste måten (i det minste sammenlignet med en hvilken som helst annen lineær funksjon) bringer eksperimentelle poeng nærmere . Grovt sett passerer grafen så nært disse punktene som mulig. I tradisjon økonometri den resulterende tilnærmelsesfunksjonen kalles også paret lineær regresjonsligning .

Problemet som vurderes er av stor praktisk betydning. I situasjonen med vårt eksempel, ligningen lar deg forutsi hva slags omsetning ("yig") vil være på butikken med en eller annen verdi av salgsarealet (en eller annen betydning av "x"). Ja, den resulterende prognosen vil bare være en prognose, men i mange tilfeller vil den vise seg å være ganske nøyaktig.

Jeg vil analysere bare ett problem med "ekte" tall, siden det ikke er noen vanskeligheter med det - alle beregninger er på nivå med skolepensum i klasse 7-8. I 95 prosent av tilfellene vil du bli bedt om å finne bare en lineær funksjon, men helt på slutten av artikkelen vil jeg vise at det ikke er vanskeligere å finne ligningene for den optimale hyperbelen, eksponenten og noen andre funksjoner.

Faktisk gjenstår det å distribuere de lovede godsakene - slik at du lærer hvordan du løser slike eksempler ikke bare nøyaktig, men også raskt. Vi studerer standarden nøye:

Oppgave

Som et resultat av å studere forholdet mellom to indikatorer, ble følgende tallpar oppnådd:

Bruk minste kvadraters metode, finn den lineære funksjonen som best tilnærmer empirien (opplevde) data. Lag en tegning som, i et kartesisk rektangulært koordinatsystem, plotter eksperimentelle punkter og en graf over den tilnærmede funksjonen . Finn summen av kvadrerte avvik mellom empiriske og teoretiske verdier. Finn ut om funksjonen er bedre (i form av minste kvadraters metode) omtrentlige eksperimentelle poeng.

Merk at "x"-verdier er naturlige verdier, og dette har en karakteristisk meningsfull betydning, som jeg vil snakke om litt senere; men de kan selvfølgelig være brøkdeler. I tillegg, avhengig av innholdet i en bestemt oppgave, kan både "X" og "G" verdier være helt eller delvis negative. Vel, vi har fått en "ansiktsløs" oppgave, og vi starter den beslutning:

Vi finner koeffisientene til den optimale funksjonen som en løsning på systemet:

For en mer kompakt notasjon kan "teller"-variabelen utelates, siden det allerede er klart at summeringen utføres fra 1 til .

Det er mer praktisk å beregne de nødvendige beløpene i tabellform:


Beregninger kan utføres på en mikrokalkulator, men det er mye bedre å bruke Excel - både raskere og uten feil; se en kort video:

Dermed får vi følgende system:

Her kan du gange den andre ligningen med 3 og trekk 2. fra 1. ligning ledd for ledd. Men dette er flaks - i praksis er systemer ofte ikke begavede, og i slike tilfeller sparer det Cramers metode:
, så systemet har en unik løsning.

La oss ta en sjekk. Jeg forstår at jeg ikke vil, men hvorfor hoppe over feil der du absolutt ikke kan gå glipp av dem? Bytt inn den funnet løsningen på venstre side av hver likning av systemet:

De riktige delene av de tilsvarende ligningene oppnås, noe som betyr at systemet er løst riktig.

Dermed vil den ønskede tilnærmelsesfunksjonen: – fra alle lineære funksjoner eksperimentelle data er best tilnærmet med det.

I motsetning til rett avhengighet av butikkens omsetning på sitt areal, er den funnet avhengigheten omvendt (prinsippet "jo mer - jo mindre"), og dette faktum avsløres umiddelbart av det negative vinkelkoeffisient. Funksjon informerer oss om at med en økning i en viss indikator med 1 enhet, synker verdien av den avhengige indikatoren gjennomsnitt med 0,65 enheter. Som de sier, jo høyere pris på bokhvete, jo mindre solgt.

For å plotte den tilnærmede funksjonen finner vi to av dens verdier:

og utfør tegningen:

Den konstruerte linjen kalles trendlinje (nemlig en lineær trendlinje, dvs. i det generelle tilfellet er en trend ikke nødvendigvis en rett linje). Alle kjenner til uttrykket «å være i trend», og jeg tenker at dette begrepet ikke trenger ytterligere kommentarer.

Regn ut summen av kvadrerte avvik mellom empiriske og teoretiske verdier. Geometrisk er dette summen av kvadratene av lengdene til de "crimson" segmentene (hvorav to er så små at du ikke engang kan se dem).

La oss oppsummere beregningene i en tabell:


De kan igjen utføres manuelt, i tilfelle jeg skal gi et eksempel for det første punktet:

men det er mye mer effektivt å gjøre den allerede kjente måten:

La oss gjenta: hva er meningen med resultatet? Fra alle lineære funksjoner funksjon eksponenten er den minste, det vil si at den er den beste tilnærmingen i familien. Og her, forresten, er det endelige spørsmålet om problemet ikke tilfeldig: hva om den foreslåtte eksponentielle funksjonen vil det være bedre å tilnærme de eksperimentelle punktene?

La oss finne den tilsvarende summen av kvadrerte avvik - for å skille dem, vil jeg utpeke dem med bokstaven "epsilon". Teknikken er nøyaktig den samme:


Og igjen for hver brannberegning for 1. poeng:

I Excel bruker vi standardfunksjonen EXP (Syntaks finner du i Excel Hjelp).

Konklusjon: , så eksponentialfunksjonen tilnærmer forsøkspunktene dårligere enn den rette linjen .

Men det skal bemerkes her at "verre" er betyr ikke ennå, hva er galt. Nå har jeg bygget en graf av denne eksponentialfunksjonen - og den passerer også nærme punktene - så mye at uten en analytisk studie er det vanskelig å si hvilken funksjon som er mer nøyaktig.

Dette fullfører løsningen, og jeg kommer tilbake til spørsmålet om naturverdiene til argumentet. I ulike studier er som regel økonomiske eller sosiologiske, måneder, år eller andre like tidsintervaller nummerert med naturlig "X". Tenk for eksempel på følgende problem:

Vi har følgende data om butikkens detaljomsetning for første halvår:

Bruk analytisk linjejustering for å finne salgsvolumet for juli.

Ja, ikke noe problem: vi nummererer månedene 1, 2, 3, 4, 5, 6 og bruker den vanlige algoritmen, som et resultat av at vi får en ligning - det eneste når det kommer til tid er vanligvis bokstaven "te ” (selv om det ikke er kritisk). Den resulterende ligningen viser at i første halvår økte omsetningen med et gjennomsnitt på CU 27,74. per måned. Få en prognose for juli (måned #7): e.u.

Og lignende oppgaver - mørket er mørkt. De som ønsker det kan benytte en tilleggstjeneste, nemlig min Excel kalkulator (demo versjon), hvilken løser problemet nesten umiddelbart! Arbeidsversjonen av programmet er tilgjengelig I bytte eller for symbolsk betaling.

På slutten av leksjonen, en kort informasjon om å finne avhengigheter av noen andre typer. Faktisk er det ikke noe spesielt å fortelle, siden den grunnleggende tilnærmingen og løsningsalgoritmen forblir den samme.

La oss anta at plasseringen av de eksperimentelle punktene ligner en hyperbel. Deretter, for å finne koeffisientene til den beste hyperbelen, må du finne minimum av funksjonen - de som ønsker kan utføre detaljerte beregninger og komme til et lignende system:

Fra et formelt teknisk synspunkt er det hentet fra det "lineære" systemet (la oss markere det med en stjerne) erstatte "x" med . Vel, beløpene beregne, deretter til de optimale koeffisientene "a" og "være" for hånden.

Hvis det er all grunn til å tro at poengene er arrangert langs en logaritmisk kurve, for deretter å søke etter de optimale verdiene og finne minimum av funksjonen . Formelt sett bør (*) i systemet erstattes av:

Når du regner i Excel, bruk funksjonen LN. Jeg innrømmer at det ikke vil være vanskelig for meg å lage kalkulatorer for hver av sakene som vurderes, men det vil likevel være bedre om du "programmerer" beregningene selv. Videoopplæringer for å hjelpe.

Med eksponentiell avhengighet er situasjonen litt mer komplisert. For å redusere saken til det lineære tilfellet tar vi logaritmen til funksjonen og bruker egenskapene til logaritmen:

Når vi nå sammenligner den oppnådde funksjonen med den lineære funksjonen , kommer vi til den konklusjon at (*) i systemet må erstattes med , og - med . For enkelhets skyld angir vi:

Vær oppmerksom på at systemet er løst med hensyn til og , og derfor, etter å ha funnet røttene, må du ikke glemme å finne selve koeffisienten.

For å tilnærme eksperimentelle poeng optimal parabel , bør finnes minimum av en funksjon av tre variabler . Etter å ha utført standardhandlinger får vi følgende "fungerende" system:

Ja, selvfølgelig, det er flere beløp her, men det er ingen problemer i det hele tatt når du bruker favorittapplikasjonen din. Og til slutt vil jeg fortelle deg hvordan du raskt sjekker ved hjelp av Excel og bygger ønsket trendlinje: lag et punktdiagram, velg et av punktene med musen og høyreklikk velg alternativ "Legg til trendlinje". Deretter velger du type diagram og på fanen "Alternativer" aktivere alternativet "Vis ligning på diagram". OK

Som alltid vil jeg avslutte artikkelen med en vakker setning, og jeg skrev nesten "Vær i trend!". Men med tiden ombestemte han seg. Og ikke fordi det er formelt. Jeg vet ikke hvordan noen, men jeg vil ikke følge den promoterte amerikanske og spesielt europeiske trenden i det hele tatt =) Derfor ønsker jeg at hver av dere holder seg til deres egen linje!

http://www.grandars.ru/student/vysshaya-matematika/metod-naimenshih-kvadratov.html

Minste kvadraters metode er en av de vanligste og mest utviklet på grunn av sin enkelhet og effektivitet av metoder for å estimere parametrene til lineære økonometriske modeller. Samtidig bør det utvises en viss forsiktighet når du bruker den, siden modellene som er bygget ved hjelp av den, kanskje ikke oppfyller en rekke krav til kvaliteten på parameterne deres og som et resultat ikke "godt" gjenspeiler mønstrene for prosessutvikling.

La oss vurdere prosedyren for å estimere parametrene til en lineær økonometrisk modell ved å bruke minste kvadraters metode mer detaljert. En slik modell i generell form kan representeres ved ligning (1.2):

y t = a 0 + a 1 x 1t +...+ a n x nt + ε t .

De første dataene ved estimering av parameterne a 0 , a 1 ,..., a n er vektoren av verdier til den avhengige variabelen y= (y 1 , y 2 , ... , y T)" og matrisen av verdier for uavhengige variabler

der den første kolonnen, bestående av enere, tilsvarer koeffisienten til modellen .

Metoden med minste kvadrater har fått navnet sitt basert på det grunnleggende prinsippet som parameterestimatene oppnådd på grunnlag av den skal tilfredsstille: summen av kvadrater av modellfeilen skal være minimal.

Eksempler på å løse problemer med minste kvadraters metode

Eksempel 2.1. Handelsbedriften har et nettverk bestående av 12 butikker, informasjon om aktivitetene til disse er presentert i tabell. 2.1.

Selskapets ledelse vil gjerne vite hvordan størrelsen på den årlige omsetningen avhenger av butikkarealet.

Tabell 2.1

Butikknummer Årlig omsetning, millioner rubler Handelsareal, tusen m 2
19,76 0,24
38,09 0,31
40,95 0,55
41,08 0,48
56,29 0,78
68,51 0,98
75,01 0,94
89,05 1,21
91,13 1,29
91,26 1,12
99,84 1,29
108,55 1,49

Minste kvadraters løsning. La oss angi - den årlige omsetningen til den -th butikken, millioner rubler; - salgsareal av den th butikken, tusen m 2.

Fig.2.1. Scatterplot for eksempel 2.1

For å bestemme formen på den funksjonelle sammenhengen mellom variablene og konstruere et spredningsplott (fig. 2.1).

Basert på spredningsdiagrammet kan vi konkludere med at den årlige omsetningen er positivt avhengig av salgsarealet (dvs. y vil øke med veksten på ). Den mest hensiktsmessige formen for funksjonell tilkobling er lineær.

Informasjon for videre beregninger er presentert i tabell. 2.2. Ved å bruke minste kvadraters metode estimerer vi parametrene til den lineære en-faktor økonometriske modellen

Tabell 2.2

t y t x 1t y t 2 x1t2 x 1t y t
19,76 0,24 390,4576 0,0576 4,7424
38,09 0,31 1450,8481 0,0961 11,8079
40,95 0,55 1676,9025 0,3025 22,5225
41,08 0,48 1687,5664 0,2304 19,7184
56,29 0,78 3168,5641 0,6084 43,9062
68,51 0,98 4693,6201 0,9604 67,1398
75,01 0,94 5626,5001 0,8836 70,5094
89,05 1,21 7929,9025 1,4641 107,7505
91,13 1,29 8304,6769 1,6641 117,5577
91,26 1,12 8328,3876 1,2544 102,2112
99,84 1,29 9968,0256 1,6641 128,7936
108,55 1,49 11783,1025 2,2201 161,7395
S 819,52 10,68 65008,554 11,4058 858,3991
Den gjennomsnittlige 68,29 0,89

Og dermed,

Derfor, med en økning i handelsområdet med 1 tusen m 2, alt annet like, øker den gjennomsnittlige årlige omsetningen med 67,8871 millioner rubler.

Eksempel 2.2. Ledelsen i bedriften la merke til at den årlige omsetningen ikke bare avhenger av salgsområdet til butikken (se eksempel 2.1), men også av gjennomsnittlig antall besøkende. Den relevante informasjonen er presentert i tabellen. 2.3.

Tabell 2.3

Beslutning. Betegn - gjennomsnittlig antall besøkende til den th butikken per dag, tusen mennesker.

For å bestemme formen på den funksjonelle sammenhengen mellom variablene og konstruere et spredningsplott (fig. 2.2).

Basert på spredningsdiagrammet kan vi konkludere med at den årlige omsetningen er positivt relatert til gjennomsnittlig antall besøkende per dag (dvs. y vil øke med veksten på ). Formen for funksjonell avhengighet er lineær.

Ris. 2.2. Scatterplot for eksempel 2.2

Tabell 2.4

t x 2t x 2t 2 yt x 2t x 1t x 2t
8,25 68,0625 163,02 1,98
10,24 104,8575 390,0416 3,1744
9,31 86,6761 381,2445 5,1205
11,01 121,2201 452,2908 5,2848
8,54 72,9316 480,7166 6,6612
7,51 56,4001 514,5101 7,3598
12,36 152,7696 927,1236 11,6184
10,81 116,8561 962,6305 13,0801
9,89 97,8121 901,2757 12,7581
13,72 188,2384 1252,0872 15,3664
12,27 150,5529 1225,0368 15,8283
13,92 193,7664 1511,016 20,7408
S 127,83 1410,44 9160,9934 118,9728
Gjennomsnitt 10,65

Generelt er det nødvendig å bestemme parametrene til den to-faktor økonometriske modellen

y t \u003d a 0 + a 1 x 1t + a 2 x 2t + ε t

Informasjonen som kreves for videre beregninger er presentert i tabell. 2.4.

La oss estimere parametrene til en lineær to-faktor økonometrisk modell ved å bruke minste kvadraters metode.

Og dermed,

Evaluering av koeffisienten = 61.6583 viser at alt annet likt, med en økning i handelsområdet med 1 tusen m 2, vil den årlige omsetningen øke med gjennomsnittlig 61.6583 millioner rubler.

Estimatet av koeffisienten = 2,2748 viser at alt annet likt, med en økning i gjennomsnittlig antall besøkende per tusen mennesker. per dag vil den årlige omsetningen øke med et gjennomsnitt på 2,2748 millioner rubler.

Eksempel 2.3. Bruker informasjonen presentert i tabellen. 2.2 og 2.4, estimer parameteren til en enkeltfaktor økonometrisk modell

hvor er den sentrerte verdien av den årlige omsetningen til den -th butikken, millioner rubler; - sentrert verdi av gjennomsnittlig daglig antall besøkende til den t-te butikken, tusen mennesker. (se eksempel 2.1-2.2).

Beslutning. Ytterligere informasjon som kreves for beregninger er presentert i tabell. 2.5.

Tabell 2.5

-48,53 -2,40 5,7720 116,6013
-30,20 -0,41 0,1702 12,4589
-27,34 -1,34 1,8023 36,7084
-27,21 0,36 0,1278 -9,7288
-12,00 -2,11 4,4627 25,3570
0,22 -3,14 9,8753 -0,6809
6,72 1,71 2,9156 11,4687
20,76 0,16 0,0348 3,2992
22,84 -0,76 0,5814 -17,413
22,97 3,07 9,4096 70,4503
31,55 1,62 2,6163 51,0267
40,26 3,27 10,6766 131,5387
Sum 48,4344 431,0566

Ved å bruke formel (2.35) får vi

Og dermed,

http://www.cleverstudents.ru/articles/mnk.html

Eksempel.

Eksperimentelle data om verdiene til variabler X og er gitt i tabellen.

Som et resultat av deres justering, funksjonen

Ved hjelp av minste kvadrat-metoden, tilnærme disse dataene med en lineær avhengighet y=ax+b(finn alternativer en og b). Finn ut hvilken av de to linjene som er best (i betydningen minste kvadraters metode) som justerer eksperimentelle data. Lag en tegning.

Beslutning.

I vårt eksempel n=5. Vi fyller ut tabellen for å gjøre det lettere å beregne beløpene som er inkludert i formlene til de nødvendige koeffisientene.

Verdiene i den fjerde raden i tabellen oppnås ved å multiplisere verdiene i den andre raden med verdiene i den tredje raden for hvert tall Jeg.

Verdiene i den femte raden i tabellen oppnås ved å kvadrere verdiene i den andre raden for hvert tall Jeg.

Verdiene i den siste kolonnen i tabellen er summene av verdiene på tvers av radene.

Vi bruker formlene til minste kvadraters metode for å finne koeffisientene en og b. Vi erstatter i dem de tilsvarende verdiene fra den siste kolonnen i tabellen:

Derfor, y=0,165x+2,184 er den ønskede tilnærmede rette linjen.

Det gjenstår å finne ut hvilken av linjene y=0,165x+2,184 eller tilnærmer de opprinnelige dataene bedre, det vil si å lage et estimat ved å bruke minste kvadraters metode.

Bevis.

Så når funnet en og b funksjonen tar den minste verdien, er det nødvendig at på dette tidspunktet matrisen til kvadratisk form av andreordens differensial for funksjonen var positiv definitivt. La oss vise det.

Den andre ordensdifferensialen har formen:

Dvs

Derfor har matrisen til den kvadratiske formen formen

og verdiene til elementene avhenger ikke av en og b.

La oss vise at matrisen er positiv bestemt. Dette krever at vinkelminorene er positive.

Kantet moll av første orden . Ulikheten er streng, siden poengene

Tilnærming av eksperimentelle data er en metode basert på erstatning av eksperimentelt innhentede data med en analytisk funksjon som passerer nærmest eller sammenfaller på knutepunktene med startverdiene (data oppnådd under eksperimentet eller eksperimentet). Det er for øyeblikket to måter å definere en analytisk funksjon på:

Ved å konstruere et n-graders interpolasjonspolynom som passerer direkte gjennom alle punkter gitt rekke data. I dette tilfellet er approksimasjonsfunksjonen representert som: et interpolasjonspolynom i Lagrange-formen eller et interpolasjonspolynom i Newton-formen.

Ved å konstruere et n-graders tilnærmet polynom som passerer nær poeng fra den gitte datamatrisen. Dermed jevner den tilnærmede funksjonen ut all tilfeldig støy (eller feil) som kan oppstå under eksperimentet: de målte verdiene under eksperimentet avhenger av tilfeldige faktorer som svinger i henhold til deres egne tilfeldige lover (måle- eller instrumentfeil, unøyaktighet eller eksperimentelle feil). I dette tilfellet bestemmes den tilnærmede funksjonen av minste kvadraters metode.

Minste kvadratiske metode(i den engelske litteraturen Ordinary Least Squares, OLS) er en matematisk metode basert på definisjonen av en approksimerende funksjon, som bygges i nærmeste nærhet til punkter fra en gitt rekke eksperimentelle data. Nærheten til de initiale og approksimerende funksjonene F(x) bestemmes av et numerisk mål, nemlig: summen av de kvadrerte avvikene til de eksperimentelle dataene fra den tilnærmede kurven F(x) skal være den minste.

Tilpasningskurve konstruert etter minste kvadraters metode

Minste kvadraters metode brukes:

Å løse overbestemte ligningssystemer når antall ligninger overstiger antall ukjente;

Å søke etter en løsning i tilfellet med vanlige (ikke overbestemte) ikke-lineære ligningssystemer;

For å tilnærme punktverdier ved hjelp av en tilnærmet funksjon.

Tilnærmingsfunksjonen ved minste kvadraters metode bestemmes fra betingelsen for minimumsummen av kvadrerte avvik for den beregnede tilnærmelsesfunksjonen fra en gitt rekke eksperimentelle data. Dette kriteriet for minste kvadraters metode er skrevet som følgende uttrykk:

Verdiene av den beregnede tilnærmede funksjonen ved knutepunkter,

Spesifisert rekke eksperimentelle data ved nodalpunkter.

Et kvadratisk kriterium har en rekke "gode" egenskaper, som differensierbarhet, og gir en unik løsning på tilnærmingsproblemet med polynomiske approksimasjonsfunksjoner.

Avhengig av forholdene til problemet, er den tilnærmede funksjonen et polynom av grad m

Graden av den tilnærmede funksjonen avhenger ikke av antall knutepunkter, men dens dimensjon må alltid være mindre enn dimensjonen (antall punkter) til den gitte matrisen med eksperimentelle data.

∙ Hvis graden av approksimasjonsfunksjonen er m=1, så tilnærmer vi tabellfunksjonen med en rett linje (lineær regresjon).

∙ Hvis graden av approksimasjonsfunksjonen er m=2, så tilnærmer vi tabellfunksjonen med en kvadratisk parabel (kvadratisk tilnærming).

∙ Hvis graden av approksimasjonsfunksjonen er m=3, så tilnærmer vi tabellfunksjonen med en kubisk parabel (kubisk tilnærming).

I det generelle tilfellet, når det er nødvendig å konstruere et tilnærmet polynom av grad m for gitte tabellverdier, omskrives betingelsen for minimumssummen av kvadrerte avvik over alle nodalpunkter i følgende form:

- ukjente koeffisienter for det tilnærmede polynomet av grad m;

Antall spesifiserte tabellverdier.

En nødvendig betingelse for eksistensen av et minimum av en funksjon er likheten til null av dens partielle deriverte med hensyn til ukjente variabler . Som et resultat får vi følgende ligningssystem:

La oss transformere det resulterende lineære likningssystemet: åpne parentesene og flytt de frie leddene til høyre side av uttrykket. Som et resultat vil det resulterende systemet med lineære algebraiske uttrykk skrives i følgende form:

Dette systemet med lineære algebraiske uttrykk kan skrives om i matriseform:

Som et resultat ble det oppnådd et system med lineære ligninger med dimensjon m + 1, som består av m + 1 ukjente. Dette systemet kan løses ved å bruke hvilken som helst metode for å løse lineære algebraiske ligninger (for eksempel Gauss-metoden). Som et resultat av løsningen vil det bli funnet ukjente parametere for approksimeringsfunksjonen som gir minimumsummen av kvadrerte avvik til approksimeringsfunksjonen fra de opprinnelige dataene, dvs. best mulig kvadratisk tilnærming. Det bør huskes at hvis til og med en verdi av de opprinnelige dataene endres, vil alle koeffisienter endre verdiene, siden de er fullstendig bestemt av de opprinnelige dataene.

Tilnærming av innledende data ved lineær avhengighet

(lineær regresjon)

Som et eksempel, vurder metoden for å bestemme den approksimerende funksjonen, som er gitt som en lineær sammenheng. I henhold til minste kvadraters metode skrives betingelsen for minimum summen av kvadratavvik som følger:

Koordinater for nodalpunkter i tabellen;

Ukjente koeffisienter for den tilnærmede funksjonen, som er gitt som en lineær sammenheng.

En nødvendig betingelse for eksistensen av et minimum av en funksjon er likheten til null av dens partielle deriverte med hensyn til ukjente variabler. Som et resultat får vi følgende ligningssystem:

La oss transformere det resulterende lineære likningssystemet.

Vi løser det resulterende systemet med lineære ligninger. Koeffisientene til den tilnærmede funksjonen i analytisk form bestemmes som følger (Cramers metode):

Disse koeffisientene gir konstruksjonen av en lineær tilnærmingsfunksjon i samsvar med kriteriet for å minimere summen av kvadrater av den tilnærmede funksjonen fra gitte tabellverdier (eksperimentelle data).

Algoritme for implementering av minste kvadraters metode

1. Opprinnelige data:

Gitt en rekke eksperimentelle data med antall målinger N

Graden av det tilnærmede polynomet (m) er gitt

2. Beregningsalgoritme:

2.1. Koeffisienter bestemmes for å konstruere et likningssystem med dimensjon

Koeffisienter til ligningssystemet (venstre side av ligningen)

- indeks for kolonnenummeret til kvadratmatrisen til ligningssystemet

Frie medlemmer av systemet med lineære ligninger (høyre side av ligningen)

- indeks for radnummeret til kvadratmatrisen til ligningssystemet

2.2. Dannelse av et system av lineære ligninger med dimensjon .

2.3. Løsning av et system med lineære ligninger for å bestemme de ukjente koeffisientene til det tilnærmede polynomet av grad m.

2.4 Bestemmelse av summen av kvadrerte avvik til det tilnærmede polynomet fra startverdiene over alle nodalpunkter

Den funnet verdien av summen av kvadrerte avvik er minimum mulig.

Tilnærming med andre funksjoner

Det skal bemerkes at når man tilnærmer de innledende dataene i henhold til minste kvadraters metode, blir en logaritmisk funksjon, en eksponentiell funksjon og en potensfunksjon noen ganger brukt som en tilnærmingsfunksjon.

Loggtilnærming

Tenk på tilfellet når den tilnærmede funksjonen er gitt av en logaritmisk funksjon av formen:

Å velge type regresjonsfunksjon, dvs. typen av den betraktede modellen for avhengigheten av Y på X (eller X på Y), for eksempel en lineær modell y x = a + bx, er det nødvendig å bestemme de spesifikke verdiene til koeffisientene til modellen.

For forskjellige verdier av a og b er det mulig å bygge et uendelig antall avhengigheter av formen y x = a + bx, det vil si at det er et uendelig antall linjer på koordinatplanet, men vi trenger en slik avhengighet at tilsvarer de observerte verdiene på beste måte. Dermed er problemet redusert til valget av de beste koeffisientene.

Vi ser etter en lineær funksjon a + bx, kun basert på et visst antall tilgjengelige observasjoner. For å finne funksjonen som passer best til de observerte verdiene, bruker vi minste kvadraters metode.

Betegn: Y i - verdien beregnet av ligningen Y i =a+bx i . y i - målt verdi, ε i =y i -Y i - forskjell mellom de målte og beregnede verdier, ε i =y i -a-bx i.

Metoden med minste kvadrater krever at ε i, forskjellen mellom den målte y i og verdiene til Y i beregnet fra ligningen, er minimal. Derfor finner vi koeffisientene a og b slik at summen av de kvadrerte avvikene til de observerte verdiene fra verdiene på den rette regresjonslinjen er den minste:

Ved å undersøke denne funksjonen til argumentene a og ved hjelp av deriverte til et ekstremum, kan vi bevise at funksjonen får en minimumsverdi hvis koeffisientene a og b er løsninger av systemet:

(2)

Hvis vi deler begge sider av normallikningene med n, får vi:

Gitt at (3)

, herfra, ved å erstatte verdien av a i den første ligningen, får vi:

I dette tilfellet kalles b regresjonskoeffisienten; a kalles det frie medlem av regresjonsligningen og beregnes med formelen:

Den resulterende rette linjen er et estimat for den teoretiske regresjonslinjen. Vi har:

Så, er en lineær regresjonsligning.

Regresjon kan være direkte (b>0) og invers (b Eksempel 1. Resultatene av måling av X- og Y-verdiene er gitt i tabellen:

x i -2 0 1 2 4
y jeg 0.5 1 1.5 2 3

Forutsatt at det er en lineær sammenheng mellom X og Y y=a+bx, bestem koeffisientene a og b ved hjelp av minste kvadraters metode.

Beslutning. Her er n=5
xi = -2+0+1+2+4=5;
x i 2 =4+0+1+4+16=25
x i y i =-2 0,5+0 1+1 1,5+2 2+4 3=16,5
yi =0,5+1+1,5+2+3=8

og normalt system (2) har formen

Ved å løse dette systemet får vi: b=0,425, a=1,175. Derfor y=1,175+0,425x.

Eksempel 2. Det er et utvalg på 10 observasjoner av økonomiske indikatorer (X) og (Y).

x i 180 172 173 169 175 170 179 170 167 174
y jeg 186 180 176 171 182 166 182 172 169 177

Det er nødvendig å finne en prøveregresjonsligning Y på X. Konstruer en prøveregresjonslinje Y på X.

Beslutning. 1. La oss sortere dataene etter verdiene x i og y i . Vi får et nytt bord:

x i 167 169 170 170 172 173 174 175 179 180
y jeg 169 171 166 172 180 176 177 182 182 186

For å forenkle beregningene vil vi sette sammen en beregningstabell der vi legger inn nødvendige tallverdier.

x i y jeg x i 2 x i y i
167 169 27889 28223
169 171 28561 28899
170 166 28900 28220
170 172 28900 29240
172 180 29584 30960
173 176 29929 30448
174 177 30276 30798
175 182 30625 31850
179 182 32041 32578
180 186 32400 33480
∑x i =1729 ∑y i =1761 ∑x i 2 299105 ∑x i y i =304696
x=172,9 y=176,1 x i 2 = 29910,5 xy=30469,6

I henhold til formel (4) beregner vi regresjonskoeffisienten

og ved formel (5)

Dermed ser prøveregresjonsligningen ut som y=-59,34+1,3804x.
La oss plotte punktene (x i ; y i) på koordinatplanet og markere regresjonslinjen.


Fig 4

Figur 4 viser hvordan de observerte verdiene er lokalisert i forhold til regresjonslinjen. For å numerisk estimere avvikene til y i fra Y i , hvor y i er observerte verdier, og Y i er verdier bestemt av regresjon, vil vi lage en tabell:

x i y jeg Y i Y i -y i
167 169 168.055 -0.945
169 171 170.778 -0.222
170 166 172.140 6.140
170 172 172.140 0.140
172 180 174.863 -5.137
173 176 176.225 0.225
174 177 177.587 0.587
175 182 178.949 -3.051
179 182 184.395 2.395
180 186 185.757 -0.243

Y i-verdier beregnes i henhold til regresjonsligningen.

Det merkbare avviket til noen observerte verdier fra regresjonslinjen forklares av det lille antallet observasjoner. Når man studerer graden av lineær avhengighet til Y av X, tas antall observasjoner i betraktning. Styrken på avhengigheten bestemmes av verdien av korrelasjonskoeffisienten.