Saturday 11 November 2017

Autoregressiv Bevegelig Gjennomsnitt Tidsserie Modellen


Introduksjon til ARIMA nonseasonal modeller. ARIMA p, d, q prognose ligning ARIMA modeller er i teorien den mest generelle klassen av modeller for å prognose en tidsserie som kan gjøres for å være stasjonær ved differensiering om nødvendig, kanskje sammen med ikke-lineære transformasjoner for eksempel logging eller deflating hvis nødvendig En tilfeldig variabel som er en tidsserie er stasjonær hvis dens statistiske egenskaper er konstant over tid En stasjonær serie har ingen trend, dens variasjoner rundt sin gjennomsnitt har en konstant amplitude og den vri på en konsistent måte dvs. at kortsiktige tilfeldige tidsmønstre alltid ser like ut i statistisk forstand. Den sistnevnte tilstanden betyr at dets autokorrelasjonskorrelasjoner med sine egne tidligere avvik fra middelværdien forblir konstant over tid, eller tilsvarende, at dets effektspektrum forblir konstant over tid En tilfeldig variabel i dette skjemaet kan sees som vanlig som en kombinasjon av signal og støy, og signalet hvis det er tydelig kan være en patt ern med rask eller langsom gjennomsnittlig reversering eller sinusformet svingning eller rask veksling i tegn, og det kan også ha en sesongkomponent. En ARIMA-modell kan sees som et filter som forsøker å skille signalet fra støyen, og signalet er da ekstrapolert inn i fremtiden for å oppnå prognoser. ARIMA-prognose-ligningen for en stasjonær tidsserie er en lineær ie-regresjonstypekvasjon der prediktorene består av lag av den avhengige variabelen og eller lagrer prognosefeilene som er. Forutsatt verdi av Y en konstant og eller vektet sum av en eller flere nylige verdier av Y og eller en vektet sum av en eller flere nylige verdier av feilene. Hvis prediktorene bare består av forsinkede verdier av Y, er det en ren autoregressiv selvregressert modell, som bare er et spesielt tilfelle av en regresjonsmodell, og som kan forsynes med standard regresjonsprogramvare. For eksempel er en første-ordens autoregressiv AR 1-modell for Y en enkel regresjonsmodell der den uavhengige variabelen i s bare Y forsinket med en periode LAG Y, 1 i Statgraphics eller YLAG1 i RegressIt Hvis noen av prediktorene lags av feilene, er en ARIMA-modell det IKKE en lineær regresjonsmodell, fordi det ikke er mulig å spesifisere siste periode s feil Som en uavhengig variabel må feilene beregnes fra tid til annen når modellen er montert på dataene. Fra et teknisk synspunkt er problemet med å bruke forsinkede feil som prediktorer at modellens spådommer ikke er lineære funksjoner av koeffisienter, selv om de er lineære funksjoner i fortidens data. Således skal koeffisienter i ARIMA-modeller som inneholder forsinkede feil estimeres ved ikke-lineære optimaliseringsmetoder bakkeklatring i stedet for bare å løse et system av ligninger. Akronym ARIMA står for automatisk regressiv integrert Flytte gjennomsnittlig Lags av den stationære serien i prognosen ligningen kalles autoregressive vilkår, lags av prognosen feilene kalles glidende gjennomsnittlige vilkår og en tidsserie som trenger å bli differensiert for å bli gjort stasjonære, sies å være en integrert versjon av en stasjonær serie Tilfeldige gange og tilfeldige trendmodeller, autoregressive modeller og eksponentielle utjevningsmodeller er alle spesielle tilfeller av ARIMA-modeller. En ikke-sasonlig ARIMA-modell er klassifisert som en ARIMA p, d, q modell, hvor. p er antall autoregressive termer. d er antall ikke-soneforskjeller som trengs for stasjonar, og. q er antall forsinkede prognosefeil i prediksjonsligningen. Forutsigelsesligningen er konstruert som følger Først, la y betegne den forskjellen på Y som betyr. Merk at den andre forskjellen på Y d2-tilfellet ikke er forskjellen fra 2 perioder siden. Det er først den forskjellen som er den første forskjellen som er den diskrete analogen til et andre derivat, det vil si den lokale akselerasjonen av serien i stedet for den lokale trenden. Med hensyn til y er den generelle prognosekvasjonen her. De bevegelige gjennomsnittsparametrene s er definert slik at deres tegn er negative i ekv. Uasjon, etter konvensjonen som ble innført av Box og Jenkins. Noen forfattere og programvare, inkludert R-programmeringsspråket, definerer dem slik at de har pluss tegn i stedet. Når faktiske tall er plugget i ligningen, er det ingen tvetydighet, men det er viktig å vite hvilken konvensjon programvaren din bruker når du leser utdata Ofte er parameterne angitt der med AR 1, AR 2, og MA 1, MA 2 osv. For å identifisere riktig ARIMA-modell for Y begynner du ved å bestemme rekkefølgen av differensiering d som trenger å stasjonærisere serien og fjerne bruttoegenskapene til sesongmessigheten, kanskje i forbindelse med en variansstabiliserende transformasjon som logging eller deflating Hvis du stopper på dette punktet og forutser at differensierte serier er konstante, har du bare montert en tilfeldig tur eller tilfeldig Trendsmodell Den stasjonære serien kan imidlertid fortsatt ha autokorrelerte feil, noe som tyder på at noen AR-vilkår p 1 og eller noen nummer MA-termer q 1 også trengs i prognosekvasjonen. Prosessen med å bestemme verdiene p, d og q som er best for en gitt tidsserie, vil bli diskutert i senere avsnitt i notatene hvis koblinger er øverst på denne siden, men en forhåndsvisning av noen av de typer ikke-sasonlige ARIMA-modellene som ofte oppstår, er gitt nedenfor. ARIMA 1,0,0 førsteordens autoregressive modell hvis serien er stasjonær og autokorrelert, kanskje den kan forutsies som et flertall av sin egen tidligere verdi, pluss en konstant Forutsigelsesligningen i dette tilfellet er. som er Y regressert i seg selv forsinket av en periode Dette er en ARIMA 1,0,0 konstant modell Hvis gjennomsnittet av Y er null, vil ikke det konstante begrepet bli inkludert. Hvis skråningen er koeffisient 1 er positiv og mindre enn 1 i størrelsesorden skal den være mindre enn 1 i størrelsesorden hvis Y er stasjonær, beskriver modellen gjennomsnittsreferanseadferd, der neste periode s-verdi skal anslås å være 1 ganger så langt unna gjennomsnittlig som denne perioden s verdi Hvis 1 er negativ, det forutser gjennombruddsadferd med skifting av tegn, dvs. det forutsier også at Y vil være under gjennomsnittlig neste periode hvis den er over gjennomsnittet i denne perioden. I en andreordens autoregressiv modell ARIMA 2,0,0 ville det være en Y t-2 termen til høyre også, og så videre. Avhengig av tegn og størrelser av koeffisientene, kunne en ARIMA 2,0,0 modell beskrive et system hvis gjennomsnitts reversering foregår i sinusformet oscillerende mote, som bevegelsen av en masse på en fjær som er utsatt for tilfeldige støt. ARIMA 0,1,0 tilfeldig tur Hvis serien Y ikke er stasjonær, er den enkleste mulige modellen for en tilfeldig turmodell, som kan betraktes som et begrensende tilfelle av en AR 1-modell hvor den autoregressive koeffisienten er lik 1, dvs. en serie med uendelig sakte, gjennomsnittlig reversering. Forutsigelsesligningen for denne modellen kan skrives som. hvor konstant sikt er den gjennomsnittlige perioden til periode-endringen, dvs. langsiktig Drift i Y Denne modellen kan monteres som en ikke-avskjæringsrekkefølge gryningsmodell hvor den første forskjellen i Y er den avhengige variabelen Siden den bare inneholder en ikke-soneforskjell og en konstant periode, er den klassifisert som en ARIMA 0,1,0-modell med konstant. Den tilfeldige-walk-uten-drift-modellen ville være en ARIMA 0,1,0-modell uten konstant. ARIMA 1,1,0 differensiert førsteordens autoregressiv modell Hvis feilene i en tilfeldig turmodell er autokorrelert, kan problemet løses ved å legge til et lag av den avhengige variabelen til prediksjonsligning - dvs. ved å regresse den første forskjellen på Y i seg selv forsinket av en periode. Dette ville gi følgende prediksjonsligning. Det kan omarrangeres til. Dette er en førsteordens autoregressiv modell med en rekkefølge av ikke-soneforskjeller og en konstant term - en ARIMA 1,1,0 modell. ARIMA 0,1,1 uten konstant enkel eksponensiell utjevning En annen strategi for å korrigere autokorrelerte feil i en tilfeldig gangmodell er foreslått av den enkle eksponensielle utjevningsmodellen. Husk at for noen ikke-stationære tidsserier, for eksempel de som har støyende fluktuasjoner rundt et sakte varierende middel, utfører ikke den tilfeldige turmodellen så vel som et glidende gjennomsnitt av tidligere verdier. Med andre ord, i stedet for å ta den nyeste observasjonen som prognosen for neste observasjon , er det bedre å bruke et gjennomsnitt av de siste observasjonene for å filtrere ut støy og mer nøyaktig estimere det lokale gjennomsnittet. Den enkle eksponensielle utjevningsmodellen bruker et eksponentielt vektet glidende gjennomsnitt av tidligere verdier for å oppnå denne effekten. Forutsigelsesligningen for Enkel eksponensiell utjevningsmodell kan skrives i en rekke matematisk ekvivalente former, hvorav en er den såkalte feilkorreksjonsformen, der den forrige prognosen er justert i retning av feilen som den gjorde. Fordi e t-1 Y t - 1 - t-1 per definisjon, dette kan omskrives som. som er en ARIMA 0,1,1-uten konstant prognosekvasjon med 1 1 - Dette betyr at du kan passe en enkel eksponentiell smoo ting ved å spesifisere det som en ARIMA 0,1,1 modell uten konstant, og den estimerte MA 1-koeffisienten tilsvarer 1-minus-alfa i SES-formelen. Husk at i SES-modellen er gjennomsnittsalderen for dataene i 1- Forutgående prognoser er 1, noe som betyr at de vil ha en tendens til å ligge bak trender eller vendepunkter med ca. 1 perioder. Det følger at gjennomsnittsalderen for dataene i de 1-årige prognosene for en ARIMA 0,1,1-uten - konstant modell er 1 1 - 1 For eksempel hvis 1 0 8 er gjennomsnittsalderen 5 Når 1 nærmer seg 1, blir ARIMA 0,1,1-uten-konstant modell et veldig langsiktig glidende gjennomsnitt, og som 1 nærmer seg 0 blir det en tilfeldig walk-without-drift-modell. Hva er den beste måten å korrigere for autokorrelasjon, legge til AR-vilkår eller legge til MA-termer I de to foregående modeller diskutert problemet med autokorrelerte feil i en tilfeldig walk-modell ble løst på to forskjellige måter ved å legge til en forsinket verdi av differensierte serier til ligningen eller legge til en forsinket verdi av forecaen st feil Hvilken tilnærming er best En tommelfingerregel for denne situasjonen, som vil bli nærmere omtalt senere, er at positiv autokorrelasjon vanligvis behandles best ved å legge til et AR-uttrykk for modellen og negativ autokorrelasjon vanligvis behandles best av legge til en MA-term I forretnings - og økonomiske tidsserier oppstår negativ autokorrelasjon ofte som en artefakt av differensiering. Generelt reduserer differensiering positiv autokorrelasjon og kan til og med forårsake en bytte fra positiv til negativ autokorrelasjon. Så, ARIMA 0,1,1-modellen, i hvilke differensier er ledsaget av en MA-term, brukes hyppigere enn en ARIMA 1,1,0-modell. ARIMA 0,1,1 med konstant enkel eksponensiell utjevning med vekst Ved å implementere SES-modellen som en ARIMA-modell, får du faktisk noen fleksibilitet Først og fremst kan den estimerte MA 1-koeffisienten være negativ, dette tilsvarer en utjevningsfaktor som er større enn 1 i en SES-modell, som vanligvis ikke er tillatt i SES-modellprosedyren Sec ond, du har muligheten til å inkludere en konstant periode i ARIMA-modellen hvis du ønsker det, for å estimere en gjennomsnittlig ikke-null trend. ARIMA 0,1,1-modellen med konstant har prediksjonsligningen. En-tiden fremover prognosene fra denne modellen er kvalitativt lik SES-modellen, bortsett fra at bane av de langsiktige prognosene typisk er en skrånende linje hvis skråning er lik mu i stedet for en horisontal linje. ARIMA 0,2,1 eller 0, 2,2 uten konstant lineær eksponensiell utjevning Linjære eksponensielle utjevningsmodeller er ARIMA-modeller som bruker to ikke-sekundære forskjeller i sammenheng med MA-termer. Den andre forskjellen i en serie Y er ikke bare forskjellen mellom Y og seg selv forsinket med to perioder, men heller er det den første forskjellen i den første forskjellen - Y-endringen av Y ved periode t Således er den andre forskjellen på Y ved periode t lik Y t-Y t-1 - Y t-1 - Y T-2 Y t - 2Y t-1 Y t-2 En annen forskjell på en diskret funksjon er analog s til et andre derivat av en kontinuerlig funksjon, måles akselerasjonen eller krumningen i funksjonen på et gitt tidspunkt. ARIMA 0,2,2-modellen uten konstant forutser at den andre forskjellen i serien er lik en lineær funksjon av den siste to prognosefeil. som kan omarrangeres som. hvor 1 og 2 er MA 1 og MA 2-koeffisientene Dette er en generell lineær eksponensiell utjevningsmodell som i det vesentlige er den samme som Holt s-modellen, og Brown s-modellen er et spesielt tilfelle. Det bruker eksponentielt vektet Flytte gjennomsnitt for å anslå både et lokalt nivå og en lokal trend i serien. De langsiktige prognosene fra denne modellen konvergerer til en rett linje hvis skråning avhenger av den gjennomsnittlige trenden observert mot slutten av serien. ARIMA 1,1,2 uten konstant fuktet trend lineær eksponensiell utjevning. Denne modellen er illustrert i de tilhørende lysbildene på ARIMA-modeller. Det ekstrapolerer den lokale trenden i slutten av serien, men flater ut på lengre prognoshorisont for å introdusere en Conservatism, en praksis som har empirisk støtte. Se artikkelen om Hvorfor Damped Trend fungerer av Gardner og McKenzie og Golden Rule-artikkelen av Armstrong et al for detaljer. Det er generelt tilrådelig å holde fast i modeller der minst en av p og q er ikke større enn 1, det vil si ikke å passe på en modell som ARIMA 2,1,2, da dette sannsynligvis vil føre til overfitting og fellesfaktorproblemer som blir nærmere omtalt i notatene om matematisk struktur av ARIMA modeller. Spreadsheet implementering ARIMA modeller som de som er beskrevet ovenfor er enkle å implementere på et regneark. Prediksjonsligningen er bare en lineær ligning som refererer til tidligere verdier av originale tidsserier og tidligere verdier av feilene. Dermed kan du sette opp et ARIMA prognose regneark ved å lagre dataene i kolonne A, prognoseformelen i kolonne B og feildataene minus prognosene i kolonne C Forutsigelsesformelen i en typisk celle i kolonne B ville rett og slett være en lineær ekspresjon n refererer til verdier i forrige rader av kolonner A og C, multiplisert med de relevante AR - eller MA-koeffisientene lagret i celler andre steder på regnearket. Det finnes en rekke tilnærminger til modellerings tidsserier Vi skisserer noen av de vanligste tilnærmingene nedenfor. Trend, Seasonal, Residual Decompositions. One tilnærming er å dekomponere tidsseriene til en trend, sesongmessig og gjenværende komponent. Trinn eksponensiell utjevning er et eksempel på denne tilnærmingen Et annet eksempel, kalt sesongbasert loess, er basert på lokalt vektede minste kvadrater og er diskutert av Cleveland 1993 Vi diskuterer ikke sesongløser i denne håndboken. Frekvensbaserte metoder. En annen tilnærming, som ofte brukes i vitenskapelige og tekniske applikasjoner, er å analysere serien i frekvensdomenet. Et eksempel på denne tilnærmingen ved modellering av en sinusformet datasett er vist i stråleavbøyning casestudy Spektralplottet er det primære verktøyet for frekvensanalysen av tidsserier. Utvalgte AR-modeller. En vanlig tilnærming for modellering av univariate tidsserier er den autoregressive AR-modellen Xt delta phi1 X phi2 X cdots phip X At, hvor Xt er tidsserien, At er hvit støy og delta igjen 1 - sum p phii høyre mu med mu som angir prosessmiddelet . En autoregressiv modell er rett og slett en lineær regresjon av den nåværende verdien av serien mot en eller flere tidligere verdier av serien. Verdien av p kalles rekkefølgen til AR-modellen. AR-modeller kan analyseres med en av forskjellige metoder, inkludert standard lineære minste kvadrater teknikker De har også en enkel tolkning. Moving Gjennomsnittlig MA Modeller. En annen vanlig tilnærming til modellering univariate tidsseriemodeller er den bevegelige gjennomsnittlige MA modell Xt mu At-theta1 A-theta2 A-cdots-thetaq A, hvor Xt er tidsserier, mu er gjennomsnittet av serien, A er hvite lydvilkår, og theta1, ldots, thetaq er parametrene til modellen. Verdien av q kalles rekkefølgen til MA-modellen. Det er en bevegelse gjennomsnittlig modell er konseptuelt en lineær regresjon av dagens verdi av serien mot den hvite støyen eller tilfeldige støt på en eller flere tidligere verdier av serien. De tilfeldige sjokkene ved hvert punkt antas å komme fra samme fordeling, typisk en normalfordeling, med plassering ved null og konstant skala Sondringen i denne modellen er at disse tilfeldige støtene propogeres til fremtidige verdier av tidsseriene. Tilpasning av MA-estimatene er mer komplisert enn med AR-modeller fordi feilvilkårene ikke er observerbare. Dette betyr at iterative ikke-lineære tilpasningsprosedyrer trenger å bli brukt i stedet for lineære minstefirkanter. MA-modeller har også en mindre åpenbar fortolkning enn AR-modeller. Noen ganger vil ACF og PACF foreslå at en MA-modell ville være et bedre modellvalg og noen ganger bør både AR og MA-termer brukes i samme modell se seksjon 6 4 4 5. Legg merke til at feilvilkårene etter at modellen er egnet, bør være uavhengig og følge standardforutsetningene for en univariate prosess. Box og Jenkins populariserte en tilnærming som kombinerer det bevegelige gjennomsnittet og de autoregressive tilnærmingene i boken Time Series Analysis Forecasting and Control Box, Jenkins og Reinsel, 1994. Selv om begge autoregressive og bevegelige gjennomsnittlige tilnærminger allerede var kjent og ble opprinnelig undersøkt av Yule, bidrag fra Box og Jenkins var i å utvikle en systematisk metode for å identifisere og estimere modeller som kunne inkludere begge tilnærminger. Dette gjør Box-Jenkins-modeller til en kraftig klasse av modeller. De neste flere delene vil diskutere disse modellene i detalj. Utviklingsgjenkjenning Gjennomsnittlig ARMA p, q Modeller for Time Series Analysis - Del 3.Dette er det tredje og siste innlegget i miniserien på Autoregressive Moving Gjennomsnittlig ARMA-modeller for tidsserieanalyse Vi har introdusert autoregressive modeller og Moving Average-modeller i de to tidligere artiklene Nå er det på tide å kombinere dem for å produsere en mer sofistikert modell. Til slutt fører dette oss til ARIMA og GARCH-modeller som gjør at vi kan forutsi avkastning og prognosevolatilitet Disse modellene vil danne grunnlag for handelssignaler og risikostyringsteknikker. Hvis du har lest del 1 og del 2, vil du ha sett at vi pleier å følge et mønster for vår analyse av en tidsseriemodell Jeg vil gjenta det kort her. Rationale - Hvorfor er vi interessert i denne modellen. Definisjon - En matematisk definisjon for å redusere tvetydighet. Korrelogram - Plotting av et prøvekorrelogram for å visualisere en modellens oppførsel. Simulering og montering - Montering av modell for simuleringer, for å sikre at vi har forstått modellen riktig. Real Financial Data - Bruk modellen til ekte historiske eiendomspriser. Redegjørelse - Varsle etterfølgende verdier for å bygge handelssignaler eller filtre. For å følge denne artikkelen anbefales det å ta en titt på de forrige artiklene om tidsserieanalyse. De kan alle finnes her. Bayesian Information Criterion. In Del 1 i denne artikkelserien så vi på Akaike Inf Ormation Criterion AIC som et middel til å hjelpe oss med å velge mellom separate beste tidsseriemodeller. Et nært beslektet verktøy er det bayesiske informasjonskriteriet BIC. Vesentlig har det lignende oppførsel til AIC ved at det straffer modeller for å ha for mange parametere. Dette kan føre til overfitting Forskjellen mellom BIC og AIC er at BIC er strengere med straffen på ytterligere parametere. Bayesian Information Criterion. If vi tar sannsynligheten for en statistisk modell, som har k parametere, og L maksimerer sannsynligheten da Bayesian Informasjon Kriteriet er gitt av. Hvor n er antall datapunkter i tidsseriene. Vi vil bruke AIC og BIC nedenfor når du velger passende ARMA p, q modeller. Ljung-Box Test. I del 1 av denne artikkelen serien Rajan nevnt i Disqus kommenterer at Ljung-Box-testen var mer hensiktsmessig enn å bruke Akaike-informasjonskriteriet for Bayesian Information Criterion ved å avgjøre om en ARMA-modell var en god passform til en tidsserie. Ljung-Box-testen er en klassisk hypotesetest som er laget for å teste om et sett av autokorrelasjoner av en tilpasset tidsseriemodell avviger vesentlig fra null. Testen tester ikke hvert enkelt lag for tilfeldighet, men heller tester tilfeldigheten over en gruppe lags. Ljung-Box Test. We definerer null-hypotesen som Tidsseriedataene ved hvert lag er iid, det vil si at korrelasjonene mellom populasjonsserieverdiene er null. Vi definerer den alternative hypotesen som Tidsseriedataene er ikke iid og har seriell korrelasjon. Vi beregner følgende teststatistikk Q. Hvor n er lengden på tidsserieprøven, er hue k prøven for autokorrelasjon ved lag k og h er antall lags under testen . Beslutningsregelen om å nekte nullhypotesen er å kontrollere om Q chi 2, for en chi-kvadrert fordeling med h grader av frihet ved 100-alfa-percentilen. Mens detaljene i testen kan virke litt komplekse , kan vi faktisk bruke R for å beregne testen for oss, forenkle prosedyren noe. Utløsende Gjennomsnittlig ARMA Modeller av rekkefølge p, q. Nå som vi har diskutert BIC og Ljung-Box testen, er vi klar til å diskutere vår første blandet modell, nemlig det autoregressive flytende gjennomsnittet av orden p, q eller ARMA p, q. Tid dato har vi vurdert autoregressive prosesser og bevegelige gjennomsnittsprosesser. Den tidligere modellen vurderer sin egen tidligere oppførsel som innganger for modellen og som en slik forsøk for å fange markedsdeltakere effekter, for eksempel momentum og gjennombrudd i aksjehandel. Den sistnevnte modellen brukes til å karakterisere sjokkinformasjon til en serie, for eksempel en overraskende inntjeningsmelding eller uventet hendelse som BP Deepwater Horizon oljeutslipp. en ARMA-modell forsøker å fange begge disse aspektene når man modellerer økonomiske tidsserier. Merk at en ARMA-modell ikke tar hensyn til volatilitetsklynging, et sentralt empirisk fenomen i mange økonomiske tidsserier. Det er ikke ac Uendelig heteroscedastisk modell For det må vi vente på ARCH - og GARCH-modellene. ARMA p, q-modellen er en lineær kombinasjon av to lineære modeller, og dermed er den i seg selv likevel lineær. Utviklingsbevisende Gjennomsnittlig modell av rekkefølge p, qA tidsserie modell ,, er en autoregressiv glidende gjennomsnittlig rekkefølgen p, q ARMA p, q, hvis. start xt alpha1 x alpha2 x ldots wt beta1 w beta2 w ldots betaq w end. Where er hvit støy med E wt 0 og variance sigma 2.If vi vurderer Backward Shift Operator se en tidligere artikkel så kan vi omskrive ovennevnte som en funksjon theta og phi of. We kan rett og slett se det ved å sette p neq 0 og q 0 vi gjenoppretter AR p-modellen Tilsvarende hvis vi setter p 0 og q neq 0 gjenoppretter vi MA q-modellen. En av hovedfunksjonene til ARMA-modellen er at det er parsimonious og overflødig i sine parametere Det vil si at en ARMA-modell vil ofte kreve færre parametere enn en AR p eller MA q-modell alene. I tillegg, hvis vi skriver om ligningen i form av BSO, kan theta - og phi-polynomene Noen ganger deler en felles faktor, og dermed fører til en enklere modell. Simuleringer og korrelogrammer. Som med de autoregressive og bevegelige gjennomsnittsmodellene vil vi nå simulere ulike ARMA-serier og deretter prøve å passe ARMA-modeller til disse realisasjonene. Vi bærer dette ut fordi vi vil sørge for at vi forstår monteringsprosedyren, inkludert hvordan man beregner konfidensintervaller for modellene, samt sørge for at prosedyren faktisk gjenoppretter rimelige estimater for de opprinnelige ARMA parametrene. I del 1 og del 2 konstruerte vi manuelt AR - og MA-serien ved å tegne N-eksempler fra en normal distribusjon og deretter lage den spesifikke tidsseriemodellen ved hjelp av lags av disse prøvene. Det er imidlertid en enklere måte å simulere AR, MA, ARMA og til og med ARIMA-data, ganske enkelt ved å bruke metoden i R. Lets s starter med den enkleste mulige ikke-trivielle ARMA-modellen, nemlig ARMA 1,1-modellen Det er en autoregressiv modell av orden en kombinert med en bevegelig gjennomsnittsmodell av ordre en slik modell har bare to koeffisienter, alfa og beta, som representerer den første lags av tidsseriene selv og støt hvite støyvilkår En slik modell er gitt av. Vi må spesifisere koeffisientene før simulering La oss ta alfa 0 5 og beta -0 5. Utgangen er som følger. Realisering o f en ARMA 1,1 modell, med alfa 0 5 og beta 0 5.Let s også plotte korrelogrammet. Korrelogram av en ARMA 1,1 modell med alfa 0 5 og beta 0 5.Vi kan se at det ikke er noen signifikant autokorrelasjon, som kan forventes fra en ARMA 1,1-modell. La oss prøve å bestemme koeffisientene og deres standardfeil ved å bruke arima-funksjonen. Vi kan beregne konfidensintervallene for hver parameter ved hjelp av standardfeilene. inneholder de sanne parameterverdiene for begge tilfeller, men vi bør merke at 95 konfidensintervaller er svært store en konsekvens av de relativt store standardfeilene. La oss nå prøve en ARMA 2,2-modell Det er en AR 2-modell kombinert med en MA 2-modell Vi må spesifisere fire parametere for denne modellen alpha1, alpha2, beta1 og beta2 La oss ta alpha1 0 5, alpha2 -0 25 beta1 0 5 og beta2 -0 3. Utgangen av vår ARMA 2,2-modell er som følger. Realisering av en ARMA 2,2-modell, med alpha1 0 5, alpha2 -025, beta1 05 og beta2 - 0 3.And tilsvarende autocorelation. Correlogram av en ARMA 2,2 modell, med alpha1 0 5, alpha2 -0 25, beta1 0 5 og beta2 -0 3.We kan nå prøve å montere en ARMA 2,2 modell til dataene. Vi kan også beregne konfidensintervaller for hver parameter. Merk at konfidensintervaller for koeffisientene for den bevegelige gjennomsnittskomponent beta1 og beta2 ikke faktisk inneholder den opprinnelige parameterverdien. Dette skisserer faren for å forsøke å tilpasse modeller til data, selv når Vi kjenner de sanne parameterverdiene. Men for handelsformål trenger vi bare å ha en prediktiv kraft som overskrider sjansen, og produserer nok overskudd over transaksjonskostnader for å være lønnsomt i det lange løp. Nå har vi sett noen eksempler på simulert ARMA-modeller trenger vi mekanisme for å velge verdiene p og q når de passer til modellene til ekte økonomiske data. Å velge den beste ARMA p, q-modellen. For å bestemme hvilken rekkefølge p, q av ARMA-modellen er egnet for en serie , vi må bruke AIC eller BIC over en undergruppe av verdier for p, q, og bruk Ljung-Box-testen for å finne ut om en god passform har blitt oppnådd, for spesielle verdier av p, q. For å vise denne metoden skal vi først simulere en spesiell ARMA p, q prosess Vi vil da løse over alle parvisverdier av p i og q inn og beregne AIC Vi vil velge modellen med lavest AIC og deretter kjøre en Ljung-Box-test på residualene for å avgjøre om vi har oppnådd en god passform. La oss begynne med å simulere en ARMA 3,2-serie. Vi skal nå opprette et objekt som er endelig for å lagre den beste modellen passer og laveste AIC-verdi. Vi slår over de forskjellige p, q-kombinasjonene og bruker det nåværende objektet til å lagre passe på en ARMA i, j-modell, for loopingvariablene i og j. Hvis den nåværende AIC er mindre enn noen tidligere beregnet AIC, setter vi den endelige AIC til denne nåværende verdien og velger den rekkefølgen Ved avslutning av løkken har vi bestillingen av ARMA-modellen lagret i og ARIMA p, d, q passer seg med den integrerte d-komponenten satt til 0 lagret as. Let s utdata AIC, ordre og ARIMA koeffisienter. Vi kan se at den opprinnelige rekkefølgen på den simulerte ARMA modellen ble gjenopprettet, nemlig med p 3 og q 2 Vi kan plotte corelogrammet av resterne av modellen for å se hvis de ser ut som en realisering av diskrete hvite støy DWN. Correlogram av resterne av den best passende ARMA p, q-modellen, s. 3 og q 2. Korelogrammet ser virkelig ut som en realisering av DWN Til slutt utfører vi Ljung-Box test for 20 lags for å bekrefte dette. Merk at p-verdien er større enn 0 05, som sier at residualene er uavhengige på 95-nivået og dermed en ARMA 3,2-modell gir en god modellpasning. Klart bør dette være tilfelle siden vi har simulert dataene selv. Dette er nettopp prosedyren vi skal bruke når vi kommer til å passe ARMA p, q modeller til S P500-indeksen i følgende seksjon. Finansielle data. Nå har vi skissert prosedyren for å velge Den optimale tidsseriemodellen for en simulert serie, det er ganske strai ghtforward å bruke den på økonomiske data For dette eksempelet skal vi igjen velge S P500 US Equity Index. La oss laste ned de daglige sluttkursene ved hjelp av quantmod, og opprett deretter logg returneringsstrømmen. La oss utføre samme tilpasningsprosedyre som for den simulerte ARMA 3,2-serien over på loggen returnerer serien av S P500 ved hjelp av AIC. Den beste monteringsmodellen har rekkefølgen ARMA 3,3. Lets plotte resterne av den monterte modellen til S P500 logg daglig returstrøm. Korrelogram av residualene til den best passende ARMA p, q Modell, p 3 og q 3, til S P500 daglig logg returnerer strøm. Merk at det er noen signifikante topper, spesielt ved høyere lags Dette er tegn på dårlig passform La oss utfør en Ljung-Box-test for å se om vi har statistisk bevis for dette. Som vi mistenker er p-verdien mindre enn 0 05 og som sådan kan vi ikke si at residualene er en realisering av diskret hvit støy. Derfor er det ytterligere autokorrelasjon i residuals som ikke er forklart av montert ARMA 3,3 modell. Som vi har diskutert hele tiden i denne artikkelserien har vi sett bevis på betinget heteroscedastisitetsvolatilitetsklynging i S P500-serien, spesielt i perioder rundt 2007-2008 Når vi bruker en GARCH-modell senere i artikkelen serier vil vi se hvordan å eliminere disse autokorrelasjonene. I praksis er ARMA-modeller aldri generelt gode tilpasninger for logg-aksjer tilbake. Vi må ta hensyn til betinget heteroscedasticitet og bruke en kombinasjon av ARIMA og GARCH. Neste artikkel vil vurdere ARIMA og vise hvordan Den integrerte komponenten skiller seg fra ARMA-modellen vi har vurdert i denne artikkelen. Bare å komme i gang med kvantitativ handel.

No comments:

Post a Comment