På forhånd foreslår de vennene dine at de ikke lenger er i stand til å se på, så du kan ha en pause ved siden av det, Omvendt er det bare å se på DVD-en. Du kan også se på mer enn 30 min. SALLE POLYVALENTE de BESSE. Du kan også høre musikken fra Extremusic Disco-mobile og La Buvette-serien. Du kan også se på denne filmen. på sera en modus dcompression et på sera donc en GRANDE, trs GRANDE FORME Les mer.81 har bookmarked denne hendelsen. Din reise starter nå. Reserver passord. Opplæringsprogrammer med løsninger. Fundamentals of Sequential Programs. Fo undasjoner vi ønsker å forstå hvordan sekvensielle programmer fungerer Vi ønsker å vite hvordan vi får fra programmet vi skriver til programmet som kompilatoren kjører. Slike programmer ikke multi-threaded eller samtidige.11 oppgaver hver med flere deler. lang, mye arbeid - start tidlig. due onsdager klokken 17.00 på Marmoset. we kan bruke C, C eller Racket - du kan lese på nettsiden for ting å vite for å bruke disse språkene i kurset. Oppgaver 25. du trenger minst 50 for midtveis 2 endelig 3.Midterm dato tirsdag 3. mars 2015 4 30-6 20 pm. Vi skal bruke piazza. no obligatorisk lærebok. Hva skjer når du kompilerer og kjører et program. Hva er en kompiler. høy nivå språk - kompilator - nivå language. this er vanlig, men ikke alltid saken. more generelt. source språk - kompilator - mål language. source program - kompilator - målprogram tilsvarende, for noen definisjon av tilsvarende. Hvorfor trenger vi en kompilator - å hjelpe mennesker skrive kode. ønske for folk å forstå og program. lets du velger det riktige språket for jobben du vil gjøre. sikkerhet - kompilatoren hjelper deg, lar deg vite om du gjør dårlige ting. abstraksjon - kan skrive programmer uten å forstå hvordan det virker. Hvorfor trenger vi en kompilator - hvorfor kan ikke datamaskinen bare Kjør kildespråket direkte. Språket på lavnivå er maskinvareavhengig maskinavhengig - optimalisert for å kjøre godt på bestemt maskinvare - men kildekoden er maskinavhengig. En nærmere titt på kompilatoren. CS241-kompilatoren - ikke nødvendigvis sant for hver compiler. scanning normaliserer innspillet, for eksempel normaliserer whitespace. Eksempel kan være en hvis setningen får tegnet IF. De to første trinnene er den syntaktiske analysen. Eksempler på monteringskoden legger til 3 5 7 jr 31. notat assembler er en spesifikk type kompilator som oversetter mellom forsamlingskode og maskinkode. Vi kommer til å være kodende for hele prosessen. Binary number. Bit 0 eller 1 Abstraction of high low voltages or magnets. Byte 8-bits eg 11001001.There are 256 2 8 mulige byte. Ordmaskin spesifikk gruppering av bytes.4 eller 8 byte 32-bit eller 64-bit. Vi skal bruke et 32-biters ord - dette betyr at vi genererer og monterer monteringsnummer. Nibble 4 bits Half en byte. Giv en byte i datamaskinens minne, hva betyr det For eksempel 11001001.Det kan være et nummer Konvensjonelt i binær er det 2 0 2 3 2 6 2 7 1 8 64 128 201. Det er en usignert verdi Vent , hvordan representerer vi negative tall. Simple tilnærming sign-magnitude representation. Reserve fi første bit for å representere tegnet 0 betyr positiv, 1 betyr negativ - resten av bitene er størrelsen. 11001001 er et negativt tall med størrelsen 1001001 73 - så verdien vår er -73. For 8-bit kan den representere tall formular -127 til 127.0 er både 00000000 og 10000000 - to representasjoner for null må sammenlignes for NULL - ikke bra. andre ulemper - aritmetikk er vanskelig. Hvis vi må positive eller to negative verdier, gjør det normale tillegget for magntiudes og bruk det felles tegnet. Men hva hvis tegnene er forskjellige Trekk den minste verdien fra den større verdien og bruk tegnet på det større - altfor kompliserte Ikke godt. Negative tall - bedre tilnærming - 2s kompliment. Tolk nummeret som unsigned. if den første bit er null, da ferdig. else, trekke 2 n.111 7 - første bit er ikke 0 - trekke 2 3 - -1.101 5 - første bit er ikke 0 - trekke 2 3 - -3.1100100 fra før er nå -55.To få twos kompliment negasjonen av et n-bit tall, trekke tallet fra 2 n. lekk bitene 0-1, 1- 0 og legg til en. Binær - Decimal. For 8 biter gir dette -128 til 127.note -128 ingen negasjon som 128 har ingen representasjon. eg med 3 bits 100 - 011 1 100 vi får det samme - ingen representasjon for sin negasjon. Bare en null. Aritmetikk er klar. Aritmetikk er mod 2 n. Du kan bare legge dem til som du vanligvis ville. Basen 16 0 9, og AF-tilfellet spiller ingen rolle. Hver heksesiffre er 4 biter, så 11001001 abonnement 2 C9 abonnement 16.subscipt 2 betyr at det er s i base 2.omkoble binært til hex ved å ta 4 sifferbiter. eg 11001001 - bryte inn i 1100 1011 - 1100 4 8 12 C 1001 1 8 9 - C9. bruk 0x som hex-prefikset f. eks. 0xC9. Gi en byte hvordan kan vi fortelle hvilken tolkning er riktig unisnged, sign-magnitude, twos complement. We kan egentlig ikke vite Vi må huske vår hensikt når vi lagret byte. Men vent Vi ikke t vet selv om det er et nummer. Det kan være et tegn - avhenger av tegnkodingen du bruker. Vi vil anta en konvensjon ASCII amerikansk standardkode for informasjon Intercha nge. what representerer 11001001 represent. number unisnged, sign-magnitude, to s compliment. it kan være en character. bit representasjon - så vi vet ikke hvilken karakter det er - vi skal bruke ord fortsatt, men med første bit 0.what chracter er 01001001 I. kan være address. random flags. instruction, eller en del av en våre instruksjoner er 32-bit. Vi kan egentlig ikke vite at vi må huske vår hensikt når vi lagret byte. Maskin Språk - MIPS. Hva ser en instruksjon ut. Hvilke instruksjoner er der. Vi vil bruke MIPS forenklet 18 forskjellige 32-biters instruksjonstyper. Maskinvaren og datapatelen. Hjernen til datamaskinen. Control unit. Fetches og dekoder instruksjoner. Koordinerer iput og output. Dispatches til andre deler av datamaskinen for å bære dem output. ALU aritmetisk og logisk enhet. Responsible for matte, logiske operasjoner og sammenligninger. MIPS 32 Generelle formål register. 0 er alltid 0. 30 og 31 er spesielle etter konvensjon. Et eksempel på registeroperasjon. Legg inn innholdet i registre s og t, og lagre resultatet i d. represented av d - s t.32 registre, 5 bits per register 2 5,3 registre for en instruksjon 15 bits satt til side for registreringer 17 bitere leftover for å kode inn operasjonen. multiplikasjon gir 64 bit resultat - første 32 biter er i HI og andre 32 biter er i LO. HI og LO butikkresultater, men du kan ikke skrive til dem direkte - det er ops å flytte verdier ut av høy og lav. Jeg kan også lagre resten fra divisjon og LO kvotient. RAM - Random Access Memory. Dette er hovedminne på datamaskinen. Dette er en stor mengde minne lagret vekk fra CPU. Dataene går mellom CPU og RAM og bussen. Vi tenker på bussen som 64 ledninger forbinder de to komponentene. RAM er bare et stort utvalg av n byte n.10 9 en Gigabyte. Hver byte har en adresse som går fra til n-1, men vi grupperer alt på ordens ordre , så vi vil bruke adresser delelig med 4, og hver 4-byte blokk er et ord. Words har adresse 0x0, 0x4, 0x8, 0xC, 0x10, 0x14, 0x18, 0x1C, 0x20 etc. Moving data mellom RAM og CPU. Transfer et ord fra en spesifisert adresse til et spesifisert register. Den ønskede adressen går inn i MAR-minnet adresseregister, deretter går ut på bussen. Når den kommer til RAM, de tilknyttede dataene sendes tilbake på bussen og går inn i MDR-minnedatabasen. Innholdet i MDR flyttes til destinasjonsregisteret. Lag akkurat som last, men i omvendt. Hvordan vet datamaskinen hvilken ord inneholder instruksjoner og som inneholder data overraskelse det gjør ikke det. Det er et spesielt register kalt PC program teller som holder adressen til NEXT instruksjon å kjøre. Med konvensjon, garanterer vi at noen faste adresser sier 0 inneholder kode og deretter initialiserer PC til 0.Then kontrollenheten kjører hente-utføringssyklusen. Hvordan blir et program kjørt. Det er et program som heter lasteren, som setter programmet i minnet og setter PC til adressen til den første instruksjonen i programmet. Hva skjer når programmet endene. Vi n eed å returnere kontroll til laster-PC er satt til adressen til neste instruksjon i loader. Which instruksjon er det. 31 vil alltid lagre den riktige adressen for å komme tilbake til, så vi trenger bare å sette PC til 31. Merk at bruk av 31 er konvensjon. Vi vil bruke kommandoen joppregister jr for å oppdatere verdien av PC. hardware architecture. machine språk. main minne vs registers.32 generelle formål registre. 31 returadresse - på programstart for å returnere adressen til lasteren, bør programmene våre alltid avslutte ved å hoppe til returadressen 31 ved hjelp av kommandoen hoppregistrering jr. 30 vet vi ikke ennå. PC - programteller - holder adressen til neste isntruksjon for å utføre. Eksempel legg til 2 verdier i registre 5 og 7, lagre resultatet i register 3, og deretter tilbake. Eksempel legg til 42 og 52, butikk sum i 3 og returner resultatet i register 3, så return. xxd - cols 4.this kommandoen vil vise hex code. xxd - cols 4-bits. adding bits-alternativet viser binary. the filstørrelse er instruksjoner 4 bytes. We vil begynn å skrive våre programmer ikke i binær og hex, men med enkle mnemonics. There er en oversettelse tilbake til den nødvendige binære assembler Hver monteringsinstruksjon tilsvarer en maskin instruksjon nesten. Vi vil gå tilbake til det forrige example. beq gå et annet sted hvis to registre er equal. bne gå et annet sted hvis to registre ikke er like. both instruksjon øke PCen med et gitt antall ord fremover eller bakover. Hva er verdien av PC før avdelingen blir utført. Basert på hente-utfør syklus, har PC allerede blitt økt for å peke på neste instruksjon b før instruksjonen er avkodd og utført. Derfor er offset i forhold til neste instruksjon. En annen kommandoslutt - sett mindre enn. a -1 hvis bc, et sett til 0 ellers. Eksempel beregne den absolutte verdien av 1, lagre den i 1 og return. To gjøre dette, må vi bruke grener og hopper for å endre PC. how om vi starter med c-versjonen hvis x 0 x - x. Eksempel sum totalene 1 13, lagre i 3 og returner c. Hva om vi ikke kan bruke loopkonstruksjoner - goto. Branch offset -5 fordi PC peker på neste instruksjon. Effektivitet i kodeinnstilling 1 til 1 på hver iterasjon av loop. Last Time Assembly Programming. sum heltall 1 13, lagre i 3 og returnere. Programmer med RAM. lw er belastningsordet instruksjon. laster et ord fra RAM til et register. syntax lw a, jeg b. loads ordet på MEM b i til a. b er base register, jeg er offset. sw er butikken ord instruction. stores et ord fra register til RAM. syntax sw a, jeg b. stores ordet ved a i minnestedet MEM b i. Exempel 1 holder adressen til en matrise og 2 holder lengden av matrisen Hent elementet med indeks 5, og lagre det i register 3.Nå gjør vi det igjen, men mer abstrakt. I dette tilfellet er indeksen ikke kjent. Vi trenger. mult multiplikasjonsinstruksjonen. Som å multiplisere to 32-biters tall kan det resultere i et 64-biters tall, blir resultatene lagret i to spesielle registre hei og lo. syntax mult a, b. div divide instruksjonen. Kvoten er strøket i lo, og resten er lagret i hi. syntax div a, b. mfhi og mflo flytte fra HI og flytte fra LO instructions. move verdiene fra hei eller lo henholdsvis til et gitt register. syntax mfhi d, mflo d. Etiketter reagerer på loop. recall sløyfen vi hadde Sum integlene 1 13, lagre i 3, deretter return. the lis kommandoen var innenfor vår sløyfe, som kunne flyttes utenfor. Dette er greit, men nå har bne på slutten en feilaktig øyeblikkelig bør være -3.I nesterløkker er dette et mareritt Dette skyldes at vi brukte eksplisitt forgrening, ved å legge til fjerning av instruksjoner betyr det at vi må endre grenseoverskridelser. I stedet tillater assembler merket instructions. syntax er etikettinstruksjon. navnetikett med instruksjonen. Når montøren ser en etikett, beregner den forskjellen mellom PC og topp, i form av words. eg over etikett-PC 4 0x14 -0x20 4 -0xC 4 -12 4 -3. Nå kan vi omskrive loop-eksemplet med en etikett. Prosedyrer Prosedyrefunksjoner ved montering gjør at vi kan gjenbruke kode. Vi har to problemer å løse. Kall og retur Hvordan overfører vi kontroll inn og ut av prosedyren, parameterpassasje, etc. Registers Hvordan sørger vi for at prosedyrene ikke overskriver viktige data. Vi vil begynne med det andre problemet. Vi kan reservere registre for pro-prosedyren f, og noen for hovedlinjen uten overlapping, men hvis prosedyrer kaller andre prosedyrer eller seg selv, går vi tom for register. I stedet vil vi tillate prosedyrer å gjøre uansett hva de vil ha med registre, så lenge det setter dem tilbake til sine opprinnelige verdier ved utgang. Derfor må vi bruke RAM Hvordan holder vi prosedyrer fra å bruke samme RAM. For å forhindre at prosedyrer bruker de samme RAM-adressene, bruker vi en Stabpekeren Stabepekeren er plassert i register 30, som er det andre begrensede registeret som vi tidligere diskuterte. Vi tildeler vanligvis minne fra toppen eller bunnen av ledig RAM, og på en eller annen måte holder rede på hvilket RAM som ikke er brukt. maskinen hjelper oss ut 30 er initialisert av senderen til bare forbi det siste minneordet. Vi bruker 30 som et bokmerke for å skille brukt og ubrukt RAM, hvis vi allokerer fra bunnen. Vi bruker RAM som en stabel, går opp på funksjonen samtaler og ned på returns. Our strategi skyver hver prosedyre registre det vil bruke på stabelen og popper opprinnelsesverdiene fra stabelen når den er ferdig 30, stakkpekeren inneholder adressen til toppen av stakken. Templat for prosedyrer. Eksempel Anta at en funksjon f bare bruker 2 og 3.Hvordan lagrer vi registrene og justerer deretter stavelpekeren. Fordi en gang registerene er lagret, kan vi bruke en til å holde stakkjusteringen vlaue. Assembly programmeringsprosedyrer. Maskinen har bare 32 registre Hvordan kontrollerer vi at viktige data ikke er overskrevet. Kode for å ringe og returnere. Når vi kommer tilbake fra en prosedyre, må vi sette PC til linjen etter jr HER Hvordan vet vi hvilken adresse som er. jalr-kommandoen, er hopp og lenkeregister. Undervisningen er akkurat som jr, men det setter også 31 til adressen til neste instruksjon, dvs PC. assembly kode ser nå ut. For å komme tilbake til lasteren må vi lagre 31 på stakken først og deretter pope den før retur. Det enkleste alternativet er å sende retur parametere via register. Men dette gjør det komplisert med hensyn til å finne ut hvor register parameters er. Hvis dette er gjort, må prosedyreskriveren dokumentere sin kode slik at klienten vet hvilke register som skal sendes bakover og fremover. Det største problemet er at det bare er 32 registre Et bedre alternativ skyver parametere på stakken Dette krever også dokumentasjon. Fullkodeeksempel - Vi vil skrive en funksjon som vil summere de første n tallene. Ingen ekstra maskiner er nødvendig. Hvis du registrerer, parametere og stakkenadministreres riktig, vil rekursjonen fungere. Input og Output. Input støttes ikke. Deal with it. Output MIPS gir en plassering 0xffff000c kalt videominne, for å lagre ord hvor den minste signifikante byten vil bli skrevet ut til skjermen. exempel utskrift CS, etterfulgt av ny linje. Assembler A Assembler er et program som oversetter forsamlingskoden til ekvivalent maskinkode. Sosial kode legger til 1, 0, 0 - assembler - maskinkode 0100010. Enhver oversettelsesprosess innebærer to trinn. Analyse forstår hva som menes med kilde string. synthesis output tilsvarende målstreng. En samlingsfil er bare en strøm av tegn, en tekstfil. Ta 1 gruppe tegn inn i meningsfulle tokens. For eksempel etiketter, heks nummer, vanlig talord, registre etc. Denne delen har blitt gjort for oss, vi skal snakke om det i mer detaljert. f. eks. for C-startkoden, er hver token en forekomst av token-klassen. Steg 2 Gruppens tokens i instruksjoner, om mulig analyse. Steg 3 Output-ekvivalent maskinkodesyntese. Hvis tokens ikke er ordnet i fornuftige instruksjoner, sendes FEIL til standardfeil. Advice det er mange flere feil konfigurasjoner enn de rette for en forsamlingsfil. For eksempel vil instruktøren beq 1, 0, abc generere en sekvens av token-typer ID REGISTER COMMA REGISTER COMMA ID. Største problem med skrive assembler Hvordan samler vi. Vi kan ikke sette sammen dette fordi vi ikke vet hva abc er. Løsningen vi skal skanne gjennom programmet to ganger. Pass 1 gruppere tokens i instruksjoner og ta opp adressene til alle merkede insturctions - et symboltabell som er konseptuelt en liste over navn, adressepar. En samlingslinje kan ha mer enn en etikett. Passord 2 Oversett hver inntrengning til maskinkode Hvis en instruksjon refererer til en etikett, kan du slå opp den tilknyttede adressen i symboltabellen. Vi skal samle inn den monterte MIPS til stdout, og vi bør ouput symboltabellen til stderr. jalr for call. jr for return. Assembler 2 passerer forsamlingskode - lexer gitt til oss - tokens - pass 1 - symboltabell mellomliggende representasjon - pass 2 - maskinkode. To passerer Pass tokens i instruksjoner og bygge symboltabell se på forsamlingssporet over fra slutten av siste klasse. For å finne adressene, er det enklest hvis du skriver dem inn ved siden av hver linje av assembly. translate hver instruksjon. 2 - 0x00000104 13 - 0x0000000d. look øverst i symboltabell. kalkuler topp-PC 4 0xC-0x20 4 12-32 4 -20 4 -5.Vi får 0x1440fffb. to negere en to s kompliment verdi, flip bitene og legg til one. To samle bne 2, 0, top top - -5, ser vi på 0001 01ss ssst tttt iiii iiii iiii. opcode 000101 5.first reg 2 00010.sekund reg 0 0000.Problem vi trenger å montere 6 bit opcode , de to 5 bitene av regitere og de 16 bitene med umiddelbar verdi i en 32-bit instruksjon. Hvordan signert int instr. racket arithmetic-shift 5 -26.problem -5 0xfffffffb, vi har bare plass til 16 bits. bit - wise AND two 1s gir 1, noe annet gir 0. når vi bitwise - og med en 1, er inngangen uendret når vi bitwise - og med 0 er resultatet 0 Således bruker vi det til å slå av bitene. når vi bitwise - eller med en 1, er resultatet 1 når vi bitwise - eller med en 0 inngangen er uendret. Vi bruker det til å slå biter på. For å fikse -5, kan vi gjøre bitvis og med 0xffff. -5 0xffff 0xfffb. Dette slår av brikkene mer signifikant enn vi trenger bare å holde de siste 16 bitene. Dessverre sender vi 339804155, som er desimalrepresentasjonen og er 72-biters. Dette er dårlig. Når vi skriver ut en int, figurerer den ut sifre og deretter skriver dem ut Hvis vi skriver ut et kar, skriver vi ut ASCII-koden nøyaktig. Dessverre er det bare 8 biter, vi skriver ut fb av 1440ffffb som ønsket, så vi konverterer instruksjoner til 4 chars. in racket bruker skrivebyte og , for eksempel bitvis og -5 xfff. Det er mulig å lage en løsning ved hjelp av fagforeninger og bitfelt. Det er ikke så bærbart som forrige løsning, men veldig elegant. Feilsøking - inkludere strengen Feil et eller annet sted i feilmeldingene i rackett - Feilfeil. Loader La oss starte med å skrive et operativsystem. stjernen er i hovedsak en laster og gjør dette. 0S er også et program Hvor sitter det i minnet Andre progamer kan også løpe Hvor er de i minnet Og mer generelt er det kan være annen kode i minnet, for eksempel biblioteker. Vi kan velge en annen startadresse for programmer ved montering. Men da vet hvordan lasteren vet hvor de skal lastes. Hva om to adresser er de samme. Vi kan ikke laste inn programmer hvor som helst Etiketter kan løses til feil adresse eller bne beq. Lasten må på en eller annen måte fikse id --- vi legger til. programmet skal lastes på. id representerer en absolutt adresse. ord konstant dette er greit, vi trenger ikke å fikse det. Hva om grener med et id - nei, fordi montøren kalkulerer en relativ kompensasjon basert på PC, så flytting er unødvendig. Tips for Marmoset. Refer til MIPS forsamlingsreferanse shet. User spesifikasjon for å lage dine egne tester. Kan brukes til å sammenligne mot - din assembler shoud gir samme output as. Loader - vi kan ikke anta at vår kode alltid vil bli lastet på en fast adresse f. eks. 0x00 Hvorfor. Det kan være andre programmer eller kode i minnet. Vi har antatt at koden vår alltid er lastet på 0x00 Hvis denne antagelsen ikke lenger holder, hva bryter Labels. Hvilke instruksjoner må stilles. Lasteren må på en eller annen måte fikse. ID må legge til en konstant ID referanser en absolutt adresse. Consatnt Flytter IKKE. Hva om Brancher. no, fordi Assembler beregner en relativ kompensasjon basert på PC, så flytting er unødvendig. Alt annet inkludert BNE, BEQ Flytter ikke. Nå har vi OS 3 0.Problem igjen - dette vil ikke work. Assembled fil er en strøm av biter - hvordan vet vi hvilken som kom fra en med et ID og som er instruktører? Vi kan ikke Vi trenger hjelp Vi trenger mer info fra assembler. We merker at produksjonen fra de fleste montører ikke er ren maskinkode det kalles objektkode En objektfil inneholder binær kode, men inneholder i tillegg tilleggsinformasjon om filen som vil være nødvendig. Vi bruker objektfilformell MERL MIPS Executable Relocatable Linkable. Merk at dette er laget for CS241, så prøv ikke å undersøke den. Innenfor en objekts fil. koden i binær. som linjeledere må flyttes fordi de er id-instruksjoner. Andre ting som skal legges til senere. Headers har en informasjonskapsel for å fortelle oss at det er en MIPS-fil, og deretter lengdene på t han er helt fyldig og koden. Formatkoden er alltid 1 for flyttingen, og den tilhørende adressen er adressen i MIPS-koden til det flyttbare ordet. Header er alltid av størrelse 12 I vårt eksempel på lysbildet er koden størrelse 32 og symboltabellen er størrelse 16.Vi merker at 0x10000002 er MIPS for beq 0, 0, 2, det vil si en kommando for å hoppe over header, slik at MERL-filer kan utføres som vanlige MIPS-programmer hvis de lastes på 0x00.Vi vil også at montøren å generere flyttbar objektkode som vi gjorde ved å legge til relocs i eksemplet som er som vi vil få til slutt. Relocation Tool. input merl fil og en flyttingsadresse. output ikke-flyttbar mips-fil med merl header og footer fjernet, klar til å lastes på adresse. Lader Tools. both av disse ta et valgfritt 2. argument, som er adressen for å laste mips filen. Eksempelbelastning på 0x10000.we notatflytting gjøres vanligvis av lasteren - vi gjør det på denne måten som en visualisering av prosessen. Loader Relocation Algorithm. What vi kom opp med Sist klassen virker generelt, men kan fortsatt bli ødelagt. Hvis vi hopper til en consatnt adresse eller gjør matte på en etikett, er vi i trøbbel. Dette er imidlertid dårlig praksis. Dette er et skifte i rollen som etiketter da de ble innført var de en convenience, but now they are a necessity Essentially, if you want relocatable code, use labels. We often find it convenient to split MIPS programs into smaller units, for the same reason as with higher-level languages There is a major issue How can an assembler resolve a reference to a label in a different file. We have and with shared labels. Solution to assemble, concatenate the files and then assemble. cat java. This works, but it doesn t save us any work if I make a small change in but is huge. Also, I may only want to give someone the binary not the source We want to compile first then link after. Solution 2 Can we assemble first and then cat. header binary reloc table. No, they are all assembled to start at address 0, but the second two would need to relocatable. Thus w e need to assemble to MERL, not just MIPS However, if we cat two MERL files, we don t get a MERL file. Solution we need a tool smarter than cat. It must be able to understand MERL files and put them together intelligently. Such a tool is called a linker. And yet what should an assembler do with references to lables it cannot find. We will need to change the assembler. Aside what happens conceptually when I run g. asm o kind o lexer o -- assembler outpiler generates asm o, kind o, lexer o. o extention used to represent object files. linker combines the o files into an executable. Import and Export. We lose a valuable error-check. If a label is not defined, then our old assembler assumes an error. but now we just expect to find it within a linked-in file. How can an assembler tell between errors and intentional behaviour. The new assembler directive. id tells the assembler to ask for id to be linked in This does not assemble to a word MIPS. if we have a label abc, and that label does not occur, and no abc, then we have an error. Format code 0x11 means External Symbol Reference ESR. we need the name of the symbol, the address of use where the blank needs to be filled in. ESR entry contains. word 2 location of where symbol is used. word 3 length of symbol in chars n. word 4- 3 n ASCII chars in the symbol name one word per char. example ESR entry. How do we know which vsion of abc to use We can t assume labels won t be duplicated. makes id available for linking - this does not assemble to a word of MIPS. tells the assembler to make an entry in the MERL table. MERL entry tpe External Symbol Defintion ESD. ESD entry contains. word 2 address the symbol represents. word 3 length of symbol name n. word 4-3 n ASCII name. example ESD Entry. MERL now contains code, relocator addresses, addresses and names of ESR and EDR entries. Note that instructions referring to external symbols must also be relocated. Augment MERL files to help linker. MERL Header Code Relocation and External Symbol Table. Symbol table contains relocatable addresses, adresses and names of ESR imports and ESD exports. The linker Given two MERl files - how do we link them What are the steps. a - we want to subtract the header from m2 and then push forward by length of m1 code a relocate by a add a to every address in. resolve symbols and check for duplicates in exports - ERROR. if AND 0 then ERRROR for all addr1, label in do if exists addr2, label in then - addr2 remove addr1, label from add addr1 to for all addr2, label same. merge symbol tables. imports and exports and relocates and. output linked program with new header. output MERL cookie output totalCodeLen total imports, exports, relocates 12 output totalCodeLen 12 output output output imports, exports, relocates. Assembly language has a simple structure, is easy to parse, straightforward and unambiguous. Now we turn our attention to the compiler Source program - compiler - assembly code equivalent meaning. First step of our compiler source program - scanner lexical analysis - tokens. A high-level language is a more complex structure It is harder to recogn ize, and we have no single translation to machine code To convert to machine language we use a compiler. How does a compiler recognize if a given program is valid Note we re not asking if it s logically correct a much harder problem , but just whether the sequence of characters forms and allowed program based on the specifications of the language. Eventually, once the compiler can recognize whether a program is valid, how do we translate the program into an equivalent program in the target language usually lower-level. Is this a valid c program. what about the same program with a b 5 s. no it will be parsed as a b which is invalid. nope, same interpretation as above. How can we handle this complexity. We want a formal theory of string recognition - general principles that work in the context of any programming language. alphabet finite set of symbols e g typically denoted. String word finite sequence of symbols from a, abc, cbca, etc. Length w of symbols in w. Empty string is the empty string, not a symbol 0.Language a set of strings e g , b, aab, aaaab. is the empty word, while is the empty language. is a singleton language containing only the empty word. How can we automatically recognize whether a given string belongs to a given language This is mindblowing, and depends on how complex the language is Since the answer is dependent on language complexity, we will charactertize languages according to how hard recognition process is we will create classes of languages based on the difficulty of recognition This is based on Chomsky Hierarchy. Finite easy. Regular not so easy. Context-free pretty decent. Context-sensitive challenging. Recursive difficult. anything-else impossible. We want to study high-level languages at as easy a class level as possible, and move down when we have to. These languages have finitely many words. Write code to answer w L such that w is scanned exactly once, without storing previously seen characters. We can recognize a word by comparing each word in the finite set of words - but we won t use that approach. started compi ler. formal languages. chomsky hierarchy. context sensitive. very losely, recursive means that there is an algorithm or program to determine whether any given input is a member of the language. An abstraction of this program. Circles are states - configurations of the program based on input seen. The double circles are accepting if the program halts there. Example - mips operators. Since programming langagues don t usually admit only a finite many programs, finite languages are not much use. These languages are built from finite languages, but also support the following operations. Example show that is regular. This syntax is very tedious We have Regular Expressions. Question - is the language C regular. We have IDs a-zA-Z. A C program is a sequence of tokens, each of which come from a regular language. How can we define which sequences of tokens are valid We don t know yet. Thus, our answer is maybe. Can we recognize arbitrary languges automatically. Can we harness what we learned about recognizing fini te languages LOOPS. These machines are called Deterministic Finite Automata DFAs. Always a start state. For each character in the input follow the corresponding arc to the next state. If in an accepting state when input is exhausted, accept - else reject. What is missing. What if there is no transition Consider the ab example - what if our input is ab If we fall off the machine, reject More formally, an implicit error state exists all unlabelled transitions go there An error state has an all input loop back to itself and is non-accepting. Example String over with an even number of a s and an odd number of b s. Formal definition of DFA a DFA is a 5-tuple , Q, q0, A, , where. is a finite non empty set alphabet. Q is a finite, non-empty set states. q0 is an element of Q start state. A is a subset of Q accepting states end states. Qx - Q Transition function state and input symbol and gives next state. consumes a single character of input. we can extend to a function that consumes an entire word. Thus, a DFA, M , Q, q0, A, accepts a word w if q0, w is in A. example from before. Last time Regular Expressions. Handy to know precedence highest to lowest. Example a bc is a b c. A DFA, M , Q, q0, A, accepts a word w if q0, w is in A. If M is a DFA, we denote L M the language of M , the set of all words accepted by M L M. L is regular iff L L M for some other words, the regular languages are accepted by DFAs. Proof we will prove this later. Implementing a DFA. Unfortunatley this is very tedious Instead, we could use a lookup table see provided assembler starter code of states in columns and characters in rows - where they intersect is next state. Currently, our DFA takes an input string and returns yes no whether the given string is in the language However, it is possible to add an output facility to a DFA, resulting in a transducer. DFAs with actions can attach computation to the arcs of a DFA For example, consider L , where we compute the value of the number. sorry for horrible quality. another possible action would be emit a token - here we emit the current value of our number. Non-Deterministic Finite Automata What do we gain by making our DFAs more complex e g L w ends in abb. What if we allowed more than one arc edge with the same label from the same state. The machine choses one this is non-deterministic. We can think of it as magic, that it knows where it goes - or we can think of it as trying every path and see if there is any path that ends in an accepting path, then it accepts. We will accept if some set of choices leads to an accepting state Returning to our example.- start - a - - b - - b - start loops back to itself with a and b. The machine guesses to stay in the first state until it reaches the final abb, then transitions to accepting. NFAs are often simpler than DFAs. Formally NFA is a 5-tuple , Q, q0, A., Q are finite non-empty sets alphabet, states. q0 start and A subset of Q accepting. relation - Qx -- subsets of the powerset of Q 2 Q. This is the powerset of Q, which makes it non-deterministic The powerset is the set of all subsets of Q includes the empty set and Q. We want to accept if some path through the NFA lead to an accepting state, and reject if no such path exists. for NFAs sets of states x - sets of states. P, empty P, where P is a set of states. P, cw union of q, c for all q in P w. And we accept if, w union A 0. NFA Simulation Procedure. work with the following NFA, we will simulate baabb. BUT WAIT I am adding the right column to the table above as we speak If we give each set of states a name, and call those states, every NFA becomes a DFA For example. note if we draw this it looks just like our DFA from before. Holy cow, we have a DFA because D contains an accepting state. Consider L U with an even of a s We can draw an NFA. The DFA is much harder to produce Let s do a trace. Now we build the DFA via the subset construction. Accepting state are any states that includes an accepting state from the original NFA Every NFA hs an equivilent DFA, and NFAs recognize the same class of languages. What if we let ourselves change state without consuming a character We call these transitions we label the arrow as. This is a free pass to a new state without reading a character. This makes it easy to glue smaller automa together. Revisiting the abov e example. By the same renaming trick as before ie the subset construction every - NFA has an equivilent DFA Thus, - NFAs and DFAs recognize the same class of languages. Yes, DFAs and NFAs are finite state machines and the class of languages accepted by FSM are regular languages. Proof of Kleene s theorem one way. L is regular if L L M for some DFA M. If we can find an - NFA for every regular expression, then we have proved one direction of Kleene s theorem. The below pictures show empty languages, languages, single caracter, alternation, concatenation, repetiton. Thus every regular language has an equivalent NFA, which has an equivalent DFA and the conversion can be automated. Is C a regular language. C keywords, identifiers, literals, operators, comments, punctuation. These are all regular languages, and sequences of these are also regular, so we can use finite automata to do tokenization scanning, lexical analysis. Ordinary DFA can only tell us if a word is in a language We need something that takes an input string w, breaking w into w1,w2 wn such that each wi is in L and then output each wi. Consider L is regular. Let ML be the DFA that recoginizes L Then the second representation M which is a nonempty sequence of tokens is NFA modified from the NFA for ML - using t he rules from above for. We can add an action to each each - move such as output a token Our machine is non-deterministic - moves are optional. The question does the current setup guarantee a unique decomposition w w1 w2 2n The answer is no. Consider just the portion of the machine that does IDs.- --a-zA-Z-- --a-zA-Z0-9-- back to ending state. output token from ending state back to start state. The input abab could be interpreted as 1,2,3 or 4-tokens. How can we fix this We could always return the longest possible next token However, this can still fail. Consider L , w aaaa. If we take the longest possible token, we take aaa first and then we are stuck. However, we could have tokenized the string successfully as aa and aa. Oh well It would be bad to design a programming language like this. But wait many of the languages we use are designed like this. Remember the example when we started. c a b - a b NOT a b. Again from out example, c a b - a b which is invalid. But, a b would be valid - but that s not what the compiler does. Another example from c. vector vector v. c treats the like the bitshift operator instead of two closing angle brackets We have to trick the scanner. vector vector v. Fixed in c 11. Maximal Munch Algorithim. Simplified Maximal Munch as above, but if we are not in an accepting state, when no transition possible, then we ou tput an error don t backtrack. Our identifier must start and end with a letter and may contain a single. We also accept operator. For input ab. we find a valid start state, then b, and then -, but we cannot scan past this point since no further action is possible. Thus we would go back ab since it was the last valid point, and then continue from there. THe SMM algorithm would simply find an error but in practice this is usually sufficient. Note that if we have L we show it s regular by describing it with a regular expression - using only operations in regular expressions that we talked about - here it s aa. Scanning algorithm - Maximal Munch vs Simplified Maximal Munch. difference - no backtracking. Now consider alphabet of brackets. Can we build a DFA for L. Each new state lets us recognize one more level or nesting, but no finite number of states recognizes all levels of nesting, and a DFA must have a finite number of states. tokens Parsing syntactic analysis parse tree. what is required. Given a formal syntax specication, the parser verfiies whether the incoming tokens have a valid syntax confirming to the specifications and outputs a parse tree to allow semantic analysis in the following step. This cannot be done with regular languages, so we move to the next class in the Chomsky Hierarchy. These are languages which can be described by a context-free grammar a set of rewrite rules. Following the balanced paranthesis example. a word in the language surrounded by S - S. the concatenation of two words in the language S - SS. The shorthand for this is S - S SS. Example show how this system generates. The notaton we have used. means derives. a - means can be dervied from a by one application of a grammar rule. we formally define a context-free language to consist of. an alphabet of terminal symbols. a finite non-empty set N of of non-terminal symbols, such that N union null set. we often use V vocabulary to denote N U. a finite set of P productions, where productions have the form A - , A in N, in V. an element S in N as the start symbol. In our parentheses example, we have that terminal symbols are , non-terminal symbols are , and S is our start symbol. a, b, c are elements of characters, terminals. w, x, y are elements of words. A, B, C S are elements of N non-terminals. S is the start symbol., , indicate elements of V. We write A if there is a production A - in P. means that delata1 1 n for n 0.Definition L G , where L G is the langauge specified by G. Note that this is a set of strings of terminals only A language L is context-free if L L G , for some context-free grammar G. Example Palindromes over. S - a b c aSa bSb cSc. We can also define this as. S - aSa bSb cSc M. Show that S abcba. S aSa abSba abMba abcba. This proccess is called a derivation. But we could have speciiced this with a regular expression. Show that S a b. S S op S a Op S a S a b. alternatively S S op S S op b S b a b. Note that we have a choice over which symbmol to expand first. Leftmost Derivation always expand leftmost symbol first. Rightmost Derivation always expand rightmost symbol first. We are showing too much information, since this information doesn t matter and this can get very long We can express them naturally and succinctly as a tree stucture. Example consider abcba. For the leftmost derivation, there is a unique corresponding parse tree and vice versa. Midterm - we will provide. MIPS reference sheet. MERL file format spec. ASCII chart. CFL context free languages CFGs. In a derivation, one non-terminal in the current string is selected and replaced or rewritten using RHS of a production rule for that non-terminal. e g production rules. What is the RE for this langugae. Leftmost derivation for a bxc S S Op S a Op S a S a S Op S a b Op S a b x S a b x c. Or, expand the first S first S S Op S S Op S Op S a Op S Op S a S Op S a b Op S a b x S a b x c. These correspond to DIFFERENT parse trees A grammar for which the same word has more than one distinct parse tree is called ambiguous The grammar we defined above is ambiguous If we only care about whether a string is in the language, the ambiguity doesn t matter. As compiler writers we want to know why a word is in a language, so the derivation matters Why does it matter The shape of the parse tree describes the meaning of the word, so a word with an ambiguous parse may have multiple possible meanings. In the first tree, bxc is grouped more tightly, and in the second a b is grouped So it could mean a bxc or a b xc. END MIDTERM CONTENT. What do we do about this. use heuristics precedence to guide the derivation proccess. Make the grammar unambiguous. Then we have a strict left to right precedence. new producton rules that prevent uncessary brackets. new derivation NOTE use single arrows for production rules and double arrows for derivation. If L is context-free, is there always an unambiguous grammar. No There are ineheritently ambiguous languages that only have ambiguous grammars. Can we construct a tool to tell us if a grammar is ambiguous No This is undecidable There is provably no algorithm to solve this problem The equivalence of grammars is also undecidable. We need to build a recognizer - what class of programs recognize CFLs. regular languages are represented by DFAs, a program with finite memory. Context-free languages must recognize infinite memory, they are represented by NFA with a stack. But we need more than a yes no answer We don t want to have a program and the compiler just say yes or no. We ca n use grammars to specify the syntax of a language For example, a while loop. Parse trees allow us to understand the program We need to know the derivation parse tree and error diagnosis The problem of finding the derivation is called parsing How do we use grammar to go from source program to a parse tree. We have two choices. forwards - top down - start at S, work to w. backwards - bottom up - start at w, work to S. How can we derive S abywx We want an algorithm to generate the derivation. Consider a leftmost derivation. What are we doing here Match input symbols startng from left until you encounter a non-terminal Replace non-terminal with RHS of a rule and continue matching more formally. Use the stack to store s in reverse and match against characters in input. Invariant the consumed input plus the reverse of the stack contents is equal to i Sean calls these left right sentential forms - for leftmost rightmost derivations. For simplicity, we will use augmented grammars for parsing We invent two new symbols BOF and EOF and a new start symbol S. say w BOF a b y w x EOF. Let s codify this. When the top of other stack is a terminal pop and matched against the input. when TOS top of stack is a non-terminal A, pop A and push reverse , where A - is a grammar rule. accept when stack and input are empty. brute force try all combinations until one works - this is inefficient. we want a Deterministc Procedure with no backtracking. our solution is to use the next symbol of input lookahead to help decide. Construct a predictor table - given a non-terminal on the stack and an input symbol, tell us which production to use Empty cells are errors. The rest of the table can be used for descriptive error mesesages Parse error at row, col expecting one of symbols where the predictor table does have entries. What if a cell contains more than one rule The method breaks down. This grammar is called LL 1.L left to right scan of input. L leftmost derivations produced.1 1 symbol of lookahead. top down parsing - starting with s ending at w - recall that triangle diagram. We can automatically compute the predictor table. Predict A, a - rules that apply when A is on the stack and a is the next input character. First , in V is the set of characters thata can be the first letter of a derivation starting from. For example First AyB. So Predict A, a.However, this is not quite right What if A. Then a might not come from A, but from something AFTER A. We missed something - what if there is more than one production with the same LHS How do we know which one to pick. So, Predict A, a U. Nullable true if , false otherwise. Follow A the set of terminal symbols that can come immediately after A in a derivation of S. In our example Follow Aputing Nullable - Nullable true if . 