Delo z nizi. Poletna šola 2014 Programiranje v višji prestavi. Univerza v Ljubljani Fakulteta za računalništvo in informatiko.

Velikost: px
Začni prikazovanje s strani:

Download "Delo z nizi. Poletna šola 2014 Programiranje v višji prestavi. Univerza v Ljubljani Fakulteta za računalništvo in informatiko."

Transkripcija

1 Univerza v Ljubljani Fakulteta za računalništvo in informatiko Poletna šola 2014 Programiranje v višji prestavi

2 Notacija S vhodni niz znakov ali besedilo (ang. string) N dolžina niza (število znakov) Σ abeceda σ velikost abecede 1 Pozor: Dejanska velikost niza v pomnilniku je lahko drugačna (null-delimited nizi, različna kodiranja znakov)

3 Notacija S vhodni niz znakov ali besedilo (ang. string) N dolžina niza (število znakov) Σ abeceda σ velikost abecede Primer: S = BANANA N 1 = 6 Σ = {B, A, N} σ = 3 1 Pozor: Dejanska velikost niza v pomnilniku je lahko drugačna (null-delimited nizi, različna kodiranja znakov)

4 Oblike besedil: Strukturirana: Besedilo je sestavljeno iz več besed. Običajno tudi iščemo po besedah. (programska koda, angleščina, slovenščina) Nestrukturirana: Besedilo nima jasnih besed ali pa je veliko besed sestavljank. (nemščina, človeški genom, glasba)

5 Oblike besedil: Strukturirana: Besedilo je sestavljeno iz več besed. Običajno tudi iščemo po besedah. (programska koda, angleščina, slovenščina) Nestrukturirana: Besedilo nima jasnih besed ali pa je veliko besed sestavljank. (nemščina, človeški genom, glasba) Problemi pri strukturiranih besedilih: Ali se beseda P (ang. pattern) nahaja v besedilu? Kje in kolikokrat se beseda ponovi? Ali se katera koli beseda začne na P? Ali je P koren katere koli besede? Ali je P pripona katere koli besede?

6 Oblike besedil: Strukturirana: Besedilo je sestavljeno iz več besed. Običajno tudi iščemo po besedah. (programska koda, angleščina, slovenščina) Nestrukturirana: Besedilo nima jasnih besed ali pa je veliko besed sestavljank. (nemščina, človeški genom, glasba) Problemi pri strukturiranih besedilih: Ali se beseda P (ang. pattern) nahaja v besedilu? Kje in kolikokrat se beseda ponovi? Ali se katera koli beseda začne na P? Ali je P koren katere koli besede? Ali je P pripona katere koli besede? Problemi pri nestrukturiranih besedilih: Ali se vzorec P pojavi v besedilu? Kje in kolikokrat se vzorec pojavi?

7 Kako iskati Kako iščemo?

8 Kako iskati Kako iščemo? Odvisno od scenarija!

9 Kako iskati Kako iščemo? Odvisno od scenarija! Besedilo ves čas isto, vzorci se menjajo. Vzorec ves čas isti, besedilo se menja.

10 Kako iskati Kako iščemo? Odvisno od scenarija! Besedilo ves čas isto, vzorci se menjajo. Vzorec ves čas isti, besedilo se menja. Ideja: V prvem primeru najprej indeksiramo besedilo, kar traja nekaj časa, vendar bo iskanje po kazalu (in ne neposredno po besedilu) potem bistveno hitreje. V drugem primeru porabimo nekaj časa, da spravimo vzorec v obliko, s katero bi hitreje iskali po besedilu.

11 Hranjenje Kako shraniti strukturirano besedilo tako, da bomo lahko hitro iskali po njem?

12 Hranjenje Kako shraniti strukturirano besedilo tako, da bomo lahko hitro iskali po njem? Ideja: Slovar, ki preslika iskan ključ na mesta pojavitev ključa v besedilu. Kaj točno uporabiti?

13 Hranjenje Kako shraniti strukturirano besedilo tako, da bomo lahko hitro iskali po njem? Ideja: Slovar, ki preslika iskan ključ na mesta pojavitev ključa v besedilu. Kaj točno uporabiti? Dvojiško iskalno drevo

14 Hranjenje Kako shraniti strukturirano besedilo tako, da bomo lahko hitro iskali po njem? Ideja: Slovar, ki preslika iskan ključ na mesta pojavitev ključa v besedilu. Kaj točno uporabiti? Dvojiško iskalno drevo Zgoščevalna tabela

15 Hranjenje Kako shraniti strukturirano besedilo tako, da bomo lahko hitro iskali po njem? Ideja: Slovar, ki preslika iskan ključ na mesta pojavitev ključa v besedilu. Kaj točno uporabiti? Dvojiško iskalno drevo Zgoščevalna tabela Številsko drevo

16 Dvojiško iskalno drevo (ang. Binary search tree)

17 Dvojiško iskalno drevo (ang. Binary search tree) Ideja: Iskalno drevo, vozlišča hranijo nize, manjši niz je tisti, ki je po abecedi (leksikografsko) pred drugim.

18 Dvojiško iskalno drevo (ang. Binary search tree) Ideja: Iskalno drevo, vozlišča hranijo nize, manjši niz je tisti, ki je po abecedi (leksikografsko) pred drugim. ključ vrednost urar 3 avto 5 ura 2 5 avto pes 1 urar 3 2 urnik 0 ura 0 urnik pesem 4 pes 1 pesem 4

19 Dvojiško iskalno drevo (ang. Binary search tree) Ideja: Iskalno drevo, vozlišča hranijo nize, manjši niz je tisti, ki je po abecedi (leksikografsko) pred drugim. ključ vrednost urar 3 avto 5 ura 2 5 avto pes 1 urar 3 2 urnik 0 ura 0 urnik pesem 4 pes 1 pesem 4 Pozor: Če imamo nize že zložene v tabelo po abecedi, potem namesto iskanja po drevesu iščemo kar po tabeli bisekcija!

20 Zgoščevalna tabela (ang. Hash table) Zgoščeno vrednost izračunamo za vsako besedo v vhodnem besedilu. Nato vstavimo besedo kot običajni element (npr. število) v zgoščevalno tabelo.

21 Zgoščevalna tabela (ang. Hash table) Zgoščeno vrednost izračunamo za vsako besedo v vhodnem besedilu. Nato vstavimo besedo kot običajni element (npr. število) v zgoščevalno tabelo. Rabin-Karpova zgoščevalna funkcija: H = c 1 a k 1 + c 2 a k c k a 0

22 Zgoščevalna tabela (ang. Hash table) Zgoščeno vrednost izračunamo za vsako besedo v vhodnem besedilu. Nato vstavimo besedo kot običajni element (npr. število) v zgoščevalno tabelo. Rabin-Karpova zgoščevalna funkcija: H = c 1 a k 1 + c 2 a k c k a 0 Primer zgoščene vrednosti za a = 2: URAR, dolžina je k = 4 U je 20. črka, R je 17. črka, A pa 0. črka po abecedi: = = 245 Pozor: Če želimo hraniti več pojavitev niza, potrebujemo multimap.

23 Zgoščevalna tabela nadal. (ang. Hash table) Vzemimo velikost polja M = 8.

24 Zgoščevalna tabela nadal. (ang. Hash table) Vzemimo velikost polja M = 8. H( avto ) = 136 mod 8 = 0 H( ura ) = 114 mod 8 = 2 H( urar ) = 245 mod 8 = 5 H( urnik ) = 534 mod 8 = 6 H( pes ) = 86 mod 8 = 0 H( pesem ) = 364 mod 8 = 0

25 Zgoščevalna tabela nadal. (ang. Hash table) Vzemimo velikost polja M = avto ura 5 2 urar 3 urnik 0 pes 1 pesem 4 ključ avto ura urar urnik pes pesem vrednost

26 Številsko drevo (ang. trie) Problem iskalnih dreves in zgoščevalne tabele: Ni mogoče iskati po začetkih besed (npr. search-as-you-type).

27 Številsko drevo (ang. trie) Problem iskalnih dreves in zgoščevalne tabele: Ni mogoče iskati po začetkih besed (npr. search-as-you-type). Rešitev: Številsko drevo hrani besede od korena navzdol, razbite po črkah. 5 a v t o p e s e a r u r n i ključ avto ura urar urnik pes pesem vrednost m 4 k 0

28 Stisnjeno številsko drevo (ang. compressed trie) Izboljšava: Namesto svojega vozlišča za vsako črko, vozlišča z enim naslednikom združimo.

29 Stisnjeno številsko drevo (ang. compressed trie) Izboljšava: Namesto svojega vozlišča za vsako črko, vozlišča z enim naslednikom združimo. 5 avto pes 1 ur em a r nik ključ avto ura 0 urar urnik pes pesem vrednost

30 Programiranje številskih dreves Kako predstaviti vozlišče? 1 class TrieNode { 2 string str ; 3 void * value ; 4? children ; 5 };

31 Programiranje številskih dreves Kako predstaviti vozlišče? 1 class TrieNode { 2 string str ; 3 void * value ; 4? children ; 5 }; Do otrok dostopamo prek: povezanega seznama,

32 Programiranje številskih dreves Kako predstaviti vozlišče? 1 class TrieNode { 2 string str ; 3 void * value ; 4? children ; 5 }; Do otrok dostopamo prek: povezanega seznama, polje kazalcev v velikosti abecede σ,

33 Programiranje številskih dreves Kako predstaviti vozlišče? 1 class TrieNode { 2 string str ; 3 void * value ; 4? children ; 5 }; Do otrok dostopamo prek: povezanega seznama, polje kazalcev v velikosti abecede σ, trojiškega iskalnega drevesa,

34 Programiranje številskih dreves povezan seznam Vozlišče ima kazalec na prvega otroka in na sorojenca. 1 class TrieNode { 2 string str ; 3 void * value ; 4 TrieNode * child ; 5 TrieNode * sibling ; 6 };

35 Programiranje številskih dreves povezan seznam Vozlišče ima kazalec na prvega otroka in na sorojenca. 1 class TrieNode { 2 string str ; 3 void * value ; 4 TrieNode * child ; 5 TrieNode * sibling ; 6 }; ključ AC AG CA TC vrednost child A sibling C T C G A C

36 Programiranje številskih dreves s poljem Vsako vozlišče vsebuje polje σ kazalcev na otroke. Do otroka dostopamo neposredno z indeksom njegove črke. 1 class TrieNode { 2 string str ; 3 void * value ; 4 TrieNode children [ ALPHABET ]; 5 };

37 Programiranje številskih dreves s poljem Vsako vozlišče vsebuje polje σ kazalcev na otroke. Do otroka dostopamo neposredno z indeksom njegove črke. 1 class TrieNode { 2 string str ; 3 void * value ; 4 TrieNode children [ ALPHABET ]; 5 }; ključ AC AG CA TC vrednost A C T A C G T C G A C

38 Programiranje številskih dreves TST Trojiško iskalno drevo (ang. Ternary Search Trie) je kompromis obeh prejšnjih metod: hranimo le kazalce na otroke, ki obstajajo, iskanje pa poteka z bisekcijo. 1 class TrieNode { 2 string str ; 3 void * value ; 4 TrieNode * eq; 5 TrieNode * ls; 6 TrieNode * gt; 7 };

39 Programiranje številskih dreves TST Trojiško iskalno drevo (ang. Ternary Search Trie) je kompromis obeh prejšnjih metod: hranimo le kazalce na otroke, ki obstajajo, iskanje pa poteka z bisekcijo. 1 class TrieNode { 2 string str ; 3 void * value ; 4 TrieNode * eq; 5 TrieNode * ls; 6 TrieNode * gt; 7 }; ključ AC AG CA TC vrednost A ls eq C gt T 1 C 4 G 5 A 12 C

40 Priponsko drevo (ang. Suffix tree) Številsko drevo omogoča iskanje po začetkih besed. Kaj pa po korenu ali priponi?

41 Priponsko drevo (ang. Suffix tree) Številsko drevo omogoča iskanje po začetkih besed. Kaj pa po korenu ali priponi? Priponsko drevo je stisnjeno številsko drevo, ki hrani vse predpone (ali besed).

42 Priponsko drevo (ang. Suffix tree) Številsko drevo omogoča iskanje po začetkih besed. Kaj pa po korenu ali priponi? Priponsko drevo je stisnjeno številsko drevo, ki hrani vse predpone (ali besed) S=ABRAKADABRA$

43 Priponsko drevo (ang. Suffix tree) Številsko drevo omogoča iskanje po začetkih besed. Kaj pa po korenu ali priponi? Priponsko drevo je stisnjeno številsko drevo, ki hrani vse predpone (ali besed) S=ABRAKADABRA$ 1 $ 12 2 A$ 11 3 ABRA$ 8 4 ABRAKADABRA$ 1 5 ADABRA$ 6 6 AKADABRA$ 4 7 BRA$ 9 8 BRAKADABRA$ 2 9 DABRA$ 7 10 KADABRA 5 11 RA$ RAKADABRA$ 13

44 Priponsko drevo (ang. Suffix tree) Številsko drevo omogoča iskanje po začetkih besed. Kaj pa po korenu ali priponi? Priponsko drevo je stisnjeno številsko drevo, ki hrani vse predpone (ali besed) S=ABRAKADABRA$ 1 $ 12 2 A$ 11 3 ABRA$ 8 4 ABRAKADABRA$ 1 5 ADABRA$ 6 6 AKADABRA$ 4 7 BRA$ 9 8 BRAKADABRA$ 2 9 DABRA$ 7 10 KADABRA 5 11 RA$ RAKADABRA$ $ B RA $ 12 KA D A B RA $ D A B RA $ 6 KA D A B RA $ 1 4 $ A B RA $ 9 D A B RA $ 7 KA D A B RA $ 2 KA D A B RA $ 5 RA 10 $ KA D A B RA $ 3

45 drsečim (ang. sliding window) S: P: NA DREVESU RASTEJO BANANE. BANANA

46 drsečim (ang. sliding window) S: P: NA DREVESU RASTEJO BANANE. BANANA

47 drsečim (ang. sliding window) S: P: NA DREVESU RASTEJO BANANE. BANANA

48 drsečim (ang. sliding window) S: P: NA DREVESU RASTEJO BANANE. BANANA

49 drsečim (ang. sliding window) S: P: NA DREVESU RASTEJO BANANE. BANANA

50 drsečim (ang. sliding window) S: P: NA DREVESU RASTEJO BANANE. BANANA

51 drsečim (ang. sliding window) S: P: NA DREVESU RASTEJO BANANE. BANANA

52 drsečim (ang. sliding window) S: P: NA DREVESU RASTEJO BANANE. BANANA

53 drsečim (ang. sliding window) S: P: NA DREVESU RASTEJO BANANE. BANANA

54 drsečim (ang. sliding window) S: P: NA DREVESU RASTEJO BANANE. BANANA

55 drsečim (ang. sliding window) S: P: NA DREVESU RASTEJO BANANE. BANANA

56 drsečim (ang. sliding window) S: P: NA DREVESU RASTEJO BANANE. BANANA Vaja: Koliko časa potrebujemo?

57 drsečim (ang. sliding window) S: P: NA DREVESU RASTEJO BANANE. BANANA Vaja: Koliko časa potrebujemo? Vsaj N primerjav znakov, če se vedno že prvi znak okna ne ujema in NM/2, če je vsak M-ti znak zgrešitev. npr. S =AAABAAABAAABAAAB in P =AAAA.

58 Boyer-Moorov algoritem Imejmo S =AAABAAABAAABAAAB in P =AAAA iz prejšnjega primera.

59 Boyer-Moorov algoritem Imejmo S =AAABAAABAAABAAAB in P =AAAA iz prejšnjega primera. Prva zgrešitev se pojavi, ko je okno na poziciji i = 0 in znaku j = 3, če štejemo od 0 dalje.

60 Boyer-Moorov algoritem Imejmo S =AAABAAABAAABAAAB in P =AAAA iz prejšnjega primera. Prva zgrešitev se pojavi, ko je okno na poziciji i = 0 in znaku j = 3, če štejemo od 0 dalje. Ideja: Namesto, da premaknemo okno za 1 znak naprej, ga premaknemo za 4 znake naprej, saj znaka B sploh nimamo v vzorcu!

61 Boyer-Moorov algoritem Imejmo S =AAABAAABAAABAAAB in P =AAAA iz prejšnjega primera. Prva zgrešitev se pojavi, ko je okno na poziciji i = 0 in znaku j = 3, če štejemo od 0 dalje. Ideja: Namesto, da premaknemo okno za 1 znak naprej, ga premaknemo za 4 znake naprej, saj znaka B sploh nimamo v vzorcu! Algoritem: Zgradimo tabelo, ki hrani število znakov, ki jih lahko preskočimo glede na trenutni znak.

62 Boyer-Moorov algoritem Imejmo S =AAABAAABAAABAAAB in P =AAAA iz prejšnjega primera. Prva zgrešitev se pojavi, ko je okno na poziciji i = 0 in znaku j = 3, če štejemo od 0 dalje. Ideja: Namesto, da premaknemo okno za 1 znak naprej, ga premaknemo za 4 znake naprej, saj znaka B sploh nimamo v vzorcu! Algoritem: Zgradimo tabelo, ki hrani število znakov, ki jih lahko preskočimo glede na trenutni znak. Primera: Vzorec AAAA: vedno lahko preskočimo kar vse 4 znake, če se pojavi kateri koli znak A na vhodu.

63 Boyer-Moorov algoritem Imejmo S =AAABAAABAAABAAAB in P =AAAA iz prejšnjega primera. Prva zgrešitev se pojavi, ko je okno na poziciji i = 0 in znaku j = 3, če štejemo od 0 dalje. Ideja: Namesto, da premaknemo okno za 1 znak naprej, ga premaknemo za 4 znake naprej, saj znaka B sploh nimamo v vzorcu! Algoritem: Zgradimo tabelo, ki hrani število znakov, ki jih lahko preskočimo glede na trenutni znak. Primera: Vzorec AAAA: vedno lahko preskočimo kar vse 4 znake, če se pojavi kateri koli znak A na vhodu. Vzorec ABAB: če se pojavi B na vhodu in pričakujemo A, potem preskočimo le en znak. Isto velja obratno. Če je na vhodu kateri koli drug znak, preskočimo 4 znake.

64 Boyer-Moorov algoritem preskočna tabela Preskočna tabela vsebuje indekse najbolj desnih pojavitev vseh možnih znakov abecede Σ. P = B A N A N A

65 Boyer-Moorov algoritem preskočna tabela Preskočna tabela vsebuje indekse najbolj desnih pojavitev vseh možnih znakov abecede Σ. P = B A N A N A

66 Boyer-Moorov algoritem preskočna tabela Preskočna tabela vsebuje indekse najbolj desnih pojavitev vseh možnih znakov abecede Σ. P = B A N A N A Σ: A B C D E... M N O...

67 Boyer-Moorov algoritem preskočna tabela Preskočna tabela vsebuje indekse najbolj desnih pojavitev vseh možnih znakov abecede Σ. P = B A N A N A Σ: A B C D E M N O

68 Boyer-Moorov algoritem preskočna tabela Preskočna tabela vsebuje indekse najbolj desnih pojavitev vseh možnih znakov abecede Σ. P = B A N A N A Σ: right[c] A B C D E M N O

69 Boyer-Moorov algoritem nadal. Iskanje: Okno postavimo na začetek i = 0 in preverjamo znake od desne proti levi j = P 1: Če se znak c v besedilu ujema z znakom v oknu, nadaljujemo s preverjanjem naslednjega znaka v oknu in besedilu.

70 Boyer-Moorov algoritem nadal. Iskanje: Okno postavimo na začetek i = 0 in preverjamo znake od desne proti levi j = P 1: Če se znak c v besedilu ujema z znakom v oknu, nadaljujemo s preverjanjem naslednjega znaka v oknu in besedilu. Če se c ne ujema in je right[c]= 1, potem premakni okno za P znakov naprej.

71 Boyer-Moorov algoritem nadal. Iskanje: Okno postavimo na začetek i = 0 in preverjamo znake od desne proti levi j = P 1: Če se znak c v besedilu ujema z znakom v oknu, nadaljujemo s preverjanjem naslednjega znaka v oknu in besedilu. Če se c ne ujema in je right[c]= 1, potem premakni okno za P znakov naprej. Če se c ne ujema in right[c] 1, potem premaknemo okno za j right[c] znakov. V primeru, da bi bila vrednost negativna, okno premaknemo za 1 znak naprej.

72 Boyer-Moorov algoritem nadal. Iskanje: Okno postavimo na začetek i = 0 in preverjamo znake od desne proti levi j = P 1: Če se znak c v besedilu ujema z znakom v oknu, nadaljujemo s preverjanjem naslednjega znaka v oknu in besedilu. Če se c ne ujema in je right[c]= 1, potem premakni okno za P znakov naprej. Če se c ne ujema in right[c] 1, potem premaknemo okno za j right[c] znakov. V primeru, da bi bila vrednost negativna, okno premaknemo za 1 znak naprej.

73 Boyer-Moorov algoritem nadal. Iskanje: Okno postavimo na začetek i = 0 in preverjamo znake od desne proti levi j = P 1: S: P: Če se znak c v besedilu ujema z znakom v oknu, nadaljujemo s preverjanjem naslednjega znaka v oknu in besedilu. Če se c ne ujema in je right[c]= 1, potem premakni okno za P znakov naprej. Če se c ne ujema in right[c] 1, potem premaknemo okno za j right[c] znakov. V primeru, da bi bila vrednost negativna, okno premaknemo za 1 znak naprej. NA DREVESU RASTEJO BANANE. BANANA

74 Boyer-Moorov algoritem nadal. Iskanje: Okno postavimo na začetek i = 0 in preverjamo znake od desne proti levi j = P 1: S: P: Če se znak c v besedilu ujema z znakom v oknu, nadaljujemo s preverjanjem naslednjega znaka v oknu in besedilu. Če se c ne ujema in je right[c]= 1, potem premakni okno za P znakov naprej. Če se c ne ujema in right[c] 1, potem premaknemo okno za j right[c] znakov. V primeru, da bi bila vrednost negativna, okno premaknemo za 1 znak naprej. NA DREVESU RASTEJO BANANE. BANANA

75 Boyer-Moorov algoritem nadal. Iskanje: Okno postavimo na začetek i = 0 in preverjamo znake od desne proti levi j = P 1: S: P: Če se znak c v besedilu ujema z znakom v oknu, nadaljujemo s preverjanjem naslednjega znaka v oknu in besedilu. Če se c ne ujema in je right[c]= 1, potem premakni okno za P znakov naprej. Če se c ne ujema in right[c] 1, potem premaknemo okno za j right[c] znakov. V primeru, da bi bila vrednost negativna, okno premaknemo za 1 znak naprej. NA DREVESU RASTEJO BANANE. BANANA

76 Boyer-Moorov algoritem nadal. Iskanje: Okno postavimo na začetek i = 0 in preverjamo znake od desne proti levi j = P 1: S: P: Če se znak c v besedilu ujema z znakom v oknu, nadaljujemo s preverjanjem naslednjega znaka v oknu in besedilu. Če se c ne ujema in je right[c]= 1, potem premakni okno za P znakov naprej. Če se c ne ujema in right[c] 1, potem premaknemo okno za j right[c] znakov. V primeru, da bi bila vrednost negativna, okno premaknemo za 1 znak naprej. NA DREVESU RASTEJO BANANE. BANANA

77 Boyer-Moorov algoritem nadal. Iskanje: Okno postavimo na začetek i = 0 in preverjamo znake od desne proti levi j = P 1: S: P: Če se znak c v besedilu ujema z znakom v oknu, nadaljujemo s preverjanjem naslednjega znaka v oknu in besedilu. Če se c ne ujema in je right[c]= 1, potem premakni okno za P znakov naprej. Če se c ne ujema in right[c] 1, potem premaknemo okno za j right[c] znakov. V primeru, da bi bila vrednost negativna, okno premaknemo za 1 znak naprej. NA DREVESU RASTEJO BANANE. BANANA

78 Rabin-Karpov algoritem Uporabimo znanje iz zgoščevalnih tabel:

79 Rabin-Karpov algoritem Uporabimo znanje iz zgoščevalnih tabel: 1. Najprej izračunamo zgoščeno vrednost vzorca H P.

80 Rabin-Karpov algoritem Uporabimo znanje iz zgoščevalnih tabel: 1. Najprej izračunamo zgoščeno vrednost vzorca H P. 2. Postavimo okno na začetek i = 0 in izračunamo zgoščeno vrednost znakov pod H S.

81 Rabin-Karpov algoritem Uporabimo znanje iz zgoščevalnih tabel: 1. Najprej izračunamo zgoščeno vrednost vzorca H P. 2. Postavimo okno na začetek i = 0 in izračunamo zgoščeno vrednost znakov pod H S. 3. Če H S = H P, preverimo vse znake pod, da se prepričamo o enakosti, in vrnemo mesto pojavitve.

82 Rabin-Karpov algoritem Uporabimo znanje iz zgoščevalnih tabel: 1. Najprej izračunamo zgoščeno vrednost vzorca H P. 2. Postavimo okno na začetek i = 0 in izračunamo zgoščeno vrednost znakov pod H S. 3. Če H S = H P, preverimo vse znake pod, da se prepričamo o enakosti, in vrnemo mesto pojavitve. 4. Če H S H P, se premaknemo za en znak naprej, izračunamo novo zgoščeno vrednost znakov pod H S in gremo na korak 3.

83 Rabin-Karpov algoritem nadal. Ideja: Če imamo pametno zgoščevalno funkcijo, nam ni treba prebrati ponovno vseh znakov pod, ampak le dodamo zgoščeno vrednost novega znaka in odstranimo zgoščeno vrednost najstarejšega znaka. Tako pohitrimo iskanje.

84 Rabin-Karpov algoritem nadal. Ideja: Če imamo pametno zgoščevalno funkcijo, nam ni treba prebrati ponovno vseh znakov pod, ampak le dodamo zgoščeno vrednost novega znaka in odstranimo zgoščeno vrednost najstarejšega znaka. Tako pohitrimo iskanje. Robin-Karpova zgoščevalna funkcija: H = c 1 a P 1 + c 2 a P c P a 0

85 Rabin-Karpov algoritem nadal. Ideja: Če imamo pametno zgoščevalno funkcijo, nam ni treba prebrati ponovno vseh znakov pod, ampak le dodamo zgoščeno vrednost novega znaka in odstranimo zgoščeno vrednost najstarejšega znaka. Tako pohitrimo iskanje. Robin-Karpova zgoščevalna funkcija: H = c 1 a P 1 + c 2 a P c P a 0 Ko pride nov znak c, odstranimo najstarejši znak c old in izračunamo nov H = H a c old a P + c

86 Levenshteinova razdalja ali urejevalna razdalja δ med dvema nizoma S 1 in S 2 je najmanjše število vstavljanj, brisanj ali zamenjav posameznih znakov, da spremenimo S 1 v S 2.

87 Izračun Levenshteinove razdalje Formula za izračun razdalje S 1 [0..i] in S 2 [0..j]: δ(i 1, j) + 1 δ(i, j 1) + 1 δ(i, j) = min δ(i 1, j 1) + 1 če S 1 [i] S 2 [j] δ(i 1, j 1) če S 1 [i] = S 2 [j]

88 Izračun Levenshteinove razdalje Formula za izračun razdalje S 1 [0..i] in S 2 [0..j]: δ(i 1, j) + 1 δ(i, j 1) + 1 δ(i, j) = min δ(i 1, j 1) + 1 če S 1 [i] S 2 [j] δ(i 1, j 1) če S 1 [i] = S 2 [j] Izračun razdalje se naredi z Levenshteinovo matriko:

89 Izračun Levenshteinove razdalje Formula za izračun razdalje S 1 [0..i] in S 2 [0..j]: δ(i 1, j) + 1 δ(i, j 1) + 1 δ(i, j) = min δ(i 1, j 1) + 1 če S 1 [i] S 2 [j] δ(i 1, j 1) če S 1 [i] = S 2 [j] Izračun razdalje se naredi z Levenshteinovo matriko: B A N A N A

90 Izračun Levenshteinove razdalje Formula za izračun razdalje S 1 [0..i] in S 2 [0..j]: δ(i 1, j) + 1 δ(i, j 1) + 1 δ(i, j) = min δ(i 1, j 1) + 1 če S 1 [i] S 2 [j] δ(i 1, j 1) če S 1 [i] = S 2 [j] Izračun razdalje se naredi z Levenshteinovo matriko: B A N A N A A 1 N 2 A 3 N 4 A 5 S 6

91 Izračun Levenshteinove razdalje Formula za izračun razdalje S 1 [0..i] in S 2 [0..j]: δ(i 1, j) + 1 δ(i, j 1) + 1 δ(i, j) = min δ(i 1, j 1) + 1 če S 1 [i] S 2 [j] δ(i 1, j 1) če S 1 [i] = S 2 [j] Izračun razdalje se naredi z Levenshteinovo matriko: B A N A N A A N 2 A 3 N 4 A 5 S 6

92 Izračun Levenshteinove razdalje Formula za izračun razdalje S 1 [0..i] in S 2 [0..j]: δ(i 1, j) + 1 δ(i, j 1) + 1 δ(i, j) = min δ(i 1, j 1) + 1 če S 1 [i] S 2 [j] δ(i 1, j 1) če S 1 [i] = S 2 [j] Izračun razdalje se naredi z Levenshteinovo matriko: B A N A N A A N A 3 N 4 A 5 S 6

93 Izračun Levenshteinove razdalje Formula za izračun razdalje S 1 [0..i] in S 2 [0..j]: δ(i 1, j) + 1 δ(i, j 1) + 1 δ(i, j) = min δ(i 1, j 1) + 1 če S 1 [i] S 2 [j] δ(i 1, j 1) če S 1 [i] = S 2 [j] Izračun razdalje se naredi z Levenshteinovo matriko: B A N A N A A N A N 4 A 5 S 6

94 Izračun Levenshteinove razdalje Formula za izračun razdalje S 1 [0..i] in S 2 [0..j]: δ(i 1, j) + 1 δ(i, j 1) + 1 δ(i, j) = min δ(i 1, j 1) + 1 če S 1 [i] S 2 [j] δ(i 1, j 1) če S 1 [i] = S 2 [j] Izračun razdalje se naredi z Levenshteinovo matriko: B A N A N A A N A N A 5 S 6

95 Izračun Levenshteinove razdalje Formula za izračun razdalje S 1 [0..i] in S 2 [0..j]: δ(i 1, j) + 1 δ(i, j 1) + 1 δ(i, j) = min δ(i 1, j 1) + 1 če S 1 [i] S 2 [j] δ(i 1, j 1) če S 1 [i] = S 2 [j] Izračun razdalje se naredi z Levenshteinovo matriko: B A N A N A A N A N A S 6

96 Izračun Levenshteinove razdalje Formula za izračun razdalje S 1 [0..i] in S 2 [0..j]: δ(i 1, j) + 1 δ(i, j 1) + 1 δ(i, j) = min δ(i 1, j 1) + 1 če S 1 [i] S 2 [j] δ(i 1, j 1) če S 1 [i] = S 2 [j] Izračun razdalje se naredi z Levenshteinovo matriko: B A N A N A A N A N A S

97 Izračun Levenshteinove razdalje Formula za izračun razdalje S 1 [0..i] in S 2 [0..j]: δ(i 1, j) + 1 δ(i, j 1) + 1 δ(i, j) = min δ(i 1, j 1) + 1 če S 1 [i] S 2 [j] δ(i 1, j 1) če S 1 [i] = S 2 [j] Izračun razdalje se naredi z Levenshteinovo matriko: B A N A N A A N A N A S Levenshteinova razdalja se nahaja spodnjem desnem kotu δ( S 1, S 2 ).

98 Izračun Levenshteinove razdalje Formula za izračun razdalje S 1 [0..i] in S 2 [0..j]: δ(i 1, j) + 1 δ(i, j 1) + 1 δ(i, j) = min δ(i 1, j 1) + 1 če S 1 [i] S 2 [j] δ(i 1, j 1) če S 1 [i] = S 2 [j] Izračun razdalje se naredi z Levenshteinovo matriko: B A N A N A A N A N A S Levenshteinova razdalja se nahaja spodnjem desnem kotu δ( S 1, S 2 ). Pot nam pove, katere ukaze je potrebno izvesti.

99 Najdaljši skupni podniz (longest common substr.) Za izračun najdaljšega skupnega podniza lahko uporabimo priponsko drevo obeh nizov in pogledamo najgloblje skupno vozlišče.

100 Najdaljši skupni podniz (longest common substr.) Za izračun najdaljšega skupnega podniza lahko uporabimo priponsko drevo obeh nizov in pogledamo najgloblje skupno vozlišče. Lahko pa uporabimo matriko, podobno Levenshteinovi, le da spremenimo pogoj: LCSuff (S 1 [1..i], S 2 [1..j]) = { LCSuff (S1 [1..i 1], S 2 [1..j 1]) + 1 če S 1 [i] = S 2 [j] 0 sicer

101 Najdaljši skupni podniz (longest common substr.) Za izračun najdaljšega skupnega podniza lahko uporabimo priponsko drevo obeh nizov in pogledamo najgloblje skupno vozlišče. Lahko pa uporabimo matriko, podobno Levenshteinovi, le da spremenimo pogoj: LCSuff (S 1 [1..i], S 2 [1..j]) = { LCSuff (S1 [1..i 1], S 2 [1..j 1]) + 1 če S 1 [i] = S 2 [j] 0 sicer B A N A N A A N A N A S

102 Najdaljše skupno podzaporedje (LCS) Najdaljše skupno podzaporedje (ang. longest common subsequence) je podobno najdaljšemu skupnemu podnizu, le da se lahko med posameznimi znaki, ki so prisotni v obeh nizih, vrinjeni tudi tuji znaki.

103 Najdaljše skupno podzaporedje (LCS) Najdaljše skupno podzaporedje (ang. longest common subsequence) je podobno najdaljšemu skupnemu podnizu, le da se lahko med posameznimi znaki, ki so prisotni v obeh nizih, vrinjeni tudi tuji znaki. LCS(S 1 [1..i], S 2 [1..j]) = LCS(S 1 [1..i 1], S 2 [1..j 1]) + 1 če S 1 [i] = S 2 [j] max(lcs(s 1 [1..i], S 2 [1..j 1]), LCS(S 1 [1..i 1], S 2 [1..j]) če S 1 [i] S 2 [j])

104 Najdaljše skupno podzaporedje (LCS) Najdaljše skupno podzaporedje (ang. longest common subsequence) je podobno najdaljšemu skupnemu podnizu, le da se lahko med posameznimi znaki, ki so prisotni v obeh nizih, vrinjeni tudi tuji znaki. LCS(S 1 [1..i], S 2 [1..j]) = LCS(S 1 [1..i 1], S 2 [1..j 1]) + 1 če S 1 [i] = S 2 [j] max(lcs(s 1 [1..i], S 2 [1..j 1]), LCS(S 1 [1..i 1], S 2 [1..j]) če S 1 [i] S 2 [j]) B A N A N A A N A N A S

105 BK-drevo Burkhard-Kellerjevo drevo se uporablja pri črkovalnikih in je uporabno za iskanje podobnih besed.

106 BK-drevo Burkhard-Kellerjevo drevo se uporablja pri črkovalnikih in je uporabno za iskanje podobnih besed. Gradnja: Začnemo s poljubnim pojmom. Nato dodamo novo geslo tako, da izračunamo urejevalno razdaljo D med trenutnim vozliščem in novim geslom. Če povezava v smeri razdalje ne obstaja, novo geslo pripnemo obstoječemu vozlišču. Sicer sledimo povezavi in izračunamo urejevalno razdaljo med novim vozliščem in našim geslom.

107 BK-drevo Burkhard-Kellerjevo drevo se uporablja pri črkovalnikih in je uporabno za iskanje podobnih besed. Gradnja: Začnemo s poljubnim pojmom. Nato dodamo novo geslo tako, da izračunamo urejevalno razdaljo D med trenutnim vozliščem in novim geslom. Če povezava v smeri razdalje ne obstaja, novo geslo pripnemo obstoječemu vozlišču. Sicer sledimo povezavi in izračunamo urejevalno razdaljo med novim vozliščem in našim geslom. Iskanje najbolj podobnih besed z urejevalno razdaljo δ: Začnemo pri korenu in izračunamo urejevalno razdaljo D med iskanim geslom in trenutnim vozliščem. Če je D δ, potem izpišemo trenutno vozlišče. Preiskujemo tiste otroke, ki imajo razdaljo D δ ali D + δ.

108 BK-drevo nadal. gesla ura urar urnik avto pes pesem

109 BK-drevo nadal. gesla ura urar urnik avto pes pesem ura

110 BK-drevo nadal. gesla ura urar urnik avto pes pesem ura 1 urar

111 BK-drevo nadal. gesla ura urar urnik avto pes pesem ura 1 urar 3 urnik

112 BK-drevo nadal. gesla ura urar urnik avto pes pesem ura 1 urar 3 4 urnik avto

113 BK-drevo nadal. gesla ura urar urnik avto pes pesem ura 1 urar 3 4 urnik 5 pes avto

114 BK-drevo nadal. gesla ura urar urnik avto pes pesem ura 1 urar 3 4 urnik 5 pes 5 avto pesem

115 BK-drevo nadal. gesla ura urar urnik avto pes pesem D=2 ura 1 urar D=1 iskanje: ira, δ= urnik avto pesem D=4 D=4 D=3 5 pes D=5

116 Vaje in Naloge Vaje: S pomočjo urejanja (npr. quicksort) uredi vnešene nize po abecedi. Sprogramiraj številsko drevo, ki podpira operaciji vstavljanja in iskanja. Sprogramiraj BK-drevo, ki podpira operaciji vstavljanja in iskanja. Sprogramiraj Edit Distance, Longest Common Substring in Longest Common Subsequence s pomočjo dinamičnega programiranja. UVa naloge: 499 What s The Frequency, Kenneth? 454 Anagrams 164 String Computer - Edit distance 290 Palindroms smordnilap 335 Processing MX Records 455 Periodic Strings