Iskanje in ekstrakcija podatkov s spleta‬‬ (FRI)

Visokošolski učitelji: Bajec Marko
Koda predmeta: 63551Opis predmeta

Vsebina:

Predmet bo pokrival naslednje vsebine:

Poizvedovanje in iskanje po spletu

 • Osnovni koncepti poizvedovanja
 • Modeli poizvedovanja
 • Odziv ustreznosti
 • Mere za ocenjevanje točnosti poizvedb
 • Predobdelava besedil in spletnih strani
 • Inverzni index in njegova kompresija
 • Latentno semantično indeksiranje
 • Iskanje po spletu
 • Meta iskanje po sletu: kombiniranje različnih načinov rangiranja

Spletno pregledovanje in indeksiranje

 • Osnovni algoritem spletnega pajka
 • Univerzalni spletni pajek
 • Fokusirani spletni pajki
 • Domenski spletni pajki

Ekstrakcija strukturiranih podatkov

 • Indukcija ovojnice
 • Generiranje ovojnice na osnovi primera
 • Samodejna izdelava ovojnice
 • Ujemanje glede na obliko besede ali drevesne strukture
 • Večkratna poravnava
 • Gradnja DOM dreves
 • Ekstrakcija glede na stran s seznamom ali več strani

Integracija podatkov

 • Ujemanje glede na podatkovno shemo
 • Ujemanje glede na domeno in primere
 • Združevanje podobnosti
 • Ujemanje 1:m
 • Integracija iskalnikov po spletnih straneh
 • Izgradnja globalnega iskalnika po spletnih straneh

Rudarjenje mnenja in analiza sentimenta

 • Klasifikacija dokumentov po sentimentu
 • Ugotavljanje subjektivnosti v stavkih in klasifikacija sentimenta
 • Slovarji besed in fraz, nosilcev mnenja
 • Aspektno orientirano rudarjenje mnenja
 • Iskanje in extrakcija mnenja

Cilji in kompetence:

Cilj predmeta je študente naučiti, kako sprogramirati iskanje po spletu (po indeksiranem in neindeksiranem delu spleta) ter kako razviti programe za ekstrakcijo strukturiranih podatkov s statičnih in dinamičnih spletnih strani. Študentje bodo spoznali osnovne koncepte spletnega iskanja in ekstrakcije podatkov s spleta ter se naučili potrebnih tehnik, ki so za to potrebne. Po uspešno opravljene predmetu bodo sposobni samostojnega razvoja aplikacij, ki avtomatizirajo spletno iskanje in ekstrahirajo podatke s spletnih strani, vključno z ekstrakcijo podatkov iz on-line socialnih medijev.

Predvideni študijski rezultati:

 • Znanje in razumevanje: Poznavanje osnovnih tehnik podatkovnega rudarjenja in analize podatkov, poznavanje programskih jezikov java, phyton, poznavanje HTML, XHTML, XML ter strukture spletnih strani.
 • Uporaba: Uporaba pri razvoju aplikacij, ki uporabljajo splet kot pomemben vir podatkov.
 • Refleksija: Zmožnost razvoja sodobnih aplikacij in izkoriščanje spleta kot neomejene podatkovne zbirke.
 • Prenosljive spretnosti – niso vezane le na en predmet: Spretnosti uporabe domače in tuje
 • literature in drugih virov, uporaba programskih jezikov, algoritmično razmišljanje.

Metode poučevanja in učenja:

Predavanja, računske vaje z ustnimi nastopi, projektni način dela pri domačih nalogah in seminarjih.

Gradiva