Iskanje in ekstrakcija podatkov s spleta‬‬ (FRI)

Visokošolski učitelji: Bajec Marko
Število kreditnih točk: 12
Semester izvajanja: poletni, zimski
Koda predmeta: 63551



Opis predmeta

Vsebina:

Predmet bo pokrival naslednje vsebine:

Poizvedovanje in iskanje po spletu

  • Osnovni koncepti poizvedovanja
  • Modeli poizvedovanja
  • Odziv ustreznosti
  • Mere za ocenjevanje točnosti poizvedb
  • Predobdelava besedil in spletnih strani
  • Inverzni index in njegova kompresija
  • Latentno semantično indeksiranje
  • Iskanje po spletu
  • Meta iskanje po sletu: kombiniranje različnih načinov rangiranja

Spletno pregledovanje in indeksiranje

  • Osnovni algoritem spletnega pajka
  • Univerzalni spletni pajek
  • Fokusirani spletni pajki
  • Domenski spletni pajki

Ekstrakcija strukturiranih podatkov

  • Indukcija ovojnice
  • Generiranje ovojnice na osnovi primera
  • Samodejna izdelava ovojnice
  • Ujemanje glede na obliko besede ali drevesne strukture
  • Večkratna poravnava
  • Gradnja DOM dreves
  • Ekstrakcija glede na stran s seznamom ali več strani

Integracija podatkov

  • Ujemanje glede na podatkovno shemo
  • Ujemanje glede na domeno in primere
  • Združevanje podobnosti
  • Ujemanje 1:m
  • Integracija iskalnikov po spletnih straneh
  • Izgradnja globalnega iskalnika po spletnih straneh

Rudarjenje mnenja in analiza sentimenta

  • Klasifikacija dokumentov po sentimentu
  • Ugotavljanje subjektivnosti v stavkih in klasifikacija sentimenta
  • Slovarji besed in fraz, nosilcev mnenja
  • Aspektno orientirano rudarjenje mnenja
  • Iskanje in extrakcija mnenja

Cilji in kompetence:

Cilj predmeta je študente naučiti, kako sprogramirati iskanje po spletu (po indeksiranem in neindeksiranem delu spleta) ter kako razviti programe za ekstrakcijo strukturiranih podatkov s statičnih in dinamičnih spletnih strani. Študentje bodo spoznali osnovne koncepte spletnega iskanja in ekstrakcije podatkov s spleta ter se naučili potrebnih tehnik, ki so za to potrebne. Po uspešno opravljene predmetu bodo sposobni samostojnega razvoja aplikacij, ki avtomatizirajo spletno iskanje in ekstrahirajo podatke s spletnih strani, vključno z ekstrakcijo podatkov iz on-line socialnih medijev.

Predvideni študijski rezultati:

  • Znanje in razumevanje: Poznavanje osnovnih tehnik podatkovnega rudarjenja in analize podatkov, poznavanje programskih jezikov java, phyton, poznavanje HTML, XHTML, XML ter strukture spletnih strani.
  • Uporaba: Uporaba pri razvoju aplikacij, ki uporabljajo splet kot pomemben vir podatkov.
  • Refleksija: Zmožnost razvoja sodobnih aplikacij in izkoriščanje spleta kot neomejene podatkovne zbirke.
  • Prenosljive spretnosti – niso vezane le na en predmet: Spretnosti uporabe domače in tuje
  • literature in drugih virov, uporaba programskih jezikov, algoritmično razmišljanje.

Metode poučevanja in učenja:

Predavanja, računske vaje z ustnimi nastopi, projektni način dela pri domačih nalogah in seminarjih.





Gradiva



Študiji na katerih se predmet izvaja

  • 1 letnik - 2. stopnja - Multimedija
  • 2 letnik - 2. stopnja - Multimedija