Odkrivanje znanj iz podatkov (FRI)

Visokošolski učitelji: Zupan Blaž
Število kreditnih točk: 6
Semester izvajanja: poletni
Kodo predmeta: 63525



Opis predmeta

Pogoji za vključitev v delo oz. za opravljanje študijskih obveznosti:

Vpis predmeta Uvod v odkrivanje znanj iz podatkov iz predhodnih semestrov.

Vsebina:

  • Predmet bo v teoriji in na praktičnih primerih predstavil sledeče vsebine:
  • Predstavitev področja in klasifikacija tehnik za odkrivanje znanj iz podatkov, pregled značilnih aplikacij
  • Tehnološke platforme in razvojne metodologije (skriptna okolja, okolja za analizo podatkov z vizualnim programiranjem)
  • Predobdelava podatkov: iskanje osamelcev, zmanjševanje dimenzij (metoda glavnih komponent), izbor in konstrukcija značilk, permutacijski pristopi, diskretizacija
  • Uvrščanje v skupine, s poudarkom na tehnikah, ki lahko obravnavajo velike množice podatkov in podatkov z velikim naborom značilk, metode podpornih vektorjev, iskanje in vizualizacija interakcij
  • Tehnike razvrščanja v skupine (metode hierarhičnega združevanja, metode voditeljev), s poudarkom na tehnikah, ki lahko obravnavajo velike množice podatkov, določanje števila skupin (metoda silhuete)
  • Ocenjevanje uspešnosti napovednih modelov, kalibracijske in diskriminantne metode, ROC analiza, permutacijski pristopi
  • Vizualizacija podatkov in modelov, tehnike gradnje, analize in vizualizacije mrež
  • Tehnike odkrivanj znanj iz zbirk besedil in spletnih strani
  • Integrativni pristopi (uporaba predznanja, integracija povezav, pridobljenih iz različnih naborov podatkov)
  • Tipične napake pri snovanju pristopov ali uporabi tehnik odkrivanja znanj iz podatkov in kako se jim izognemo

Na predavanjih bodo študenti spoznavali ključne tehnologije in orodja, s katerimi bodo tekom semestra na vajah in v okviru projektov oz. seminarskih nalog reševali praktične probleme. Poudarek bo na uporabi odprtokodnih, prosto dostopnih orodij, ki za analizo podatkov uporabljajo moderne skriptne jezike (npr. Python). V skriptnih okoljih bodo študenti z uporabo že obstoječih komponent razvijali lastne metode, uporabo teh preverjali na različnih podatkih, ter poročali o ocenah njihove uporabnosti in napovedne točnosti. Vaje se bodo izvajale v računalniški učilnici opremljeni z ustrezno strojno in programsko opremo.

Cilji in kompetence:

Cilj predmeta je študente seznaniti z osnovnimi in naprednimi metodami odkrivanja znanj iz podatkov, s poudarkom na njihovi praktični uporabi. Pri predmetu se bodo naučili uporabljati moderna skriptna orodja za analizo podatkov. Spoznali bodo, kako je z njimi moč implementirati nove metode za odkrivanje znanj, oziroma kako je moč obstoječe tehnike prilagoditi za obravnavo konkretnih podatkov.

Predvideni študijski rezultati:

Znanje in razumevanje: Poznavanje metod in orodij odkrivanja znanj iz podatkov, uporaba teh v skriptnih okoljih, poznavanje načinov gradnje sistemov za analizo podatkov iz obstoječih komponent za vizualizacijo, statistiko in strojno učenje.

Uporaba: Uporaba tehnik odkrivanja znanj iz podatkov na praktičnih primerih s področja družboslovja, tehnike in biomedicine.

Refleksija: Razumevanje primernosti teoretičnih metod za reševanje praktičnih primerov ter njihovih omejitev, sposobnost analitičnega razmišljanja, sposobnost analize in reševanja praktičnih problemov z razvojem inteligentnih sistemov.

Prenosljive spretnosti - niso vezane le na en predmet: Kombiniranje znanj pridobljenih pri predmetih Strojnega učenja in Umetna inteligenca. Spretnosti iskanja in uporabe domače in tuje literature, uporaba primerne (predvsem odprtokodne) programske opreme, identifikacija in reševanje kompleksnih problemov.

Metode poučevanja in učenja:

Predavanja s podporo avdio-vizualne opreme, sprotni razvoj programskih rešitev, laboratorijske vaje v računalniški učilnici z ustrezno programsko opremo. Delo posamezno in v skupinah. Velik poudarek na praktičnem delu (npr. razvoj skript za pregledovanje in analizo podatkov) in reševanju praktičnih problemov.





Gradiva

  1. Tan P-N, Steinbach M, Kumar V (2006) Introduction to data mining. Pearson Education, Boston.
  2. Dokumentacija okolja za odkrivanje znanj iz podatkov Orange, prosto dostopna na spletnih straneh www.ailab.si/orange/doc.



Študiji na katerih se predmet izvaja

  • 1 letnik - 2. stopnja - Multimedija