Obdelava naravnega jezika (FRI)

Visokošolski učitelji: Robnik Šikonja Marko
Število kreditnih točk: 6
Semester izvajanja: zimski
Koda predmeta: 63555



Opis predmeta

Pogoji za vključitev v delo oz. za opravljanje študijskih obveznosti:

Priporočamo solidno predznanje verjetnosti in statistike, programiranja, strojnega učenja in algoritmov.

Vsebina:

Vsebina predmeta temelji na izboru sodobnih statističnih tehnik obdelave naravnega jezika podkrepljenih s praktično rabo. V predavanjih predstavimo glavne pristope in pojasnimo delovanje posameznih metod in njihovo teoretično ozadje. V okviru laboratorijskih vaj znanje povežemo s praktično rabo in ga utrdimo z uporabo odprtokodnih sistemov za obdelavo naravnega jezika. Študenti rešujejo naloge, ki temeljijo na realnih raziskovalnih in praktičnih problemih, pretežno v slovenskem in angleškem jeziku.

  1. Uvod: motivacija, razumevanje jezika, Turingov test, tradicionalni in statističen pristop.
  2. Jezikovni viri: korpusi, slovarji, tezavri, omrežja in semantične baze, pregled orodij.
  3. Lingvistika: fonologija in morfologija, sintaktična analiza, formalne gramatike.
  4. Uporaba avtomatov in gramatik: avtomati in algoritmi za iskanje nizov, prepoznavanje sintakse, gramatično razčlenjevanje.
  5. Oblikoslovno označevanje besedil: vrste oznak, lematizacija, ngrami, skriti markovski model, označevanje s pravili.
  6. Računska in leksikalna semantika: predstavitve pomena, metode s pravili, leksikalna semantika.
  7. Razvrščanje besedil in mere podobnosti: kosinusna razdalja, jezikovna omrežja in grafi, WordNet, vektorska predstavitev, uteževanje vektorjev, semantična korelacija.
  8. Tekstovno rudarjenje: prilagojene klasifikacijske metode, metoda podpornih vektorjev na dokumentih, izbira atributov.
  9. Globoka omrežja in besedila: predstavitev besedil za uporabo v globokih nevronskih mrežah, avtoenkoderji, rekurzivne nevronske mreže.
  10. Povzemanje: predstavitve besedil, matrična faktorizacija, ekstrakcijske metode, povpraševane metode.
  11. Strojno prevajanje: jezikovni model, prevajalni model, poravnava jezikov, parametri modelov, izzivi v prevajanju.
  12. Dopolnjevanje besedil z drugimi viri informacij: heterogena omrežja, predstavitev word2vec, heterogeni ansambli klasifikatorjev, analiza povezav.
  13. Metodologija in evalvacija pri obdelavi naravnega jezika.

Cilji in kompetence:

Študenti se bodo naučili teorije in rabe osnovnih algoritmov in pristopov na področju obdelave naravnega jezika. Študenti bodo:

  • razumeli pristope k analizi sintakse in semantike na področju obdelave naravnega jezika;
  • razumeli pristope k povzemanju dokumentov;
  • razumeli delovanje statističnih pristopov k strojnemu prevajanju,
  • razumeli uporabo metod strojnega učenja v obdelavi naravnega jezika: skritega Markovskega modela, verjetnostnih kontekstno neodvisnih gramatik in algoritma EM,
  • znali uporabiti orodja za obdelavo naravnega jezika.

Predvideni študijski rezultati:

Znanje in razumevanje: Študenti spoznajo področje obdelave naravnega jezika, poglavitne tipe jezikovnih virov, in moderne metode za analizo besedil in pridobivanje informacij iz njih.

Uporaba: Študenti znajo uporabiti predstavljene tehnike v okviru odprtokodnih orodij za obdelavo naravnega jezika.

Refleksija: Razumevanje primernosti različnih tehnik za posamezne naloge, njihovih prednosti in slabosti, razumevanje tehničnih omejitev in etičnih dilem.

Prenosljive spretnosti - niso vezane le na en predmet: Reševanje in razumevanje kompleksnih problemov. Kritična presoja uporabe analitičnih tehnik. Vrednotenje podatkov, informacij in znanja. Raba analitičnih orodij in informacijsko komunikacijske tehnologije.

Metode poučevanja in učenja:

Predavanja, laboratorijske vaje, delo v majhnih skupinah, javne predstavitve projektov





Gradiva

  1. Jurafsky, David and Martin, James H. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition, 2nd edition. Upper Saddle River, NJ: Prentice-Hall, 2009.
  2. Aggarwal, Charu C., and Zhai, ChengXiang. Mining text data. Springer Science & Business Media, 2012.
  3. Bird, Steven, Ewan Klein, and Edward Loper.Natural language processing with Python. " O'Reilly Media, Inc., 2009.



Študiji na katerih se predmet izvaja

  • 2 letnik - 2. stopnja - Multimedija