Extrakce informací
Z Wikipedie, otevřené encyklopedie
Extrakce informací (IE) je typ vyhledávání informací, jehož cílem je automaticky vypsat strukturované nebo polostrukturované informace z nestrukturovaných strojově čitelných dokumentů.
Typickým příkladem IE je skenování sérii dokumentů napsaných v přirozeném jazyce a se získanými informacemi zaplnění databáze. Aktuální přístup k IE využívá techniky zpracování přirozeného jazyka, ta těží na velmi omezených oblastech. Například, Message Understanding Conference (MUC) je mítinkově založená konference, která se soustředí na oblasti v minulosti:
- MUC-1 (1987), MUC-2 (1989): Zpráva námořní operace.
- MUC-3 (1991), MUC-4 (1992): Terorismus v zemích latinské ameriky.
- MUC-5 (1993): Spojení spekulací a mikroelektronické oblasti.
- MUC-6 (1995): Novinky ve změnách managementu.
- MUC-7 (1998): Záznam vypuštění satelitu.
Typické podúkoly IE jsou:
- Rozpoznávání Pojmenované Entity: rozpoznávání jmen (lidé a organizace), názvy míst, časové vyjádření, a určitý typ číselných výrazů.
- Koreference: identifikace řetězu jmenných frází, které odkazují na identický objekt.

