Automaty skończone są najlepszą formą reprezentacji słowników do przetwarzania języka naturalnego. Przedstawiamy nową technikę kompresji, która jest szczególnie użyteczna w stosunku do pewnego rodzaju słowników. Zastępujemy wielokrotnie występujące podstruktury ich niepowtarzalnymi reprezentantami. Do ich znalezienia traktujemy wektor przejść jako tekst i stosujemy technikę kompresji tekstu w stylu Ziv-Lempel, która znajduje powtórzenia w czasie liniowym używając drzew przyrostków. Ocena doświadczalna na danych rzeczywistych pokazuje oszczędność miejsca do 18.6%, co czyni tę metodę szczególnie atrakcyjną.
Autorzy
- dr hab. inż. Jan Daciuk link otwiera się w nowej karcie ,
- Jakub Piskorski
Informacje dodatkowe
- Kategoria
- Publikacja monograficzna
- Typ
- rozdział, artykuł w książce - dziele zbiorowym /podręczniku w języku o zasięgu międzynarodowym
- Język
- angielski
- Rok wydania
- 2006
Źródło danych: MOSTWiedzy.pl - publikacja "Gazetteer compression technique based on substructure recognition" link otwiera się w nowej karcie