Automaty skończone są najlepszą formą reprezentacji słowników do przetwarzania języka naturalnego. Przedstawiamy nową technikę kompresji, która jest szczególnie użyteczna w stosunku do pewnego rodzaju słowników. Zastępujemy wielokrotnie występujące podstruktury ich niepowtarzalnymi reprezentantami. Do ich znalezienia traktujemy wektor przejść jako tekst i stosujemy technikę kompresji tekstu w stylu Ziv-Lempel, która znajduje powtórzenia w czasie liniowym używając drzew przyrostków. Ocena doświadczalna na danych rzeczywistych pokazuje oszczędność miejsca do 18.6%, co czyni tę metodę szczególnie atrakcyjną.
Authors
- dr hab. inż. Jan Daciuk link open in new tab ,
- Jakub Piskorski
Additional information
- Category
- Publikacja monograficzna
- Type
- rozdział, artykuł w książce - dziele zbiorowym /podręczniku w języku o zasięgu międzynarodowym
- Language
- angielski
- Publication year
- 2006