W rozdziale zaprezentowano metodę wydobywania informacji z dokumentów WWW oraz sposób klasyfikacji danych w prototypowym systemie typu Web Farming. Wydobywanie informacji z dokumentów bazuje na analizie syntaktycznej i porównywaniu występowania grup fraz obecnych w ich treści. Przedstawiono model semantyczny świata i jego reprezentacji w postaci dokumentów internetowych, oparty na pojęciu konceptu i kategorii tematycznej. Następnie przedstawiono metodę klasyfikacji dokumentów opartej na wyszukiwaniu zbiorów częstych wśród dokumentów zmagazynowanych w hurtowni danych.
Authors
Additional information
- Category
- Publikacja monograficzna
- Type
- rozdział, artykuł w książce - dziele zbiorowym /podręczniku o zasięgu krajowym
- Language
- angielski
- Publication year
- 2005