вторник, 29 декабря 2009 г.

суббота, 26 декабря 2009 г.

Модель текста

В статье Реляционно-ситуационный метод
поиска и анализа текстов и его приложения

Приведена интересная семантическая модель текста на основе коммуникативной грамматики русского языка.
Использовать эту модель не будем. Однако в раздел сравнения моделей добавим как наиболее ориентироваанный на семантику подход.

четверг, 24 декабря 2009 г.

forthcoming

Итак, что предстоит сделать в ближайшем будущем
1. документирование методики - окончим в феврале
разделы:
   
-модель текста
-оценка близости текста
-сжатие размерности просранства признаков
-алгоритм работы сети кохонена
-методика иерархической кластеризации
а. общий алгоритм
б. классификация текстов
в. исправление ошибок - слияние кластеров

2. разработка программной реализации - окончим в ???
3. испытание, документирование - окончим в июне

среда, 23 декабря 2009 г.

start

Ну чтож, начнем вести блог по теме проекта.
Первые источники:
The Text Mining Handbook - библия) text mining, дает базовое представление о задаче text clustering и методах решения.
Первичной задачей является задача выбора модели для копуса текста или же для отдельных текстов корпуса.
Модели корпуса используются алгоритмами:
FTC и HFTC
STC
Разработанная методика будет использовать векторную модель текста, предложенную в
Text Clustering using Semantics
В качестве синтаксического анализатора может использоваться:
Cognitive Dwarf