Другие журналы
|
Дремина Александра Константиновна
Определение полезности признаков в задаче классификации коротких текстовых сообщений
Молодежный научно-технический вестник # 10, октябрь 2013 УДК: 004.852 В данной работе рассматривается задача классификации коротких текстовых сообщений, а именно – задача определения авторства. В соответствии со стандартным подходом машинного обучения, каждое текстовое сообщение описывается набором числовых признаков. Цель работы состоит в том, чтобы исследовать, какие именно признаки наиболее полезны, то есть вклад которых в качество классификации наиболее значителен. Для этого предлагается и обосновывается метод количественного измерения полезности признаков. Он заключается в измерении повышения качества классификации при добавлении того или иного признака. В работе показано, что добавление пунктуационных факторов к классическому байесовскому классификатору, повышает качество классификации на 8 % по F-мере. На основе построенного метода измерения полезности признаков в будущем будут измерены грамматические, семантические, ссылочные и другие группы признаков.
|
|
||||||||||||||||||||||||||||||||
|