Результаты (
русский) 2:
[копия]Скопировано!
После того, как точки, принадлежащие разным кластерам будут объединены, ситуация становится все хуже и хуже, как прогрессирует кластеризации. Что обычно происходит, является а волновой эффект - в размер кластера растет, количество атрибутов, появляющихся в среднем идти вверх, и их стоимость в среднем уменьшается. Это делает его очень трудно отличить разницу между двумя точками, которые отличаются от атрибутов несколько, или двух точек, которые отличаются от каждого атрибута Ьу небольших количествах. А подробное описание с примером волнового эффекта в центроида на основе иерархических алгоритмов, представленной в (GRS97].
Установить теоретические меры сходства, такие как Жаккара coefficient2 (JD88] часто используется вместо евклидова расстояния для документа кластеризации. С Коэффициент J accard как меры расстояния между кластерами, иерархические схемы кластеризации центроидные основе не может Ье используется с сходство мера неметрический и определяется только точками в кластере, а не для ее тяжести. Таким образом, мы должны использовать либо минимум покрывающее дерево (MST) алгоритм иерархической кластеризации или иерархической кластеризации с группой среднего [JD88]. Алгоритм MST сливается, на каждом шагу, пара кластеров, содержащих наиболее похожий пару точек, а в среднем по группе алгоритм объединяет те, для которых средняя Сходство между парами точек в кластерах высокой. Алгоритм MST, как известно, Ье очень чувствительны к выбросам в то время как в среднем по группе алгоритм а тенденцию к расщеплению крупных кластеров (поскольку, как уже упоминалось ранее, средняя сходство между двумя подгрупп в а большой кластер мал). Furthermor-е, коэффициент Jaccard является мерой а сходства только между двумя точками в вопросе - это, таким образом, не отражает свойства окрестности точек. Следовательно, коэффициент Jaccard удается захватить естественный кластеризации "не так хорошо, разделенных" наборов данных с категорическими атрибутов и это проиллюстрировано в следующем примере.
переводится, пожалуйста, подождите..