Результаты (
русский) 2:
[копия]Скопировано!
После того, как точки, принадлежащие разным кластерам будут объединены, ситуация становится все хуже и хуже, как прогрессирует кластеризации. Что обычно происходит, является волновой эффект - в размер кластера растет, количество атрибутов, появляющихся в среднем идти вверх, и их стоимость в среднем уменьшается. Это делает его очень трудно отличить разницу между двумя точками, которые отличаются от атрибутов несколько, или двух точек, которые отличаются от каждого атрибута в небольших количествах. Подробное описание с примером волнового эффекта в центроида на основе иерархических алгоритмов приведены в (GRS97].
Установить теоретические меры сходства, такие как коэффициент Жаккара? (JD88] часто используется вместо евклидова расстояния для документа кластеризации. При коэффициенте J accard как меры расстояния между кластерами, иерархические схемы кластеризации центроидные основе не может быть использован с сходство мера неметрический и определяется только точками в кластере, а не для ее тяжести. Таким образом, мы должны использовать либо Минимальная Spanning Tree (MST) алгоритм иерархической кластеризации или иерархической кластеризации с группой среднего [JD88]. Алгоритм MST сливается, на каждом шагу, пара кластеров, содержащих наиболее похожий пару точек, а в среднем по группе алгоритм объединяет те, для которых Средняя сходство между парами точек в кластерах высокой. Алгоритм MST, как известно, очень чувствительны к выбросам в то время как в среднем по группе алгоритм имеет тенденцию к расщеплению крупных кластеров (поскольку, как уже упоминалось ранее, в среднем сходство между двумя подгрупп в большой кластер мал). Кроме того, коэффициент Jaccard является мерой сходства между только двумя точками в вопросе - это таким образом, не отражают свойства в окрестности точек. Следовательно, коэффициент Jaccard удается захватить естественный кластеризации "не так хорошо, разделенных" наборов данных с категорическими атрибутов и это проиллюстрировано в следующем примере.
переводится, пожалуйста, подождите..