Результаты (
русский) 2:
[копия]Скопировано!
После того, как точки, принадлежащие разным кластерам будут объединены, ситуация становится все хуже и хуже, как прогрессирует кластеризации. Что обычно происходит, является волновой эффект - в размер кластера растет, количество атрибутов, появляющихся в среднем идти вверх, и их стоимость в среднем уменьшается. Это делает его очень трудно отличить разницу между двумя точками, которые отличаются от атрибутов несколько, или двух точек, которые отличаются от каждого атрибута в небольших количествах. Подробное описание с примером волнового эффекта в центроида на основе иерархических алгоритмов приведены в [GRS97].
Установить теоретические меры сходства, такие как коэффициент Жаккара [JD88] часто используется вместо евклидова расстояния для документа кластеризации. При коэффициенте J accard как меры расстояния между кластерами, схемы иерархической кластеризации центроида на основе не может быть использован, так как мера подоби неметрический, и определяется только точек в кластере, а не для его центра тяжести. Таким образом, мы должны использовать либо минимальный остов (MST) иерархическую алгоритм кластеризации или иерархическую кластеризацию с группой среднем [JD88]. Алгоритм MST сливается, на каждом шаге, пара кластеров, содержащих наиболее похожий пару точек, а алгоритм переходит в среднем по группе те, для которых среднее сходство между парами точек в кластерах самая высокая. Алгоритм MST, как известно, очень чувствительны к выбросам в то время как алгоритм группы в среднем имеет тенденцию к расщеплению больших кластеров (поскольку, как упоминалось ранее, в среднем сходство двух подгрупп большого кластера мала). Кроме того, коэффициент Jaccard является мерой сходства между только двумя точками в вопросе - это таким образом, не отражают свойства в окрестности точек. Следовательно, коэффициент Jaccard удается захватить естественный кластеризации "не так хорошо, разделенных" наборов данных с категорическими атрибутов и это проиллюстрировано в следующем примере.
переводится, пожалуйста, подождите..