Once points belonging to different

Once points belonging to different clusters are merged, the situation gets progressively worse as the clustering progresses. What typically happens is а ripple effect - as the cluster size grows, the number of attributes appearing in the mean go up, and their value in the mean decreases. This makes it very difficult to distinguish the difference between two points that differ on few attributes, or two points that differ on every attribute Ьу small amounts. А detailed description with an example of the ripple effect in centroid-based hierarchical algorithms is provided in (GRS97].
Set theoretic similarity measures such as the Jaccard coefficient2 (JD88] have often been used, instead of euclidean distance, for document clustering. With the J accard coefficient as the distance measure between clusters, centroid-based hierarchical clustering schemes cannot Ье used since the similarity measure is nonmetric, and defined for only points in the cluster and not for its centroid. Thus, we have to use either the minimum spanning tree (MST) hierarchical clustering algorithm or hierarchical clustering with group average [JD88]. The MST algorithm merges, at each step, the pair of clusters containing the most similar pair of points while the group average algorithm merges the ones for which the average similarity between pairs of points in the clusters is the highest. The MST algorithm is known to Ье very sensitive to outliers while the group average algorithm has а tendency to split large clusters (since, as mentioned earlier, the average similarity between two subclusters of а large cluster is small). Furthermor-e, the Jaccard coefficient is а measure of the similarity between only the two points in question - it thus, does not reflect the properties of the neighborhood of the points. Consequently, the Jaccard coefficient fails to capture the natural clustering of "not so well-separated" data sets with categorical attributes and this is illustrated further in the following example.

Once points belonging to different clusters are merged, the situation gets progressively worse as the clustering progresses. What typically happens is а ripple effect - as the cluster size grows, the number of attributes appearing in the mean go up, and their value in the mean decreases. This makes it very difficult to distinguish the difference between two points that differ on few attributes, or two points that differ on every attribute Ьу small amounts. А detailed description with an example of the ripple effect in centroid-based hierarchical algorithms is provided in (GRS97]. 
Set theoretic similarity measures such as the Jaccard coefficient2 (JD88] have often been used, instead of euclidean distance, for document clustering. With the J accard coefficient as the distance measure between clusters, centroid-based hierarchical clustering schemes cannot Ье used since the similarity measure is nonmetric, and defined for only points in the cluster and not for its centroid. Thus, we have to use either the minimum spanning tree (MST) hierarchical clustering algorithm or hierarchical clustering with group average [JD88]. The MST algorithm merges, at each step, the pair of clusters containing the most similar pair of points while the group average algorithm merges the ones for which the average similarity between pairs of points in the clusters is the highest. The MST algorithm is known to Ье very sensitive to outliers while the group average algorithm has а tendency to split large clusters (since, as mentioned earlier, the average similarity between two subclusters of а large cluster is small). Furthermor-e, the Jaccard coefficient is а measure of the similarity between only the two points in question - it thus, does not reflect the properties of the neighborhood of the points. Consequently, the Jaccard coefficient fails to capture the natural clustering of "not so well-separated" data sets with categorical attributes and this is illustrated further in the following example.

0/5000

Источник: -

Цель: -

Результаты (русский) 1: [копия]

Скопировано!

После того, как объединяются точек, принадлежащих к различным кластерам, ситуация постепенно становится хуже в процессе кластеризации. Обычно происходит а мультипликационный эффект - как размер кластера растет, количество атрибутов, входящих в означает идти вверх, и их значение в среднем уменьшается. Это делает его очень трудно отличить разницу между двумя точками, которые отличаются по несколько атрибутов, или две точки, которые отличаются в небольших количествах каждый атрибут Ьу. А подробное описание с примерами волновой эффект в основе центроид иерархические алгоритмы приводится в (GRS97]. Набор мер теоретические сходства таких жаккарда coefficient2 (JD88] часто используются, вместо евклидово расстояние, для кластеризации документов. С коэффициентом accard J как мера расстояния между кластерами центроида иерархической кластеризации схемы страхования, основанные не Ье, поскольку мера сходства неметрического и определены для только точек в кластере и не его центр тяжести. Таким образом мы должны использовать минимальный алгоритм связующего дерева (MST) иерархической кластеризации или иерархическая кластеризация с средней группы [JD88]. MST алгоритм слияния, на каждом шаге, пара кластеров, содержащих наиболее аналогичные пары точек во время алгоритм средняя группа объединяет те, для которых средний сходство между парами точек в кластерах является самым высоким. MST алгоритм известен Ье очень чувствительны к выбросам в то время как группа среднее алгоритм имеет тенденцию а для разбиения больших кластеров (с тех пор, как упоминалось ранее, средняя сходство между двумя подгруппам а большой кластер малых). Furthermor-e, Jaccard коэффициент а мера сходства между только две точки в вопросе - таким образом, не отражает свойства окрестности точки. Следовательно, Jaccard коэффициент не удается захватить природные кластеризации "не так хорошо разделенных" наборов данных с атрибутами, категорический и это показано в следующем примере.

переводится, пожалуйста, подождите..

Результаты (русский) 2:[копия]

Скопировано!

После того, как точки, принадлежащие разным кластерам будут объединены, ситуация становится все хуже и хуже, как прогрессирует кластеризации. Что обычно происходит, является а волновой эффект - в размер кластера растет, количество атрибутов, появляющихся в среднем идти вверх, и их стоимость в среднем уменьшается. Это делает его очень трудно отличить разницу между двумя точками, которые отличаются от атрибутов несколько, или двух точек, которые отличаются от каждого атрибута Ьу небольших количествах. А подробное описание с примером волнового эффекта в центроида на основе иерархических алгоритмов, представленной в (GRS97].
Установить теоретические меры сходства, такие как Жаккара coefficient2 (JD88] часто используется вместо евклидова расстояния для документа кластеризации. С Коэффициент J accard как меры расстояния между кластерами, иерархические схемы кластеризации центроидные основе не может Ье используется с сходство мера неметрический и определяется только точками в кластере, а не для ее тяжести. Таким образом, мы должны использовать либо минимум покрывающее дерево (MST) алгоритм иерархической кластеризации или иерархической кластеризации с группой среднего [JD88]. Алгоритм MST сливается, на каждом шагу, пара кластеров, содержащих наиболее похожий пару точек, а в среднем по группе алгоритм объединяет те, для которых средняя Сходство между парами точек в кластерах высокой. Алгоритм MST, как известно, Ье очень чувствительны к выбросам в то время как в среднем по группе алгоритм а тенденцию к расщеплению крупных кластеров (поскольку, как уже упоминалось ранее, средняя сходство между двумя подгрупп в а большой кластер мал). Furthermor-е, коэффициент Jaccard является мерой а сходства только между двумя точками в вопросе - это, таким образом, не отражает свойства окрестности точек. Следовательно, коэффициент Jaccard удается захватить естественный кластеризации "не так хорошо, разделенных" наборов данных с категорическими атрибутов и это проиллюстрировано в следующем примере.

переводится, пожалуйста, подождите..

Результаты (русский) 3:[копия]

Скопировано!

После того как точки, принадлежащие к различным группам, объединяются, ситуация становится постепенно усиливаются как кластеризация. Что обычно происходит так - ripPLE эффект - как размер кластера растет, количество наблагодарностей отображаются в означает, и их значение в означает уменьшается.

переводится, пожалуйста, подождите..

Другие языки

Поддержка инструмент перевода: Клингонский (pIqaD), Определить язык, азербайджанский, албанский, амхарский, английский, арабский, армянский, африкаанс, баскский, белорусский, бенгальский, бирманский, болгарский, боснийский, валлийский, венгерский, вьетнамский, гавайский, галисийский, греческий, грузинский, гуджарати, датский, зулу, иврит, игбо, идиш, индонезийский, ирландский, исландский, испанский, итальянский, йоруба, казахский, каннада, каталанский, киргизский, китайский, китайский традиционный, корейский, корсиканский, креольский (Гаити), курманджи, кхмерский, кхоса, лаосский, латинский, латышский, литовский, люксембургский, македонский, малагасийский, малайский, малаялам, мальтийский, маори, маратхи, монгольский, немецкий, непальский, нидерландский, норвежский, ория, панджаби, персидский, польский, португальский, пушту, руанда, румынский, русский, самоанский, себуанский, сербский, сесото, сингальский, синдхи, словацкий, словенский, сомалийский, суахили, суданский, таджикский, тайский, тамильский, татарский, телугу, турецкий, туркменский, узбекский, уйгурский, украинский, урду, филиппинский, финский, французский, фризский, хауса, хинди, хмонг, хорватский, чева, чешский, шведский, шона, шотландский (гэльский), эсперанто, эстонский, яванский, японский, Язык перевода.