Chì ghjè K-means Clustering?

Data mining with the k-means algorithm

U k- algoritu di clustering hè una storia di data mining è machine learning utilizzata per agrupà observazioni in gruppi di observazioni cunnessi senza alcuni cunnuscenza anticipata di quelli rilazioni. Per u mutamentu, l'algoritmu pruvà per esse indicatu in quale categoria, o raccogliu, i dati appartenenu à u numaru di raciuni chì sò definitu da u valore k.

L'algoritmu di « significa una di e tecniche simplici più chjaru è hè comunmente utilizatu in imuli medici, biometrigii è i duminii rilativi. U vantagiu di k- significa agrupatu hè chì dice u vostru dati (utilizandu a so forma inservisciata) invece di voi avè da esse infurmatu l'algoritmu annantu à a dati à u principiu (usendu a furmazione tutalizzata di l'algoritmu).

Hè cunsigliata per l'Algoritmu di Lloyd's, particularmente in i circles di l'informatica, perchè l'algoritmu standard fu propiu di Stuart Lloyd in u 1957. U terminu "k-means" hè stata creata in u 1967 da James McQueen.

Cumu funziu di l'algoritmo k-means

U k- algoritma hè un algoritmu evoluzione chì guadagna u so nome da u so metudu di l'operazione. L'algoritmo aghjunghje elenze in gruppi K , induve chì k hè furnitu per un paràmetru di input. Allora assigne ogni observazione à i raciuni basati nantu à a proximità di l'observazioni à u significatu di u cluster. U significatu di u cluster hè ricumentatu è u prucessu novu torna. Eccu cumu si u algorithmu:

  1. L'algoritmu arbitraria selezziunate i punti cume i centri di clusteria iniziali (i mezi).
  2. Ogni punti di u settore di u settore hè attribuitu à u clustu chjusu, basatu supra a distanza euclidiana trà ogni puntu è di ogni unità di cluster.
  3. Ogni centru di centru hè recumputatu cum'è a mutezza di e punti in questu gruppu.
  4. Passi 2 è 3 Ripete finu à chì i cungrini converge. A Cunvergenza pò esse definite differente cumandendu a implementazione, ma cumu significa chì o nisuna observazione cambia clusters quandu i passi 2 è 3 sò ripetuti, o chì i cambiamenti ùn fate micca una differenza materiale in a definizione di i clusters.

Sceglie u numeru di raciuni

Una di e persevisions principali di a k- significa agrupastu hè u fattu chì deve circustarate u numeru di raciuni cum'è una input à l'algoritmu. Quandu hà studiatu, l'algoritimu ùn hè micca capacatu per stabilisce u nùmeru appruvamentu di clusters è dipende à l'utilizatore per identificà din in anticipu.

Per esempiu, se avete un gruppu di pirsuni chì anu aghju raggruppule nantu à l'identità di u genaru binurariu comu masculu o femminili, chjamà l'algoritmu di u k- utilizendu l'input k = 3 furzà a ghjente in trè gruppi, quandu solu dui, o un input de k = 2, furnissi un apparenza più naturali.

In u stessu, se un gruppu di particeddi sò stati raggrupamenti basati nantu à u state di casa è chjamatu l'algoritmu di k- significa l'input k = 20, i risultati sò ancu generalizate per esse efficace.

Per questa mutivu, hè spessu una bona idea per pruvà spirimintà cun valori di valutà di k per identificà u valore chì togi più bè a vostra dati. Puderete ancu di scopra l'utilizazione di l' altri algoritmi di minurizazioni di dati in a vostra ricerca per a cunniscenza mpresa in manu.