selected_data.r 2.7 KB

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960
  1. setwd("./data/clustering/") # Nastavení pracovního adresáře (relativní k rootu)
  2. library(cluster)
  3. N <- input[[1]] # 'input' is a list of parametres, which comes from the NodeJS service
  4. input <- read.csv(file = 'input_modified.csv') # Načtení CSV souboru
  5. #head(input) # Výpis prvních šesti řádek CSV souboru
  6. mydata <- input[, -1, drop=F] # Zahození prvního sloupce dat (NUTS_ID). Při 2-sloupcové tabulce nesmí redukovat dimenzi na vektor, proto drop=F
  7. rownames(mydata) <- input[, 1] # První sloupec dat jako název řádek
  8. mydata <- scale(mydata) # Standardizace dat
  9. km25 <- kmeans(mydata, N, nstart=25) # N cluster solution, nstart = počet náhodných počátečních přiřazení, optimální je hodnota 25-50
  10. km50hw <- kmeans(mydata, N, nstart=50) # N cluster solution, nstart = počet náhodných počátečních přiřazení, optimální je hodnota 25-50
  11. km50l <- kmeans(mydata, N, nstart=50, algorithm=c("Lloyd"))
  12. km50m <- kmeans(mydata, N, nstart=50, algorithm=c("MacQueen"))
  13. kme_eu <- pam(mydata, N, diss=FALSE, metric=c("euclidean"))
  14. kme_mn <- pam(mydata, N, diss=FALSE, metric=c("manhattan"))
  15. d <- dist(mydata, method = "euclidean") # distance matrix
  16. dmin <- dist(mydata, method = "minkowski")
  17. dbin <- dist(mydata, method = "binary")
  18. dmax <- dist(mydata, method = "maximum")
  19. dcan <- dist(mydata, method = "canberra")
  20. dman <- dist(mydata, method = "manhattan")
  21. fit <- hclust(d)
  22. fitmin <- hclust(dmin)
  23. fitbin <- hclust(dbin)
  24. fitmax <- hclust(dmax)
  25. fitcan <- hclust(dcan)
  26. fitman <- hclust(dman)
  27. fitwd2 <- hclust(d,method="ward.D2")
  28. fitcom <- hclust(d,method="complete")
  29. fitsin <- hclust(d,method="single")
  30. fitcen <- hclust(d,method="centroid")
  31. fitmed <- hclust(d,method="median")
  32. fitmcq <- hclust(d,method="mcquitty")
  33. haclust <- cutree(fit, k=N) #default fit method=complete, so this is equal to haclustcom
  34. haclustmin <- cutree(fitmin, k=N)
  35. haclustbin <- cutree(fitbin, k=N)
  36. haclustmax <- cutree(fitmax, k=N)
  37. haclustcan <- cutree(fitcan, k=N)
  38. haclustman <- cutree(fitman, k=N)
  39. haclustwd2 <- cutree(fitwd2, k=N)
  40. haclustcom <- cutree(fitcom, k=N)
  41. haclustsin <- cutree(fitsin, k=N)
  42. haclustcen <- cutree(fitcen, k=N)
  43. haclustmed <- cutree(fitmed, k=N)
  44. haclustmcq <- cutree(fitmcq, k=N)
  45. fit <- diana(d)
  46. hdclust <- cutree(fit, k=N)
  47. #aggregate(mydata,by=list(km25$cluster),FUN=mean) # get cluster means
  48. outdata <- data.frame(km25$cluster, km50hw$cluster, km50l$cluster, km50m$cluster,kme_eu$cluster,kme_mn$cluster, haclust, haclustmin, haclustbin, haclustman, haclustmax, haclustcan, haclustwd2, haclustcom, haclustsin, haclustcen, haclustmed, haclustmcq, hdclust) # append cluster assignment
  49. #library(useful)
  50. #plot(fit, data=mydata) # vykreslení grafu
  51. write.csv(outdata,'out_file.csv') # zápis do souboru