Skip to main content
Log in

Evaluation of graphical and multivariate statistical methods for classification of water chemistry data

  • Paper
  • Published:
Hydrogeology Journal Aims and scope Submit manuscript

Abstract.

A robust classification scheme for partitioning water chemistry samples into homogeneous groups is an important tool for the characterization of hydrologic systems. In this paper we test the performance of the many available graphical and statistical methodologies used to classify water samples including: Collins bar diagram, pie diagram, Stiff pattern diagram, Schoeller plot, Piper diagram, Q-mode hierarchical cluster analysis, K-means clustering, principal components analysis, and fuzzy k-means clustering. All the methods are discussed and compared as to their ability to cluster, ease of use, and ease of interpretation. In addition, several issues related to data preparation, database editing, data-gap filling, data screening, and data quality assurance are discussed and a database construction methodology is presented.

The use of graphical techniques proved to have limitations compared with the multivariate methods for large data sets. Principal components analysis is useful for data reduction and to assess the continuity/overlap of clusters or clustering/similarities in the data. The most efficient grouping was achieved by statistical clustering techniques. However, these techniques do not provide information on the chemistry of the statistical groups. The combination of graphical and statistical techniques provides a consistent and objective means to classify large numbers of samples while retaining the ease of classic graphical presentations.

Résumé.

Un système robuste de classification pour répartir des échantillons de chimie de l'eau en groupes homogènes est un outil important pour la caractérisation des hydrosystèmes. Dans ce papier nous testons les performances des nombreuses méthodes graphiques et statistiques disponibles utilisées pour réaliser une classification des échantillons d'eau; ces méthodes sont les suivantes: les diagrammes en barres de Collins, en camembert, de Stiff, de Schoeller, de Piper, l'analyse hiérarchique en grappe en mode Q, le regroupement de moyennes K, l'analyse en composantes principales et le regroupement flou de moyennes K. Toutes ces méthodes sont discutées et comparées quant à leur aptitude à regrouper et leur facilité de mise en œuvre et d'interprétation. En outre, plusieurs points relatifs à la préparation des données, à l'édition des bases de données, à la reconstitution de données manquantes, à l'examen des données et au contrôle de validité des données sont discutés et une méthodologie d'élaboration d'une base de données est proposée.

L'utilisation de techniques graphiques a démontré qu'elle présente des limites par rapport aux méthodes multidimensionnelles, pour les jeux importants de données. L'analyse en composantes principales est utile pour réduire les données et pour évaluer la continuité/recouvrement des groupes ou le groupement/similitude dans les données. Le groupement le plus efficace est assuré par les techniques statistiques de regroupement en grappes. Cependant, ces techniques ne fournissent pas d'information sur le chimisme des groupes statistiques. La combinaison de techniques graphiques et statistiques donne les moyens solides et objectifs de faire une classification d'un grand nombre d'échantillons tout en conservant la facilité des représentations graphiques classiques.

Resumen.

Disponer de un esquema sólido de clasificación química de muestras de agua en grupos homogéneos es una herramienta importante para la caracterización de sistemas hidrológicos. En este artículo, contrastamos la utilidad de muchas metodologías gráficas y estadísticas disponibles para clasificar muestras de aguas; entre ellas, hay que citar el diagrama de barras de Collins, diagramas de sectores, diagrama de Stiff, gráfico de Schoeller, diagrama de Piper, análisis jerárquico de conglomerados en modo-Q, conglomerados de K-medias, análisis de componentes principales, y conglomerados difusos de k-medias. Se discute todos los métodos, comparándolos en función de su capacidad para establecer agrupaciones, de su facilidad de uso y de su facilidad de interpretación. Además, se discute varios aspectos relacionados con la entrada de datos, edición de bases de datos, extrapolación de datos en series incompletas, visualización de datos, y garantía de calidad de los datos, y se presenta una metodología para elaborar una base de datos.

Se demuestra que el uso de técnicas gráficas padece limitaciones respecto a los métodos multivariados para conjuntos de datos numerosos. El análisis de componentes principales es útil para reducir el número de datos y establecer la continuidad/superposición de grupos o agrupaciones/similaridades en los datos. Los resultados más efectivos se logran mediante técnicas estadísticas de agrupamiento; sin embargo, éstas no proporcionan información sobre la química de los grupos estadísticos. La combinación de técnicas gráficas y estadísticas posibilita un enfoque coherente y objetivo para clasificar números elevados de muestras y, a la vez, mantener la facilidad de las presentaciones gráficas convencionales.

This is a preview of subscription content, log in via an institution to check access.

Access this article

Price excludes VAT (USA)
Tax calculation will be finalised during checkout.

Instant access to the full article PDF.

Institutional subscriptions

Similar content being viewed by others

Author information

Authors and Affiliations

Authors

Additional information

Electronic Publication

Rights and permissions

Reprints and permissions

About this article

Cite this article

Güler, C., Thyne, G.D., McCray, J.E. et al. Evaluation of graphical and multivariate statistical methods for classification of water chemistry data. Hydrogeology Journal 10, 455–474 (2002). https://doi.org/10.1007/s10040-002-0196-6

Download citation

  • Received:

  • Accepted:

  • Published:

  • Issue Date:

  • DOI: https://doi.org/10.1007/s10040-002-0196-6

Navigation