Documentation
  1. Data integration [FR]
  2. Recensement des sites
  • Introduction
    • Purpose of this documentation
    • Contribute to this documentation
  • Database
    • Database structure
    • Lab results importation example
    • Database query
  • Data integration [FR]
    • Recensement des projets
    • Recensement des sites
    • Consolidation de la nomenclature des analytes
    • Description des contaminants
    • Déterminer la taille des échantillons par site
    • Injections des données
  1. Data integration [FR]
  2. Recensement des sites

Recensement des sites

On dispose d’une liste de référence des sites avec leurs localisations à cet emplacement Z:\07-Données BD\intermediate_files\sites_tp20_et_dbs_list_24042024.xlsx.

Ce fichier est le fruit d’une consolidation manuelle entre les sites documentés dans les onglets “Metadata - entêtes et notes” de plusieurs bases de données du PASL et le fichier TP-20, disposant de liste de choix pré-établie.

On charge cette table des sites en mémoire.

sites_tp20_dbs <- readxl::read_excel("Z:/07-Données BD/intermediate_files/sites_tp20_et_dbs_list_24042024.xlsx")

On commence par extraire la liste des sites identifiés dans toutes les bases de données.

source("src/itgr_measurements.R")
sites <- itgr_measurements() |>
    dplyr::select(location = Location, source) |>
    dplyr::distinct()

On effectue un fuzzy join en se basant sur le nom du site.

sites_with_locations <- fuzzyjoin::stringdist_left_join(
    sites, 
    sites_tp20_dbs,
    method = "lv"
) |> dplyr::distinct()
Joining by: "location"
# writexl::write_xlsx(sites_with_locations, "Z:/07-Données BD/intermediate_files/site_locations_29042024.xlsx")

Après une consolidation manuelle effectuer dans le fichier Z:/07-Données BD/intermediate_files/site_locations_29042024.xlsx.

On peut à présent cartographier les sites pour lesquelles nous disposons d’une localisation.

sites <- readxl::read_excel("Z:/07-Données BD/intermediate_files/site_locations_29042024.xlsx")

library(sf)
Warning: package 'sf' was built under R version 4.3.3
Linking to GEOS 3.11.2, GDAL 3.8.2, PROJ 9.3.1; sf_use_s2() is TRUE
sites_sf <- sites |>
    dplyr::filter(!is.na(lat) | !is.na(lon)) |> 
    sf::st_as_sf(coords = c("lon", "lat"), crs = 4326)

mapview::mapview(sites_sf)
Source Code
---
title: "Recensement des sites"
---

On dispose d'une liste de référence des sites avec leurs localisations à cet emplacement `Z:\07-Données BD\intermediate_files\sites_tp20_et_dbs_list_24042024.xlsx`.

Ce fichier est le fruit d'une consolidation manuelle entre les sites documentés dans les onglets "Metadata - entêtes et notes" de plusieurs bases de données du PASL et le fichier TP-20, disposant de liste de choix pré-établie. 

On charge cette table des sites en mémoire.

```{r}
sites_tp20_dbs <- readxl::read_excel("Z:/07-Données BD/intermediate_files/sites_tp20_et_dbs_list_24042024.xlsx")
```

On commence par extraire la liste des sites identifiés dans toutes les bases de données.

```{r}
source("src/itgr_measurements.R")
sites <- itgr_measurements() |>
    dplyr::select(location = Location, source) |>
    dplyr::distinct()
```

On effectue un fuzzy join en se basant sur le nom du site.

```{r}
sites_with_locations <- fuzzyjoin::stringdist_left_join(
    sites, 
    sites_tp20_dbs,
    method = "lv"
) |> dplyr::distinct()

# writexl::write_xlsx(sites_with_locations, "Z:/07-Données BD/intermediate_files/site_locations_29042024.xlsx")
```

Après une consolidation manuelle effectuer dans le fichier `Z:/07-Données BD/intermediate_files/site_locations_29042024.xlsx`. 

On peut à présent cartographier les sites pour lesquelles nous disposons d'une localisation.

```{r}
sites <- readxl::read_excel("Z:/07-Données BD/intermediate_files/site_locations_29042024.xlsx")

library(sf)
sites_sf <- sites |>
    dplyr::filter(!is.na(lat) | !is.na(lon)) |> 
    sf::st_as_sf(coords = c("lon", "lat"), crs = 4326)

mapview::mapview(sites_sf)
```