Lecture Notes on Data Curation for Interactive Visualisation

2022-09-14

2分钟阅读时长

学习

Week 1: The relation between data acquisition, curation, processing, and visualisation

A recommented framework: Open Visualization Environment

A typical data processing pipeline: hypothesis, data acquisiiton, feature extration, classification/regression, presentation/visualisation.

Data
- Data collection: source, update frequency, quantity, type of data
- Quality: data quality metrics, noise characterisation
- Storage: storage capacity, transfer latency, bandwidth, loading/saving
Extraction
- Feature encoding/representation
- Normailisation
- Augmentation/imputation
Model (not focused this course)
- Model Type: regression, classification, multi-label, multi-task, zero-shot/few-shot
- Training protocol
- Objective function
Visualisation
- Feature decoding
- Presentation type

Hypothesis → Collection → Analysis → Storage → Dissemination (publication/visualization) → Archive or Destroy → Hypothesis

File repository (network, local file systems)
SQL databases (i.e. Postgres, MySQL, etc), Column databases (i.e. influxDB), NoSQL databases (i.e. MongoDB), Search indexes (i.e. ElasticSearch)