avatar

La route est longue et lointaine

Notes De Révision Du Cours Sur L'architecture Des Big Data

‘Les exigences des systèmes de big data incluent plusieurs aspects tels que les données, les fonctionnalités et les performances, avec pour objectif d’atteindre une haute performance, une haute disponibilité, une tolérance aux pannes et une extensibilité. Le big data est étroitement lié au cloud computing, qui fournit des ressources de calcul pour le traitement des big data, tandis que le big data est une application typique des services de cloud computing. Le cloud computing offre des services de calcul dynamiquement extensibles via le réseau, avec des caractéristiques telles que la virtualisation des ressources, une échelle massive et l’élasticité, et se divise en trois modèles de service : IaaS, PaaS et SaaS. Le cloud public, le cloud privé, le cloud communautaire et le cloud hybride sont les quatre principales formes de service, chacune ayant ses avantages et inconvénients. Les technologies clés du cloud computing incluent la virtualisation et la conteneurisation, la virtualisation abstrait les ressources informatiques, tandis que la conteneurisation offre un environnement de virtualisation léger. Le processus de traitement des big data implique la collecte, le prétraitement, le stockage, l’analyse et la visualisation des données, le calcul distribué étant sa technologie clé. Hadoop est le cadre central de traitement des big data, comprenant HDFS, MapReduce et YARN, et supporte le stockage et le calcul de grandes quantités de données. Les systèmes distribués réalisent une haute disponibilité et une tolérance aux pannes grâce au partitionnement et à la réplication, le théorème CAP indiquant qu’un système distribué doit faire des compromis entre la cohérence, la disponibilité et la tolérance aux partitions.’
0%