Measuring RocksDB performance and adaptive sampling for model estimation
dc.contributor.advisor | Bastin, Fabian | |
dc.contributor.author | Laprés-Chartrand, Jean | |
dc.date.accessioned | 2022-04-04T18:22:10Z | |
dc.date.available | NO_RESTRICTION | fr |
dc.date.available | 2022-04-04T18:22:10Z | |
dc.date.issued | 2022-03-16 | |
dc.date.submitted | 2022-01 | |
dc.identifier.uri | http://hdl.handle.net/1866/26442 | |
dc.subject | RocksDB | fr |
dc.subject | Optimisation | fr |
dc.subject | Apprentissage statistique | fr |
dc.subject | LevelDB | fr |
dc.subject | Information de Fisher | fr |
dc.subject | Optimization | fr |
dc.subject | Statistical learning | fr |
dc.subject | Fisher information | fr |
dc.subject.other | Applied Sciences - Computer Science / Sciences appliqués et technologie - Informatique (UMI : 0984) | fr |
dc.title | Measuring RocksDB performance and adaptive sampling for model estimation | fr |
dc.type | Thèse ou mémoire / Thesis or Dissertation | |
etd.degree.discipline | Informatique | fr |
etd.degree.grantor | Université de Montréal | fr |
etd.degree.level | Maîtrise / Master's | fr |
etd.degree.name | M. Sc. | fr |
dcterms.abstract | This thesis focuses on two topics, namely statistical learning and the prediction of key performance indicators in the performance evaluation of a storage engine. The part on statistical learning presents a novel algorithm adjusting the sampling size for the Monte Carlo approximation of the function to be minimized, allowing a reduction of the true function at a given probability and this, at a lower numerical cost. The sampling strategy is embedded in a trust-region algorithm, using the Fisher Information matrix, also called BHHH approximation, to approximate the Hessian matrix. The sampling strategy is tested on a logit model generated from synthetic data. Numerical results exhibit a significant reduction in the time required to optimize the model when an adequate smoothing is applied to the function. The key performance indicator prediction part describes a novel strategy to select better settings for RocksDB that optimize its throughput, using the log files to analyze and identify suboptimal parameters, opening the possibility to greatly accelerate modern storage engine tuning. | fr |
dcterms.abstract | Ce mémoire s’intéresse à deux sujets, un relié à l’apprentisage statistique et le second à la prédiction d’indicateurs de performance dans un système de stockage de type clé-valeur. La partie sur l’apprentissage statistique développe un algorithme ajustant la taille d’échantillonnage pour l’approximation Monte Carlo de la fonction à minimiser, permettant une réduction de la véritable fonction avec une probabilité donnée, et ce à un coût numérique moindre. La stratégie d’échantillonnage est développée dans un contexte de région de confiance en utilisant la matrice d’information de Fisher, aussi appelée approximation BHHH de la matrice hessienne. La stratégie d’échantillonnage est testée sur un modèle logit généré à partir de données synthétiques suivant le même modèle. Les résultats numériques montrent une réduction siginificative du temps requis pour optimiser le modèle lorsqu’un lissage adéquat est appliqué. La partie de prédiction d’indicateurs de performance décrit une nouvelle approche pour optimiser la vitesse maximale d’insertion de paire clé-valeur dans le système de stockage RocksDB. Les fichiers journaux sont utilisés pour identifier les paramètres sous-optimaux du système et accélérer la recherche de paramètres optimaux. | fr |
dcterms.language | eng | fr |
Fichier·s constituant ce document
Ce document figure dans la ou les collections suivantes
Ce document diffusé sur Papyrus est la propriété exclusive des titulaires des droits d'auteur et est protégé par la Loi sur le droit d'auteur (L.R.C. (1985), ch. C-42). Il peut être utilisé dans le cadre d'une utilisation équitable et non commerciale, à des fins d'étude privée ou de recherche, de critique ou de compte-rendu comme le prévoit la Loi. Pour toute autre utilisation, une autorisation écrite des titulaires des droits d'auteur sera nécessaire.