Devenez Data Scientist grâce à DataCamp !

IT Programmation

Data Scientist est un des jobs d’avenir si l’on en croit les nombreux rapports qui fleurissent depuis 3 ou 4 ans. Le besoin en experts de la data ne s’est jamais fait autant ressentir que depuis l’explosion des données permise grâce aux nouvelles technologies.

data_camp

La data science, un monde complexe

Si les tutoriels se multiplient à vitesse grand V sur internet pour apprendre les bases de la data science, force est de constater que le sujet, de part sa profondeur et sa richesses conceptuelle, ne se laisse pas aborder facilement. Le problème n’est pas tant dans la complexité du langage de programmation à utiliser (Python et R principalement) mais bien dans le choix du bon outil pour chaque analyse tant il existe d’outils disponibles.

Les modules et autres librairies sont effectivement nombreux et savoir quel outil utiliser pour quel cas est loin d’être évident. Régression? Classification? En terme de machine learning, le cas business à résoudre requiert-il l’utilisation d’un apprentissage supervisé ou non-supervisé? SVM? Tree? Quel est le bon package à utiliser sous Python? Comment faire pour bien fitter et obtenir la bonne prédiction? 

Outre le choix de la méthode à appliquer à la création du model prédictif, la question du nettoyage des données est cruciale: le machine learning ne tolère pas les données à trou. Il faut commencer par nettoyer le set de données. La préparation peut se faire sous Python avec des libraires comme Python – ou directement sur le jeu de données dans certains cas via des requêtes SQL. Il faudra aussi visualiser les données, étudier sa distribution, tester des hypothèses de variables discriminantes.

Apprendre la data science pas à pas

Apprendre de manière interactive la data science, tel est le parti pris du site internet datacamp. Vous y apprendrez pas à pas grâce à tout un ensemble d’activités et de use cases pratiques et concrets à utiliser les outils du parfait data scientist.

Vous pourrez choisir vos outils et choisir des modules de formation soit en R ou en Python, les deux principaux langages pour effectuer le travail d’analyse de données. Si Python est un véritable langage de programmation permettant de très nombreux retraitements de données via des algorithmes et des batchs de données, R est depuis plusieurs années l’alternative plus puissante et surtout gratuite à des logiciels comme SAS.

Certains tutoriaux sont malheureusement payants sur le site internet datacamp -mais les concepts de base sont gratuits et permettent de tester l’outil et les tutoriels avant de sauter le pas d’une inscription payante. Vous pourrez retrouver les différents modules d’apprentissage de la data science directement sur cette page.

Fiverr, la plateforme avec des milliers d'offres de freelances

Découvrez notre séléction de produits pour les particuliers et professionnels.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *