Configurar entorno de desarrollo en WSL para Data Scientist

El hecho de empezar en la ciencia de datos de por sí ya es difícil, pero aún lo es más cuando no conoces las herramientas adecuadas, ni cómo utilizarlas. Este tutorial es algo que me hubiera gustado tener al iniciar mi camino como Data Scientist y responde una pregunta en concreto de las miles que tenemos al iniciar.

¿Cómo configuro mi pc?

Requisitos para seguir:

  • Windows 10 o superior.

  • Conocimientos sobre que es Linux básicos (Video Informativo Link ).

  • Conocimientos extremadamente mínimos en terminal (Video Informativo Link ).

¿Qué es WSL y para qué sirve?


Bueno empecemos definiendo muy general y rápidamente wsl: Es la funcionalidad que creó Windows para qué instalamos Linux dentro de Windows como si de una app se tratase, esto da muchas ventajas, por el hecho de que desarrollar en Linux es mucho más fácil, pero la mayoría nos sentimos muy cómodos usando Windows.


Es como una quimera perfecta desde mi punto de vista.


WSL servirá para ejecutar motores de bases de datos, Python o cualquier otra herramienta que ocupemos pero desde Linux

Más info detallada y avanzada en el siguiente link: Hola soy el link :D


videotutorial Link

Instalacion

Este proceso es muy rápido y solo consiste en ejecutar un comando en la PowerShell

Ejecutamos el siguiente comando en la PowerShell:

wsl --install


Al finalizar tendremos la aplicación de Ubuntu instalada en nuestra PC.

Link de la página de Microsoft para más información

Instalación de herramientas a utilizar

Se dividirá en 2 partes, una instalación de herramientas en Ubuntu y otra en Windows.

Ubuntu

Desde aquí podemos utilizar git, Python, y un entorno de desarrollo más grato en general, pero la mayor ganancia que tenemos es que todos los servidores utilizan Linux, entonces tendremos una muy buena integración.

Anaconda (link info

Quizá en este momento no sabes que es anaconda, te lo resumiré muy fácil de la siguiente manera: anaconda es un todo en uno para la ciencia de datos, es un paquete de programas que se ocupan en este campo, tiene su propio manejador de paquetes algo parecido a pip, pero este tiene su propio repositorio oficial y se encarga de resolver los problemas de dependencias de los paquetes. Aquí Python ya viene de inicio con NumPy y pandas que son las más importantes en la ciencia de datos.

Instalación desde la consola de Ubuntu ejecutaremos los siguientes comandos.

cd /tmp

curl https://repo.anaconda.com/archive/Anaconda3-2021.05-Linux-x86_64.sh --output anaconda.sh

sha256sum anaconda.sh

bash anaconda.sh

source ~/.bashrc

conda config --set auto_activate_base false

Al ejecutar el siguiente comando, se activará el entorno de python: conda activate

Windows

Visual Estudio Code

Instalamos VS Code desde el siguiente Link, después de instalarlo para poder utilizarlo con Ubuntu, instalamos la siguiente extensión en VS Code Link

En la sección de Extensión buscamos WSL e instalamos Remote -WSL que es el que permite poder utilizar Ubuntu con VS Code

Al instalarse en la parte inferior izquierda saldrá un icono como el morado de la imagen, ahí tendrán que añadir su distribución de Ubuntu

Y por último podemos instalar un paquete de extensiones en VS Code para trabajar con Python que es muy completo, lo buscas como Data Science Extensions (puedes omitir la instalación de extensiones de Azure)

Data Science Extensions
Link

Atajos dentro de wsl

Para poder utilizar la interfaz gráfica de windows en las carpetas de linux puedes ejecutar el siguiente comando

explorer.exe .

Donde el último punto significa ejecutar el comando en la carpeta actual y como se puede ver la ruta que abre es la de wsl


Del mismo modo podemos lanzar VS Code desde cualquier parte de las carpetas de ubuntu con el comando

code .

Esta es una configuración muy rápida y espero poder publicar un video para que la puedas acompañar sin ningún problema, aun así me puedes contactar mediante Telegram como @dsandovalflavio, espero te sirva :D