En el mundo actual impulsado por los datos, las organizaciones confían en plataformas de Big Data para construir, implementar, compartir y mantener soluciones de datos, análisis e IA de nivel empresarial a escala. Este artículo explorará cómo Empezar con Databricks, la plataforma líder en la industria. Comenzaremos con una breve descripción general de qué es Databricks.
¿Qué es Databricks?
Databricks is a unified, open analytics platform for building, deploying,
sharing, and maintaining enterprise-grade data, analytics, and AI solutions
at scale. The Databricks Data Intelligence Platform integrates with cloud
storage and security in your cloud account, and manages and deploys cloud
infrastructure for you.
Para comenzar con Databricks, necesitas configurar una cuenta y crear un espacio de trabajo. Un espacio de trabajo es un entorno colaborativo donde puedes crear y administrar notebooks, trabajos y otros recursos.
Aquí tienes tres formas comunes de empezar a usar Databricks:
Databricks Community Edition: Una versión gratuita de Databricks ideal para aprender y explorar Apache Spark. Incluye un micro-clúster y soporte para notebooks, pero carece de características clave como Delta Lake, MLflow y Unity Catalog. Es la más adecuada para la experimentación individual, no para uso en producción.
Try Databricks: También conocido como Configuración Express, esta opción proporciona una prueba gratuita de Databricks utilizando solo tu correo electrónico. Recibirás créditos de uso de Databricks para explorar las funciones de la plataforma. Esto es excelente para probar y evaluar Databricks, pero tiene limitaciones, como recursos de computación sin servidor restringidos.
Databricks en Tu Nube: Esto implica implementar una versión de pago de Databricks dentro de tu propia cuenta en la nube (AWS, Azure o Google Cloud), lo que la hace adecuada para cargas de trabajo de producción y procesamiento de datos a gran escala. Databricks también ofrece una prueba gratuita de 14 días para los usuarios que deseen evaluar esta opción.
Si eres nuevo en Databricks, te recomendamos comenzar con las opciones Try Databricks o Databricks Community Edition. Estas opciones te permiten explorar las funciones y capacidades de la plataforma sin incurrir en costos. Una vez que te sientas cómodo con Databricks, puedes considerar implementarlo en tu propia cuenta en la nube para cargas de trabajo de producción.
Exploremos cada opción en detalle:
Cómo Empezar con Databricks Community Edition
Descripción General
Databricks Community Edition es una versión gratuita y perpetua de Databricks diseñada para el aprendizaje y la experimentación. Proporciona un entorno simplificado para explorar Apache Spark y otras funciones de Databricks sin incurrir en ningún costo.
Características y Beneficios Clave
Sin Costo: Accede a las funciones de Databricks sin ningún compromiso financiero.
Recursos Educativos: Incluye tutoriales y recursos para ayudar a los usuarios a aprender Apache Spark y las funcionalidades de Databricks.
Entorno de Notebooks: Utiliza notebooks para la exploración y visualización de datos.
Clúster de Nodo Único: Ofrece un micro-clúster adecuado para tareas de procesamiento de datos a pequeña escala.
Limitaciones
Recursos Limitados: Restringido a un clúster de nodo único con memoria y potencia de procesamiento limitadas.
Restricciones de Funciones: No admite funciones avanzadas como Delta Lake, MLflow, Unity Catalog o Databricks SQL.
Tiempo de Espera de Sesión: Los clústeres se terminan automáticamente después de un período de inactividad, lo que requiere reinicios manuales.
Restricciones de Almacenamiento: Limitado a 10 GB de almacenamiento en el Sistema de Archivos de Databricks (DBFS).
Sin SLA ni Soporte: Community Edition se proporciona “tal cual” sin soporte oficial ni acuerdos de nivel de servicio.
Crear un Clúster: En el espacio de trabajo, ve a la sección “Clusters” (Clústeres), haz clic en “Create Cluster” (Crear Clúster), proporciona un nombre y selecciona la configuración predeterminada para iniciar tu clúster.
Comenzar a Explorar: Empieza a crear notebooks y a explorar las funciones de Databricks.
Después de la Prueba y Actualización
Dado que Community Edition es gratuito y no tiene límite de tiempo, no hay un período de prueba. Sin embargo, si necesitas más recursos o funciones avanzadas, considera actualizar a un plan de pago de Databricks, que ofrece capacidades y soporte mejorados.
Conclusión
Databricks Community Edition es un excelente punto de partida para personas nuevas en big data y Apache Spark. Proporciona un entorno sin riesgos para aprender y experimentar, lo que lo hace ideal para estudiantes, educadores y profesionales que exploran el análisis de datos.
Cómo Empezar con la Configuración Express (Express Setup)
Descripción General
La Configuración Express, también conocida como “Try Databricks” (Probar Databricks), ofrece una prueba gratuita de 14 días de la plataforma Databricks. Esta opción permite a los usuarios experimentar todas las capacidades de Databricks sin necesidad de una cuenta de proveedor de nube. Solo necesitas una dirección de correo electrónico para comenzar.
Características y Beneficios Clave
Acceso Rápido: Comienza a usar Databricks en minutos utilizando solo una dirección de correo electrónico.
Espacio de Trabajo Sin Servidor: Aprovisiona automáticamente un espacio de trabajo sin servidor con configuraciones predefinidas.
Créditos Gratuitos: Recibe créditos de uso válidos por 14 días para explorar varias funciones de Databricks.
Colaboración: Opcionalmente, habilita el aprovisionamiento automático de usuarios para la colaboración en equipo.
Experiencia Guiada: Accede a tutoriales y documentación para ayudarte con la incorporación.
Limitaciones de la Prueba:
Si bien la prueba gratuita ofrece una valiosa introducción a Databricks, es esencial conocer ciertas limitaciones:
Límites de Recursos de Computación: Para optimizar el uso de créditos, Databricks impone límites en el escalado de los recursos de computación sin servidor. Esto incluye:
Máximo un almacén SQL por espacio de trabajo, escalando hasta 50 DBUs/hora.
Computación sin servidor para notebooks, trabajos y Delta Live Tables (DLT) escalando hasta 50 DBUs/hora.
Sin acceso a GPUs (solo CPU).
Límites de Búsqueda Vectorial: La funcionalidad de búsqueda vectorial está restringida a un punto final con una escala limitada a 1 unidad de búsqueda vectorial.
Acceso a la Red: El acceso a redes externas está limitado durante la prueba. Para acceso completo, deberás actualizar tu cuenta. Si necesitas acceder a un conjunto de datos público bloqueado, Databricks recomienda descargar manualmente el conjunto de datos y cargarlo en tu espacio de trabajo.
Limitaciones del Espacio de Trabajo Sin Servidor: El espacio de trabajo sin servidor de la prueba tiene limitaciones relacionadas con la computación sin servidor y el almacenamiento predeterminado.
Limitaciones
Límites de Recursos: Limitado a un almacén SQL por espacio de trabajo, escalando hasta 50 DBUs/hora.
Restricciones de Computación: La computación sin servidor para notebooks, trabajos y Delta Live Tables (DLT) también está limitada a 50 DBUs/hora.
Sin Acceso a GPU: Solo el procesamiento basado en CPU está disponible durante la prueba.
Limitaciones de Búsqueda Vectorial: Restringido a un punto final con un máximo de una unidad de búsqueda vectorial.
Acceso a la Red: El acceso a redes externas es limitado; ciertos conjuntos de datos públicos pueden requerir carga manual.
Ve al sitio web de Databricks y haz clic en
“Try Databricks” (Probar Databricks) en la esquina superior derecha del
menú.
Selecciona Configuración Express: Haz clic en “Get Started” (Comenzar) y elige “Use express setup” (Usar configuración express).
Proporciona tu Correo Electrónico: Ingresa tu dirección de correo electrónico y verificala a través del código enviado a tu bandeja de entrada.
Configuración del Espacio de Trabajo: Nombra tu espacio de trabajo y selecciona la región deseada.
Accede al Espacio de Trabajo: Una vez configurado, inicia sesión en tu espacio de trabajo para comenzar a explorar las funciones de Databricks.
note
En la página “Try Databricks” (Probar Databricks), en el cuadro “Comienza
tu prueba gratuita”, Haz clic en ¿Ya tienes una cuenta? Iniciar sesión
Después de la Prueba y Actualización
Opciones de Actualización: Agrega un método de pago durante o después de la prueba para continuar usando Databricks sin interrupciones.
Retención de Datos: Los activos creados durante la prueba pueden eliminarse 60 días después de que finalice la prueba si no se actualiza la cuenta.
Funciones Mejoradas: La actualización desbloquea funciones adicionales, incluidas configuraciones de cómputo personalizadas y límites de recursos aumentados.
Conclusión
La Configuración Express es ideal para individuos y equipos que desean explorar rápidamente la plataforma Databricks Lakehouse sin compromiso inicial. Proporciona un entorno sin servidor, créditos gratuitos y acceso a funciones clave, lo que la hace ideal para el aprendizaje práctico, proyectos de prueba de concepto y evaluaciones en etapas tempranas. Sin embargo, viene con limitaciones importantes, como recursos de cómputo reducidos y acceso a la red restringido, por lo que los usuarios que buscan capacidades listas para producción deberían considerar actualizar a un plan de pago.
Cómo Empezar con Databricks en la Nube
Descripción General
Implementar Databricks en tu propia nube significa integrar Databricks con tu entorno existente de AWS, Azure o Google Cloud. Esta opción está diseñada para cargas de trabajo de producción y ofrece acceso completo a funciones de nivel empresarial, escalabilidad y seguridad nativa de la nube. Si bien requiere configuración de la nube y configuración de facturación, te brinda la mayor flexibilidad y control.
Características y Beneficios Clave
Control Total: Administra tus propios recursos de cómputo, almacenamiento y configuraciones de red.
Escalabilidad: Aprovecha la escalabilidad de tu proveedor de nube para manejar grandes conjuntos de datos y flujos de trabajo complejos.
Integración: Intégrate sin problemas con los servicios en la nube y los protocolos de seguridad existentes.
Personalización: Adapta el entorno de Databricks para cumplir con los requisitos organizacionales específicos.
Soporte: Accede al soporte de Databricks y a los acuerdos de nivel de servicio para implementaciones empresariales.
Limitaciones
Configuración Compleja: Requiere familiaridad con la infraestructura de la nube y los permisos para aprovisionar recursos.
Gestión de Costos: Los usuarios son responsables de gestionar y monitorear el uso de los recursos de la nube para controlar los costos.
Configuración Inicial: Puede implicar más tiempo y planificación para configurar en comparación con otras opciones.
Pasos de Configuración
Elige un Proveedor de Nube: Decide si implementar en AWS, Azure o Google Cloud.
Actualización: Después de la prueba gratuita de 14 días, puedes actualizar agregando una cuenta de facturación a tu espacio de trabajo en la nube. Conservarás todas las configuraciones y activos creados durante la prueba.
Escalado y Control de Costos: A medida que actualizas, configura estrategias de control de costos como clústeres de escalado automático, programación de trabajos y monitoreo.
Niveles de Soporte: Obtén acceso a soporte premium, SLA y funciones de colaboración empresarial al actualizar.
Conclusión
Implementar Databricks en tu propia nube es la opción más robusta y escalable para las organizaciones listas para ir más allá de la experimentación. Proporciona un entorno listo para producción adaptado a las necesidades empresariales, lo que permite análisis avanzados, aprendizaje automático y cargas de trabajo de ingeniería de datos a escala.