- Amazon EMR
- Recursos
- EMR Studio
Amazon EMR Studio
Por que usar o EMR Studio?
O EMR Studio é um ambiente de desenvolvimento integrado (IDE) que torna fácil para os cientistas e engenheiros de dados desenvolverem, visualizarem e depurarem aplicações de engenharia de dados e ciência de dados escritas em R, Python, Scala e PySpark.
O EMR Studio oferece blocos de anotações Jupyter totalmente gerenciados e ferramentas, como Spark UI e YARN Timeline Service para simplificar a depuração. Cientistas e analistas de dados podem instalar kernels e bibliotecas personalizadas, colaborar com colegas usando repositórios de código como GitHub e BitBucket ou executar blocos de anotações parametrizados como parte de fluxos de trabalho programados usando serviços de orquestração como Apache Airflow ou Amazon Managed Workflows for Apache Airflow.
Os kernels e aplicações do EMR Studio são executados em clusters do EMR de forma que você obtenha o benefício do processamento distribuído de dados usando a performance otimizada do Ambiente de Tempo de Execução do Amazon EMR para Apache Spark. Os administradores podem configurar o EMR Studio para que os analistas possam executar suas aplicações em clusters EMR existentes ou criar novos clusters usando modelos predefinidos do AWS Cloud Formation for EMR.
Simples de usar
Blocos de anotações Jupyter totalmente gerenciados
Aplicações fáceis de construir
Depuração simplificada
Notebooks colaborativos em tempo real
SQL Explorer
Notebooks em várias linguagens
Casos de uso
-
Com o EMR Studio, você pode iniciar notebooks em segundos, integrar notebooks de amostra e realizar sua exploração de dados. Você pode colaborar com colegas por meio da colaboração interna em tempo real e acompanhar as alterações nas versões do notebook por meio de repositórios Git. Você também pode personalizar o ambiente carregando kernels personalizados e bibliotecas Python a partir de notebooks.
-
No EMR Studio, você pode usar o repositório de código para acionar pipelines. Você também pode parametrizar e encadear notebooks para criar pipelines. Você pode integrar notebooks em fluxos de trabalho agendados usando serviços de orquestração de fluxo de trabalho, como o Apache Airflow ou o Amazon Managed Workflows for Apache Airflow. O EMR Studio também permite que você reconecte notebooks a um cluster maior para executar um trabalho.
-
No EMR Studio, você pode depurar aplicações de notebook a partir da interface do usuário do notebook. Você também pode depurar pipelines, limitando primeiro os clusters usando filtros como o estado do cluster e diagnosticar trabalhos em clusters ativos e encerrados com o mínimo de cliques possível para abrir UIs de depuração nativas, como Spark UI, Tez UI e Yarn Timeline Service.