전체
[Hands On]Athena로 공공데이터 분석하기
[AWS] Datalake DevOps [Hands On] Glue를 통한 Csv to Parquet 파일 변환하기 위 링크된 페이지의 Glue 실습을 통해 생성된 공공데이터 Glue Catalog Table을 Athena로 분석해봅니다. Athena workgroup 작업 그룹을 사용하여 사용자, 팀, 애플리케이션 또는 워크로드를 구분하고, 각 쿼리 또는 전체 작업 그룹에서 처리할 수 있는 데이터 양의 한도를 설정하고, 비용을 추적할 수 있습니다. 작업 그룹은 …
[Hands On]Glue를 통한 Csv to Parquet 파일 변환하기
[AWS] Datalake DevOps [Hands On]S3 트리거에 의한 Lambda의 압축 파일 처리 위 링크된 페이지의 Lambda 실습을 통해 S3에 적재된 csv 파일에 대한 Parquet 변환 작업을 해봅니다. < Glue Crawler로 CSV 파일 스키마 생성> 크롤러를 사용하여 테이블로 AWS Glue Data Catalog를 채웁니다. ETL 작업은 원본 및 대상 Data Catalog 테이블에 지정된 데이터 스토어에서 읽기와 쓰기를 수행합니다. …
lambda_function.py
샘플코드는 공공데이터 다운로드 원본 파일에 대한 압축 해제 및 utf-8-bom 형식 csv 파일들을 euc-kr로 디코딩 후 분석 대상파일들만 S3에 업로드 해주는 예시입니다.
[Hands On] S3 트리거에 의한 Lambda의 압축 파일 처리
[AWS] Datalake DevOps 1. 준비 공공데이터 다운로드 금융빅데이터플랫폼- 가입한 보험의 보장항목별로 보험회사의 판매 비중을 확인할 수 있는 정보 2. S3 구성 AWS Management Console 로그인 S3 메뉴 이동 버킷만들기(ex. 버킷명 : s3-techday-da-202202) 새 버킷명 입력 > AWS 리전(아시아 태평양(서울) ap-northeast-2) 선택 > 버킷만들기 생성된 버킷 선택 > 폴더 만들기 > 새 폴더 생성 공공데이터 다운로드받은 …
[Hands On] EC2 Auto Scaling
00. Intro 00-01. Auto Scaling이란? 클라우드 컴퓨팅의 대표적인 장점으로, Flexible하게 컴퓨팅 자원을 효율적으로 사용할 수 있게 하는 기술입니다. ‘Flexible’의 단어의 핵심은 빠르고 쉽게 서비스를 확장(Out)하거나 축소(In)하는 것을 말합니다. Auto Sscaling의 동작은 CPU, Disk, Network 등의 시스템 Metric값과 Application을 모니터링하여 size를 자동으로 조절하도록 이루어집니다. Auto Scaling을 통해 얻을 수 있는 이득 2가지 예상치 못한 서비스 부하에 …
[AWS] Datalake DevOps
1. Datalake란? 모든 정형 및 비정형 데이터를 규모에 상관없이 저장할 수 있는 하나의 중앙 집중식 저장소 데이터를 구조화 할 필요 없이 있는 그대로 저장이 가능 대시보드 및 시각화에서 빅 데이터 처리, 실시간 분석 및 머신 러닝에 이르기까지 다양한 유형의 분석을 실행하여 더 나은 결정을 내릴 수 있습니다. 클라우드는 더 나은 보안, 더 빠른 배포 시간, …
[AWS] Web Application 3Tier-Architecture
1. Web Application 3Tier-Architecture란?
3Tier-Architecture란 응용 프로그램을 3개의 논리적 및 물리적 컴퓨팅 계층으로 구성하는 방식이다.
이 방식은 각 계층이 분리 되어 자체 인프라에서 실행되기 때문에 동시에 개발이 가능하며 다른 계층에 영향을 주지 않으면서 확장이나 업데이트 될 수 있다는 장점이 있다.