[Hands On] Glue를 이용한 데이터 전처리에서 일배치 API 데이터 연동 실패시 코드성 데이터 수동 처리 방안입니다.
데이터 플랫폼 AI로 부터 데이터 연동 일배치가 실패시, Athena에서 코드성 데이터의 조회 실패 현상이 발생할 수 있습니다. 추후 성공, 실패에 따른 워크플로우를 구성해 줄 필요성이 있습니다.
현재 poc단계에서는 수동으로 코드성데이터를 생성하는 방법 공유드립니다.

1. dimensions 데이터만 API 호출하여 적재할 수 있는 쉘을 구성해 두었습니다.

2. s3에 수동 적재하려는 일부 코드성데이터가 당일날짜 폴더에 생성되어 있을시 해당 폴더를 삭제합니다.

3. 정상적으로 연동된 데이터가 적재된 날짜로 dimensions데이터만 요청하는 쉘 스크립트를 EC2인스턴스에서 실행합니다.

4. ./manual_bulk_api_dimensions.sh 시작일자 종료일자

5. 파일 업로드된 날짜를 확인합니다.

6. Glue 트리거에 모든 dimensions ETL Job을 등록해 놓은 트리거를 생성해놓았습니다.

7. 트리거명 : app_store_ratings_product_level_dimensions_scheduler

8. 생성 해 놓은 트리거를 선택하고 트리거 시작 버튼을 클릭합니다.

9. 금일 날짜 폴더의 dimestions 데이터들이 적재된것을 확인가능합니다.

10. Athena에서 정상 조회되어집니다.