본문 바로가기

반응형

컴퓨터 과학/데이터베이스

(27)
Mapper 와 Reducer "Mapper"와 "Reducer"는 Hadoop과 같은 분산 데이터 처리 시스템에서 주로 사용되는 개념으로, 대용량 데이터를 효율적으로 처리하는 데 중요한 역할을 합니다. 이 두 용어를 비교 설명하겠습니다. Mapper: 역할: Mapper는 입력 데이터를 가져와서 중간 결과를 생성하는 역할을 합니다. 주로 데이터를 키-값 쌍 형태로 변환하거나 그룹화하여 출력합니다. 데이터 처리: Mapper는 입력 데이터를 여러 개의 청크로 나누어 처리하며, 각 청크를 독립적으로 처리합니다. 병렬성: Mapper는 병렬적으로 동작하므로 여러 데이터 청크를 동시에 처리할 수 있습니다. 예시: 웹 서버 로그에서 IP 주소와 페이지 요청을 추출하고, 각 IP 주소를 키로, 페이지 요청 횟수를 값으로 하는 키-값 쌍을 생성..
OLAP Aggregation Aggregation(집계)는 데이터 분석에서 중요한 개념 중 하나로, 데이터를 요약하거나 합계를 구하는 작업을 나타냅니다. 주로 OLAP(Online Analytical Processing)과 데이터베이스 쿼리에서 사용되며, 다양한 데이터 항목을 더 큰 그룹으로 묶거나 계산하여 정보를 추출하고 해석하는 데 사용됩니다. 아래는 aggregation의 개념과 사용 예시에 대한 설명입니다: 개념: Aggregation은 데이터를 다양한 방식으로 요약하거나 그룹화하는 프로세스입니다. 이것은 대규모 데이터 집합에서 통찰력을 얻고 정보를 추출하기 위한 중요한 단계입니다. Aggregation은 주로 집계 함수(aggregate function)를 사용하여 수행됩니다. 일반적인 집계 함수에는 SUM(합계), AVG..
Cube와 Rollup 예시 "Cube" 및 "Rollup"은 SQL 쿼리 언어에서 다차원 데이터 큐브를 생성하고 데이터를 롤업(요약)하는 데 사용되는 명령어입니다. 다음은 "Cube" 및 "Rollup" 명령어의 예시를 작성하겠습니다. 먼저, 다음과 같은 예시 데이터베이스 테이블을 가정합니다: 테이블 이름: sales yearquarterproductrevenue 2022 Q1 Product A 1000 2022 Q1 Product B 1500 2022 Q2 Product A 1200 2022 Q2 Product B 1600 Cube 예시: "Cube" 명령어는 다차원 데이터 큐브를 생성합니다. 다음 쿼리는 연도(year), 분기(quarter), 및 제품(product)에 대한 큐브를 생성합니다. sqlCopy code SELE..
OLTP와 OLAP OLTP(Online Transaction Processing)와 OLAP(Online Analytical Processing)은 데이터베이스 시스템의 주요 용도와 목표가 다른 두 가지 주요 데이터 처리 시스템입니다. 다음은 OLTP와 OLAP를 비교한 설명입니다: 목적: OLTP: OLTP 시스템은 주로 실시간 트랜잭션 처리를 위해 설계되었습니다. 주로 데이터의 입력, 수정, 삭제와 같은 트랜잭션 처리에 중점을 두며, 주로 온라인 주문, 예약, 인벤토리 관리 등의 작업을 처리합니다. 데이터의 최신 상태를 유지하고, 데이터 일관성과 정확성이 중요합니다. OLAP: OLAP 시스템은 데이터 분석과 의사 결정 지원을 위해 설계되었습니다. 주로 데이터의 조회, 집계, 추세 분석과 같은 다차원 분석 작업에 중점..
Star Schema와 SnowFlake Schema (HackerRank - Database) What is the source of the cube metadata for OLAP? -> Both star and snowflake schema(s) "Star Schema"와 "Snowflake Schema"는 데이터 웨어하우스 및 비즈니스 인텔리전스(Business Intelligence) 환경에서 데이터를 모델링하고 구성하는 데 사용되는 데이터베이스 디자인 패턴입니다. 이 두 스키마는 데이터베이스 테이블 간의 관계를 나타내고 데이터의 조직 및 쿼리 성능에 영향을 미칩니다. Star Schema(스타 스키마): Star Schema는 데이터 웨어하우스 환경에서 가장 일반적으로 사용되는 스키마 패턴 중 하나입니다. Star Schema는 중심 테이블인 "팩트 테이블(Fact Table)"과 여러 ..
OLAP operation (HackerRank - Database) Choose OLAP operation involves computing all of the data relationships for one or more dimensions. dice slice pivot roll-up "Dice," "Slice," "Pivot," 및 "Roll-up"은 OLAP(Online Analytical Processing) 시스템에서 다차원 데이터를 분석하고 조작하는 데 사용되는 일반적인 용어입니다. 다음은 각 용어의 설명입니다: Dice(다이스): "Dice"는 다차원 데이터 큐브에서 특정 부분 집합을 선택하는 작업을 의미합니다. 이 작업은 특정 차원에 대한 특정 값 범위를 선택하여 큐브의 데이터를 필터링하는 것을 포함합니다. 예를 들어, 시간 차원에서 특정 월 또는 특정 ..
OLAP (HackerRank - Database) 4. Choose OLAP operation involves computing all of the data relationships for one or more dimensions. dice slice pivot roll-up OLAP는 "Online Analytical Processing"의 약어로, 온라인 분석 처리를 의미합니다. OLAP는 데이터 웨어하우스 및 비즈니스 인텔리전스(Business Intelligence, BI) 시스템과 관련이 있는 중요한 개념 중 하나입니다. OLAP은 데이터 분석과 의사 결정 지원을 위해 설계된 데이터베이스 및 소프트웨어 기술을 나타냅니다. OLAP 시스템은 대규모 데이터 세트를 분석하고 쿼리하는 데 특화되어 있으며, 다차원 데이터 모델을 사용하여 데이터를 조직화..
cluster factor와 fill factor (HacerRank - Database) 3. Consider the following two designs to store the data using clustered indexes in MS SQL Server: In the first design, the fill factor is 20% and the total number of free rows per page are A. In the second design, the fill factor is 40% and the total number of free rows per page are B. Which the followings describes the relation between A and B: 클러스터 팩터(Cluster Factor)와 필 팩터(Fill Factor)는 데이터베이스..

반응형