'분류 전체보기' 카테고리의 글 목록

분류 전체보기

[PostgreSQL] PG16 설치 (Data, Log directory 분리) 07:16:54 2
[PG Study 2025] Lock 2025.07.07 2
[Postgresql-study] WAL (write ahead log) 2024.07.25
[pgday.Seoul 2022] PostgreSQL구조 - 윤성재 님 요약 2024.06.30
[Postgresql] 에 대한 소개 - 1st study 2024.06.27 1
[wedatalab] Postgresql 명품 강의 (admin) 2024.06.24
[Aurora mysql v3] innodb_flush_log_at_trx_commit check 2024.06.13
Postgresql - Study 준비 2024.06.10
[MongoDB] Logical Session / Causal Consistency 2022.12.08
[Redis] Lua 메모리 정리 2022.09.13

[PostgreSQL] PG16 설치 (Data, Log directory 분리)

2025. 7. 14. 07:16

[OpenAI 도움을 받아 문서를 작성하였습니다.]

PostgreSQL 16을 설치하면서 데이터 디렉토리와 로그 디렉토리를 /data/pg1/data, /data/pg1/log로 분리하고, 설정 파일 postgresql.conf를 /data/pg1/에 따로 두는 방법을 정리

Mac에 UTM - Ubuntu

Path

PostgreSQL 데이터 디렉토리	/data/pg1/data
PostgreSQL 로그 디렉토리	/data/pg1/log
설정 파일 (postgresql.conf 등)	/data/pg1/

1. PostgreSQL APT 저장소 등록 및 설치

sudo apt update sudo apt install wget gnupg2 lsb-release -y wget --quiet -O - https://www.postgresql.org/media/keys/ACCC4CF8.asc | sudo gpg --dearmor -o /usr/share/keyrings/postgresql.gpg echo "deb [signed-by=/usr/share/keyrings/postgresql.gpg] http://apt.postgresql.org/pub/repos/apt $(lsb_release -cs)-pgdg main" | \ sudo tee /etc/apt/sources.list.d/pgdg.list sudo apt update sudo apt install postgresql-16 -y

2. 기본 클러스터 삭제

수동으로 설정할 것이므로 기본 클러스터는 삭제

sudo systemctl stop postgresql sudo pg_dropcluster 16 main --stop

3. 사용자 정의 디렉토리 구조 생성

sudo mkdir -p /data/pg1/data sudo mkdir -p /data/pg1/log sudo chown -R postgres:postgres /data/pg1 sudo chmod -R 700 /data/pg1

4. initdb (DB 기본 구성)

- 이때 템플릿이 존재하는 경우 템플릿으로 구성도 가능 ( 개념적으로 공부하였으며, 이에 대한 테스트 내용은 추가 정리 )

sudo -u postgres /usr/lib/postgresql/16/bin/initdb \ -D /data/pg1/data \ -U postgres \ --locale=en_US.UTF-8 \ --encoding=UTF8

5. Config 파일 이동

각종 Config 파일을 /data/pg1/로 이동

sudo -u postgres mv /data/pg1/data/postgresql.conf /data/pg1/ sudo -u postgres mv /data/pg1/data/pg_hba.conf /data/pg1/ sudo -u postgres mv /data/pg1/data/pg_ident.conf /data/pg1/

6. postgresql.conf 수정

vi /data/pg1/postgresql.conf 

# config 파일 위치 
data_directory = '/data/pg1/data'
hba_file = '/data/pg1/pg_hba.conf'
ident_file = '/data/pg1/pg_ident.conf'

#logging 및 기본 설정 정보 수정
logging_collector = on
log_directory = '/data/pg1/log'
log_filename = 'postgresql-%Y-%m-%d.log'
log_rotation_age = 1d
log_rotation_size = 0

7. Startup 체크

제대로 동작하는지 정상 동작 여부 확인

sudo -u postgres /usr/lib/postgresql/16/bin/postgres -D /data/pg1/data -c config_file=/data/pg1/postgresql.conf

8. systemd 서비스 등록

vi /etc/systemd/system/postgresql@pg1.service

# /etc/systemd/system/postgresql@pg1.service
[Unit]
Description=PostgreSQL Cluster pg1
After=network.target

[Service]
Type=forking
User=postgres
ExecStart=/usr/lib/postgresql/16/bin/pg_ctl start -D /data/pg1/data -l /data/pg1/log/server.log -o "-c config_file=/data/pg1/postgresql.conf"
ExecStop=/usr/lib/postgresql/16/bin/pg_ctl stop -D /data/pg1/data
ExecReload=/usr/lib/postgresql/16/bin/pg_ctl reload -D /data/pg1/data
Restart=on-failure

[Install]
WantedBy=multi-user.target

#----------------------------------------------------------------

# 서비스 enable 및 startupl
sudo systemctl daemon-reexec
sudo systemctl daemon-reload
sudo systemctl enable postgresql@pg1
sudo systemctl start postgresql@pg1

# 서비스 확인
sudo systemctl status postgresql@pg1



root@QEMU-Virtual-Machine:~# systemctl status postgresql@pg1
● postgresql@pg1.service - PostgreSQL Cluster pg1
     Loaded: loaded (/etc/systemd/system/postgresql@pg1.service; enabled; preset: enabled)
     Active: active (running) since Mon 2025-07-14 06:55:27 KST; 21s ago
 Invocation: 713c96deac224813aef721246ecd8566
    Process: 27196 ExecStart=/usr/lib/postgresql/16/bin/pg_ctl start -D /data/pg1/data -l /data/pg1/log/server.log -o -c config_file=/data/pg1/postgresql.conf (code=exited, status=0/SUCCESS)
   Main PID: 27202 (postgres)
      Tasks: 7 (limit: 8745)
     Memory: 17.7M (peak: 18.4M)
        CPU: 59ms
     CGroup: /system.slice/system-postgresql.slice/postgresql@pg1.service
             ├─27202 /usr/lib/postgresql/16/bin/postgres -D /data/pg1/data -c config_file=/data/pg1/postgresql.conf
             ├─27210 "postgres: logger "
             ├─27211 "postgres: checkpointer "
             ├─27212 "postgres: background writer "
             ├─27215 "postgres: walwriter "
             ├─27216 "postgres: autovacuum launcher "
             └─27217 "postgres: logical replication launcher "

9. 명령어 실행 여부 확인

PostgreSQL 데이터 디렉토리 확인:

bash

복사편집

sudo -u postgres psql -c "SHOW data_directory;"

로그 생성 확인:

bash

복사편집

ls -l /data/pg1/log

sudo -u postgres psql -c "SHOW data_directory;"

root@QEMU-Virtual-Machine:~# sudo -u postgres psql -c "SHOW data_directory;"
 data_directory
----------------
 /data/pg1/data
(1 row)

# Log 확인
ls -l /data/pg1/log

root@QEMU-Virtual-Machine:~# ls -l /data/pg1/log
total 8
-rw------- 1 postgres postgres 1905 Jul 14 06:55 postgresql-2025-07-14.log
-rw------- 1 postgres postgres  197 Jul 14 06:55 server.log

결론. OpenAI 는 나의 삶에 도움을 준다????

저작자표시 비영리 (새창열림)

'PostgreSQL' 카테고리의 다른 글

[wedatalab] Postgresql 명품 강의 (admin) (0)	2024.06.24

[PG Study 2025] Lock

2025. 7. 7. 23:41

이 Study 는 기본적으로 [막힘없이 PostgreSQL - 액셈] 을 기본으로 하며, 각종 Open AI 및 공식 홈페이지, The Internals of PostgreSQL 를 참고하여 정리한 글입니다.

https://www.postgresql.org/docs/current/explicit-locking.html

정의

PostgreSQL Lock은 데이터베이스에서 동시성 제어와 데이터 무결성을 보장하기 위해 사용하는 잠금(락) 메커니즘
여러 트랜잭션이 동시에 데이터에 접근하거나 수정할 때 충돌을 방지

Lock level

Object level lock
- Object에 대한 변경이 발생할 때 object를 보호하는 역할
- Shared memory lock space 영역에 저장하며, 최대 동시 접속 수와 Transaction 최대 Lock 개수의 곱으로 정의
  - (max_connectgions + max_jprepared_transactions) * max_locks_per_transaction
- max_locks_per_transaction
  - default 64
  - 하나의 Transaction 당 최대로 획득할 수 있는 object lock 수
  - 하나의 Transaction 에서 파티션 테이블에 여러개인 파티션을 한번에 Query 하는 경우, 하나의 쿼리에서 Lock 이 조회한 파티션 수만큼 발생 가능성이 존재(유의)
- pg_catalog.pg_locks view 를 통해 object lock 정보를 확인이 가능
Row level lock
- Tuple 에 대한 Lock
- MVCC 기반으로 작동하기 때문에 write 충돌 방지에만 사용
- shared memory 에 저장되는 것이 아닌 Page 내부의 Touple version 에 저장
  - 메모리에 저장되는 것이 아니기 때문에, Lock 개수에는 영향을 받지 않음
  - Lock 을 대기하는 프로세스를 대기 큐에 넣을 수 없기 때문에 모니터링이 힘듦
Memory level lock
- PostgreSQL에서 말하는 Memory-level lock은 공유 메모리(shared memory) 내에서 이루어지는 경량 잠금(Lightweight Lock, LWLock) 또는 스핀락(spinlock) 계열의 잠금
- 서버 내부 동기화를 위한 메모리 구조 보호용

Memory level lock 종류

종류	설명
Spinlock	- CPU 단위의 아주 빠른 락 - 매우 짧은 작업 보호 (획득 시간이 매우 짧고 여러 프로세스가 별도의 메모리 영역을 변경하지 못하도록 보호 - 루프 방식으로 돌면서 Lock 획득) - 사용 예 > 카운터 변수 증가 > flags 설정 > WALWriteLock 이전 준비
LWLock (Lightweight Lock)	- PostgreSQL 공유 메모리 내 구조체 보호용 - 읽기 모드(공유) / 쓰기 모드(배타) 지원 - 사용 예 > WALWriteLock : WAL 버퍼에 기록할 때 > BufMappingLock : shared buffer에 페이지 맵핑 시 > CLogControlLock : 트랜잭션 상태 제어 > ProcArrayLock : 트랜잭션 및 백엔드 배열 정보 제어 - PostgreSQL 내부에는 수백 개의 LWLock이 존재
Buffer Pin Lock	- 버퍼를 변경하기 위해 프로세스가 Buffer pin lock을 획득 - 특정 데이터 페이지가 Shared Buffer 에서 제거되지 않도록 보호 - 데이터를 참조하는 동안 해당 페이지가 교체(Evict) 되는 것을 방지 - 페이지 단위로 관리
WAL Buffer Lock	- WAL(Write-Ahead Logging) 메커니즘에서 WAL Buffer를 보호하고 동시성을 제어하기 위해 사용 - WAL Record 생성 → WALInsertLock 획득 요청 → Buffer 공간 예약 및 저장(필요 시) WALBufMappingLock 획득 후 WAL Page 확장 → WALInsertLock 해제 → (커밋 등 조건 시) WALWriteLock 획득 후 디스크로 Write - WALInsertLock :WAL Buffer에 WAL Record를 저장할 때 획득하는 락(default 8) - WALBufMappingLock : WAL Buffer 내에 새로운 WAL Page가 필요할 때(즉, 공간 확장이 필요할 때) 획득하는 락 - WALWriteLock :WAL Buffer의 내용을 디스크로 플러시(쓰기)할 때 사용하는 락
Lock Tranche / Named Locks	- LWLock 그룹화 및 모듈화
Named LWLocks	- 확장 기능이나 커널 모듈에서도 사용 가능

-- 현재 프로세스의 blocking 정보 (간접 확인 가능)
-- 메모리 수준 락은 pg_locks 에 안 나옴
-- row/table-level lock만 기록됨
SELECT * FROM pg_blocking_pids(<pid>);

Advisory Lock (사용자 정의 Lock)
- Transaction 외부에서도 사용할 수 있는 Application level 의 lock
- Table이나 row와 직접 연결되지 않음

-- 세션 단위 Advisory Lock 획득
SELECT pg_advisory_lock(12345);

-- 세션 단위 Lock 해제
SELECT pg_advisory_unlock(12345);

#현재 Lock 확인: pg_locks 뷰와 pg_stat_activity를 조인하여 어떤 세션이 어떤 Lock을 보유/대기 중인지 확인
SELECT a.pid, a.usename, a.datname, a.state, a.query, l.locktype, l.mode, l.granted
FROM pg_locks l
JOIN pg_stat_activity a ON l.pid = a.pid
WHERE a.state != 'idle';

주요 Lock 종류

Access Share Lock	SELECT 쿼리 실행 시 걸리는 기본 락. 다른 읽기 작업과 충돌하지 않음.
Row Share Lock	외래키 제약조건이 있는 테이블에 INSERT, UPDATE 등 수행 시. 이름과 달리 테이블 수준의 락.
Row Exclusive Lock	INSERT, UPDATE, DELETE 실행 시. 읽기 쿼리와는 충돌하지 않음.
Share Update Exclusive	VACUUM, ANALYZE, CREATE INDEX CONCURRENTLY 등 유지보수 명령 실행 시.
Share Lock	테이블을 공유 모드로 잠금. 읽기는 가능하지만, 동시 업데이트는 불가.
Share Row Exclusive Lock	CREATE TRIGGER, 일부 ALTER 명령 실행 시.
Exclusive Lock	Materialized View 갱신 등에서 사용.
Access Exclusive Lock	DROP TABLE, TRUNCATE 등 DDL 명령에서 사용. 모든 락과 충돌하는 가장 강력한 락.
Row-level Lock	특정 행(row)에만 잠금. SELECT ... FOR UPDATE 등에서 사용.
Advisory Lock	애플리케이션에서 명시적으로 사용하는 사용자 정의 락.

Conflicting Lock Modes

Requested Lock Mode	Existing Lock Mode
Requested Lock Mode	Access share	ROW SHARE	ROW EXCL.	SHARE UPDATE EXCL.	SHARE	SHARE ROW EXCL.	EXCL.	ACCESS EXCL.	SQL
ACCESS SHARE								X	SELECT
ROW SHARE							X	X	SELECT FOR UIPDATE/SHARE
ROW EXCL.					X	X	X	X	INSERT, UPDATE, DELETE
SHARE UPDATE EXCL.				X	X	X	X	X	VACUUM, ALTER TABLE, CREATE INDEX CONCURRENCY
SHARE			X	X		X	X	X	CREATE INDEX
SHARE ROW EXCL.			X	X	X	X	X	X	CREATE TRIGGER, ALTER TABLE
EXCL.		X	X	X	X	X	X	X	REFRESH MAT, VIEW CONCURRENTLY
ACCESS EXCL.	X	X	X	X	X	X	X	X	DROP, TRUNCATE, VACUUM FULL, LOCK TABLE, ALTER TABLE, REFRESH MAT. VIEW

-- waiting_pid, waiting_query	대기 중인 쿼리 및 세션 정보
-- holder_pid, holder_query	해당 잠금을 보유 중인 쿼리 및 세션
-- locked_relation	충돌 중인 테이블 이름
-- waiting_mode, holder_mode	잠금 모드 (RowExclusiveLock 등)
-- kill_holder_query	해당 holder 세션을 강제 종료하는 SQL 문

WITH lock_conflicts AS (
  SELECT
    w.pid        AS waiting_pid,
    w.query      AS waiting_query,
    w.usename    AS waiting_user,
    w.application_name AS waiting_app,
    w.state      AS waiting_state,
    w.query_start AS waiting_query_start,
    l1.relation::regclass AS locked_relation,
    l1.mode      AS waiting_mode,
    h.pid        AS holder_pid,
    h.query      AS holder_query,
    h.usename    AS holder_user,
    h.application_name AS holder_app,
    h.state      AS holder_state,
    h.query_start AS holder_query_start,
    l2.mode      AS holder_mode,
    -- Kill query 자동 생성
    'SELECT pg_terminate_backend(' || h.pid || ');' AS kill_holder_query
  FROM
    pg_locks l1
    JOIN pg_stat_activity w ON l1.pid = w.pid
    JOIN pg_locks l2 ON l1.locktype = l2.locktype
                    AND l1.database IS NOT DISTINCT FROM l2.database
                    AND l1.relation IS NOT DISTINCT FROM l2.relation
                    AND l1.page IS NOT DISTINCT FROM l2.page
                    AND l1.tuple IS NOT DISTINCT FROM l2.tuple
                    AND l1.virtualxid IS NOT DISTINCT FROM l2.virtualxid
                    AND l1.transactionid IS NOT DISTINCT FROM l2.transactionid
                    AND l1.classid IS NOT DISTINCT FROM l2.classid
                    AND l1.objid IS NOT DISTINCT FROM l2.objid
                    AND l1.objsubid IS NOT DISTINCT FROM l2.objsubid
                    AND l1.pid <> l2.pid
    JOIN pg_stat_activity h ON l2.pid = h.pid
  WHERE NOT l1.granted AND l2.granted
)
SELECT * FROM lock_conflicts
ORDER BY waiting_query_start;

Multi Transactions

Shared lock mode는 서로 호환 가능한 lock mode 로, 요청할 경우 Multi transaction을 허용
- Multixact ID (multi transaction id)를 별도로 적용하여 shared lock상태를 저장
Tuple 은 어느 시점에 Transaction ID와 Multixact ID가 동일한 값을 가질 수 있음
Multi transaction 상태는 pgrowlocks extension 을 통해서도 확인 가능
- pgrowlocks를 조회하면 lock을 획득한 process, lock mode, tuple 정보 및 multi transaction 상태 등을 확인 가능
- 현재 상태만 확인이 가능하고, 종료되면 확인이 불가능

Tuple lock waiting

Exclusive lock으로 인해 동일 모드로 lock을 요청하는 다른 Transaction 은 락을 대기할 수 밖에 없음.
pg_locks View를 통해 확인이 가능

# pg_stat_activity : 현재 데이터베이스의 모든 세션 상태(쿼리, 접속자, 실행 시간 등)를 보여주는 뷰
# pg_locks : 현재 데이터베이스 서버의 모든 활성 세션이 보유하거나 대기 중인 Lock 정보를 보여주는 시스템 뷰
# 어떤 세션이 어떤 Lock을 보유하거나 대기 중인지, 쿼리 내용과 Lock 보유 시간까지 한 번에 확인
# datname: 데이터베이스명
# locked_relation: 잠금 대상(테이블명 등)
# mode: Lock 종류
# granted: Lock 보유 여부(true/false)
# query: 실행 중인 쿼리
# lock_age: Lock 보유 시간(경과 시간)
# pid: 프로세스 ID

SELECT
  a.datname,
  l.relation::regclass AS locked_relation,
  l.transactionid,
  l.mode,
  l.granted,
  a.usename,
  a.query,
  a.query_start,
  age(now(), a.query_start) AS lock_age,
  a.pid
FROM pg_stat_activity a
JOIN pg_locks l ON l.pid = a.pid
ORDER BY a.query_start;

# blocking session 
# Lock으로 인해 대기 중인 세션과 이를 블로킹하는 세션을 한 번에 확인
SELECT
  COALESCE(blockingl.relation::regclass::text, blockingl.locktype) AS locked_item,
  now() - blockeda.query_start AS waiting_duration,
  blockeda.pid AS blocked_pid,
  blockeda.query AS blocked_query,
  blockedl.mode AS blocked_mode,
  blockinga.pid AS blocking_pid,
  blockinga.query AS blocking_query,
  blockingl.mode AS blocking_mode
FROM pg_catalog.pg_locks blockedl
JOIN pg_stat_activity blockeda ON blockedl.pid = blockeda.pid
JOIN pg_catalog.pg_locks blockingl
  ON (
    (blockingl.transactionid = blockedl.transactionid)
    OR (blockingl.relation = blockedl.relation AND blockingl.locktype = blockedl.locktype)
  ) AND blockedl.pid != blockingl.pid
JOIN pg_stat_activity blockinga ON blockingl.pid = blockinga.pid
  AND blockinga.datid = blockeda.datid
WHERE NOT blockedl.granted
  AND blockinga.datname = current_database();


# https://blog.ex-em.com/1928
SELECT current_timestamp AS db_time,
       waiter_pid,
       w_info.usename AS waiter_user ,
       w_info.query   AS waiter_query ,
       w_info.query_start AS waiter_query_start ,
       case
           when EXTRACT(EPOCH from current_timestamp - w_info.query_start ) < 0 then 0
           else EXTRACT(EPOCH from current_timestamp - w_info.query_start ) 
       end as waiter_elapsed_time, 
       holder_pid ,
       h_info.usename AS holder_user ,
       h_info.query   AS holder_query ,
       h_info.query_start AS holder_query_start,
       case
           when EXTRACT(EPOCH from current_timestamp - h_info.query_start ) < 0 then 0
           else EXTRACT(EPOCH from current_timestamp - h_info.query_start )
       end as holder_elapsed_time
FROM   (
              SELECT snaptime,
                     locktype,
                     waiter_pid,
                     w_cnt,
                     h_cnt ,
                     CASE
                            WHEN h_cnt=Max(h_cnt) OVER(partition BY waiter_pid) THEN holder_pid
                     END AS holder_pid
              FROM   (
                            SELECT current_timestamp                             AS snaptime,
                                   blocked_locks.locktype                        AS locktype,
                                   blocked_locks.pid                             AS waiter_pid,
                                   count(*) over(partition BY blocked_locks.pid) AS w_cnt,
                                   count(*) over(partition BY blocking_locks.pid)    h_cnt,
                                   blocking_locks.pid                             AS holder_pid
                            FROM   pg_catalog.pg_locks blocked_locks
                            JOIN   pg_catalog.pg_locks blocking_locks
                            ON     blocking_locks.locktype = blocked_locks.locktype
                            AND    blocking_locks.DATABASE IS NOT DISTINCT
                            FROM   blocked_locks.DATABASE
                            AND    blocking_locks.relation IS NOT DISTINCT
                            FROM   blocked_locks.relation
                            AND    blocking_locks.page IS NOT DISTINCT
                            FROM   blocked_locks.page
                            AND    blocking_locks.tuple IS NOT DISTINCT
                            FROM   blocked_locks.tuple
                            AND    blocking_locks.virtualxid IS NOT DISTINCT
                            FROM   blocked_locks.virtualxid
                            AND    blocking_locks.transactionid IS NOT DISTINCT
                            FROM   blocked_locks.transactionid
                            AND    blocking_locks.classid IS NOT DISTINCT
                            FROM   blocked_locks.classid
                            AND    blocking_locks.objid IS NOT DISTINCT
                            FROM   blocked_locks.objid
                            AND    blocking_locks.objsubid IS NOT DISTINCT
                            FROM   blocked_locks.objsubid
                            AND    blocking_locks.pid != blocked_locks.pid
                            WHERE  NOT blocked_locks.granted ) t ) t2
JOIN   pg_catalog.pg_stat_activity w_info
ON     w_info.pid = t2.waiter_pid
JOIN   pg_catalog.pg_stat_activity h_info
ON     h_info.pid = t2.holder_pid
WHERE  holder_pid IS NOT null;

db_time                      |waiter_pid|waiter_user|waiter_query                                        |waiter_query_start           |waiter_elapsed_time|holder_pid|holder_user|holder_query                                        |holder_query_start           |holder_elapsed_time|
-----------------------------+----------+-----------+----------------------------------------------------+-----------------------------+-------------------+----------+-----------+----------------------------------------------------+-----------------------------+-------------------+
2024-04-30 12:08:49.078 +0900|   2914359|postgresdt |update lock_test set c2 = 'row_update' where c1 = 1;|2024-04-30 12:07:55.777 +0900|          53.301024|   2914369|postgresdt |update lock_test set c2 = 'row_update' where c1 = 1;|2024-04-30 12:07:50.784 +0900|          58.294596|
2024-04-30 12:08:49.078 +0900|   2914369|postgresdt |update lock_test set c2 = 'row_update' where c1 = 1;|2024-04-30 12:07:50.784 +0900|          58.294596|   2914377|postgresdt |update lock_test set c2 = 'row_update' where c1 = 1;|2024-04-30 12:07:45.711 +0900|          63.366759|

Lock_timeout
- lock_timeout은 PostgreSQL에서 쿼리가 Table, Index , tuple 등 데이터베이스 객체의 잠금(Lock)을 획득하기 위해 대기하는 최대 시간(밀리초 단위)을 설정하는 parameter
- 설정 단위: 세션(Session) 또는 트랜잭션(Transaction) 단위로 설정 가능
- Default: 0 (disable, 무한정 대기)
- 적용 대상: 명시적/암시적 Lock 요청(예: DML, DDL, LOCK TABLE 등)
- 동작: 지정한 시간 내에 Lock을 획득하지 못하면 쿼리가 취소되고, canceling statement due to lock timeout 오류가 발생
- statement_timeout과 차이: statement_timeout은 쿼리 전체 실행 시간을 제한하지만, lock_timeout은 Lock 획득 대기 시간만 제한 -> 둘 다 설정되어 있으면, 먼저 도달한 타임아웃이 우선 적용

# ms 단위
set lock_timeout = 5000;
set lock_timeout = '5s';
ALTER TABLE mytable ADD COLUMN newcol int;

Deadlock
- PostgreSQL은 데드락 상황을 자동으로 감지하고, 관련 트랜잭션 중 하나를 강제로 중단(ROLLBACK)시켜 교착상태를 해소.
- 어떤 트랜잭션이 중단될지는 예측할 수 없음
- deadlock_timeout parameter
  - Deadlock 상황을 일정한 주기로 체크하여 감시하는 parameter
  - Default : 1000ms
- Deadlock 방지 및 해결 전략
  - 락 획득 순서 일관성 유지: 모든 트랜잭션이 동일한 순서로 Lock을 획득하도록 설계하면 데드락 발생 가능성을 크게 줄일 수 있음
  - 작은 배치 크기: 한 번에 처리하는 데이터의 범위를 줄여 Lock 충돌 가능성을 낮춤
  - 트랜잭션 분리: DDL(DROP, TRUNCATE 등) 작업과 DML(INSERT, UPDATE 등)을 분리하여 실행
  - 재시도 메커니즘: 데드락 발생 시 자동으로 트랜잭션을 재시도하도록 애플리케이션을 설계
  - Lock 대기 시간 제한: lock_timeout 파라미터를 설정해 장기 대기를 방지

저작자표시 비영리 (새창열림)

'PostgreSQL > PostgreSQL-Study' 카테고리의 다른 글

[Postgresql-study] WAL (write ahead log) (0)	2024.07.25
[pgday.Seoul 2022] PostgreSQL구조 - 윤성재 님 요약 (0)	2024.06.30
[Postgresql] 에 대한 소개 - 1st study (1)	2024.06.27
Postgresql - Study 준비 (0)	2024.06.10

[Postgresql-study] WAL (write ahead log)

2024. 7. 25. 23:02

Architecture 중 WAL 에 대해 정리 하였습니다.

내용이 중복되는 내용도 있지만, 공식 문서에만 있는 수준의 정보도 있습니다. 쉽게 정리하는 것이 중요하지만, 이해를 못하더라도 연관 되는 내용이 반복되는 경우가 존재하기 때문에, 이런 내용도 있구나 하고 넘어 가는 것도 좋다고 생각합니다.

Postgresql Architecture

WAL 동작에 대한 간략한 이해도

https://cloud.google.com/architecture/performing-pitr-postgresql

WAL(미리 쓰기 로그) : 파일이 변경되기 전에 데이터 파일의 변경사항이 WAL에 기록

WAL 레코드 : 데이터베이스에 적용된 각 트랜잭션이 WAL 레코드로 형식이 지정되어 저장

세그먼트 파일 :

세그먼트 파일은 단조 증가하는 파일 이름을 사용하고 가급적 많은 WAL 레코드를 포함
파일 크기는 구성 가능하며 기본값은 16MiB
크기 또는 개수 측면에서 대량 트랜잭션이 예상되는 경우 생성되는 세그먼트 파일의 총 수를 줄이고 파일 관리 부담을 줄이기 위해 더 큰 크기를 선택할 수 있습니다.
MongoDB Journal log (https://hyunki1019.tistory.com/155)
MySQL 은 WAL 전략을 채택하여 Redo Log Buffer에 transaction log 를 작성(redo log를 뜻함)
WAL Buffers 내용을 WAL Files에 기록
WAL Log / Transaction Log / Redo log
sync / async mode 존재
Segment file size : 16mb
Log file 로 분할된 segment 개수 64개 (wal_keep_segments -> Logical log file)
- max_wal_size 만큼 생성 (64개 넘어가면 한개 삭제되고 한개 생성되는 형태 -> rotation 이 아님)
- 64*16 = 1024mb ( max_wal_size 1gb)
- min_wal_size (80mb = 16*5 = 5개 생성되고 이후 한개 삭제, 한개 생성)
- 해당 File 를 이용하면 CDC 프로그램도 개발이 가능
- pg_resetxlog
  - 9.6 이하에서 사용하였으며, pg_resetwal 로 변경
  - WAL 파일을 reset 하는 명령어
  - pg_resetwal
    - WAL 초기화 진행 및 pg_control 파일에 저장된 일부 제어 정보도 초기화
    - 서버가 crash 로 인해 손상되어 시작이 안될 때 강제 부팅하는 역할이 필요할때만 진행
    - 데이터 일관성 문제 발생할 수 있으며, 별도 복구가 반드시 필요
- pg_switch_xlog()
  - 강제로 WALog swiching
- pg_xlogdlump
  - wal log 작성된 내용 확인
  - pg_xlogdump ./000000001000000012341223 (WAL log file)
  - 데이터 번호/ schema 번호 / 디비번호 형태로 결과
- 병목 현상
  - block 단위로 WAL log 에 기록 다음 checkpoint 가 발생하기 전까지 레코드 단위로 WAL log 기록
  - log size 늘리거나 디스크를 좋은 것 사용 외에는 해결 불가
  - full_page_writes parameter 를 off 하여 속도 향상
  - Vacuum freeze를 하면 XID frozen 작업으로 인해 레코드 변경이 발생
  - 1bit 변경됐지만 full_page_writes 기능으로 인해 block 단위 redo가 생성
모든 변경 기록을 보관(transaction log)
- 무결성을 보장하기 위한 작업
- Tip - Journaled file 은 불필요
  - WAL 가 안정적으로 저장하기 때문에, Journaled file이 필요없음
    - journal
      - pg_journal 를 사용 하여 journal log에 직접 로그 메시지를 작성
      - DB 활동을 기록하는 파일로, 문제 해결 및 성능 분석에 사용
      - https://pgxn.org/dist/pg_journal/doc/pg_journal.html
    - Journal 은 오버헤드로 인해 성능 저하를 유발(Disk flush / 단, ext3 일 경우 data=writeback 옵션을 사용하여 data flush 진행 시 발생할 수 있는 오버헤드를 줄일 수 있음)
    - Journal 은 DB Crash 발생 시 부팅 속도를 향상할 수 있는 효과
복구를 위해 기록하는 것으로, DB가 crash 되었을 경우 check point 동작 전이라고 하면 디스크에 저장이 안되어 유실되는데, 이것을 방지하기 위해 WAL 로그를 읽어와 복구 진행
- os buffer cache 영역에는 자주 요청되는 디스크 블록을 저장하지만, 이건 Disk 로 바로 write 되도록 postgresql 에서 강제로 할 수 있음.(wal_sync_method parameter 참고)
- Disk 의 실제 페이지에 DML하기전에 주기적으로 전체 페이지 이미지를 WAL에 영구적으로 저장
- 그래서 Crash가 발생하더라도 WAL에서 부분적으로 작성된 페이지를 복원이 가능
- WAL 파일의 각 레코드는 레코드 내용이 올바른지 확인할 수 있는 CRC-32(32bit)검사로 작성 및 보호 (복구 시 확인)
  - WAL 레코드에 기록된 전체 페이지 이미지는 보호되지만, 데이터 페이지는 기본적으로 chechsum 되지 않음
- 데이터만 WAL에 작성이 되고, 통계정보 관련된 각종 시스템 정보들은 저장되지 않고, 복구 진행 시 최근 변경사항으로 재구축-재설정 되도록 동작
- Temptable 정보도 저장되지 않음
WAL 를 사용하면 Disk write 수가 줄어드는데, Transaction 에 의해 변경된 모든 데이터가 아닌, commit 보장하기 위한 WAL 파일만 disk 에 flush 하면 되기 때문 -> 데이터 페이지를 Flush 하는 비용보다 더 저렴
- 특히, 소규모 transaction 을 동시에 처리하는 시스템에서 WAL 파일의 fsync 하나만으로 많은 transaction을 commit 하는데 충분하기 때문
- fsync (boolean)
  - https://minsql.com/postgres/PostgreSQL-synchronous_commit-%EA%B0%9C%EB%85%90%EB%8F%84/
  - fsync가 on이면, PostgreSQL서버는 fsync()시스템콜을 통해서 변경분을 디스크에 물리적으로 바로 쓴다. 이는 데이터베이스클러스터가 OS나 하드웨어 장애시 consistent한 상태로 복구가 가능함을 보장한다.
  - fsync를 off한다면, OS가 알아서 메모리에 있는 것을 디스크로 내려쓰게 된다. 언제 무엇이 디스크에 쓰여졌는지 아닌지 알수 없다. 그러므로 성능상 이득을 볼수는 있겠지만, 전원장애나 system crash로가 발생했을때 복구가 불가능할수 있다. 만약 전체 데이터베이스를 쉽게 재생성할수 있는 경우에만 off하도록 한다. 예를들어 백업본으로부터 새로운 데이터베이스 클러스트를 초기 구축하는 경우, 버리고 재생성할 데이터베이스의 데이터 처리, 자주 재생성되는 read-only 데이터베이스 복제본으로 failover에 사용되지 않는 데이터베이스인 경우 사용할 수 있다. 고성능의 하드웨어 장비라고해서 fsync를 끄는 것은 올바르지 않다.
- 성능을 위해서라면 synchronous_commit을 off하는 것만으로 충분할 것이다.
- 만약 off하기로 했다면, full_page_writes도 off하는 것을 고려하도록 한다.
WAL 를 사용하여, PITR 지원이 가능
- WAL 를 재생하여 복구가 가능
Asynchronous Commit
- DB Crash 발생 시, 가장 최근의 Transaction은 유실 가능성 존재(Risk)
- 다만, transaction 을 더 빠르게 처리가 가능
- Default 는 synchronous (동기)
  - Client에 transaction result를 return 하기 전에, WAL 의 record가 Disk 에 write될 때까지 기다렸다가 ack 처리. -> commit 된 transaction 에 대한 무결성 보장을 의미
  - 다만, 이것에 대한 비용은 발생
- 이러한 비용을 조금이라도 줄이기 위한 방법으로, disk flush 응답을 받기 전에 WAL buffer에서만 작성 후 ack 하는 방식을 Asynchronous Commit -> Transaction 처리량 향상
- synchronous_commit Parameter 를 이용하여 수정이 가능하며, transaction 마다 설정이 가능
  - 트랜잭션 커밋하기전에 WAL 레코드가 disk까지 쓰인다음에 success를 리턴할 것인가 여부
  - on : default
  - off : 클라이언트에 바로 transaction commit을 보냄. 하지만 실제로 트랜잭션이 안전하게 반영(WAL record가 WAL file에 쓰여짐) 되기까지 딜레이가 존재함. 서버 crash났을때 트랜잭션 손실될 수 있음. (최대 delay는 wal_writer_delay(200ms)의 3배). 하지만 fsync와는 달리 off로 한다고 해서 db 일관성에 문제가 되지는 않음. 최근 커밋되어야하는 트랜잭션이 손실될 수는 있으나 database 상태는 이 트랜잭션들이 정상적으로 롤백된 것과 같아서 일관성에 문제 없음.
- DROP TABLE 은 synchronous_commit 와 상관없이 동기식으로 처리 : 일관성을 보장하기 위함.
- PREPARE TRANSACTION 와 같은 2-phase commit 의 경우도 동기식으로 처리
- wal_writer_delay ms 마다 WAL Writer 가 Disk 로 flush 진행
  - 최대 유실 시간은 wal_writer_delay milliseconds * 3 의 risk 가 존재
    - busy periods(바쁜기간?)에 WAL writer 가 한 번에 Disk 로 flush 를 진행하는 것을 선호로 인해 발생 (정확한 의미는 모르겠습니다. 왜 wal_writer_delay 의 최대 3배의 시간으로 명시했는지.
- commit_delay parameter 와 유사하지만, commit_delay 는 synchronous commit 의 방법에 속함
  - Asynchronous commit 을 설정하면, commit_delay 는 무시
  - commit_delay 는 transaction 이 WAL disk flush 지연을 유발

https://minsql.com/postgres/PostgreSQL-synchronous_commit-%EA%B0%9C%EB%85%90%EB%8F%84/

WAL Configuration
- 참고로 checkpoint 는 checkpoint 이전까지의 기록된 transaction 의 sequence 지점
  - checkpoint 를 기준으로 모든 Dirty data page가 Disk 로 flush 되고 특수 checkpoint record가 WAL 파일에 기록
  - DB Crash 가 발생하면, 최신 checkpoint 지점을 찾은 후, WAL 에서 시작해야 되는 시점을 찾아 복구 진행
  - 최소 Checkpoint 지점까지는 Disk 에 있는 것을 보장되며, WAL 기준으로는 checkpoint 이전 파일은 필요 없으며, 이전 segment 또한 필요가 없음을 의미하고 재활용 되거나 제거할 수 있음을 의미
  - full_page_writes
    - Default on
    - https://postgresql.kr/docs/9.5/runtime-config-wal.html#GUC-FULL-PAGE-WRITES
    - checkpoint 이후 각 Disk page를 수정(dml로 인해) 하는 도중에 해당 페이지의 전체 내용을 WAL 에 기록
      - os crash 발생 시, 진행 중인 페이지 쓰기가 부분적으로만 완료 되어 디스크 상의 페이지에 과거 데이터와 새 데이터가 공존하기 때문에, 복구 진행 시 올바른 복구가 보장되지만 WAL 에 기록하는 데이터량은 증가될 수 밖에 없음
      - checkpoint 간격을 늘릴 수 있음.
    - off 하면, 운영 속도가 향상되지만, 시스템 crash 발생 시, 손상된 데이터가 복구 불가능 또는 데이 손사이 발생 가능성 존재
      - fsync 를 해제했을 때와 유사
      - PITR 진행 시, WAL 아카이빙 사용에는 영향을 미치지 않음
      - postgresql.conf 파일 또는 command 로 설정 가능
  - checkpoint_timeout sec 마다 또는 max_wal_size 가 초과될 경우 checkpoint 발생
    - default : 5 min (300 sec) / 1 Gb
    - WAL 에 작성이 안된 경우 checkpoint_timeout 이 되어도 checkpoint 가 발생하지 않음
    - 물론 CHECKPOINT 명령어로 강제 실행은 가능
    - 만약 해당 변수 값들을 줄이며, 더 자주 checkpoint 발생 : DB crash 후 빠른 복구는 가능하지만 Disk I/O 비용 발생
    - full_page_writes 가 설정된 경우 (default 설정) , check point 발생 후 데이터 페이지 수정이 발생하는 경우 전체 페이지가 기록 -> 더 많은 Disk I/O 발생(시간을 짧게 가져갈수록 disk I/O는 더욱더 증가)
    - checkpoint_timeout 시간을 충분히 여유있게 가져가는 것을 책에서는 권장하며, checkpoint_warning 로 checkpoint 에 대해 sanity check (온전성 검사?)가 가능
    - 당연하겠지만, checkpoint timeout 보다 더 잦은 checkpoinrt 가 발생하면 max_wal_size 증가 하라는 메시지가 log 에 남음
  - XLogInsertRecord
    - Shared memory 내 WAR buffer 에 new record 를 배치하는데 사용
    - 만약 새로운 데이터가 insert 될 공간이 없으면, kernel cache 로 채워진 WAL buffer 일부를 move 시킴 -> 이것은 exclusive lock (대상 data page) 을 유발하기 때문에, 성능에 좋지 않음
    - 일반적으로 XLogFlush 에 의해 WAL buffer 를 WAL file 에 flush 되어야 함.
    - wal_buffers 를 이용하여 WAL bufferpool 수를 조정 가능하며, full_page_writes 가 설정되어 있고, 시스템이 바쁜경우 wal_buffers 수를 늘려주는 것을 권장
  - XLogFlush
    - LogWrite 의 issue_xlog_fsync 의 호출에 의해 XLogFlush 가 WAL buffer 의 내용을 disk 로 flush
    - commit_delay
      - commit_delay (ms)는 XLogFlush 내에서 lock 을 획득 하는동안, group commit 을 기다리는 시간(지연시간) parameter
      - 목적은 동시에 commit 되는 transaction 전체에 걸쳐 flush 작업의 비용을 분할할 수 있는 것(다만 transaction 시간은 증가)
        
        commit_delay 가 발생하면, 대기하는 commit record들은 WAL Buffer 에 추가 하여 정합성을 지키는 효과 -> Transaction 대기 시간을 최소화
      - 0 : ( default)그룹 커밋의 효과가 중요
      - 1 : 동시에 commit 이 발생하여 transaction 처리?
      - 2 : 처리량이 commit 속도에 따라 제한 되는 경우 도움 ?
  - wal_debug 를 활성화 하면, XLogInsertRecord, XLogFlush 의 call 횟수를 확인할 수 있음.
  - WAL 데이터를 Disk 에 Writer 하는 함수는 XLogWrite and issue_xlog_fsync 존재
  - WAL 데이터를 동기화하는 데 소요되는 시간은, pg_stat_wal 내의 wal_write_time and wal_sync_time 에 기록
  - wal_sync_method 가 open_sync 또는 open_datasync 이면, XLogWrite는 WAL 데이터를 Disk 로 flush 하고 데이터 정합성을 보장하고, issue_xlog_fsync 는 어떠한 작업도 하지 않음
  - wal_sync_method 가 fdatasync , fsync , 또는 fsync_writethrough 가 되면, write opertaion이 WAL buffer 를 kernal cache로 이동하고 issue_xlog_fsync 는 kernal cache 내용을 Disk로 동기화 진행
  - XLogWrite Write 및 issue_xlog_fsync 가 WAL 데이터를 disk 로 동기화하는 횟수가, pg_stat_wal 에서 wal_write 및 wal_sync 값으로 저장
- WAL Internal
  - WAL 는 rotation 하기 때문에, 관리자가 별도로 disk 관련하여 신경쓰지 않아도 됨
  - LSN 으로 어느 WAL 파일에 작성해야 하는지 (마지막 지점) 확인
  - WAL 파일은 Data directory 아래 pg_wal directory 에 segment file 로 저장되며, 16mb
    - --wal-segsize init db option을 변경하여 수정 가능
    - segement page는 8kb (--with-wal-blocksize option)
    - WAL record header 는 access/xlogrecord.h 에 설명 (https://github.com/postgres/postgres/blob/master/src/include/access/xlogrecord.h)
  - WAL 파일 은 별도의 Disk 공간으로 분리 하는 것이 유리
    - pg_wal directory를 symbolic link 로 처리하면 가능
  - Checkpoint 가 발생 시, WAL 내용도 flush 된 후, checkpoint 의 값은 pg_control 에 저장
    - DB Crash 이후 recovery 진행할 때, 가장 먼저 pg_control 값을 확인 후, 이후 부터 wal 파일 조회하여 복구 진행
    - pg_control 이 손상되면, 최신 checkpoint 를 찾기 위해 WAL segment 를 역순으로 체크하면 되는데, 이것은 아직 구현되지 않음
    - 또한, pg_control 이 손상되어 DB를 복구 하지 못한 것은 아직 보고가 되지 않음

그 외 좋은 Tip 소개

[Why PostgreSQL WAL Archival is Slow]

Disk 사용량이 급증하는 경우, WAL (pg_wal) Directory 의 size 가 높은 경우가 종종 발생
왜 rotation 안되고, 증가하는 것인지에 대한 의문

WAL Archival 의 실패
오래된 WAL의 slot 을 holding 하는 경우

최근에는, WAL segment 생성 속도에 비해, 삭제 속도가 느려서 발생하는 현상도 추가
- Host (Instance) 서버의 처리 능력 증가
- 파티셔닝 기능의 발전이나 대량 데이터 로딩 이 개선되면서 Postgresql 의 확장성 향상
- 빠른 차세대 Storage 로 인해 처리량 증가이로 인해 WAL 가 생성되는 속도가 증가
이로 인해 WAL 가 생성되는 속도가 증가
WAL-G 또는 pgBackRest 와 같은 백업 솔루션이 내장된 압축 기능으로 문제 해결도 가능

그 외 세부내용은 해당 블로그 확인

https://www.percona.com/blog/why-postgresql-wal-archival-is-slow/

Why PostgreSQL WAL Archival is Slow

Why PostgreSQL WAL Archival is slow compared to the speed at which WAL segment generation is happening.

www.percona.com

저작자표시 비영리 (새창열림)

'PostgreSQL > PostgreSQL-Study' 카테고리의 다른 글

[PG Study 2025] Lock (2)	2025.07.07
[pgday.Seoul 2022] PostgreSQL구조 - 윤성재 님 요약 (0)	2024.06.30
[Postgresql] 에 대한 소개 - 1st study (1)	2024.06.27
Postgresql - Study 준비 (0)	2024.06.10

[pgday.Seoul 2022] PostgreSQL구조 - 윤성재 님 요약

2024. 6. 30. 08:53

[Postgresql] 에 대한 소개 - 1st study

2024. 6. 27. 06:55

1. PostgreSQL 이란 ?

- PostgreSQL 은 캘리포니아 대학 버클리의 컴퓨터 과학 학과에서 개발된 POSTGRES, Version 4.2 를 기반으로 한 객체 관계형 데이터베이스 관리 시스템( ORDBMS )

- POSTGRES는 나중에 여러 상용 데이터베이스에서 사용할 수 있게 되었던 많은 개념에 대한 선구자

- PostgreSQL 은 오리지널 버클리 학교의 소스 코드를 인수한 오픈 소스 데이터베이스로 표준 SQL의 대부분과 다른 최신 기능을 지원

복잡한 쿼리
foreign key
trigger
Updatable view (업데이트 가능 뷰) - v9.3
- https://postgresql.kr/docs/9.5/sql-alterview.html
Transaction 일관성
다판 동시 실행 제어

PostgreSQL 는, 여러가지 방법으로 유저가 확장 가능

데이터 유형
기능
연산자
집계 함수
인덱스 메소드
절차 언어

게다가 자유주의적 라이센스(Postgresql license 라고 하는데, 이건 BSD/MIT 라이센스 계열) 조건에 의해, PostgreSQL 은 누구에게나, 그 사용, 변경 , 배포를 개인 사용, 상용, 학술 등, 목적에 한정하지 않고 무상으로 가능

소스를 공개할 의무도 없고 아무런 제약도 없음. (다만 mysql, mariadb 의 경우 GLP 라이센스이라, fork 한 상용 DB라면 소스공개가 의무)

2. Postgres 95

- Postgres 에 SQL 언어를 추가

- ANSI C 로 재작성되어, 기존 코드에서 25% 정리되었으며 많은 내부 성능 향상 및 유지 보수성이 향상

- 기존 POSTGRES 에 비해 Benchmark에서 30~50 성능 향상

3. PostgreSQL

- 기존 Postgres95 이름에 대한 이야기가 많아 새로운 네이밍 생성

- POSTGRES 와 SQL 기능이 탑재된 최신 버전 반영한 PostgreSQL 이라는 네임 변경

- 6.0 으로 시작하는 버전 번호 설정

4. 그 외
- PostgreSQL wiki 는 프로젝트 FAQ (FAQ) 목록, TODO 목록 및 더 많은 주제에 대한 정보를 포함

- PostgreSQL 의 웹 사이트 에는 최신 릴리스에 대한 자세한 내용과 PostgreSQL 의 이용 및 조작을 할 때 생산성을 더욱 높이는 정보 제공

- PostgreSQL 은 오픈 소스 프로젝트라서, 소스 기여도 가능

- 버그 리포트 관련한 내용 (https://www.postgresql.jp/document/16/html/bug-reporting.html)

참고

https://www.postgresql.jp/document/16/html/preface.html

はじめに

<!-- This book is the official documentation of PostgreSQL . It has been written by the PostgreSQL developers and other volunteers in parallel to the development of the PostgreSQL software. It describes all the functionality that the curre

www.postgresql.jp

https://wiki.postgresql.org/wiki/Main_Page

PostgreSQL wiki

wiki.postgresql.org

저작자표시 비영리 (새창열림)

'PostgreSQL > PostgreSQL-Study' 카테고리의 다른 글

[PG Study 2025] Lock (2)	2025.07.07
[Postgresql-study] WAL (write ahead log) (0)	2024.07.25
[pgday.Seoul 2022] PostgreSQL구조 - 윤성재 님 요약 (0)	2024.06.30
Postgresql - Study 준비 (0)	2024.06.10

[wedatalab] Postgresql 명품 강의 (admin)

2024. 6. 24. 12:39

[Aurora mysql v3] innodb_flush_log_at_trx_commit check

2024. 6. 13. 05:00

AWS Aurora mysql 3 version 에서는 innodb_flush_log_at_trx_commit의 값에 대한 동작이 변경된다고 합니다.

기존 innodb_flush_log_at_trx_commit 동작의 경우 많은 분들이 잘 설명해 주셨기 때문에 참고 부탁 드립니다.

https://dev.mysql.com/doc/refman/5.7/en/innodb-parameters.html#sysvar_innodb_flush_log_at_trx_commit

MySQL :: MySQL 5.7 Reference Manual :: 14.15 InnoDB Startup Options and System Variables

dev.mysql.com

https://minsql.com/mysql/innodb_flush_log_at_trx_commit-%EA%B0%9C%EB%85%90%EB%8F%84%EC%99%80-%ED%8A%9C%EB%8B%9D-%ED%8F%AC%EC%9D%B8%ED%8A%B8/

innodb_flush_log_at_trx_commit 개념도와 튜닝 포인트

minsql.com

기존에는 innodb_flush_log_at_trx_commit 의 값이 2의 경우, OS buffer 까지 Transaction 내용을 작성하여, DB Crush 에 대해서는 Transaction 의 정합성을 보호해 주었습니다.

이로 인하여 DB 상에서는 Commit, Write latency 등의 각종 Transaction 지표를 향상시켜주는 마법을 보여줬지만, OS Crush에 대해서는 데이터 유실에 대한 위험성은 감수해야 했습니다. (DBA 입장에서는 피하고 싶은 Parameter 수정 중 하나 입니다.)

Aurora mysql 3 version 에서는 innodb_flush_log_at_trx_commit 의 1과 2의 동작이 동일하게 변경 되었습니다. 즉, 기존 2를 사용하여 DML 관련 latency 성능 지표들을 통해 효과를 본 것이, 없어지게 되었습니다.

이건 redo log 동작(Engine Instance에서 log flushing을 처리하는 방식)이 Aurora storage engine 에서 처리하는 것으로 일괄 변경되면서, 기존 Aurora instance 에서 동작+storage engine에서 동작하던 것이 변경된 것으로 이해하면 됩니다.

이는 Aurora mysql 의 Write 에 대한 강점을 더 높인 것이라고 생각합니다.

그래서, 혹시라도 Aurora mysql 3에서의 DML latency를 좀 더 높이면서, 데이터 유실을 감수하겠다고 한다면, 기존 innodb_flush_log_at_trx_commit 의 값을 2가 아닌, 0으로 설정해야 합니다. innodb_flush_log_at_trx_commit 값을 설정하기 전, innodb_trx_commit_allow_data_loss parameter 를 1로 설정한 후, innodb_flush_log_at_trx_commit 변경이 가능합니다. innodb_flush_log_at_trx_commit 를 1로 설정한다는 것 자체가, 다시 한번 데이터 유실에 대한 경감식과 고객이 스스로 인지하고 있다는 것을 확인 받는 것이라고 생각되어 현웃이 터졌네요..ㅎㅎ

자세한 내용은 아래 공홈 확인 부탁 드립니다.

DBA 는 데이터 유실에 대해서는 항상 애민해질 수 밖에 없는 이슈이며, 또한 서비스 운영하는 개발자 분들의 서비스 성능에 대한 논의를 할때 해당 Parameter 가 꼭 거론 되는 내용이라 공유해 봅니다.

서비스 성능은 DB를 잘 사용하면, 엄청난 효과를 가져오지만, 그렇다고 데이터 유실에 대한 Risk를 가져가면서 서비스 성능을 높이는 것은 다른 이야기 입니다.

https://docs.aws.amazon.com/ko_kr/AmazonRDS/latest/AuroraUserGuide/AuroraMySQL.BestPractices.html#AuroraMySQL.BestPractices.Flush

Amazon Aurora MySQL 모범 사례 - Amazon Aurora

교착 상태가 발생할 가능성을 줄이기 위한 예방 조치를 취할 수는 있지만, 교착 상태는 예상된 데이터베이스 동작이며 계속 발생할 수 있습니다. 애플리케이션에는 교착 상태가 발생했을 때 이

docs.aws.amazon.com

Aurora Storage 동작 방식에 대해서는 아래 사이트의 이미지 참고하시면 좋을거 같습니다. 가장 좋아하는 이미지인데, 유튜브에서만 보던 것을 정리해 주셨네요.

https://choieungi.github.io/posts/amazon-aurora-storage-with-innodb/

Amazon Aurora 스토리지 엔진과 MySQL InnoDB 스토리지 엔진 비교

우리 회사를 포함해 많은 회사는 RDBMS를 사용할 때 MySQL Amazon Aurora DB(이하 오로라)를 사용하는 경우가 존재한다. 왜 오로라를 사용하는 지 궁금했는데 기존 전통적인 MySQL보다 가용성, 확장성, 연

choieungi.github.io

저작자표시 비영리 변경금지 (새창열림)

Postgresql - Study 준비

2024. 6. 10. 23:48

Postgresql 에 대해 한번 공부 할때, 확실히 합시다.

무엇이 중요한지 모릅니다. 하지만, DBA 관점에서 시작합니다.

Real mysql 책의 목차를 이용하여 목차 만들었습니다.

Admin 에 대해 고급까지는 아니지만, 중급까지는 공부합니다.
아키텍처 및 동작 방식까지 공부 합니다.
5명(모집자 포함) 모두 발표 합니다. (하루전에 발표 자료 공유 부탁 드립니다.)
모집 인원은 모두 찾았습니다.
Postgresql 운영만 최소 3년 이상 리더 한분 섭외(리더는 내용에 대해 경험에 대해 발표-리더도 발표합니다.)
2주에 한번 합니다. 현생이 힘듭니다...

Postgresql 에 대한 소개
Postgresql 설치
- rpm 패키징 설치는 간략하게
- Source 설치에 대해서 진행합니다.
  - 원하는 곳에 Log, Data file 지정이 필요
  - Source 수정까지는 아니지만 필요할때는 코드라는걸 한법 봅시다.
- 업그레이드 / 다운그레이드
  - 무중단 업그레이드 위주로 테스트
- HA
- Major 설정값(parameter) 위주로 확인 (메모리, path, character set 등)
- Aurora Postgresql 간략하게(자세하게 확인은 맨 마지막에)
Postgresql Architecture
- 내부 구조에 대해 두리뭉실하게...
- client
- Server
  - process
    - 내부 process (Wal, vacuum 등)
  - memory
  - Files
계정 및 권한
- 내부 Architecture 와 연관
- Schema, Database, table 에 대한 권한과 권한에 따른 영향
- 계정에 대한 관리
Transaction 과 Lock 관리
Index
Optimize 와 Hint, Explain
내부 명령어 및 system 테이블
백업 복구
- 반드시 한번씩 해봅시다.
  - Full backup / restore, Incremental backup, PITR
- 옵션도 공부합시다.
- Third party 하나 정도 이용해 봅시다.
  - 동작 방식도 이해합니다.
- DB 이관 (Oracle to Postgresql)
  - 주의 점
  - 단순 Migration 외의 서로 다른 엔진 특성 상 수정 되어야 하는 설계
모니터링
- 모니터링 지표들과 조회 방식
- Third party tool
그 외 추가 되어야 하는 내용들

참고 사이드

개인적으로 북마크하는 곳이지만, 그 외 많은 숨고 사이트가 있습니다.
공홈 : https://www.postgresql.org/
postgresql dba 커뮤니티 : https://www.postgresdba.com/
페이스북 통해서 확인 : https://postgresql.kr/
넘사벽 김두비 : https://kimdubi.github.io/postgresql/

저작자표시 비영리 변경금지 (새창열림)

'PostgreSQL > PostgreSQL-Study' 카테고리의 다른 글

[PG Study 2025] Lock (2)	2025.07.07
[Postgresql-study] WAL (write ahead log) (0)	2024.07.25
[pgday.Seoul 2022] PostgreSQL구조 - 윤성재 님 요약 (0)	2024.06.30
[Postgresql] 에 대한 소개 - 1st study (1)	2024.06.27

[MongoDB] Logical Session / Causal Consistency

2022. 12. 8. 18:13

Logical Session 에 대해서 정리 하였습니다.

한글로 된 자료도 많지가 않아서 초등이하 수준의 영어를 번역기 돌리고 나쁜 머리로 이해하고 쓰느라 부족한 부분이 많습니다. 부디 저의 글이 도움이 되어, 보다 자세하고 정확한 글들이 나오길 기대하는 마음으로 작성하였습니다.

Logical Session

server session 또는 logical session 은 클라이언트에서 Causal Consistency 와 다시 쓰기 시도(retryable write)와 같은 기본 프레임 워크를 지원
Logical session(식별자)을 생성함으로써, single operation 또는 multiple-operation transaction에서 사용되는 리소스를 추적이 가능
- 이러한 프레임 워크를 이용하여 Transaction 을 구현이 가능
- Logical session 과 Logical session Identifier(식별자) 를 만드는데, 이것을 lsid라고 하고 lsid는 유니크한 값으로 mongodb cluster와 client간 연결
- MongoDB 3.6이후로는 client 조작은 모두 logical session 과 연관되며, lsid가 클러스터 전체에서 명령어의 조작과 관련
- lsid를 이용하여 특정 lsid 를 식별하는게 쉬워지고 전체 프로세스가 단순해 짐
- 컨트롤러 프로세스가 연결된 lsid를 5분마다 수집하고 30분 후에 트리거되는 ttl 인덱스를 이용하여 30분간 재사용 되지 않는 session에 대해서는 리소스 정리가 가능
application 은 client session 을 이용하여 server session 을 이용
- server session 은 replica set / sharded cluster 에서만 사용 가능

option	type	description
lsid	Document	명령을 실행하는 session 의 고유 ID(GUID-Global Unique ID)를 지정 MongoDB Client에 의해 자동으로 생성 txnNumber 는 lsid 가 반드시 필요
txnNumber	64 bit integer	명령 세션에서 명령을 고유하게 식별하는 양수 lsid 옵션도 함께 필요

cf) RDBMS 는?
단일노드에서 읽기 및 쓰기를 서비스하기 때문에 자연스럽게 Casual Consistency 으로 알려진 읽기 및 쓰기 작업에 대한 순차적 순서 보증을 제공
하지만 분산 시스템은 이러한 보증을 제공할 수 있지만 이렇게 하기 위해서 모든 노드에서 관련 이벤트를 조정하고 정렬해야 특정 작업이 완료 될 수 있는 속도를 제한 필요
Casual Consistency 는 모든 데이터 순서 보증이 유지되는 경우를 이해하는 것이 가장 쉽지만, 시스템이 노드 충돌이나 네트워크 파티션과 같은 장애에 직면할 때에도 시스템이 해야 할 많은 일관성과 내구성 트레이드 오프가 존재

Causal Consistency

v3.6
인과적 일관성이라고 번역
읽기 쓰기 등이 순차적 순서를 보장하는 것을 의미
- 연산이 앞선 연산에 논리적인 의존성을 가지는 경우(동일한 데이터에 접근), 이 두 연산은 causal relationship을 가졌다고 표현
- 이때, 클라이언트 어플리케이션에서는 반드시 한번에 한 쓰레드만이 이 연산들을 시도하도록 보장해야만 함
일관성을 보장하기 위한 작업을 의미
Write / Read Concern 이 모두 majority 가 casual consistency 를 보장
- https://www.mongodb.com/docs/manual/reference/mongodb-defaults/#causally-consistency-guarantees
참고로 분산 시스템에 대한 일반적인 데이터 개념 (단순 Mongodb만 해당 하는 것이 아님)
- 주요 memory 일관성 모델 중 하나
- 공유 메모리에 접근하는 프로그래밍에서 일관성 모델은 어떤 access 가 정확한 순서인지를 제한
- 분산 공유 메모리 또는 분산 트랜잭션에서 올바른 데이터 구조를 정의하는데 유용
분산시스템이 Scale up/down 만 가능한 DBMS를 모방한 작업 순서를 보장 기능
majority 를 이용하여 읽기, 쓰기에 대한 완전한 일관성을 보장하지만, 사용 사례로 다양하게 사용 가능
Causal Consistency는 read / write 어떤 연산을 수행과 상관없이 동작하는데 이 때 비용이 발생하기에, 단조적 읽기 보장(monotonic read guarantees)이 필요한 곳에만 사용함으로써 causal consistency에 의한 지연을 최소화할 수 있음
반드시 아래 내용 해석 정리 필요
- https://www.mongodb.com/blog/post/casual-guarantees-anything-casual

read your writes	read operations reflect the results of write operations that precede them (읽기 작업은 앞에 있는 쓰기 작업의 결과를 반영합니다.)
Monotonic reads (단조로운 읽기)	Read operations do not return results that correspond to an earlier state of the data than a preceding read operation. 읽기 작업은 이전 읽기 작업보다 이전 데이터 상태에 해당하는 결과를 반환하지 않습니다.
Monotonic write (단조로운 쓰기)	Write operations that must precede other writes are executed before those other writes. 다른 쓰기보다 선행되어야 하는 쓰기 작업은 해당 다른 쓰기보다 먼저 실행됩니다.
Writes follow reads 읽기 다음 쓰기	Write operations that must occur after read operations are executed after those read operations. 쓰기 작업은 읽기 작업 후에 발생해야 합니다,

Casual Consistency 가 없는 경우
- 전제 사항으로 읽기작업은 secondary에서 진행하기 때문에, Primary 에 쓰기 작업 이후 바로 secondary에서 읽을 때 Write가 성공 되었다고 하지만, 복제 보다 먼저 read를 요청하여 write 작업이 반영 안된 현상 발생
- 단순히 replica set 을 예를 들었지만, Sharded cluster 에서도 동일한 문제가 발생 가능

Casual Consistency 가 없는 경우 해결방법
- Lamport logical clock 을 기반으로 하이브리드 logical clock 을 구현
- Primary에서 write 되는 이벤트에는 primary 시간이 할당
- primary 시간은 모든 구성원 노드가 해당 시간으로 비교 진행
- 모든 DML(write)에 대해서는 각각의 최신 시간을 할당하고, 해당 시간으로 구성원 노드들이 비교하여 순서를 따져 작업 진행

Write and read concerns

Write Concern / Read Concern 은 Casually consistent 작업 집합 내, 각 작업에 적용할 수 있는 설정
Write concern에는 latency와 durabillity (내구성) 중 하나를 선택
Read Concern 의 경우 isolation level과 연관이 있음(commit 된 snapshot 에 반영된 데이터를 이용)
이러한 작업들은 모두 시스템 장애 시 데이터 보존에 영향(read / write concern)
여러 샤드에서 transaction 일 때, transaction 에서 변경 중인 데이터라고 transaction 외부에서 해당 데이터를 무조건 볼수 없는 것이 아닌, read concern이 local인 경우, 특정 샤드 내 커밋된 데이터는 볼 수 있음 (Transaction 내 A, B 샤드에 걸쳐서 write 가 발생 중인데, 이 때 A는 commit 되고, B에서는 commit 되기 전이라면, A의 commit 된 데이터는 read concern 이 local 상황에서 조회가 가능)
테스트 시나리오

Read Concern majority with Write Concern majority

W1 의 Majority Write 작업이 모두 완료 될 때까지, R1는 기다려야함.
- W1의 작업이 완료된 내역을 Read 하기 때문에 R1는 W1 의 결과값을 반환
혹시라도 장애가 발생하더라도, 데이터는 보장받기 때문에 속도가 느린 대신 예기치 않은 장애에도 정상적인 데이터를 반환하기 때문에 금융 어플리케이션 같인 주문 거래 등에서 일관성 / 내구성을 모두 확보하기 때문에 활용 가능

Read Concern majority with Write Concern 1

W1은 primary에만 성공하면 완료 되기 때문에, w1이 rollaback 되더라도 P1, P2 모두 정상적인 데이터 결과 제공
R1은 Majority이기 때문에 T1-W1 작업이 각 secondary에 전파되어 과반수 commit 될 때까지 기다렸다가 정상적이 데이터 확인
단, p1 같이 primary가 failover 발생 시 , w1는 primary에만 작성하니 성공적으로 끝나지만, Read majority - R1는 과반수로 전파가 되지 않았기 때문에 읽을 수 없음을 의미
장애가 발생할 경우 내구성을 보장하지 않지만, casual 한 순서만 보장

사용자 기반에 신속하게 서비스를 제공해야 하는 대규모 플랫폼에 고려.(높은 처리량 트래픽을 관리하고 짧은 대기 시간 요청의 이점, 방금 write한 것은 지연 또는 rollback 이 발생할 수 있기 때문에 글 작성한 유저 등은 일시적으로 아래와 같이 회색 처리하여 write 가 끝나지 않음을 간접적으로 제공)

Read Concern local with Write Concern majority

Write Concern majority 이기 때문에 과반수 노드에 저장
Read 가 local 이기 때문에 P1, P2에서 W1의 commit 되지 않은 데이터를 모두 읽기 가능
- "read your own writes" 보장이 깨지는 현상 발생
- p1, p2에서 여러개의 읽기가 순차적으로 실행 되는 단조로운 경우에도 읽기 순서가 보장되지 않음
- 장애 발생 시 정상적인 데이터가 인과적 보장이 유지되지 않음
다양한 제품, 서비스에 대한 리뷰가 있는 사이트에서 유용
리뷰를 작성하는 내역에 대해서는 확실한 내구성 보장이 유지되면서, 최신 리뷰 또는 실시간 리뷰를 읽을 경우 write 가 majority라 read를 대기하는 그런 현상이 발생하지 않기 때문에 성능상 이점
단, 승인 되지 않은 롤백되는 리뷰도 읽을 수 있는 경우가 발생

Read Concern local with Write Concern 1

Write Concern 1이기 때문에 내구성이 부족
- W1에서 write 후 rollback 하더라도, P2/P1 모두 읽을 수 있음
Casual read 인 R1의 경우도 P1, P2에서 모두 읽을 수 있음
- "read your own writes" 보장이 깨지는 현상 발생
- p1, p2에서 여러개의 읽기가 순차적으로 실행 되는 단조로운 경우에도 읽기 순서가 보장되지 않음
- 장애 발생 시 정상적인 데이터가 인과적 보장이 유지되지 않음
스마트 센서 장치 데이터 수집 같은 높은 쓰기 처리량을 유도하는 곳에서 유용
처리량이 높은 워크로드 및 최신성을 선호하는 곳에서 사용

eventual consistency

현재 읽고 있는 데이터가 일관되지 않을 수 있지만 결국 일관성이 유지된다는 의미 (최종 동기화)
적절한 읽기 문제 없이 클러스터 내 다른 구성원이 읽으면 일관성이 보장 되지 않음
Secondary에서 readPreference를 사용하여 읽을 경우인데, Primary에서 write 후에 해당 데이터를 secondary 에서 읽을 경우 복제가 완료되지 않아 잘못된 데이터를 읽을 수 있음을 의미
하지만 결국은 복제가 완료 되면 제대로 된 데이터를 읽을 수 있음

테스트 할 수 있는 소스가 있어서 공유

https://github.com/MaBeuLux88/mongodb-3.6-demos/tree/master/4-causal-consistency

GitHub - MaBeuLux88/mongodb-3.6-demos

Contribute to MaBeuLux88/mongodb-3.6-demos development by creating an account on GitHub.

github.com

Concern / Preference

분산 처리를 기본 아키텍처이기 때문에, 레플리카 셋을 구성하는 멤버들 간의 동기화 제어 가능
데이터를 읽고 쓸 때, 필요한 데이터 동기화 수준에 따라 데이터를 변경, 조회할 수 있도록 read concern / write concern 옵션을 제공
- 클라이언트에서 쿼리 단위로도 설정 가능
레플리카 셋의 어떤 멤버에게 데이터를 읽을 것인지 설정할 수 있는 read preference 가 존재

Write Concern

데이터의 DML 작업에 대해 동기화 수준을 제어
single / multi document transaction 모두 해당
5.0 부터는 majority 가 default / 그전에는 w:1 (primary 만)
ACKNOWLDGED(default)
- 변경 내용을 메모리상에서만 적용하고 바로 client로 성공 또는 실패 응답 반환
- 동일한 connection 또는 다른 connection 에서 조회 시 변경된 데이터를 메모리 상에서 반환
- 디스크 동기화는 보장되지 않기 때문에 장애 발생 시 손실 위험이 존재
Journal ACKNOWLDGED
- Journal log (disk) 로 저장하기 때문에 장애 발생시에도 손실 가능성 거의 없음 0.01초?
- 3.6부터는 Journal log 가 항상 자동으로 active 이기 때문에 ACKNOLDGED 와 차이가 없음
Majority
- 몽고디비는 write 연산이 과반수의 레플리카와 electable 맴버에 적용될 때까지 대기
- write 연산은 primary election이 이벤트가 발생해도 롤백되지 않으며, primary를 포함하여 여기에 포함된 모든 레플리카들의 journal에 적용됨을 보장

Read Concern

데이터 읽기를 일관성 있게 유지할 수 있도록 ReadConcern 옵션을 제공
https://parkcheolu.tistory.com/396
4.4 부터는 global 로 replica set / sharded cluster 에 대해서 read concern 설정 가능
https://www.mongodb.com/docs/manual/reference/read-concern/
https://www.mongodb.com/docs/manual/core/read-isolation-consistency-recency/
https://www.mongodb.com/docs/manual/core/causal-consistency-read-write-concerns/
현재 최신화 여부는 oplog 의 적용 정보를 확인하여 결정(Primary 로 보고)
local
- 최신의 데이터를 반환하는 방식(default) - primary
- 장애 시 데이터가 rollback 되어 phantom read 와 비슷한 상황이 발생
- Casual consistency 를 보장하지 않음
- https://www.mongodb.com/docs/manual/reference/mongodb-defaults/
Availability
- 최신의 데이터를 반환하는 방식(Sharded Cluster)
- causally consistent sessions and transactions 에서는 사용할 수 없음
- Sharded cluster에서는 읽기 지연이 가장 낮지만, Chunk migration 시 고아 문서(orphaned document)를 반환할 수 있기 때문에 일관성에 문제가 있음 -> local 사용 시 해결 가능
- https://www.mongodb.com/docs/manual/reference/read-concern-available/#mongodb-readconcern-readconcern.-available-
majority
- 다수의 멤버들이 최신의 데이터를 가졌을 때에만 읽기 결과를 반환
- 클라이언트가 읽었던 데이터가 롤백으로 인해 사라질 가능성은 희박하지만, 일부 멤버들이 동시에 장애 발생시에 phantom read발생 가능성 존재
linearizable
- 레플리카셋의 모든 멤버가 가진 변경 사항에 대해서만 결과 반환
- 절대 롤백 되지 않음
Snapshot
- Multi document transaction 에서 사용

Retryable Writes

https://www.mongodb.com/docs/manual/core/retryable-reads/#retryable-reads 번역한 내용입니다. 참고하세요.
네트워크 오류가 발생하거나 장애가 발생하여 replication 또는 sharded cluster 의 primary 를 찾을 수 없는 경우 특정 write 작업을 한 번만 자동으로 재시도
- 네트워크 오류에 대해서는 단 한번만 재시도하며, 지속적으로 네트워크 오류는 해결하지 못함.
- 장애로 인한 failover 경우
  - Driver 가 serverSelectionTimeoutMS 동안 기다렸다가 재시도
  - 단, 장애조치 시간이 serverSelectionTimeoutMS 초과의 경우 처리하지 않음
  - 클라이언트가 쓰기작업을 실행한 후 localLogicalSessionTimeoutMinutes 이상 응답하지 않을 경우 다시 시작하지 않고, 응답을 시작할 때 쓰기 작업이 재시도 되어 적용
전제 조건
- Supported Deployment Topologies
  - sharded cluster / replication 환경에서만 되며, standalone 은 해당되지 않음
- Supported Storage Engine
- Wiredtiger 엔진 또는 memory storage engine 과 같은 document lock 수준의 storage engine 만 가능
- 3.6+ MongoDB Drivers
  - 3.6 mongodb driver 이상에서만 지원
- 4.2 + MongoDB Drivers
  - Retryable Write 가 enable 이 default (false 로 하고 싶으면 retryWrites=false 로 명시)
Retryable Writes and Multi-Document Transactions
- 4.0
- Transaction 내에서 commit 또는 rollback 시 write 를 재시도 진행 (Driver 에서 retryWrite 가 false 라고 해도 다시 한번 진행)
- Trnasaction 내의 각각의 명령어들에대해서는 retryWrite 설정값과 상관없이 개별적으로 재시도는 할 수 없음
Retryable Write 명령어
- https://www.mongodb.com/docs/manual/core/retryable-writes/#retryable-write-operations 참고
- 4.2 부터 shard key 도 업데이트 가능 (Transaction 내)
- v4.2 부터 중복 키 예외가 발생한 single document에 대해서는 upsert 를 재시도 (v4.2 이전에는 중복키 오류에 대해서는 upsert 작업을 재시도 하지 않음)
  - upsert retryable write 조건
    - unique index 가 존재
      - unique index 값을 수정하려는 경우는 안됨 (반드시 검색하는 내용이 유니크 값으로 검색해야 함)
      - unique 가 아닌 값으로 검색하는 경우도 해당 되지 않음.
    - singe equality 또는 logical and + equality 명령어 경우

Retryable Reads

https://www.mongodb.com/docs/manual/core/retryable-reads/#retryable-reads 번역
MongoDB Driver가 네트워크 오류가 발생하거나 장애가 발생한 경우 read작업을 한 번만 자동으로 재시도
전제조건
- MongoDB Server가 4.2 이상인 경우, 이와 호환되는 Driver를 사용하는 경우 재시도 읽기 가능 (공식)
- 하지만, Mongo Server는 3.6 이상인 경우도 가능
재시도 가능한 읽기
- 4.2 부터는 retryable read 가 default 가 enable
- retryReads=false 로 비활성화도 가능하지만, mongosh 에서는 지원하지 않음
Retryable Read 명령어
- https://www.mongodb.com/docs/manual/core/retryable-reads/#retryable-read-operations 참고

지원되지 않는 명령어
- db.collection.mapReduce()
- getMore
- database.runCommand 로 실행한 모든 읽기,쓰기 명령어는 지원되지 않음
동작
- 잦은 네트워크 에러
  - retryable read는 단 한번만 재시도 하기 때문에, 일시적인 네트워크 에러에는 도움이 되나, 영구적인 네트워크 에러는 해결해주지 않음
- Failover period (failover 발생하는 동안)
  - Driver는 read preference 를 사용하여 read 명령어를 실행
  - 만약 read preference에 의해 read를 하려고 할 때, 재시도할 서버를 선택할 수 없는 경우 오류 발생
  - driver는 serverSelectionTimeoutMS 의 ms 값 만큼 failover 가 완료 될 때까지(정상화) 서버 선택을 기다림
  - serverSelectionTimeoutMS 만큼 기다려도 retryable read를 할 적절한 서버가 없다면 읽기를 처리하지 않음

Global Logical Clock

https://www.mongodb.com/blog/post/transactions-background-part-4-the-global-logical-clock
MongoDB의 동기화를 강화
하이브리드 Logicla Clock 으로 구현되어 암호화로 보호되며, Global Logical Clock 은 Shard Cluster 전체에 걸쳐 동작
Multi document ACID Transaction 에서는 Global snapshot을 생성할 수 있으므로, 일관된 global view에서는 시간이 필수.
배경
- MongoDB의 Clock 은 Shard Mongodb 내 primary oplog 에서 추적
- 각 작업은, 지속적으로 변경되는 데이터를 oplog 에 저장
- 각 명령어가 기록되고, primary 와 clock 시간이 logical clock 에 '연결'하고 oplog에 명령어와 함께 저장 (oplog 에 timestamp 뿐만 아니라, logical clock이 함께 연결로 이해)
- 해당 작업은 oplog에 순서를 제공하고, 샤드 내 모든 노드들에 동기화 하는데 사용
하이브리드 logical clock
- 샤드 내 노드들만의 자체 clock 이 있을 수 있지만, cluster 내에서는 동작하지 않음
- clock 은 클러스터 내에서 서로 참조 하지 않는 단순 증가만 할 뿐
- 3.6에서 구현된 하이브리드 logical clock을 입력하면, 해당 하이브리드 클락은 시스템 시간 뿐만 아니라 동시에 발생하는 명령의 카운터와 결합하여 물리적인 동일한 timestamp를 생성
- 새로운 timestmp는 클러스터 내 모든 session 에 대해 적용
- 서버가 timestamp가 포함된 message를 받을 때, 만약 timestamp가 노드의 현재 timestamp 보다 이후이면, timestamp는 최신의 timestamp 값으로 변경 진행되며, 새로운 변경 과 함께 적용된 최신 timestamp로 갱신이 이루어짐
조작 방지
- 공격자가 시스템에 시간을 조작하여 데이터를 추가를 할 수 있는데, 이 때 최신 timestamp 값 보다 늦은 값이면, 샤드는 이러한 것을 막아 추가가 안되도록 함
- 해당 문제는 primary의 private key를 이용하여 hash된 timestamp로 생성하여 migration 진행
- 해당 hash는 timestamp소스가 cluster에 의해 이루어진 verify 내에 있는지 확인용으로 사용되며, 혹시라도 공격자가 private key를 사용할 수 있으면 해당 시스템은 광범위하게 손상이 발생 가능성이 존재
Global Logical clock 와 Transaction
- 하이브리드 Logical Clock을 사용하면 replication 의 여러 노드 및 cluster 의 shard node 간의 쉽게 동기화가 가능
- Transaction 범위가 4.2 부터 sharded cluster 로 확대되었기에, 신뢰성 높은 clock 동기화가 중요하며 기본이 되어야 가능함
- Clock 을 조작하기 힘든 것이 신뢰성을 높이는 효과

아직도 추가할 내용이 많음에도 불구하고 대부분 내용들이 번역기를 돌려 이해한 내용들을 바탕으로 작성한 것이라 부족한 부분이 많아 추가하지 못했습니다.

관련된 내용들도 정리하여 추가로 올리도록 하겠습니다.

해당 내용들 중에 잘못된 내용들이 있을 수 있으니 참고 정도로만 해주시고, 중간 중간 mongodb 공홈에서 자세한 내용을 읽어 보시면 좋을 듯 합니다.

저작자표시 비영리 (새창열림)

'MongoDB' 카테고리의 다른 글

[MongoDB] tcmalloc memory cache 정리 (0)	2022.08.22
[MongoDB] taskExecutorPoolSize (0)	2022.08.08
[MongoDB] Replica Set to StandAlone (v4.2) (0)	2022.07.04
[MongoDB] Upgrade 이슈 (4.0 to 4.2) - MinValidDocument.oplogDeleteFromPoint is an unknown field (0)	2022.07.02
[MongoDB] 3.4 to 4.2 upgrade (rpm) (0)	2022.07.02

[Redis] Lua 메모리 정리

2022. 9. 13. 00:02

사내 서비스 중 Redis 에서 Lua 를 많이 사용하여 이번 기회에 Lua 메모리 관련하여 정리해 보았습니다.

Lua 스크립트란 ?

스크립트 언어로써, 문자열 함수와 수학 함수를 제공
그래픽 시뮬레이션을 위한 스크립트 언어로 개발된 언어로써 타 스크립트 언어보다 빠른 성능을 제공
변수를 제거하거나 미리 선언을 위한 별도의 처리가 필요 없음

Redis 에서 Lua 스크립트

프로그래밍 방식 제어구조를 사용하고 db에 access 하여 실행하는 대부분의 명령을 사용 가능
- redis.call('set', key, value) 형태
지역 변수를 사용해야 함
- ex) 변수 선언 시 : local src = keys[1]
eval 명령어를 이용하여 수행하고자 하는 스크립트를 redis로 전송하여 사용 가능
script load 명령을 이용하여 redis server에 등록 시킨 후 사용 가능
- 데이터가 존재하는 곳에서 실행되기 때문에 전체 대기 시간 뿐만 아니라 네트워크 리소스 절약 가능
- Application 로직의 일부를 Redis 내에서 실행이 가능하며 여러키에 걸쳐 조건부 업데이트 수행 가능하며 다른 데이터 유형을 함께 처리도 가능
Script는 Lua 엔진(Lua5.1) 에 의해 실행
기본적으로 Eval script는 클라이언트 일부로 간주하기 때문에 서버에 persistence 하게(영구) 저장이 되지 않기에(단순 Caching-휘발성), Redis server가 재시작 되거나 한다면 re-Load 해야 함
- 7.0에서 부터는 redis function 추가 프로그래밍 로직으로 서버 자체를 확장할 수 있는 프로그래밍 가능성에 의해 persitence 하게 저장이 가능 (모든 client에서 사용이 가능)
- 7.0 부터는 read-only script 가 가능 (read replica에서 지원)
- https://redis.io/docs/manual/programmability/
메모리 각 내용
- used_memory_lua : Lua 엔진에 의해 사용된 메모리 크기 (byte)
- used_memory_scripts : 5.0 추가 (mh->lua_caches) 생성된 루아 스크립트가 사용하는 메모리 양
  - 모니터링 진행 할 때 used_memory_scripts 를 확인하면 되며, set 명령어만 이루어진 스크립트는 별도로 used_memory_scripts 영역이 변경되지 않음
- redis server에서 실행되는 lua script는 원자성(Atomicity)하게 처리된다. (lua가 실행되는 동안 다른 레디스 명령어는 실행 안되는 것을 의미-다른 모든 명령어 차단)
  - 이 부분은 single thread 때문이 아닐까...
- 스크립트 내용이 동일한 동작!!!을 하더라도, 조금이라도 다르다면 다른 스크립트로 인식 하기 때문에, 의미만 변경되는 스크립트 들에 대해서는 변수 처리로 하여 사용하면 캐싱 절약 효과를 얻을 수 있음

#아래는 동일한 동작을 하지만 내용이 다르기 때문에 서로 다른 내용으로 인식하여 used_memory_lua / used_memory_scripts 값 둘다 변경
eval "return 'hellow world?'" 0
eval "return 'hellow world????'" 0

#아래는 동일한 내용을 호출한 경우 캐싱되어 있기 때문에 memory 변화값이 없음을 확인
eval "return 'hellow world????'" 0
eval "return 'hellow world????'" 0

테스트 1.

이번에는 재밌는 테스트를 진행 하였다.
동일한 redis 구문이지만, return 을 하고 안하고의 차이 이다.
둘다 명령어는 get 명령어로 값을 리턴을 하지만, 이것을 결국 client까지 return을 하느냐 안 하느냐 차이일 것 같은데, 스크립트는 역시 이것을 다른 script로 인식을 하는 것을 확인

eval "redis.call('get', 'lua_test_2555')" 0
eval "return redis.call('get', 'lua_test_2555')" 0

당연히 get 명령어이고 lua script를 호출이기 때문에 used_memory_scripts / used_memory_lua 모두 값이 변경 된 것을 확인할 수 있다.

이번에는 명령어는 동일하지만 return 을 하는 명령어 실행
- used_memory_scripts / used_memory_lua 모두 값이 변경 된 것을 확인할 수 있다.

당연하겠지만, 기존에 캐싱되어 있는 영역을 다시 조회 시
- used_memory_scripts / used_memory_lua 모두 값이 변경 되지 않은 것을 확인

결국은 lua 는 내부 모두 동일해야 동일한 script로 인식하여 캐싱 여부를 사용할지 정하는 척도
- 데이터 변경이 일어나는 곳이라면 당연히 파라메터로 작성하여 사용 하는 것을 의미하며 이렇게 사용할 것을 권고

테스트 2.

추가로 set 명령어는 lua 엔진을 사용할 뿐, used_memory_scripts 의 값이 변경 되는 내역은 없음
- 기존 get 명령어나 return 하는 명령어의 경우 used_memory_scripts 값이 변경 되는 것을 확인할 수 있으나, 오로지 set 명령어의 경우 lua engine 의 값만 변경(used_memory_lua ) 되는 것을 확인 할 수 있다.

local src = KEYS[1]  
for i=1, src, 2 do  
	local test_key = 'lua_test_' .. i  
	redis.call('set', test_key, i)  
end;  
-> 한마디로 set lua_test_홀수번호 홀수번호  
EVAL "local src = KEYS[1] for i=1, src, 2 do local test_key = 'lua_test_' .. i redis.call('set', test_key, i) end;"

초기 값 확인
1. used_memory_lua : 32768 / used_memory_scripts : 0 / number_of_cached_scripts : 0
lua 스크립트로 캐싱 진행
1. used_memory_lua : 33792 / used_memory_scripts : 216 / number_of_cached_scripts : 1
2. lua 엔진 및 메모리에 적재 된 것을 확인 (스크립트 등록 시 기본 동작 하는 것으로 확인)
lua 스크립트 실행
1. used_memory_lua : 63488 / used_memory_scripts : 216 / number_of_cached_scripts : 1
2. lua 엔진은 사용하였지만, get 명령어 같이 조회 하거나 하는 것이 아니기 때문에 lua 메모리 쪽에 적재 되는 것은 없는 것으로 확인
다시 한번 lua 스크립트 실행
1. 동일하게 lua 엔진은 사용하였지만, memory 는 사용 하지 않은 것을 확인
2. 바로 lua 로 실행 하여도 동일하게 engine 은 사용하지만, memory는 변경 되지 않는 것을 확인 완료

결론

동일한 의미로 보이는 Lua 스크립트라고 하더라도, 내용이 조금이라도 다르면 서로 다른 스크립트로 인식
동일한 명령어 이라고 하더라도, return 의 유무에 따라 위의 의미와 같이 서로 다른 스크립트로 인식
set 명령어로만 이루어진 lua 스크립트는, 별도의 메모리를 사용하지 않음 (lua 엔진만 메모리 사용)
그 외 메모리 사용률을 확인 하기 위해서는 used_memory_scripts 를 모니터링 하며, used_memory_lua 는 평소와 비슷한지 체크하면 좋을 듯 합니다.
Elasticache 를 이용한다면, Lua script 내용이 get 형태의 읽기로만 이루어진 내용이라면, read를 이용하는 것을 추천합니다.(Lua의 수행속도가 오래 걸린다면 write 뿐만 아니라 redis 자체가 싱글 스레드로 동작하기 때문에 대기를 하게 되지만, 적어도 read를 이용한다면 write에 대해서만큼은 영향을 덜 미치기 때문 / 하지만 Lua 성능 최적화는 꼭 합시다.)

그외

AWS 의 경우 Cloudwatch 상에서 Elasticache 지표에서는 used_momory_scripts / lua 등을 제공을 하지 않기 때문에 BytesUsedForCache 와 FreeableMemory 의 변화로 모니터링 하는 것으로 우회 하거나, 해당 지표를 직접 조회하여 모니터링 하는 것을 추천 드립니다.

참고

다양한 샘플을 참고 할 수 있음 : https://bstar36.tistory.com/348
https://redis.io/docs/manual/programmability/eval-intro/
AWS Support 최원 님 도움 주셔서 감사합니다.

저작자표시 비영리 (새창열림)

'Redis' 카테고리의 다른 글

[redis] dump 파일 이용하여 json 파일 convert (2)	2018.03.29
[redis] 콘솔에서 redis 데이터 확인 (0)	2018.03.23
[Redis] Replication / Check 방법 (0)	2018.02.19
[Redis] 로그인 시 127.0.0.1:6379: Connection refused (2)	2018.02.19
[펌] [Redis] Redis란 ? 2번째 (1)	2016.10.11

PREV 1 2 3 4 ···18 NEXT