이직한지 3개월째 되어가고 있지만 아직도 많이 부족하고 내가 모르는 것들이 많다는 것을 계속 느끼고 있다.


정말 이럴때는 자괴감??까지 들 정도이다..ㅎ

그래도 새로운 것을 공부하고 설치해 보고 이에 대해서 팀장님이랑 의논하다 보면 스트레스가 오히려 지식으로 바뀌어 나가고 있다는 것을 느낄 때도 많다.


오늘은 여기까지만 잡설을 하자...ㅋ


Prometheus라는 모니터링 툴이 있으니 한번 검토해 보라는 오더를 받았다.

하지만 이놈의 꽂히는게 어디냐에 따라서 다른 방향으로 가는경우가 있다 보니 이번에도 실컷 Prometheus라고 생각한 것을 Grafana만 해버린 꼴이 되었다.


덕분에 Prometheus 와 Grafana에 대해서 둘다 경험할 수 있는 좋은 기회가 되었다.


내가 조사하고 느낀 것 뿐만 아니라 테스트 한 것에 대해서 공유해 본다.


1. Prometheus란?

원문 : https://prometheus.io/docs/introduction/overview/


아래는 내가 임의로 번역???은 아니고 구글 번역기를 이용해서 정리한 것이다.

그냥 참고만 하셨으면 한다.


- SoundCloud에서 만든 open source 모니터링이며(라이센스 -Apache license V2), 알림 툴킷 (2012년에 개발 되었으며, 많은 회사와 조직에서 사용되고 있으며 독립형 오픈소스 프로젝트)

- 다차원 데이터 모델 (메트릭 이름과 키 / 값 쌍으로 식별되는 시계열)

- 데이터는 key-value 형태의 NoSQL제품인 LevelDB에 저장


- 단일 차원을 활용하는 유연한 쿼리 언어를 사용하여 원하는 데이터를 표현 가능(메트릭 내부 데이터를 이용 )

- 분산 저장 장치에 의존하지 않는다.

- 단일 서버 노드는 자율적입니다. - 각 역활별 노드들이 있으며 해당 노드들을 이용해서 원하는 정보를 확인 가능 

- HTTP를 통한 풀 모델을 통해 시계열 컬렉션이 발생합니다.(웹 브라우저를 통해서도  접근이 가능)

- 푸시 타임 시리즈는 중간 게이트웨이를 통해 지원됩니다.

- 대상은 서비스 검색 또는 정적 구성을 통해 검색됩니다.

- 다양한 그래프 및 대시 보드 지원 모드


적합한 곳
- 순수 시간 기반 모니터링 툴이며 여러 서버에 대해 최고의 역동적인 서비스에 적합한 모니터링 툴
- Prometheus는 신뢰할 수 있게 설계되어 있으며 빠르게 문제를 진단할 수 있음
- 각각의 Prometheus 서버는 독립적이며, 네트워크 저장소나 다른 원격 서비스에 의존적이지 않음

미적합한 곳
- 100% 상세하고 완벽하지 않음(통계성 데이터를 보는 곳)

이렇게 작성해 놓으니 알듯 말듯 하다...그래서 맨 하단에 블로그를 참조하면 더 좋은 정보를 확인할 수 있다.


하아...그래 정의는 그렇다고 치자...그렇다면 작동원리는 어떻게 되는지 알아보자

그전에 아키텍처 그림을 보자. 해당 그림은 Prometheus 홈페이지에서 확인 가능하다.



2. Prometheus 작동원리

- 흔히들 아키텍쳐라고 부름.

- Prometheus 모듈로는 / alertmanager / blackbox_exporter / consul_exporter / graphite_exporter / haproxy_exporter / memcached_exporter / mysqld_exporter / node_exporter / pushgateway / statsd_exporter 로 구성 

- Pull 방식으로 클라이언트들에 접근해서 데이터를 가져오는 형태

- Exporter 가 정보를 수집하여 HTTP end point를 열어서 Prometheus가 데이터를 수집해 갈 수 있도록 함(웹브라우저로 직접 접속하여 해당 정보를 볼 수 도 있음-Metric)


그렇다면 서버나 지수를 추가하려면 어떻게 해야하나..?


- 각 서버에 에이전트 파일을 실행 후 Prometheus 를 재시작(Prometheus 내 prometheus.yml에 정보를 추가 후 재기동)

- 재기동 후에는 제대로 올라왔는지 status의 Targets에서 확인


- 알림기능

- Grouping으로 해서 여러 알람을 하나의 알람으로 받을 수 있음 (여러번 알람을 받는것이 아닌 여러개를 하나의 알람으로 받음)

- Alert Manager 를 통해서 규칙을 설정하면 그 규치에 따라 알람을 보낼 수 있음(병목 현상을 찾기 보다는 해당 규칙을 정하면 그 규칙에 따라 먼저 확인이 가능)




* 하아..이렇게 써도 어렵구나...


간단하게 정리하자면 Prometheus 서버는 각 노드(관리하고자 하는 서버들에 자기가 원하는 모듈들을 설치 후 실행)들에 방문을 해서 각 노드들이 수집한 정보들을 가져오는(Pull) 방식으로 구성되어 있다.

각 노드들에 방문하기 위해서는 기본적으로 Prometheus 서버를 실행할 때 prometheus.yml 파일을 참조하는데...해당 파일에 각 노드들의 정보( IP 등)를 가지고 있어야 한다.


제가 이해하고 정리한 부분이기에 혹시라도 틀렸다면 댓글로 알려 주시면 감사하겠습니다.



흠...이렇게 힘들게 글로 읽고 조금이라도 이해 했다면 이제 진행해 보자.


1. Prometheus 설치 및 구성


다운 받을 위치는 다음과 같다

https://prometheus.io/download/


설치 방법은 아래와 같다

https://prometheus.io/docs/introduction/install/

https://prometheus.io/docs/introduction/getting_started/


사실 설치라고 하기 보다는 압축을 풀고 구성하면 된다.


이제 prometheus.yml 수정해보.


아래 보면 Target에는 모니터링 하고자 하는 서버들의 IP를 설정하고 내가 모니터링 하고자 모듈은 node_export / mysqld_exporter 이다.

그에 대한 포트는 9100 과 9104 이다.

그리고 두대의 모니터링 서버이며...그거에 대한 명은 'linux' , 'linux2' 로 명명 했다. - job_name


이제 prometheus 서버는 구성이 완료 되었다. 실행은 각 노드들(모듈)을 설치하고 실행하자.




2. 모듈 설치 및 구성


나는 node_export 와 mysqld_export를 통해 원하는 데이터를 읽어 오려고 한다.

각 서버에 모듈을 설치해 보자.

아래 사이트에서 원하는 모듈을 다운 후 압축을 풀어보면 파일이 하나만 생길 것이다.

(모듈을 다 설치해 보지 않았으나 내가 원하는 모듈들은 nodex_epxort / mysqld_export 만 했기에..)

모듈 : https://prometheus.io/download/


DB1에는 이미 prometheus 서버를 진행 했기 때문에 혼란을 ㅍㅣ하기 위해 DB2에서 모듈을 설정 및 실행해 보겠다.


먼저 node_exporter 압축 푼 곳을 확인해 보자


별 달리 설정해 줄 것이 없다.

ㅂㅏ로 실행해서 node_exporter가 수집할 수 있도록 하자.


9100포트가 오픈 되어 있으며 이제 수집을 진행할 것이다.


다음으로는 mysqld_exporter를 진행해 보자.



여기서 해야될 업무들이 있다. mysqld_exporter가 수집할 수 있도록 유저 생성 및 .my.cnf를 생성해서 유저 정보를 알려 주는 것이다.

설정 정보들은 아래 사이트를 참고해 주면 된다.


https://github.com/prometheus/mysqld_exporter


하지만 난 유저 생성시 PROCESS, REPLICATION CLIENT, SELECT 해당 권한만 주면 된다고 했는데 막상 실행해 보니 제대로 실행이 되지 않아서

다음과 같은 권한을 부여했다.


MariaDB > CREATE USER 'prom'@'localhost' IDENTIFIED BY 'prom';

MariaDB > CREATE USER 'prom'@'&' IDENTIFIED BY 'prom';

MariaDB > GRANT SELECT, INSERT, UPDATE, DELETE, CREATE, ALTER ,DROP, INDEX ON *.* TO 'prom'@'localhost'

  WITH MAX_USER_CONNECTIONS 3;

MariaDB > GRANT SELECT, INSERT, UPDATE, DELETE, CREATE, ALTER ,DROP, INDEX ON *.* TO 'prom'@'%'

  WITH MAX_USER_CONNECTIONS 3;

MariaDB > Flush privileges;


물론 항상 그런거는 아니었지만 나의 경우 서버에서는 다음과 같이 prom이 디비와 테이블을 생성 한 것을 확인할 수 있었다.


추측은 노드는 상관 없지만 서버에서는 Grafana와 연동 시 데이터를 남기는 작업을 진행하는 것 같아서 그런것 같다.

이거는 어디까지나 추측이기 때문에 아는 분이 계시면 댓글 부탁 드립니다.



유저를 생성 했다면 .my.cnf를 만들어 해당 유저와 패스워드 정보를 작성해 주자.


이것 까지 완료 하였다면 이제 mysqld_export를 실행하자.

이제 이 친구도 수집을 진행할 것이다.


이 작업들을 다른 서버에서도 동일하게 진행 해 주자.


서버들에서 모두 모듈들을 실행 했다면 마지막으로 Prometheus 서버에서 실행하자.


별 문제 없이 실행 되었다면 이제 웹에서 prometheus를 실행해 보자..


3. 운영 및 체크


이제 웹 페이지에서 http://프로메테우스서버IP:9090 으로 접속 해 보자.

혹시라도 접속이 안되거나 한다면 방화벽 포트를 의심해 보자.



첫..화면이다...참 심플하다.

이제 한번 정상적으로 프로메테우스 서버에서 각 서버 모듈들의 정보를 가져오는 지 확인해 보자.


Status > Targets 메뉴를 확인해 보자

정상 적으로 각 서버들에 접속해서 정보들을 가져오는 것을 확인 가능하다.

정상적으로 가져오지 못하고 있다면 State에서 다른 정보들이 보일 것이다.


예를들어서 DB2 ㅇㅔ서 mysqld_exporter 를 내렸을 경우다. Down...보기만해도 가슴이 철렁 거린다...ㅋㅋ

여기서 재미있는 부분이 해당 Endpoint 를 클릭해 보자.


무슨 텍스트들이 엄청나게 많다...

이 뜻은...각 메트릭스( Key) 에 대한 수집된 값(정보-value) 들을 볼 수 있다는 것이다.

즉..각 서버내 모듈들은 이렇게 Key-Value 형태로 정보를 가지고 있다가 Prometheus 서버가 직접 해당 모듈들을 http 로 호출해서 정보를 가져 온다는 것이다.


그렇다면 정의 의 내용들을 조금 이나마 이해 할 수 있을 것이다.


다음은 해당 프로메테우스가 수집한 정보를 보는 방법이다.

Execute 옆 드롭 박스를 클릭하면 메트릭 정보들이 쭉 나와 있을 것이다.

이 정보들을 선택 후 Execute를 하게 되면 수집된 정보들을 보여 줄 것이다.



ㄴㅏ는 go_gc_duration_seconds 라는 메트릭 을 선택후 결과를 보면(Execute 클릭) value가 쭉 나올 것이다.

여기서 다시 그래프를 누르면 그래프로 표현이 될 것이다.




이정도로 간단하게 사용하는 방법에 대해서 정리해 본다.


Grafana 는 다음 포스팅에서 진행해 보겠다.


참고로 이러한 Prometheus 의 좋은 기능 간단한 설치 방법 이 있으나 단 칼에 팀장님에게 잘린 이유는 다음과 같다.

이 내용들은 어디까지나 팀장님의 의견이고..나도 이해한 것이므로 반드시 그렇다!!!는 아니다.

절대적으로 잘 사용하는 곳이나 더 좋은 의견이 있으면 댓글로 남겨 주세요...많은 경험의 결과는 사용하신 분들이 잘 알기에 저는 그 의견들을 듣고 싶습니다.


사용 안하는 이유 

1. Pull 방식의 정보 수집

- Pull 방식은 각 서버에 접속해서 해당 정보들을 수집해 오는 방식이다. 그러다 보니 많은 서버가 추가가 되고 많은 모듈에서 데이터를 수집하며, 네트워크 속도가 좋지 못하다면 수집해 오는 대기 시간이 발생하기 마련이다. 하지만 OLTP 성의 DB의 경우 문제가 발생시 즉각적인 파악이 필요하다. Pull방식으로 수집 시 이런 딜레이 때문에 즉각적인 파악이 힘들 수 있으며 딜레이가 발생할 가능성 때문에  Prometheus를 사용하기 힘들다.


2. 각 모듈의 개별 설치

- 모듈이 필요하거나 서버가 늘어날 수록 해당 서버마다 모듈을 설치하고 설정을 해줘야 한다. 또한 추가 후에는 Prometheus서버를 재시작 해야 한다. 비록 간단할 지라도 이 또한 서버가 늘어 난다면 문제가 될 수 있으며 각각의 모듈의 최신화가 필요 하다면 이 또한 추가 작업으로 진행이 되어야 한다. 이러한 작업이 거절되는 이유 중 하나이다.


Prometheus는 어떠한 서버에서도 사용이 가능하다고 생각한다. 모듈에서 모든 정보??를 수집 하기 때문이다. 다양한 정보를 수집하고 볼 수 있는 장점이 있으나 앞서 생각해 봐야하는 2가지 이유로 적합하지 못하다는 팀장님과 나의 의견이었다.


중.소형 서버에서 간단하게 확인하기 위해서는 정말 좋고 강력하다. 하지만 2가지 문제점이 해결되지 못하다면 대규모에서는 사용하기 힘들지 않을까 조심스럽게 생각해 본다.


이 의견에 대해서도 반박??은 무서워요..ㅠㅠ의견을 주실 수 있다면 의견 주세요. 많은 분들에게 도움이 될 것 입니다. 또한 저에게도요!!!


그 외의 Alert 등의 자세한 내용 및 추가적으로 더 좋은 정보는 아래 블로그 참조하세요!!

정말 소개가 잘 나와 있어서 꼭 확인해 보세요!!


참고 : 

https://blog.outsider.ne.kr/1254

http://opennaru.tistory.com/126


반응형

+ Recent posts