Prometheus를 설치 했으니 Grafana로 모니터링을 진행해 보자.


사이트 : http://docs.grafana.org/


Grafana 란?


- metric 분석 및 시각화한 제품군으로서 Open source 

- 인프라 및 App 분석 데이터를 시각화로 많이 사용하지만 뿐만 아니라 산업용 센서, 자동화, 날씨, 프로세스 제어 등에서도 사용됨


간단하다.........즉 Prometheus 의 Metric 을 이용하여 해당 정보를 시각화 하여 보여 준다는 것이다.

그 외의 사용에 대해서는 테스트 하지 않아서 모르겠다.




그러면 앞서 Prometheus를 설치 및 데이터 수집ㅇㅣ 되는 것을 확인 하였다.

이제는 그 위에 Grafana를 설치해서 수집된 데이터를 한번 그래프화 해 보자.

Prometheus도 자체의 그래프를 가지고 있지만 심플하고 다양한 Metric을 한 눈에 보기 힘들다는 단점이 있다. 이런 부분을 Grafana가 해결해 주는 것이다.


Grafana 설치 


* Ubuntu / Centos / Mac / Windows 등 다양하게 설치 할 수 있다.

* 아래 사이트를 참조 하자.

http://docs.grafana.org/installation/rpm/

https://www.percona.com/blog/2016/02/29/graphing-mysql-performance-with-prometheus-and-grafana/


나 역시 yum으로 설치를 진행 하였다.

설치 후에는 service grafana-server start로  실행했다.


이제 실행해 보자.

Prometheus와 동일하게 Grafana도 http://설치한서버IP:3000 으로 접속을 할 수 있으며,

초기 비밀번호는 admin / admin 이다.



이후 나는 몇일을 고생했다..어떻게 하는지 몰라서 말이다..ㅠㅠ


먼저 좌측 메뉴를 PIN으로 고정을 하자..

이 후 Data source를 통해 기본 서버를 구성하자.

아래 메뉴는 PIN으로 고정 및 Data Source를 선택 한 화면이며 Add data source 로 추가하자.



Type  은 Prometheus로 하고 url은 prometheus를 설정한 곳을 지정해 주자.


그리고 Direct로 접속 설정 후 save & Test를 하면 다음과 같이 확인할 수 있다.

나같이 성질 급하고 영어 못하고..컴맹은 메뉴얼을 봐도 삽질을 하고 결국은 해결은 하겠지만 몇일 걸릴 것이다.ㅠㅠ



위와 같이 떴다면 성공이다...

다시 Data Sources를 선택하면 다음과 같은 화면이 나올 것이다.



나온 화면에서 Dashboards를 선택해 보자.

이 후 Dashboards 의 New를 선택해서 하나씩 나의 대쉬보드에 원하는 데이터를 추가해 보자



여러 템플릿이 있겠지만 가장 많이 사용하는 Graph를 이용해서 추가해 보자.

Graph를 선택해 보자.



앗!!뭔가 나왔다...하지만 뭔가가 이상하다.

나는 수집도 하지 않은 데이터가 차트로 그려졌다.


정확하게 다시 말하면 내가 node를 설치하기 전의 데이터도 수집 된 것으로 나온다.

뭔가가 이상하다....(처음에는 이게 끝인줄 알았다.....ㅠㅠ)



Panel Title이라는 글씨를 누르게 되면 상단처럼 위에 View - Edit - Duplicat - Share 등이 나온다.

여기서 Edit를 선택해 보자



그래...밑에 Metrics라는 것이 있는데 내용에 fakedata source 라고 나온 것을 확인할 수 있다.


즉. 해당 데ㅇㅣ터는 임시 데이터로써 나의 수집된 데이터와는 무관하다는 뜻이다.



하단에 Panel data source 항목 옆 default를 선택하면 우리가 Data source로 추가한 Test_Source가 나온다. 

Test_Source 를 추가하면 아래와 같이 나온다.



이제 우리가 원하는 Metric 을 추가할 수 있다.

Metric looup 항목에 metric name을 선택하면 여러가지 Metric이 항목으로 ㄴㅏ올 것이다.

여기서 원하는 Metric을 선택해 주자.



정말 환호의 순간이다..원하는 데이터가 나온다.

하지만 여기서 나의 센스가 없는 모습이 나온다.

다른 항목을 선택했더니 데이터가 나오지 않았다...열심히 삽질했다.



정말 센스있는 사람이라면 찾았을 것이다. query의 내용이 겹쳐있다는 것을...

쿼리는 우리가 원하는 데이터를 다시 한번 더 가공할 수 있다. 하지만 여기서는 가공하는 방법을 알려주지 않는다.


원하는 분은 아래를 참고하시기 바랍니다.

Query Edit

http://docs.grafana.org/features/datasources/prometheus/#query-editor



쿼리 내용을 깨끗이 지우고 다시 Metric을 추가하면 원하는 데이터가 나올 것이다.

원하는 데이터가 나왔다면 X 를 누르면 된다.

걱정 안해도 된다 이미 저장 되어 있기 때문이다.



이와 같은 방법으로 2개를 만든 모습ㅇㅣ다.

이렇게 원하는 정보들을 추가하면 한 화면에 여러개의 원하는 정보를 모니터링 할 수 있을 것이다.



정말 화려한 그래픽이다...

그래서 원하는 내용을 빠르게 보거나 아니면 패턴을 빨리 익힐 수 있다.




패턴을 알고 나면 이제는 어떤 부분이 문제가 있는지..또는 배치가 얼마나 자주 도는지..

그에 대한 메모리 사용을 확인하고 수정이 필요한지...

아니면 확장을 할 것인지 많은 해결 방법을 찾을 수 있다.


잠시 몇달동안 일을 하면서 팀장님에게 배운 것 중 가장 기억에 남는것이 있다면 바로 모니터링이다.


모니터링이 누구에게는 따분할 수 있지만..

모니터링을 잘 활용하면 얼마든지 개선할 수 도 있고, 패턴을 익혀 프로그램의 주기를 변경할 수 있는 기회가 생긴다.

프로그램의 주기를 변경하면 효율적으로 자원을 활용할 수 있고 자연스럽게 장애도 예방된다.


또한 패턴을 이용해서 해당 시점의 쿼리를 수집하여 튜닝을 할 수도 있고..

무슨일이 어떻게 돌아가는지 익힐 수 있는 기회가 생긴다.


그러니 모니터링을 하찮게 생각하지 않았으면 한다.

경계에 실패한 자는 용서할 수 없듯이.. 모니터링에 실패하는 자는 훌륭한 DBA가 될수 없다고 혼자 생각해 본다-ㅎㅎ

반응형

'Monitoring > Prometheus' 카테고리의 다른 글

[Prometheus] 프로메테우스 설치 및 개념  (1) 2017.03.17

이직한지 3개월째 되어가고 있지만 아직도 많이 부족하고 내가 모르는 것들이 많다는 것을 계속 느끼고 있다.


정말 이럴때는 자괴감??까지 들 정도이다..ㅎ

그래도 새로운 것을 공부하고 설치해 보고 이에 대해서 팀장님이랑 의논하다 보면 스트레스가 오히려 지식으로 바뀌어 나가고 있다는 것을 느낄 때도 많다.


오늘은 여기까지만 잡설을 하자...ㅋ


Prometheus라는 모니터링 툴이 있으니 한번 검토해 보라는 오더를 받았다.

하지만 이놈의 꽂히는게 어디냐에 따라서 다른 방향으로 가는경우가 있다 보니 이번에도 실컷 Prometheus라고 생각한 것을 Grafana만 해버린 꼴이 되었다.


덕분에 Prometheus 와 Grafana에 대해서 둘다 경험할 수 있는 좋은 기회가 되었다.


내가 조사하고 느낀 것 뿐만 아니라 테스트 한 것에 대해서 공유해 본다.


1. Prometheus란?

원문 : https://prometheus.io/docs/introduction/overview/


아래는 내가 임의로 번역???은 아니고 구글 번역기를 이용해서 정리한 것이다.

그냥 참고만 하셨으면 한다.


- SoundCloud에서 만든 open source 모니터링이며(라이센스 -Apache license V2), 알림 툴킷 (2012년에 개발 되었으며, 많은 회사와 조직에서 사용되고 있으며 독립형 오픈소스 프로젝트)

- 다차원 데이터 모델 (메트릭 이름과 키 / 값 쌍으로 식별되는 시계열)

- 데이터는 key-value 형태의 NoSQL제품인 LevelDB에 저장


- 단일 차원을 활용하는 유연한 쿼리 언어를 사용하여 원하는 데이터를 표현 가능(메트릭 내부 데이터를 이용 )

- 분산 저장 장치에 의존하지 않는다.

- 단일 서버 노드는 자율적입니다. - 각 역활별 노드들이 있으며 해당 노드들을 이용해서 원하는 정보를 확인 가능 

- HTTP를 통한 풀 모델을 통해 시계열 컬렉션이 발생합니다.(웹 브라우저를 통해서도  접근이 가능)

- 푸시 타임 시리즈는 중간 게이트웨이를 통해 지원됩니다.

- 대상은 서비스 검색 또는 정적 구성을 통해 검색됩니다.

- 다양한 그래프 및 대시 보드 지원 모드


적합한 곳
- 순수 시간 기반 모니터링 툴이며 여러 서버에 대해 최고의 역동적인 서비스에 적합한 모니터링 툴
- Prometheus는 신뢰할 수 있게 설계되어 있으며 빠르게 문제를 진단할 수 있음
- 각각의 Prometheus 서버는 독립적이며, 네트워크 저장소나 다른 원격 서비스에 의존적이지 않음

미적합한 곳
- 100% 상세하고 완벽하지 않음(통계성 데이터를 보는 곳)

이렇게 작성해 놓으니 알듯 말듯 하다...그래서 맨 하단에 블로그를 참조하면 더 좋은 정보를 확인할 수 있다.


하아...그래 정의는 그렇다고 치자...그렇다면 작동원리는 어떻게 되는지 알아보자

그전에 아키텍처 그림을 보자. 해당 그림은 Prometheus 홈페이지에서 확인 가능하다.



2. Prometheus 작동원리

- 흔히들 아키텍쳐라고 부름.

- Prometheus 모듈로는 / alertmanager / blackbox_exporter / consul_exporter / graphite_exporter / haproxy_exporter / memcached_exporter / mysqld_exporter / node_exporter / pushgateway / statsd_exporter 로 구성 

- Pull 방식으로 클라이언트들에 접근해서 데이터를 가져오는 형태

- Exporter 가 정보를 수집하여 HTTP end point를 열어서 Prometheus가 데이터를 수집해 갈 수 있도록 함(웹브라우저로 직접 접속하여 해당 정보를 볼 수 도 있음-Metric)


그렇다면 서버나 지수를 추가하려면 어떻게 해야하나..?


- 각 서버에 에이전트 파일을 실행 후 Prometheus 를 재시작(Prometheus 내 prometheus.yml에 정보를 추가 후 재기동)

- 재기동 후에는 제대로 올라왔는지 status의 Targets에서 확인


- 알림기능

- Grouping으로 해서 여러 알람을 하나의 알람으로 받을 수 있음 (여러번 알람을 받는것이 아닌 여러개를 하나의 알람으로 받음)

- Alert Manager 를 통해서 규칙을 설정하면 그 규치에 따라 알람을 보낼 수 있음(병목 현상을 찾기 보다는 해당 규칙을 정하면 그 규칙에 따라 먼저 확인이 가능)




* 하아..이렇게 써도 어렵구나...


간단하게 정리하자면 Prometheus 서버는 각 노드(관리하고자 하는 서버들에 자기가 원하는 모듈들을 설치 후 실행)들에 방문을 해서 각 노드들이 수집한 정보들을 가져오는(Pull) 방식으로 구성되어 있다.

각 노드들에 방문하기 위해서는 기본적으로 Prometheus 서버를 실행할 때 prometheus.yml 파일을 참조하는데...해당 파일에 각 노드들의 정보( IP 등)를 가지고 있어야 한다.


제가 이해하고 정리한 부분이기에 혹시라도 틀렸다면 댓글로 알려 주시면 감사하겠습니다.



흠...이렇게 힘들게 글로 읽고 조금이라도 이해 했다면 이제 진행해 보자.


1. Prometheus 설치 및 구성


다운 받을 위치는 다음과 같다

https://prometheus.io/download/


설치 방법은 아래와 같다

https://prometheus.io/docs/introduction/install/

https://prometheus.io/docs/introduction/getting_started/


사실 설치라고 하기 보다는 압축을 풀고 구성하면 된다.


이제 prometheus.yml 수정해보.


아래 보면 Target에는 모니터링 하고자 하는 서버들의 IP를 설정하고 내가 모니터링 하고자 모듈은 node_export / mysqld_exporter 이다.

그에 대한 포트는 9100 과 9104 이다.

그리고 두대의 모니터링 서버이며...그거에 대한 명은 'linux' , 'linux2' 로 명명 했다. - job_name


이제 prometheus 서버는 구성이 완료 되었다. 실행은 각 노드들(모듈)을 설치하고 실행하자.




2. 모듈 설치 및 구성


나는 node_export 와 mysqld_export를 통해 원하는 데이터를 읽어 오려고 한다.

각 서버에 모듈을 설치해 보자.

아래 사이트에서 원하는 모듈을 다운 후 압축을 풀어보면 파일이 하나만 생길 것이다.

(모듈을 다 설치해 보지 않았으나 내가 원하는 모듈들은 nodex_epxort / mysqld_export 만 했기에..)

모듈 : https://prometheus.io/download/


DB1에는 이미 prometheus 서버를 진행 했기 때문에 혼란을 ㅍㅣ하기 위해 DB2에서 모듈을 설정 및 실행해 보겠다.


먼저 node_exporter 압축 푼 곳을 확인해 보자


별 달리 설정해 줄 것이 없다.

ㅂㅏ로 실행해서 node_exporter가 수집할 수 있도록 하자.


9100포트가 오픈 되어 있으며 이제 수집을 진행할 것이다.


다음으로는 mysqld_exporter를 진행해 보자.



여기서 해야될 업무들이 있다. mysqld_exporter가 수집할 수 있도록 유저 생성 및 .my.cnf를 생성해서 유저 정보를 알려 주는 것이다.

설정 정보들은 아래 사이트를 참고해 주면 된다.


https://github.com/prometheus/mysqld_exporter


하지만 난 유저 생성시 PROCESS, REPLICATION CLIENT, SELECT 해당 권한만 주면 된다고 했는데 막상 실행해 보니 제대로 실행이 되지 않아서

다음과 같은 권한을 부여했다.


MariaDB > CREATE USER 'prom'@'localhost' IDENTIFIED BY 'prom';

MariaDB > CREATE USER 'prom'@'&' IDENTIFIED BY 'prom';

MariaDB > GRANT SELECT, INSERT, UPDATE, DELETE, CREATE, ALTER ,DROP, INDEX ON *.* TO 'prom'@'localhost'

  WITH MAX_USER_CONNECTIONS 3;

MariaDB > GRANT SELECT, INSERT, UPDATE, DELETE, CREATE, ALTER ,DROP, INDEX ON *.* TO 'prom'@'%'

  WITH MAX_USER_CONNECTIONS 3;

MariaDB > Flush privileges;


물론 항상 그런거는 아니었지만 나의 경우 서버에서는 다음과 같이 prom이 디비와 테이블을 생성 한 것을 확인할 수 있었다.


추측은 노드는 상관 없지만 서버에서는 Grafana와 연동 시 데이터를 남기는 작업을 진행하는 것 같아서 그런것 같다.

이거는 어디까지나 추측이기 때문에 아는 분이 계시면 댓글 부탁 드립니다.



유저를 생성 했다면 .my.cnf를 만들어 해당 유저와 패스워드 정보를 작성해 주자.


이것 까지 완료 하였다면 이제 mysqld_export를 실행하자.

이제 이 친구도 수집을 진행할 것이다.


이 작업들을 다른 서버에서도 동일하게 진행 해 주자.


서버들에서 모두 모듈들을 실행 했다면 마지막으로 Prometheus 서버에서 실행하자.


별 문제 없이 실행 되었다면 이제 웹에서 prometheus를 실행해 보자..


3. 운영 및 체크


이제 웹 페이지에서 http://프로메테우스서버IP:9090 으로 접속 해 보자.

혹시라도 접속이 안되거나 한다면 방화벽 포트를 의심해 보자.



첫..화면이다...참 심플하다.

이제 한번 정상적으로 프로메테우스 서버에서 각 서버 모듈들의 정보를 가져오는 지 확인해 보자.


Status > Targets 메뉴를 확인해 보자

정상 적으로 각 서버들에 접속해서 정보들을 가져오는 것을 확인 가능하다.

정상적으로 가져오지 못하고 있다면 State에서 다른 정보들이 보일 것이다.


예를들어서 DB2 ㅇㅔ서 mysqld_exporter 를 내렸을 경우다. Down...보기만해도 가슴이 철렁 거린다...ㅋㅋ

여기서 재미있는 부분이 해당 Endpoint 를 클릭해 보자.


무슨 텍스트들이 엄청나게 많다...

이 뜻은...각 메트릭스( Key) 에 대한 수집된 값(정보-value) 들을 볼 수 있다는 것이다.

즉..각 서버내 모듈들은 이렇게 Key-Value 형태로 정보를 가지고 있다가 Prometheus 서버가 직접 해당 모듈들을 http 로 호출해서 정보를 가져 온다는 것이다.


그렇다면 정의 의 내용들을 조금 이나마 이해 할 수 있을 것이다.


다음은 해당 프로메테우스가 수집한 정보를 보는 방법이다.

Execute 옆 드롭 박스를 클릭하면 메트릭 정보들이 쭉 나와 있을 것이다.

이 정보들을 선택 후 Execute를 하게 되면 수집된 정보들을 보여 줄 것이다.



ㄴㅏ는 go_gc_duration_seconds 라는 메트릭 을 선택후 결과를 보면(Execute 클릭) value가 쭉 나올 것이다.

여기서 다시 그래프를 누르면 그래프로 표현이 될 것이다.




이정도로 간단하게 사용하는 방법에 대해서 정리해 본다.


Grafana 는 다음 포스팅에서 진행해 보겠다.


참고로 이러한 Prometheus 의 좋은 기능 간단한 설치 방법 이 있으나 단 칼에 팀장님에게 잘린 이유는 다음과 같다.

이 내용들은 어디까지나 팀장님의 의견이고..나도 이해한 것이므로 반드시 그렇다!!!는 아니다.

절대적으로 잘 사용하는 곳이나 더 좋은 의견이 있으면 댓글로 남겨 주세요...많은 경험의 결과는 사용하신 분들이 잘 알기에 저는 그 의견들을 듣고 싶습니다.


사용 안하는 이유 

1. Pull 방식의 정보 수집

- Pull 방식은 각 서버에 접속해서 해당 정보들을 수집해 오는 방식이다. 그러다 보니 많은 서버가 추가가 되고 많은 모듈에서 데이터를 수집하며, 네트워크 속도가 좋지 못하다면 수집해 오는 대기 시간이 발생하기 마련이다. 하지만 OLTP 성의 DB의 경우 문제가 발생시 즉각적인 파악이 필요하다. Pull방식으로 수집 시 이런 딜레이 때문에 즉각적인 파악이 힘들 수 있으며 딜레이가 발생할 가능성 때문에  Prometheus를 사용하기 힘들다.


2. 각 모듈의 개별 설치

- 모듈이 필요하거나 서버가 늘어날 수록 해당 서버마다 모듈을 설치하고 설정을 해줘야 한다. 또한 추가 후에는 Prometheus서버를 재시작 해야 한다. 비록 간단할 지라도 이 또한 서버가 늘어 난다면 문제가 될 수 있으며 각각의 모듈의 최신화가 필요 하다면 이 또한 추가 작업으로 진행이 되어야 한다. 이러한 작업이 거절되는 이유 중 하나이다.


Prometheus는 어떠한 서버에서도 사용이 가능하다고 생각한다. 모듈에서 모든 정보??를 수집 하기 때문이다. 다양한 정보를 수집하고 볼 수 있는 장점이 있으나 앞서 생각해 봐야하는 2가지 이유로 적합하지 못하다는 팀장님과 나의 의견이었다.


중.소형 서버에서 간단하게 확인하기 위해서는 정말 좋고 강력하다. 하지만 2가지 문제점이 해결되지 못하다면 대규모에서는 사용하기 힘들지 않을까 조심스럽게 생각해 본다.


이 의견에 대해서도 반박??은 무서워요..ㅠㅠ의견을 주실 수 있다면 의견 주세요. 많은 분들에게 도움이 될 것 입니다. 또한 저에게도요!!!


그 외의 Alert 등의 자세한 내용 및 추가적으로 더 좋은 정보는 아래 블로그 참조하세요!!

정말 소개가 잘 나와 있어서 꼭 확인해 보세요!!


참고 : 

https://blog.outsider.ne.kr/1254

http://opennaru.tistory.com/126


반응형

+ Recent posts