Un program pentru urmărirea ping-ului în jocuri. Monitorizarea rețelei: cum ne asigurăm că toate nodurile companiilor mari funcționează

După aspectul acestei optici care trece prin pădure către colector, putem concluziona că instalatorul nu a respectat puțin tehnologia. Montura din fotografie sugerează, de asemenea, că este probabil un marinar - un marinar.

Sunt din echipa de sănătate fizică a rețelei, cu alte cuvinte, suport tehnic, responsabil pentru a se asigura că luminile de pe routere clipesc așa cum ar trebui. Avem sub aripa noastră diverse companii mari cu infrastructură în toată țara. Nu intrăm în afacerea lor; sarcina noastră este să ne asigurăm că rețeaua funcționează la nivel fizic și că traficul circulă așa cum ar trebui.

Sensul general al lucrării este de a sonda constant nodurile, de a lua telemetrie, de a rula teste (de exemplu, verificarea setărilor pentru a căuta vulnerabilități), de a asigura operabilitatea, de a monitoriza aplicațiile și traficul. Uneori inventar și alte perversiuni.

Vă voi spune despre cum este organizat și câteva povești din excursiile pe teren.

Așa cum se întâmplă de obicei

Echipa noastră se află într-un birou din Moscova și ia telemetrie de rețea. De fapt, acestea sunt ping-uri constante ale nodurilor, precum și primirea datelor de monitorizare dacă hardware-ul este inteligent. Cea mai frecventă situație este că ping-ul eșuează de mai multe ori la rând. În 80% din cazuri, pentru o rețea de vânzare cu amănuntul, de exemplu, aceasta se dovedește a fi o întrerupere de curent, așa că atunci când vedem această imagine, facem următoarele:
  1. Mai întâi sunăm furnizorul despre accidente
  2. Apoi - la centrala electrică despre oprire
  3. Apoi încercăm să stabilim contact cu cineva de pe site (acest lucru nu este întotdeauna posibil, de exemplu, la 2 dimineața)
  4. Și, în cele din urmă, dacă cele de mai sus nu au ajutat în 5-10 minute, ieșim singuri sau trimitem un „avatar” - un inginer contractual care stă undeva în Izhevsk sau Vladivostok, dacă problema există.
  5. Păstrăm permanent contact cu „avatarul” și îl „ghidăm” prin infrastructură - avem senzori și manuale de service, el are clești.
  6. Apoi inginerul ne trimite un raport cu fotografii despre ce a fost.

Dialogurile merg uneori astfel:
- Deci, conexiunea se pierde între clădirile nr. 4 și 5. Verificați routerul în a cincea.
- Comanda, mai departe. Nu există nicio legătură.
- Ok, urmați cablul până la a patra clădire, există un alt nod acolo.
-... Oppa!
- Ce s-a întâmplat?
- Aici casa a 4-a a fost demolată.
- Ce??
- Atasez o fotografie la raport. Nu pot restaura casa în SLA.

Dar mai des este încă posibil să găsiți o pauză și să restabiliți canalul.

Aproximativ 60% din vizite sunt o pierdere de timp, deoarece fie alimentarea cu energie este întreruptă (de o lopată, un maistru sau intruși), fie furnizorul nu știe despre defecțiune, fie o problemă pe termen scurt este rezolvată înainte de sosește instalatorul. Cu toate acestea, există situații în care aflăm despre o problemă înaintea utilizatorilor și înaintea serviciilor IT ale clientului și comunicăm o soluție înainte ca aceștia să realizeze că s-a întâmplat ceva. Cel mai adesea, astfel de situații apar noaptea, când activitatea în companiile clienți este scăzută.

Cine are nevoie și de ce?

De regulă, orice companie mare are propriul departament IT, care înțelege clar specificul și sarcinile. În întreprinderile mijlocii și mari, munca enikey-urilor și a inginerilor de rețea este adesea externalizată. Este pur și simplu profitabil și convenabil. De exemplu, un comerciant cu amănuntul are propriii specialiști IT foarte cool, dar aceștia sunt departe de a înlocui routerele și de a urmări cablurile.

Ce facem

  1. Lucrăm la solicitări - bilete și apeluri de panică.
  2. Facem prevenire.
  3. Urmăm recomandările vânzătorilor de hardware, de exemplu, în ceea ce privește termenele limită de întreținere.
  4. Ne conectăm la monitorizarea clientului și colectăm date de la acesta pentru a răspunde la incidente.
Povestea cu monitorizarea este adesea că nu există. Sau a fost ridicat acum 5 ani și nu este foarte relevant. În cel mai simplu caz, dacă într-adevăr nu există monitorizare, oferim clientului un simplu Zabbix rusesc open source gratuit - și este bine pentru el și este mai ușor pentru noi.

Prima metodă - verificări simple - este pur și simplu o mașină care trimite ping la toate nodurile de rețea și se asigură că acestea răspund corect. Această implementare nu necesită deloc modificări sau modificări cosmetice minime ale rețelei clientului. De regulă, într-un caz foarte simplu, instalăm Zabbix direct într-unul dintre centrele noastre de date (din fericire, avem două dintre ele în biroul CROC de pe Volochaevskaya). Într-un caz mai complex, de exemplu, dacă utilizați propria rețea securizată - pe una dintre mașinile din centrul de date al clientului:

Zabbix poate fi folosit în moduri mai complexe, de exemplu, are agenți care sunt instalați pe noduri *nix și win și arată monitorizarea sistemului, precum și modul de verificare extern (cu suport pentru protocolul SNMP). Cu toate acestea, dacă o afacere are nevoie de ceva similar, atunci fie are deja propria lor monitorizare, fie alege o soluție mai bogată funcțional. Desigur, acesta nu mai este un software open source și costă bani, dar chiar și un inventar exact și banal reduce deja costurile cu aproximativ o treime.

Facem și noi asta, dar aceasta este povestea colegilor noștri. Aici au trimis câteva capturi de ecran ale Infosim:

Sunt un operator „avatar”, așa că vă voi spune mai multe despre munca mea.

Cum arată un incident tipic?

În fața noastră sunt ecrane cu următoarea stare generală:

La acest obiect, Zabbix colectează destul de multe informații pentru noi: numărul de lot, număr de serie, încărcarea procesorului, descrierea dispozitivului, disponibilitatea interfeței etc. Toate informatiile necesare accesibil din această interfață.

Un incident obișnuit începe de obicei cu faptul că unul dintre canalele care duc spre, de exemplu, magazinul clientului (din care are 200-300 în toată țara) cade. Retailul este acum priceput, nu ca acum șapte ani, așa că box office-ul va continua să funcționeze - există două canale.

Luăm telefoanele și facem cel puțin trei apeluri: la furnizor, la centrală și la oamenii de la fața locului („Da, încărcam fitinguri aici, am atins cablul cuiva... O, al tău? Ei bine, e bine că l-am găsit”).

De regulă, fără monitorizare, înainte de escaladare ar trece ore sau zile - aceleași canale de rezervă nu sunt întotdeauna verificate. Știm imediat și plecăm imediat. Dacă există informații suplimentare, altele decât ping-urile (de exemplu, un model al unei piese hardware defecte), echipăm imediat inginerul de teren cu piesele necesare. Mai departe pe loc.

Al doilea cel mai frecvent apel obișnuit este defecțiunea unuia dintre terminalele utilizatorilor, de exemplu, un telefon DECT sau un router Wi-Fi care a distribuit rețeaua la birou. Aici aflăm despre problemă din monitorizare și primim aproape imediat un apel cu detalii. Uneori apelul nu adaugă nimic nou („Ridic telefonul, nu sună nimic”), uneori este foarte util („L-am scăpat de la masă”). Este clar că, în al doilea caz, aceasta nu este clar o întrerupere de linie.

Echipamentele din Moscova sunt luate din depozitele noastre de rezervă, avem mai multe tipuri:

Clienții au, de obicei, propriile stocuri de componente care adesea defectează - telefoane de birou, surse de alimentare, ventilatoare și așa mai departe. Dacă trebuie să livrați ceva care nu este disponibil local, nu la Moscova, de obicei mergem singuri (din cauza instalării). De exemplu, am avut o excursie de noapte la Nijni Tagil.

Dacă clientul are propria monitorizare, poate încărca datele la noi. Uneori implementăm Zabbix în modul de sondare, doar pentru a asigura transparența și controlul SLA (acesta este gratuit și pentru client). Nu instalăm senzori suplimentari (asta se face de către colegi care asigură continuitatea procesele de productie), dar ne putem conecta la ele dacă protocoalele nu sunt exotice.

În general, nu atingem infrastructura clientului, pur și simplu o menținem așa cum este.

Din experiență, pot spune că ultimii zece clienți au trecut la suport extern datorită faptului că suntem foarte previzibili din punct de vedere al costurilor. Bugetare clară, management bun de caz, rapoarte pentru fiecare aplicație, SLA, rapoarte de echipamente, prevenire. În mod ideal, desigur, suntem ca agenții de curățenie pentru CIO al clientului - venim și facem asta, totul este curat, nu distragem atenția.

Un alt lucru demn de remarcat este că în unele companii mari inventarul devine o problemă reală, iar uneori suntem angajați doar pentru a le realiza. În plus, stocăm configurațiile și le gestionăm, ceea ce este convenabil pentru diverse mișcări și reconectari. Dar din nou în cazuri dificile Nici acesta nu sunt eu - avem o echipă specială care transportă centre de date.

Și încă un punct important: departamentul nostru nu se ocupă de infrastructura critică. Tot ce se află în centrele de date și tot ce este bancar, asigurări, operator, plus sistemele de bază de retail sunt echipa X. Aceștia sunt băieții.

Mai multă practică

Multe dispozitive moderne sunt capabile să ofere o mulțime de informații despre servicii. De exemplu, cu imprimantele de rețea este foarte ușor să monitorizați nivelul tonerului din cartuş. Puteți conta în avans pe perioada de înlocuire, plus să aveți un preaviz de 5-10% (dacă biroul începe brusc să tasteze cu furie în afara programului standard) - și trimiteți imediat enikey înainte ca departamentul de contabilitate să înceapă să intre în panică.

De foarte multe ori ni se iau statistici anuale care se fac de acelasi sistem de monitorizare plus noi. În cazul lui Zabbix, aceasta este o simplă planificare a costurilor și înțelegerea a ceea ce a mers unde, iar în cazul Infosim - de asemenea, material pentru calcularea scalării pentru anul, încărcările administrative și tot felul de alte lucruri. Statisticile includ consumul de energie - in ultimul an aproape toata lumea a inceput sa o ceara, se pare ca pentru a repartiza costurile interne intre departamente.

Uneori există adevărate salvări eroice. Asemenea situații sunt foarte rare, dar din câte îmi amintesc anul acesta, pe la ora 3 am observat o creștere a temperaturii la 55 de grade la comutatorul Cisco. Într-o cameră îndepărtată de servere erau aparate de aer condiționat „prostice” fără monitorizare și au eșuat. Am sunat imediat un inginer de răcire (nu al nostru) și am chemat administratorul clientului de serviciu. El a stins unele dintre serviciile necritice și a păstrat camera serverelor de la doborârea termică până când tipul cu aparat de aer conditionat mobil, iar apoi repararea celor obișnuite.

Pentru Polycoms și alte echipamente scumpe de videoconferință, nivelul de încărcare a bateriei este foarte bine monitorizat înainte de conferințe, ceea ce este de asemenea important.

Toată lumea are nevoie de monitorizare și diagnosticare. De regulă, este lung și dificil de implementat fără experiență: sistemele sunt fie extrem de simple și preconfigurate, fie de dimensiunea unui portavion și cu o grămadă de rapoarte standard. Ascuțirea unui fișier pentru o companie, elaborarea sarcinilor departamentului IT intern și furnizarea informațiilor de care are cea mai mare nevoie, plus păstrarea întregului istoric la zi este o greșeală dacă nu există experiență de implementare. Când lucrăm cu sisteme de monitorizare, alegem o cale de mijloc între soluțiile gratuite și cele de vârf - de regulă, nu cei mai populari și „grași” furnizori, dar rezolvând în mod clar problema.

Odată a existat un tratament destul de atipic. Clientul trebuia să ofere routerul unora dintre diviziile sale separate și exact în funcție de inventar. Routerul avea un modul cu numărul de serie specificat. Când am început să pregătim routerul pentru călătorie, s-a dovedit că acest modul lipsea. Și nimeni nu-l poate găsi. Problema este ușor agravată de faptul că inginerul care a lucrat anul trecut cu această ramură este deja pensionar și a plecat să-și viziteze nepoții într-un alt oraș. Ne-au contactat și ne-au rugat să căutăm. Din fericire, hardware-ul a furnizat rapoarte privind numerele de serie, iar Infosim a făcut un inventar, așa că în câteva minute am găsit acest modul în infrastructură și am descris topologia. Fugarul a fost urmărit prin cablu - se afla într-o altă cameră de server din dulap. Istoricul mișcării a arătat că a ajuns acolo după ce un modul similar a eșuat.


Fotografie dintr-un lungmetraj despre Hottabych, care descrie cu exactitate atitudinea populației față de camere

O mulțime de incidente cu camera.Într-o zi, 3 camere s-au defectat deodată. Rupere cablu într-una din secțiuni. Instalatorul a suflat unul nou în ondulat, două dintre cele trei camere s-au ridicat după o serie de șamanisme. Dar al treilea nu este. Mai mult, nu este deloc clar unde se află. Ridic fluxul video - ultimele cadre chiar înainte de toamnă - ora 4 dimineața, trei bărbați cu eșarfe pe față se apropie, ceva strălucitor este dedesubt, camera se scutură violent, cade.

Odată ce am instalat o cameră care ar trebui să se concentreze pe „iepuri de câmp” care se cațără peste gard. În timp ce conduceam, ne gândeam cum vom marca punctul în care ar trebui să apară intrusul. Nu a fost de folos – în cele 15 minute cât am fost acolo, aproximativ 30 de persoane au intrat în instalație doar în punctul de care aveam nevoie. Masa de acordare directa.

După cum am dat deja un exemplu mai sus, povestea despre clădirea demolată nu este o glumă. Odată ce legătura către echipament a dispărut. Nu există nici un pavilion unde cuprul a fost ținut la fața locului. Pavilionul a fost demolat, cablul a dispărut. Am văzut că routerul murise. Instalatorul a sosit și a început să caute - iar distanța dintre noduri era de câțiva kilometri. Are un tester Vipnet în kit, standard - a sunat de la un conector, a sunat de la altul - m-am dus să caut. De obicei, problema este imediat vizibilă.


Urmărirea cablului: aceasta este optică ondulată, o continuare a poveștii din partea de sus a postării despre nodul de mare. Aici, in final, pe langa instalatia absolut uimitoare, s-a descoperit o problema ca cablul s-a indepartat de prindere. Toată lumea și oricine urcă aici și scutură structuri metalice. Aproximativ cinci mii de reprezentanți ai proletariatului au spart optica.

La un loc, toate nodurile au fost oprite aproximativ o dată pe săptămână.Și în același timp. Am căutat un model destul de mult timp. Programul de instalare a găsit următoarele:

  • Problema apare întotdeauna în timpul schimbului aceleiași persoane.
  • Se deosebește de ceilalți prin faptul că poartă o haină foarte grea.
  • O mașină este montată în spatele cuierului.
  • Cineva a luat capacul mașinii cu mult timp în urmă, în timpuri preistorice.
  • Când această tovarășă ajunge la fața locului, el își închide hainele, iar ea oprește aparatele.
  • Le pornește imediat.

La un loc, echipamentul a fost oprit la aceeași oră în timpul nopții. S-a dovedit că meșterii locali s-au conectat la sursa noastră de alimentare, au scos un prelungitor și au conectat un fierbător și o sobă electrică. Atunci când aceste dispozitive funcționează simultan, întregul pavilion este eliminat.

Într-unul dintre magazinele din vasta noastră patrie, întreaga rețea a căzut constant când schimbul a fost închis. Instalatorul a văzut că toată puterea a fost direcționată către linia de iluminat. Imediat ce iluminatul de deasupra magazinului (care consumă multă energie) este stins, toate echipamentele de rețea sunt oprite.

A existat un caz când un îngrijitor a rupt un cablu cu o lopată.

Adesea vedem doar cuprul culcat cu ondularea ruptă. Odată, meșterii locali au aruncat pur și simplu un cablu răsucit între două ateliere fără nicio protecție.

Departe de civilizație, angajații se plâng adesea că sunt iradiați de echipamentele „noastre”. Panourile de distribuție din unele locații îndepărtate pot fi în aceeași cameră cu persoana de serviciu. În consecință, de câteva ori am dat peste bunici dăunătoare care, prin cârlig sau prin escroc, le-au oprit la începutul turei.

Într-un alt oraș îndepărtat pe optică era atârnat un mop. Au rupt ondulația de pe perete și au început să o folosească ca element de fixare pentru echipamente.


În acest caz, există clar probleme cu alimentația.

Ce poate face monitorizarea „mare”?

De asemenea, voi vorbi pe scurt despre capacitățile sistemelor mai serioase, folosind exemplul instalărilor Infosim. Există 4 soluții combinate într-o singură platformă:
  • Managementul eșecului – monitorizarea eșecului și corelarea evenimentelor.
  • Managementul performanței.
  • Inventar și descoperire automată a topologiei.
  • Managementul configurației.
Ceea ce este important este că Infosim acceptă o grămadă de echipamente din cutie, adică analizează cu ușurință toate schimburile interne și are acces la toate datele tehnice. Iată lista furnizorilor: Cisco Systems, Huawei, HP, AVAYA, Redback Networks, F5 Networks, Extreme Networks, Juniper, Alcatel-Lucent, Fujitsu Technology Solutions, ZyXEL, 3Com, Ericsson, ZTE, ADVA Optical Networking, Nortel Networks, Nokia Siemens Networks, Allied Telesis, RADCOM, Allot Communications, Enterasys Networks, Telco Systems etc.

Separat despre inventar. Modulul nu numai că arată lista, dar construiește și topologia în sine (cel puțin în 95% din cazuri încearcă și reușește). De asemenea, vă permite să aveți la îndemână o bază de date actualizată cu echipamente IT uzate și inactive (rețea, echipamente server etc.) și să înlocuiți echipamentele învechite (EOS/EOL) în timp util. În general, este convenabil pentru întreprinderile mari, dar în întreprinderile mici o mare parte din acest lucru se face manual.

Exemple de rapoarte:

  • Rapoarte defalcate pe tipuri de SO, firmware, modele și producători de echipamente;
  • Raportați numărul de porturi libere de pe fiecare switch din rețea/după producător selectat/după model/după subrețea etc.;
  • Raportare asupra dispozitivelor nou adăugate pentru o anumită perioadă;
  • Notificare despre nivelurile scăzute de toner în imprimante;
  • Evaluarea caracterului adecvat al unui canal de comunicare pentru trafic sensibil la întârzieri și pierderi, metode active și pasive;
  • Monitorizarea calității și disponibilității canalelor de comunicații (SLA) – generarea de rapoarte privind calitatea canalelor de comunicații, defalcate pe operatori de telecomunicații;
  • Funcționalitatea de monitorizare a erorilor și corelarea evenimentelor este implementată folosind mecanismul de analiză a cauzei rădăcină (fără a fi nevoie ca administratorul să scrie reguli) și mecanismul Alarm States Machine. Root-Cause Analysis este o analiză a cauzei fundamentale a unui accident, bazată pe următoarele proceduri: 1. detectarea și localizarea automată a locației defecțiunii; 2. reducerea numărului de evenimente de urgență la unul cheie; 3. identificarea consecințelor eșecului – cine și ce a fost afectat de eșec.
De asemenea, puteți instala aceste lucruri în rețea, care sunt imediat integrate în monitorizare:


Stablenet – Agent încorporat (SNEA) este un computer puțin mai mare decât un pachet de țigări.

Instalarea se realizează pe ATM-uri sau pe segmente de rețea dedicate unde sunt necesare verificări de accesibilitate. Cu ajutorul lor, se efectuează testarea încărcării.

Monitorizare cloud

Un alt model de instalare este SaaS în cloud. Am făcut-o pentru un client global (o companie cu ciclu de producție continuu cu o geografie de distribuție din Europa în Siberia).

Zeci de obiecte, inclusiv fabrici și depozite produse finite. Dacă canalele lor au căzut, iar sprijinul lor a fost furnizat de birouri externe, atunci au început întârzierile de expediere, ceea ce a dus treptat la pierderi suplimentare. Toate lucrările au fost făcute la cerere și s-a petrecut mult timp investigând incidentul.

Am configurat monitorizarea special pentru ei, apoi am adăugat-o într-o serie de zone în funcție de specificul rutării și hardware-ului lor. Toate acestea au fost făcute în cloud-ul CROC. Proiectul a fost finalizat și livrat foarte repede.

Rezultatul este:

  • Datorită transferului parțial al controlului infrastructurii de rețea, a fost posibilă optimizarea cu cel puțin 50%. Indisponibilitatea echipamentului, încărcarea canalului, depășirea parametrilor recomandați de producător: toate acestea sunt înregistrate în 5-10 minute, diagnosticate și reparate în decurs de o oră.
  • Când primește un serviciu din cloud, clientul transferă costurile de capital pentru implementarea sistemului său de monitorizare a rețelei în costuri de operare pentru o taxă de abonament la serviciul nostru, care poate fi anulată în orice moment.

Avantajul cloud-ului este că în decizia noastră stăm, parcă, deasupra rețelei lor și putem privi tot ce se întâmplă mai obiectiv. La acel moment, dacă am fi în interiorul rețelei, am vedea poza doar până la nodul de defecțiune și nu am mai ști ce se întâmplă în spatele ei.

Câteva poze finale

Acesta este „puzzle-ul de dimineață”:

Și am găsit această comoară:

Iată ce era în piept:

Și în sfârșit, despre cea mai distractivă călătorie. Am fost odată pe un site de vânzare cu amănuntul.

Acolo s-au întâmplat următoarele: mai întâi a început să picure de pe acoperiș pe tavanul fals. Apoi s-a format un lac în tavanul fals, care s-a spălat și a împins printr-una dintre plăci. Drept urmare, toate acestea s-au turnat în electricitate. Apoi nu știu exact ce s-a întâmplat, dar undeva în camera alăturată a fost un scurtcircuit și a început un incendiu. Mai întâi s-au stins stingătoarele cu pulbere, apoi au sosit pompierii care au umplut totul cu spumă. Am ajuns dupa ei la demontare. Trebuie să spun că Cisco 2960 a funcționat după toate acestea - am putut să ridic configurația și să trimit dispozitivul la reparare.

Încă o dată, când sistemul de pulbere a fost activat, Cisco 3745 dintr-un borcan a fost aproape complet umplut cu pulbere. Toate interfețele erau pline - 2 x 48 porturi. Trebuia pornit pe loc. Amintit incident trecut, am decis să încercăm să eliminăm configurațiile „fierbinte”, le-am scuturat, le-am curățat cât de bine am putut. L-am pornit - la început, dispozitivul a spus „pfft” și ne-a strănut un flux mare de pulbere. Și apoi toarcă și se ridică.

Solicitare ecou

O cerere de ecou (ping) este un instrument de diagnosticare folosit pentru a afla dacă o anumită gazdă dintr-o rețea IP este accesibilă. Solicitarea ecou este efectuată utilizând protocolul Internet Control Message Protocol (ICMP). Acest protocol este folosit pentru a trimite o cerere de ecou nodului care este verificat. Gazda trebuie configurată să accepte pachete ICMP.

Examinare
prin ping

PRTG este un instrument de monitorizare ping și rețea pentru Windows. Este compatibil cu toate sistemele Windows majore, inclusiv Windows Server 2012 R2 și Windows 10.

PRTG este un instrument puternic pentru întreaga rețea. Pentru servere, routere, comutatoare, timp de funcționare și conexiuni la cloud, PRTG urmărește toate valorile, astfel încât să puteți elimina problemele administrative din ecuație. Un senzor ping, precum și senzorii SNMP, NetFlow și de analiză a pachetelor sunt utilizați pentru a colecta informații detaliate despre disponibilitatea rețelei și volumul de lucru.

PRTG are un sistem de alarmă încorporat personalizabil care vă anunță rapid problemele. Senzorul de solicitare a ecoului este configurat ca senzor principal pentru dispozitivele de rețea. Dacă acest senzor nu reușește, toți ceilalți senzori de pe dispozitiv intră în modul de repaus. Aceasta înseamnă că în loc de un flux de mesaje alarmante, veți primi o singură notificare.

În orice moment, la cererea dumneavoastră, puteți afișa tabloul de bord PRTG scurtă prezentare generală. Vei vedea imediat dacă totul este ok. Tabloul de bord este personalizabil pentru a se potrivi nevoilor dumneavoastră specifice. Când sunteți departe de birou, cum ar fi când lucrați într-o cameră de server, PRTG poate fi accesat printr-o aplicație pentru smartphone și nu veți rata nicio ritm.

Monitorizarea inițială este configurată imediat în timpul instalării. Acest lucru este posibil prin caracteristica sa de auto-descoperire: PRTG ping adresele IP private și creează automat senzori pentru dispozitivele disponibile. Când deschideți PRTG pentru prima dată, puteți verifica imediat disponibilitatea rețelei dvs.

PRTG are un model de licențiere transparent. Puteți testa PRTG gratuit. Senzorul ping și funcția de alarmă sunt de asemenea incluse în versiunea gratuită și au o utilizare nelimitată. Dacă compania sau rețeaua dvs. are nevoie de mai multe capacități, actualizarea licenței este ușoară.

Capturi de ecran
O scurtă introducere în PRTG: Ping Monitoring

Senzorii tăi de ping dintr-o privire
- chiar si pe drum

PRTG se instalează în câteva minute și este compatibil cu majoritatea dispozitivelor mobile.

PRTG monitorizează aceștia și mulți alți producători și aplicații pentru dvs

Trei senzori PRTG pentru monitorizarea ping-urilor

Senzor
cereri de ecou


din nor

Senzorul Cloud Ping utilizează cloud-ul PRTG pentru a măsura timpul de execuție a ping-urilor către rețeaua dvs. din diferite locații din lume. Acest senzor vă permite să vedeți disponibilitatea rețelei dvs. în Asia, Europa și America. În special, acest indicator este foarte important pentru companiile internaționale. .

Când achiziționați PRTG, veți primi asistență completă și gratuită. Sarcina noastră este să vă rezolvăm problemele cât mai repede posibil! Mai ales pentru asta, alături de alte materiale, am pregătit filmulețe educaționale și ghid cuprinzător. Ne străduim să răspundem la toate biletele de asistență în termen de 24 de ore (în zilele lucrătoare). Veți găsi răspunsuri la multe întrebări în baza noastră de cunoștințe. De exemplu, interogarea de căutare „monitorizare ping” returnează 700 de rezultate. Câteva exemple:

„Am nevoie de un senzor ping care va colecta doar informații despre disponibilitatea unui dispozitiv, fără a-i schimba starea. Este posibil acest lucru?

„Pot crea un senzor de ping invers?”


„Cu PRTG, avem o liniște mult mai mare știind că sistemele noastre sunt monitorizate continuu.”

Markus Puke, administrator de rețea, Clinica Schuchtermann (Germania)

  • Versiunea completă a PRTG timp de 30 de zile
  • După 30 de zile – versiune gratuită
  • Pentru versiunea extinsă - licență comercială

Software de monitorizare a rețelei - versiunea 19.2.50.2842 (15 mai 2019)

Gazduire

Versiunea cloud disponibilă și (PRTG în cloud)

Limbi

Engleză, germană, rusă, spaniolă, franceză, portugheză, olandeză, japoneză și chineză simplificată

Preturi

Gratuit până la 100 de senzori (prețuri)

Monitorizare cuprinzătoare

Dispozitive de rețea, lățime de bandă, servere, aplicații, medii virtuale, sisteme la distanță, Internet of Things și multe altele.

Furnizori și aplicații acceptate

Monitorizare rețea și ping cu PRTG: trei exemple practice

PRTG se bazează pe 200.000 de administratori din întreaga lume. Acești administratori pot lucra într-o varietate de industrii, dar au un lucru în comun - dorința de a asigura și îmbunătăți disponibilitatea și performanța rețelelor lor. Trei exemple de utilizare:

Aeroportul Zurich

Aeroportul Zurich este cel mai mare aeroport din Elveția, așa că este deosebit de important ca toate sistemele sale electronice să funcționeze fără probleme. Pentru a face acest lucru posibil, divizia IT a implementat software-ul PRTG Network Monitor de la Paessler AG. Cu peste 4.500 de senzori, acest instrument asigură că problemele sunt detectate imediat și rezolvate imediat de experții IT. În trecut, departamentul IT folosea o varietate de programe de monitorizare. Dar în cele din urmă conducerea a ajuns la concluzia că aceasta software nepotrivit monitorizării specializate de către personalul operaţional şi tehnic. Exemplu de utilizare.

Universitatea Bauhaus, Weimar

Sistemele IT ale Universității Bauhaus din Weimar sunt utilizate de 5.000 de studenți și 400 de angajați. În trecut, o soluție sandbox bazată pe Nagios a fost folosită pentru a monitoriza rețeaua universitară. Sistemul era depășit din punct de vedere tehnic și nu putea satisface nevoile infrastructurii IT a instituției de învățământ. Modernizarea infrastructurii ar fi extrem de costisitoare. În schimb, universitatea a apelat la noi soluții de monitorizare a rețelei. Directorii IT și-au dorit un produs software cuprinzător, ușor de utilizat, ușor de instalat și cu o rentabilitate excelentă. De aceea au ales PRTG. Exemplu de utilizare.

Servicii municipale ale orașului Frankenthal

Puțin peste 200 de angajați ai City of Frankenthal Public Utilities sunt responsabili pentru furnizarea de energie electrică, gaz și apă clienților rezidențiali și întreprinderilor. Organizația cu toate clădirile depinde și de o infrastructură distribuită local, care constă din aproximativ 80 de servere și 200 de dispozitive conectate. Managerii IT de la utilitatea Frankenthal căutau un software accesibil, care să le satisfacă nevoile specifice. Mai întâi, IT a instalat o versiune de încercare gratuită a PRTG. Utilitățile publice ale lui Frankenthal folosesc în prezent aproximativ 1.500 de senzori, monitorizând, printre altele, piscinele publice. Exemplu de utilizare.

Sfaturi practice. Spune-mi, Greg, ai recomandări pentru monitorizarea ping-urilor?

„Senzorii Ping sunt probabil cele mai importante elemente ale monitorizării rețelei. Acestea trebuie configurate corect, mai ales pe baza conexiunilor dvs. Dacă, de exemplu, monitorizați o mașină virtuală, este util să plasați un senzor ping pe conexiunea la gazda acesteia. Dacă o gazdă eșuează, nu veți primi o notificare pentru fiecare mașină virtuală conectată la ea. În plus, senzorii de ping pot fi indicatori buni pentru a stabili dacă calea rețelei către o gazdă sau Internet funcționează corect, în special în scenariile de înaltă disponibilitate sau de failover.”

Greg Campion, administrator de sistem la PAESSLER AG

Monitor Ping EMCO. Asistent administrativ gratuit

Dacă infrastructura dvs. are până la 5 gazde de virtualizare, puteți utiliza versiunea gratuită.

Ping Monitor: Instrument de monitorizare a stării conexiunii la rețea (gratuit pentru 5 gazde)

Info:
Instrument robust de monitorizare pentru a verifica automat conectivitatea la o rețea de gazde prin executarea unei comenzi ping.

Wiki:
Ping este un utilitar pentru verificarea conexiunilor pe rețelele bazate pe TCP/IP, precum și a numelui comun pentru cererea în sine.
Utilitarul trimite cereri (ICMP Echo-Request) ale protocolului ICMP către gazda de rețea specificată și înregistrează răspunsurile primite (ICMP Echo-Reply). Timpul dintre trimiterea unei cereri și primirea unui răspuns (RTT, din limba engleză Round Trip Time) vă permite să determinați întârzierile dus-întors (RTT) de-a lungul rutei și frecvența pierderii pachetelor, adică să determinați indirect aglomerația de date. canale și dispozitive intermediare.
Programul ping este unul dintre principalele instrumente de diagnosticare în rețelele TCP/IP și este inclus în livrarea tuturor rețelelor moderne. sisteme de operare.

https://ru.wikipedia.org/wiki/Ping

Programul monitorizează conexiunile la rețea trimițând solicitări ICMP regulate și vă informează despre recuperarea/eșecul detectat al canalului. EMCO Ping Monitor oferă statistici de conectare, inclusiv timp de funcționare, întreruperi, eșecuri de ping etc.


Un instrument robust de monitorizare ping pentru verificarea automată a conexiunii la gazdele de rețea. Efectuând ping-uri regulate, monitorizează conexiunile la rețea și vă anunță despre creșterile/coborâșurile detectate. EMCO Ping Monitor oferă, de asemenea, informații despre statistici de conexiune, inclusiv timp de funcționare, întreruperi, ping-uri eșuate etc. Puteți extinde cu ușurință funcționalitatea și configura EMCO Ping Monitor pentru a executa comenzi personalizate sau a lansa aplicații atunci când conexiunile sunt pierdute sau restaurate.

Ce este EMCO Ping Monitor?

EMCO Ping Monitor poate funcționa în modul 24/7 pentru a urmări stările conexiunii uneia sau mai multor gazde. Aplicația analizează răspunsurile ping pentru a detecta întreruperile conexiunii și pentru a raporta statisticile conexiunii. Poate detecta automat întreruperile conexiunii și poate afișa baloane din tava Windows, poate reda sunete și poate trimite notificări prin e-mail. De asemenea, poate genera rapoarte și le poate trimite prin e-mail sau salva ca fișiere PDF sau HTML.

Programul vă permite să obțineți informații despre starea tuturor gazdelor, să verificați statisticile detaliate ale unei gazde selectate și să comparați performanța diferitelor gazde. Programul stochează datele ping colectate în baza de date, astfel încât să puteți verifica statisticile pentru o perioadă de timp selectată. Informațiile disponibile includ timpul de ping min/max/mediu, deviația ping, lista întreruperilor conexiunii etc. Aceste informații pot fi reprezentate ca date de grilă și diagrame.

EMCO Ping Monitor: Cum funcționează?

EMCO Ping Monitor poate fi folosit pentru a efectua monitorizarea ping a doar câteva gazde sau mii de gazde. Toate gazdele sunt monitorizate în timp real prin fire de lucru dedicate, astfel încât să puteți obține statistici în timp real și notificări privind modificările stării conexiunii pentru fiecare gazdă. Programul nu are cerințe speciale pentru hardware - puteți monitoriza câteva mii de gazde pe un computer modern tipic.

Programul folosește ping-uri pentru a detecta întreruperile conexiunii. Dacă câteva ping-uri au eșuat într-un format brut - raportează o întrerupere și vă anunță despre problemă. Când conexiunea este stabilită și ping-urile încep să treacă - programul detectează sfârșitul întreruperii și vă anunță despre asta. Puteți personaliza întrerupere și restabili condițiile de detectare, precum și notificările utilizate de program.

Comparați caracteristicile și selectați ediția

Programul este disponibil în trei ediții cu setul diferit de caracteristici.
Compara ediții

Ediția gratuită permite efectuarea monitorizării ping a până la 5 gazde. Nu permite nicio configurație specifică pentru gazde. Funcționează ca un program Windows, așa că monitorizarea este oprită dacă închideți interfața de utilizare sau vă deconectați de la Windows.

Gratuit pentru uz personal și comercial

Ediție profesională

Ediția Professional permite monitorizarea a până la 250 de gazde simultan. Fiecare gazdă poate avea o configurație personalizată, cum ar fi, notificarea destinatarilor de e-mail sau acțiuni personalizate care trebuie executate în cazul pierderii conexiunii și evenimentelor de restabilire. Funcționează ca un serviciu Windows, așa că monitorizarea continuă chiar dacă închideți interfața de utilizare sau vă deconectați de la Windows.

Enterprise Edition

Ediția Enterprise nu are limitări privind numărul de gazde monitorizate. Pe un PC modern, este posibil să monitorizați peste 2500 de gazde, în funcție de configurația hardware.

Această ediție include toate caracteristicile disponibile și funcționează ca client/server. Serverul funcționează ca un serviciu Windows pentru a asigura monitorizarea ping-ului în modul 24/7. Clientul este un program Windows care se poate conecta la un server care rulează pe un PC local sau la un server la distanță printr-o rețea LAN sau Internet. Mai mulți clienți se pot conecta la același server și pot lucra concomitent.

Această ediție include și rapoarte web, care permit revizuirea statisticilor de monitorizare a gazdei de la distanță într-un browser web.

Principalele caracteristici ale EMCO Ping Monitor

Monitorizare ping multi-gazdă

Aplicația poate monitoriza mai multe gazde simultan. Ediția gratuită a aplicației permite monitorizarea a până la cinci gazde; ediția Professional nu are nicio limitare pentru numărul de gazde monitorizate. Monitorizarea fiecărei gazde funcționează independent de alte gazde.

Detectare întreruperi de conexiune

Aplicația trimite cereri de eco ping ICMP și analizează răspunsurile de eco ping pentru a monitoriza starea conexiunii în modul 24/7. Dacă numărul prestabilit de ping-uri eșuează la rând, aplicația detectează o întrerupere a conexiunii și vă anunță problema. Aplicația urmărește toate întreruperile, astfel încât să puteți vedea când o gazdă a fost offline.

Analiza calității conexiunii

Când aplicația trimite ping la o gazdă monitorizată, salvează și agregează date despre fiecare ping, astfel încât să puteți obține informații despre timpii de răspuns ping minim, maxim și mediu și abaterea răspunsului ping de la media pentru orice perioadă de raportare. Acest lucru vă permite să estimați calitatea conexiunii la rețea.

Notificări flexibile

Dacă doriți să primiți notificări despre conexiune pierdută, conexiune restaurată și alte evenimente detectate de aplicație, puteți configura aplicația să trimită notificări prin e-mail, să redă sunete și să arate baloane din tava Windows. Aplicația poate trimite o singură notificare de orice tip sau poate repeta notificări de mai multe ori.

Diagrame și Rapoarte

Toate informațiile statistice colectate de aplicație pot fi reprezentate vizual prin diagrame. Puteți vedea statisticile privind ping-ul și timpul de funcționare pentru o singură gazdă și puteți compara performanța mai multor gazde pe diagrame. Aplicația poate genera automat rapoarte în diferite formate în mod regulat pentru a reprezenta statisticile gazdei.

Acțiuni personalizate

Puteți integra aplicația cu software extern executând scripturi externe sau fișiere executabile atunci când conexiunile sunt pierdute sau restaurate sau în cazul altor evenimente. De exemplu, puteți configura aplicația să ruleze un instrument extern de linie de comandă pentru a trimite notificări prin SMS despre orice modificări ale stărilor gazdei.

După aspectul acestei optici care trece prin pădure către colector, putem concluziona că instalatorul nu a respectat puțin tehnologia. Montura din fotografie sugerează, de asemenea, că este probabil un marinar - un marinar.

Sunt din echipa de sănătate fizică a rețelei, cu alte cuvinte, suport tehnic, responsabil pentru a se asigura că luminile de pe routere clipesc așa cum ar trebui. Avem sub aripa noastră diverse companii mari cu infrastructură în toată țara. Nu intrăm în afacerea lor; sarcina noastră este să ne asigurăm că rețeaua funcționează la nivel fizic și că traficul circulă așa cum ar trebui.

Sensul general al lucrării este de a sonda constant nodurile, de a lua telemetrie, de a rula teste (de exemplu, verificarea setărilor pentru a căuta vulnerabilități), de a asigura operabilitatea, de a monitoriza aplicațiile și traficul. Uneori inventar și alte perversiuni.

Vă voi spune despre cum este organizat și câteva povești din excursiile pe teren.

Așa cum se întâmplă de obicei

Echipa noastră se află într-un birou din Moscova și ia telemetrie de rețea. De fapt, acestea sunt ping-uri constante ale nodurilor, precum și primirea datelor de monitorizare dacă hardware-ul este inteligent. Cea mai frecventă situație este că ping-ul eșuează de mai multe ori la rând. În 80% din cazuri, pentru o rețea de vânzare cu amănuntul, de exemplu, aceasta se dovedește a fi o întrerupere de curent, așa că atunci când vedem această imagine, facem următoarele:
  1. Mai întâi sunăm furnizorul despre accidente
  2. Apoi - la centrala electrică despre oprire
  3. Apoi încercăm să stabilim contact cu cineva de pe site (acest lucru nu este întotdeauna posibil, de exemplu, la 2 dimineața)
  4. Și, în cele din urmă, dacă cele de mai sus nu au ajutat în 5-10 minute, ieșim singuri sau trimitem un „avatar” - un inginer contractual care stă undeva în Izhevsk sau Vladivostok, dacă problema există.
  5. Păstrăm permanent contact cu „avatarul” și îl „ghidăm” prin infrastructură - avem senzori și manuale de service, el are clești.
  6. Apoi inginerul ne trimite un raport cu fotografii despre ce a fost.

Dialogurile merg uneori astfel:
- Deci, conexiunea se pierde între clădirile nr. 4 și 5. Verificați routerul în a cincea.
- Comanda, mai departe. Nu există nicio legătură.
- Ok, urmați cablul până la a patra clădire, există un alt nod acolo.
-... Oppa!
- Ce s-a întâmplat?
- Aici casa a 4-a a fost demolată.
- Ce??
- Atasez o fotografie la raport. Nu pot restaura casa în SLA.

Dar mai des este încă posibil să găsiți o pauză și să restabiliți canalul.

Aproximativ 60% din vizite sunt o pierdere de timp, deoarece fie alimentarea cu energie este întreruptă (de o lopată, un maistru sau intruși), fie furnizorul nu știe despre defecțiune, fie o problemă pe termen scurt este rezolvată înainte de sosește instalatorul. Cu toate acestea, există situații în care aflăm despre o problemă înaintea utilizatorilor și înaintea serviciilor IT ale clientului și comunicăm o soluție înainte ca aceștia să realizeze că s-a întâmplat ceva. Cel mai adesea, astfel de situații apar noaptea, când activitatea în companiile clienți este scăzută.

Cine are nevoie și de ce?

De regulă, orice companie mare are propriul departament IT, care înțelege clar specificul și sarcinile. În întreprinderile mijlocii și mari, munca enikey-urilor și a inginerilor de rețea este adesea externalizată. Este pur și simplu profitabil și convenabil. De exemplu, un comerciant cu amănuntul are propriii specialiști IT foarte cool, dar aceștia sunt departe de a înlocui routerele și de a urmări cablurile.

Ce facem

  1. Lucrăm la solicitări - bilete și apeluri de panică.
  2. Facem prevenire.
  3. Urmăm recomandările vânzătorilor de hardware, de exemplu, în ceea ce privește termenele limită de întreținere.
  4. Ne conectăm la monitorizarea clientului și colectăm date de la acesta pentru a răspunde la incidente.
Povestea cu monitorizarea este adesea că nu există. Sau a fost ridicat acum 5 ani și nu este foarte relevant. În cel mai simplu caz, dacă într-adevăr nu există monitorizare, oferim clientului un simplu Zabbix rusesc open source gratuit - și este bine pentru el și este mai ușor pentru noi.

Prima metodă - verificări simple - este pur și simplu o mașină care trimite ping la toate nodurile de rețea și se asigură că acestea răspund corect. Această implementare nu necesită deloc modificări sau modificări cosmetice minime ale rețelei clientului. De regulă, într-un caz foarte simplu, instalăm Zabbix direct într-unul dintre centrele noastre de date (din fericire, avem două dintre ele în biroul CROC de pe Volochaevskaya). Într-un caz mai complex, de exemplu, dacă utilizați propria rețea securizată - pe una dintre mașinile din centrul de date al clientului:

Zabbix poate fi folosit în moduri mai complexe, de exemplu, are agenți care sunt instalați pe noduri *nix și win și arată monitorizarea sistemului, precum și modul de verificare extern (cu suport pentru protocolul SNMP). Cu toate acestea, dacă o afacere are nevoie de ceva similar, atunci fie are deja propria lor monitorizare, fie alege o soluție mai bogată funcțional. Desigur, acesta nu mai este un software open source și costă bani, dar chiar și un inventar exact și banal reduce deja costurile cu aproximativ o treime.

Facem și noi asta, dar aceasta este povestea colegilor noștri. Aici au trimis câteva capturi de ecran ale Infosim:

Sunt un operator „avatar”, așa că vă voi spune mai multe despre munca mea.

Cum arată un incident tipic?

În fața noastră sunt ecrane cu următoarea stare generală:

La această facilitate, Zabbix colectează destul de multe informații pentru noi: numărul de lot, numărul de serie, încărcarea procesorului, descrierea dispozitivului, disponibilitatea interfeței etc. Toate informațiile necesare sunt disponibile din această interfață.

Un incident obișnuit începe de obicei cu faptul că unul dintre canalele care duc spre, de exemplu, magazinul clientului (din care are 200-300 în toată țara) cade. Retailul este acum priceput, nu ca acum șapte ani, așa că box office-ul va continua să funcționeze - există două canale.

Luăm telefoanele și facem cel puțin trei apeluri: la furnizor, la centrală și la oamenii de la fața locului („Da, încărcam fitinguri aici, am atins cablul cuiva... O, al tău? Ei bine, e bine că l-am găsit”).

De regulă, fără monitorizare, înainte de escaladare ar trece ore sau zile - aceleași canale de rezervă nu sunt întotdeauna verificate. Știm imediat și plecăm imediat. Dacă există informații suplimentare, altele decât ping-urile (de exemplu, un model al unei piese hardware defecte), echipăm imediat inginerul de teren cu piesele necesare. Mai departe pe loc.

Al doilea cel mai frecvent apel obișnuit este defecțiunea unuia dintre terminalele utilizatorilor, de exemplu, un telefon DECT sau un router Wi-Fi care a distribuit rețeaua la birou. Aici aflăm despre problemă din monitorizare și primim aproape imediat un apel cu detalii. Uneori apelul nu adaugă nimic nou („Ridic telefonul, nu sună nimic”), uneori este foarte util („L-am scăpat de la masă”). Este clar că, în al doilea caz, aceasta nu este clar o întrerupere de linie.

Echipamentele din Moscova sunt luate din depozitele noastre de rezervă, avem mai multe tipuri:

Clienții au, de obicei, propriile stocuri de componente care adesea defectează - telefoane de birou, surse de alimentare, ventilatoare și așa mai departe. Dacă trebuie să livrați ceva care nu este disponibil local, nu la Moscova, de obicei mergem singuri (din cauza instalării). De exemplu, am avut o excursie de noapte la Nijni Tagil.

Dacă clientul are propria monitorizare, poate încărca datele la noi. Uneori implementăm Zabbix în modul de sondare, doar pentru a asigura transparența și controlul SLA (acesta este gratuit și pentru client). Nu instalăm senzori suplimentari (asta o fac colegii care asigură continuitatea proceselor de producție), dar ne putem conecta la aceștia dacă protocoalele nu sunt exotice.

În general, nu atingem infrastructura clientului, pur și simplu o menținem așa cum este.

Din experiență, pot spune că ultimii zece clienți au trecut la suport extern datorită faptului că suntem foarte previzibili din punct de vedere al costurilor. Bugetare clară, management bun de caz, rapoarte pentru fiecare aplicație, SLA, rapoarte de echipamente, prevenire. În mod ideal, desigur, suntem ca agenții de curățenie pentru CIO al clientului - venim și facem asta, totul este curat, nu distragem atenția.

Un alt lucru demn de remarcat este că în unele companii mari inventarul devine o problemă reală, iar uneori suntem angajați doar pentru a le realiza. În plus, stocăm configurațiile și le gestionăm, ceea ce este convenabil pentru diverse mișcări și reconectari. Dar, din nou, în cazurile dificile nu sunt nici eu - avem unul special care transportă centre de date.

Și încă un punct important: departamentul nostru nu se ocupă de infrastructura critică. Tot ce se află în centrele de date și tot ce este bancar, asigurări, operator, plus sistemele de bază de retail sunt echipa X. tipii astia.

Mai multă practică

Multe dispozitive moderne sunt capabile să ofere o mulțime de informații despre servicii. De exemplu, cu imprimantele de rețea este foarte ușor să monitorizați nivelul tonerului din cartuş. Puteți conta în avans pe perioada de înlocuire, plus să aveți un preaviz de 5-10% (dacă biroul începe brusc să tasteze cu furie în afara programului standard) - și trimiteți imediat enikey înainte ca departamentul de contabilitate să înceapă să intre în panică.

De foarte multe ori ni se iau statistici anuale care se fac de acelasi sistem de monitorizare plus noi. În cazul lui Zabbix, aceasta este o simplă planificare a costurilor și înțelegerea a ceea ce a mers unde, iar în cazul Infosim - de asemenea, material pentru calcularea scalării pentru anul, încărcările administrative și tot felul de alte lucruri. Statisticile includ consumul de energie - in ultimul an aproape toata lumea a inceput sa o ceara, se pare ca pentru a repartiza costurile interne intre departamente.

Uneori există adevărate salvări eroice. Asemenea situații sunt foarte rare, dar din câte îmi amintesc anul acesta, pe la ora 3 am observat o creștere a temperaturii la 55 de grade la comutatorul Cisco. Într-o cameră îndepărtată de servere erau aparate de aer condiționat „prostice” fără monitorizare și au eșuat. Am sunat imediat un inginer de răcire (nu al nostru) și am chemat administratorul clientului de serviciu. El a oprit unele dintre serviciile necritice și a păstrat camera serverelor de la oprirea termică până când a sosit un tip cu un aparat de aer condiționat mobil și apoi le-a reparat pe cele obișnuite.

Pentru Polycoms și alte echipamente scumpe de videoconferință, nivelul de încărcare a bateriei este foarte bine monitorizat înainte de conferințe, ceea ce este de asemenea important.

Toată lumea are nevoie de monitorizare și diagnosticare. De regulă, este lung și dificil de implementat fără experiență: sistemele sunt fie extrem de simple și preconfigurate, fie de dimensiunea unui portavion și cu o grămadă de rapoarte standard. Ascuțirea unui fișier pentru o companie, elaborarea sarcinilor departamentului IT intern și furnizarea informațiilor de care are cea mai mare nevoie, plus păstrarea întregului istoric la zi este o greșeală dacă nu există experiență de implementare. Când lucrăm cu sisteme de monitorizare, alegem o cale de mijloc între soluțiile gratuite și cele de vârf - de regulă, nu cei mai populari și „grași” furnizori, dar rezolvând în mod clar problema.

Odată a existat un tratament destul de atipic. Clientul trebuia să ofere routerul unora dintre diviziile sale separate și exact în funcție de inventar. Routerul avea un modul cu numărul de serie specificat. Când am început să pregătim routerul pentru călătorie, s-a dovedit că acest modul lipsea. Și nimeni nu-l poate găsi. Problema este ușor agravată de faptul că inginerul care a lucrat anul trecut cu această ramură este deja pensionar și a plecat să-și viziteze nepoții într-un alt oraș. Ne-au contactat și ne-au rugat să căutăm. Din fericire, hardware-ul a furnizat rapoarte privind numerele de serie, iar Infosim a făcut un inventar, așa că în câteva minute am găsit acest modul în infrastructură și am descris topologia. Fugarul a fost urmărit prin cablu - se afla într-o altă cameră de server din dulap. Istoricul mișcării a arătat că a ajuns acolo după ce un modul similar a eșuat.


Fotografie dintr-un lungmetraj despre Hottabych, care descrie cu exactitate atitudinea populației față de camere

O mulțime de incidente cu camera.Într-o zi, 3 camere s-au defectat deodată. Rupere cablu într-una din secțiuni. Instalatorul a suflat unul nou în ondulat, două dintre cele trei camere s-au ridicat după o serie de șamanisme. Dar al treilea nu este. Mai mult, nu este deloc clar unde se află. Ridic fluxul video - ultimele cadre chiar înainte de toamnă - ora 4 dimineața, trei bărbați cu eșarfe pe față se apropie, ceva strălucitor este dedesubt, camera se scutură violent, cade.

Odată ce am instalat o cameră care ar trebui să se concentreze pe „iepuri de câmp” care se cațără peste gard. În timp ce conduceam, ne gândeam cum vom marca punctul în care ar trebui să apară intrusul. Nu a fost de folos – în cele 15 minute cât am fost acolo, aproximativ 30 de persoane au intrat în instalație doar în punctul de care aveam nevoie. Masa de acordare directa.

După cum am dat deja un exemplu mai sus, povestea despre clădirea demolată nu este o glumă. Odată ce legătura către echipament a dispărut. Nu există nici un pavilion unde cuprul a fost ținut la fața locului. Pavilionul a fost demolat, cablul a dispărut. Am văzut că routerul murise. Instalatorul a sosit și a început să caute - iar distanța dintre noduri era de câțiva kilometri. Are un tester Vipnet în kit, standard - a sunat de la un conector, a sunat de la altul - m-am dus să caut. De obicei, problema este imediat vizibilă.


Urmărirea cablului: aceasta este optică ondulată, o continuare a poveștii din partea de sus a postării despre nodul de mare. Aici, in final, pe langa instalatia absolut uimitoare, s-a descoperit o problema ca cablul s-a indepartat de prindere. Toată lumea și oricine urcă aici și scutură structuri metalice. Aproximativ cinci mii de reprezentanți ai proletariatului au spart optica.

La un loc, toate nodurile au fost oprite aproximativ o dată pe săptămână.Și în același timp. Am căutat un model destul de mult timp. Programul de instalare a găsit următoarele:

  • Problema apare întotdeauna în timpul schimbului aceleiași persoane.
  • Se deosebește de ceilalți prin faptul că poartă o haină foarte grea.
  • O mașină este montată în spatele cuierului.
  • Cineva a luat capacul mașinii cu mult timp în urmă, în timpuri preistorice.
  • Când această tovarășă ajunge la fața locului, el își închide hainele, iar ea oprește aparatele.
  • Le pornește imediat.

La un loc, echipamentul a fost oprit la aceeași oră în timpul nopții. S-a dovedit că meșterii locali s-au conectat la sursa noastră de alimentare, au scos un prelungitor și au conectat un fierbător și o sobă electrică. Atunci când aceste dispozitive funcționează simultan, întregul pavilion este eliminat.

Într-unul dintre magazinele din vasta noastră patrie, întreaga rețea a căzut constant când schimbul a fost închis. Instalatorul a văzut că toată puterea a fost direcționată către linia de iluminat. Imediat ce iluminatul de deasupra magazinului (care consumă multă energie) este stins, toate echipamentele de rețea sunt oprite.

A existat un caz când un îngrijitor a rupt un cablu cu o lopată.

Adesea vedem doar cuprul culcat cu ondularea ruptă. Odată, meșterii locali au aruncat pur și simplu un cablu răsucit între două ateliere fără nicio protecție.

Departe de civilizație, angajații se plâng adesea că sunt iradiați de echipamentele „noastre”. Panourile de distribuție din unele locații îndepărtate pot fi în aceeași cameră cu persoana de serviciu. În consecință, de câteva ori am dat peste bunici dăunătoare care, prin cârlig sau prin escroc, le-au oprit la începutul turei.

Într-un alt oraș îndepărtat pe optică era atârnat un mop. Au rupt ondulația de pe perete și au început să o folosească ca element de fixare pentru echipamente.


În acest caz, există clar probleme cu alimentația.

Ce poate face monitorizarea „mare”?

De asemenea, voi vorbi pe scurt despre capacitățile sistemelor mai serioase, folosind exemplul instalărilor Infosim. Există 4 soluții combinate într-o singură platformă:
  • Managementul eșecului – monitorizarea eșecului și corelarea evenimentelor.
  • Managementul performanței.
  • Inventar și descoperire automată a topologiei.
  • Managementul configurației.
Ceea ce este important este că Infosim acceptă o grămadă de echipamente din cutie, adică analizează cu ușurință toate schimburile interne și are acces la toate datele tehnice. Iată lista furnizorilor: Cisco Systems, Huawei, HP, AVAYA, Redback Networks, F5 Networks, Extreme Networks, Juniper, Alcatel-Lucent, Fujitsu Technology Solutions, ZyXEL, 3Com, Ericsson, ZTE, ADVA Optical Networking, Nortel Networks, Nokia Siemens Networks, Allied Telesis, RADCOM, Allot Communications, Enterasys Networks, Telco Systems etc.

Separat despre inventar. Modulul nu numai că arată lista, dar construiește și topologia în sine (cel puțin în 95% din cazuri încearcă și reușește). De asemenea, vă permite să aveți la îndemână o bază de date actualizată cu echipamente IT uzate și inactive (rețea, echipamente server etc.) și să înlocuiți echipamentele învechite (EOS/EOL) în timp util. În general, este convenabil pentru întreprinderile mari, dar în întreprinderile mici o mare parte din acest lucru se face manual.

Exemple de rapoarte:

  • Rapoarte defalcate pe tipuri de SO, firmware, modele și producători de echipamente;
  • Raportați numărul de porturi libere de pe fiecare switch din rețea/după producător selectat/după model/după subrețea etc.;
  • Raportare asupra dispozitivelor nou adăugate pentru o anumită perioadă;
  • Notificare despre nivelurile scăzute de toner în imprimante;
  • Evaluarea caracterului adecvat al unui canal de comunicare pentru trafic sensibil la întârzieri și pierderi, metode active și pasive;
  • Monitorizarea calității și disponibilității canalelor de comunicații (SLA) – generarea de rapoarte privind calitatea canalelor de comunicații, defalcate pe operatori de telecomunicații;
  • Funcționalitatea de monitorizare a erorilor și corelarea evenimentelor este implementată folosind mecanismul de analiză a cauzei rădăcină (fără a fi nevoie ca administratorul să scrie reguli) și mecanismul Alarm States Machine. Root-Cause Analysis este o analiză a cauzei fundamentale a unui accident, bazată pe următoarele proceduri: 1. detectarea și localizarea automată a locației defecțiunii; 2. reducerea numărului de evenimente de urgență la unul cheie; 3. identificarea consecințelor eșecului – cine și ce a fost afectat de eșec.
De asemenea, puteți instala aceste lucruri în rețea, care sunt imediat integrate în monitorizare:


Stablenet – Agent încorporat (SNEA) este un computer puțin mai mare decât un pachet de țigări.

Instalarea se realizează pe ATM-uri sau pe segmente de rețea dedicate unde sunt necesare verificări de accesibilitate. Cu ajutorul lor, se efectuează testarea încărcării.

Monitorizare cloud

Un alt model de instalare este SaaS în cloud. Am făcut-o pentru un client global (o companie cu ciclu de producție continuu cu o geografie de distribuție din Europa în Siberia).

Zeci de facilități, inclusiv fabrici și depozite de produse finite. Dacă canalele lor au căzut, iar sprijinul lor a fost furnizat de birouri externe, atunci au început întârzierile de expediere, ceea ce a dus treptat la pierderi suplimentare. Toate lucrările au fost făcute la cerere și s-a petrecut mult timp investigând incidentul.

Am configurat monitorizarea special pentru ei, apoi am adăugat-o într-o serie de zone în funcție de specificul rutării și hardware-ului lor. Toate acestea au fost făcute în cloud-ul CROC. Proiectul a fost finalizat și livrat foarte repede.

Rezultatul este:

  • Datorită transferului parțial al controlului infrastructurii de rețea, a fost posibilă optimizarea cu cel puțin 50%. Indisponibilitatea echipamentului, încărcarea canalului, depășirea parametrilor recomandați de producător: toate acestea sunt înregistrate în 5-10 minute, diagnosticate și reparate în decurs de o oră.
  • Când primește un serviciu din cloud, clientul transferă costurile de capital pentru implementarea sistemului său de monitorizare a rețelei în costuri de operare pentru o taxă de abonament la serviciul nostru, care poate fi anulată în orice moment.

Avantajul cloud-ului este că în decizia noastră stăm, parcă, deasupra rețelei lor și putem privi tot ce se întâmplă mai obiectiv. La acel moment, dacă am fi în interiorul rețelei, am vedea poza doar până la nodul de defecțiune și nu am mai ști ce se întâmplă în spatele ei.

Câteva poze finale

Acesta este „puzzle-ul de dimineață”:

Și am găsit această comoară:

Iată ce era în piept:

Și în sfârșit, despre cea mai distractivă călătorie. Am fost odată pe un site de vânzare cu amănuntul.

Acolo s-au întâmplat următoarele: mai întâi a început să picure de pe acoperiș pe tavanul fals. Apoi s-a format un lac în tavanul fals, care s-a spălat și a împins printr-una dintre plăci. Drept urmare, toate acestea s-au turnat în electricitate. Apoi nu știu exact ce s-a întâmplat, dar undeva în camera alăturată a fost un scurtcircuit și a început un incendiu. Mai întâi s-au stins stingătoarele cu pulbere, apoi au sosit pompierii care au umplut totul cu spumă. Am ajuns dupa ei la demontare. Trebuie să spun că Cisco 2960 a funcționat după toate acestea - am putut să ridic configurația și să trimit dispozitivul la reparare.

Încă o dată, când sistemul de pulbere a fost activat, Cisco 3745 dintr-un borcan a fost aproape complet umplut cu pulbere. Toate interfețele erau pline - 2 x 48 porturi. Trebuia pornit pe loc. Ne-am amintit incidentul anterior, am decis să încercăm să eliminăm configurațiile „fierbinte”, le-am scuturat, le-am curățat cât de bine am putut. L-am pornit - la început, dispozitivul a spus „pfft” și ne-a strănut un flux mare de pulbere. Și apoi toarcă și se ridică.