Потеря пакетов на CCR1009

Обсуждение оборудования и его настройки
Ответить
nikolay.hmarin
Сообщения: 15
Зарегистрирован: 18 мар 2019, 23:43

Доброго времени суток.

Имеется пара стареньких CCR1009-7G-1C-PC (года наверно 2012), в эксплуатации они чуть больше года (основной и дублёр, одновременно никогда не используются, или или).
Ради эксперимента на оба устройства сделал относительно разные сборки конфиги пробовал их на разных версиях прошивки 6.48.6 long-term и 7.1.1 (разве что не пробовал на той что они с завода шли 6.37)
Сначала конфига 1
на интерфейсе ether2 сидит внешний файрволл, его задача это либо пускать на прямую в интернет, либо обрабатывать трафик через проксю, либо слать нафиг. Тут всего 100мб/с проблем не наблюдается.
На интерфейсе ether3 закинуты виртуальные интерфейсы имеющие вланы с ID 2-8, для каждого из этих Vlan данное устройство CCR1009 является шлюзом, STP отключен, плавил файрволла нет, натов нет, только route list, фасттрак как включал там и отключал, раздел ip settings включал и отключал все кроме ip forward (если все отключить потерь заметно меньше). В дефолтном шейпинге fifo изменил с 50 на 500 пакетов (разницы не заметил)

теперь корнфига 2
ether2 - тоже самое
вместо ether3 - bonding на 4 порта и поднят бридж, на него заведены виртуальные влан интерфейсы с ID 2-8, для каждого из этих Vlan данное устройство CCR1009 является шлюзом, RSTP включен 1000xh, остальные устройства 7000-8000xh, правил фаирвола нет, наты и/или маскарадинг есть, + route list. На бридже включен Vlan filrting и соответвенно прописаны все vlan. Фасттрак как включал там и отключал, раздел ip settings включал и отключал все кроме ip forward, В дефолтном шейпинге fifo изменил с 50 на 500 пакетов.

немного про топологию:
все это идет на CRS354 (там у меня сидят сервера и оба CCR1009) а из 354 идет пара SFP+ на пару CRS326-24S+2Q+RM (ядро сети), ну а далее остальная сеть, там уже не MikroTik. (все что в CRS354, CRS326 перетыкивал назад в старое свичи, они пока что не демонтированы, но картина не меняется поэтому проблема точно не в них, патчи все новые и протестированы).

Вообще на всех свичах участвующих в цепочке, проводил опыты, как со включенным RSTP так и с отключенным (поскольку сеть в полу лежачем состоянии конечные пользователи разницы не ощущали).
Есть несколько достаточно нагруженных серверов например 1(физик), 2(физик), 3(виртуалка на физике 2), 4(виртуалка на физике 2). а теперь самое офигенное. 1- теряет пакеты, 2 - не теряет пакеты, 3 - теряет пакет, 4 - не теряет пакеты - и при этом все сервера между собой взаимодействую без потерь.
Почему грешу именно на CCR1009 - как только я на серверах подымаю виртуальные интерфейсы в клиентские Vlan 6,7,8 (т.е. выкидываю из цепочки CCR1009) перестают теряться пакеты.

что происходит с сими микротик:
независимо от конфига и устройства в итоге я проходил к 1 и тому же результату:
Нагрузка на проц не превышает 17%, во 2 варианте 9%, в оперативке стабильно занято 250-350mb, на прием идет стабильно 250-340mb/s (около 35000 пакетов в 1 сторону) с редкими пиками до 600+mb/s(более того потери с пиками никак не коррелируется и они могут возникать когда в сети практически нет нагрузки, т.е. суммарно не более 30мб/с летает), на выход тоже самое на том же интерфейсе(250-600мб/с). В момент потери пакетов скорость на порту в обе стороны падает до 25-50мб/с, нагрузка на процессор также падает до 2,5-3%. Частенько валятся записи ARP, но даже если принудительно их добавляю это никак не влияет. Происходит это все только в пределах 1 vlan который есть только на 1 свиче(CRS354). Анализировал трафик фиддлером и ваиршарком в момент потерь данный микротик откидывает только igmp пакеты, причем только с определенных серверов. На серверах временно полностью отрубались любые политики безопасности и брандмауэр. В общем как-то систематизировать информацию не получается.

Вот такая интересная ситуация. Так для галочки прихожу пару скринов, хотя вроде как всё описал. Если кто-то с чем-то подобным сталкивался подскажите плз, т.к. я очень надеюсь что это именно аппаратная проблема, новую аппаратуру заказал, но нагрузка откровенно говоря ниочемная для CCR1009, а тут он захлебывается от 200 машин с трафиков в 600мб/с, бывало RB4011, вытягивал сети в районе 1400-1600 устройств и суммарным трафиком в константе более 2гб/с без каких либо намеков на проблемы (это отдельная история...).

Изображение

Изображение


gmx
Модератор
Сообщения: 3290
Зарегистрирован: 01 окт 2012, 14:48

Ну это сложно.... Через форум такую проблему не решить.
Чудес не бывает надо искать реальную причину. Тем более, что проблема наблюдается лишь в одном vlan. В этом vlan и надо искать проблему. Если бы была какая-то аппаратная проблема в микротике, то вряд-ли бы она проявлялась только в одном vlan.
Я бы делил vlan 1 на более мелкие сегменты, другие vlan, если это возможно, и так бы пытался локализовать проблему. Например, в сети появляется дублирующий IP адрес одного из шлюзов??? Были случаи дубля MAC адреса в сети и так далее.
Если пропадают MAC адреса в ARP, то пропадает физическая/логическая связность в этот момент. Возможно имеет смысл поднять Zabbix (или PRTG, нужно то средство, которое умеет мониторить трафик) и по мониторить ситуацию в сети в целом.

Ну и самое интересное, а лечите вы эту ситуацию как? Перезагрузка микротиков???


nikolay.hmarin
Сообщения: 15
Зарегистрирован: 18 мар 2019, 23:43

да спс, про сегментацию это старая история и её я как раз начал делать её вопреки мнению руководства на эту тему, дублей маков нет, да даже если бы и были DHCP option61, 62 оч полезная штука в таких ситуациях и по логам сразу бы стало ясно. Лучше чем Шарк и фидлер никто трафик не мониторит. Зубикс это макро анализатор сети, для таких целей он не подходит (хотя может там и это есть, не доводилось забиксом пользоваться так плотно, хватало куда более простых решений по мониторингу), т.е. он может сказать что отлетает и когда и это всё можно сопоставить(в рамках SNMP или LLDP), но вот информация там не такая подобная как при дебаг логах, а у шарка и фидлера, можно в плоть до содержимого пакета посмотреть т.к. снимает полный дамп трафика прилетающего на интерфейс.


nikolay.hmarin
Сообщения: 15
Зарегистрирован: 18 мар 2019, 23:43

В общем сам себе злобный чебураха, я планировал настроить IGMP Proxy, на свичах то я все врубил, а на главном маршрутизаторе, управляшку всем эти чудом не настроил и более того даже не активировал(забыл...). подсказкой как раз оказалось то что с некоторых устройств(что более активны в сети) IGMP откидываются, а те что малоактивны, всё великолепно.


Ответить