Bonding RB4011iGS+ к CRS354-48G-4S+2Q+ проблемы

Обсуждение оборудования и его настройки
Ответить
SalaVila
Сообщения: 12
Зарегистрирован: 30 дек 2013, 15:42

На днях столкнулся с неприятным поведением MikroTik.
Имеем:
CRS354-48G-4S+2Q+ v6.48.2 в качестве ядра сети головного офиса ~ 180 хостов + принтеры, и прочие устройства. Один сегмент,
На нём поднято 14 Bonding (сервера и 4 свитча HPE 1910 48G, 1920, 1820) также в сети есть 3 мелких неуправляемых свитча.

Роутер в инет RB4011iGS+ 6.48.1
Ходим через него в инет, 3 GRE канала + 1 L2TP в удалённые филиалы. также имеются удалёнщики IKEv2. Также есть маршрутизация внутри есть, к 3 устройствам СКУД .

на прошлой неделе решил прокачать подключение RB4011iGS+ к CRS354-48G-4S+2Q+ для чего создал на обоих Bonding 2x1G 802.3ad и загнал его в нужный vlan. Всё сразу поднялось и заработало, нареканий вроде нет.
Но на следующий день я обнаружил, что ip телефон Gigaset A540ip теряет соединения с серверами за пределами сети. (имеется 3 FreePBX , по одному в каждом филиале + соединения непосредственно с провайдерами телефонии)
Активным остаётся только соединение с FreePBX в этой же сети.
3 дня ковырялся с этой проблемой, перерывал правила Firewall на роутерах, содавал разрешаюшие, отключал все, теребил настройки телефона - не помогало,
После каждой перезаргузки телефона соединения устанавливались, даже удавалось совершить тестовые звонки, но через 3 минуты все кроме местного отваливались, Распаковал новый аппарат Gigaset A540IP, подключил к сети , тот также не может выйти за пределы локалки. И при этом телефон пингуется со всех обоих филиалов.
При этом софтовый 3СXphone на компьютерах работает с аналогичными соединениями нормально. Sipnetic на андроиде в этой же сети также работает без нареканий. В целом по сети нареканий выявлено за 5 дней не было.
В результате вспомнил, что недавно переключался на агрегат между роутером и свитчом , пошёл выдернул шнурок , переключился в неагрегированные порты и соединения на телефоне поднялись.
Сижу и думаю что я сделал не так? И какие ещё глюки можно словить?


[CRS354-48G-4S+2Q+] [wAP ac | G-5HacT2HnD] [HEX | 750G r3] [RB4011iGS+] [cAP ac | RBcAPGi-5acD2nD] [hAP ac² | RBD52G-5HacD2HnD]
[951G-2HnD] [951Ui-2HnD] [RouterOS CHR]
Ca6ko
Сообщения: 1484
Зарегистрирован: 23 ноя 2018, 11:08
Откуда: Харкiв

SalaVila писал(а): 01 июн 2021, 10:31 Сижу и думаю что я сделал не так?
Теперь, когда трабла локализована, экспериментируй в чем может быть причина, пробуй несколько вариантов.

Первый мой совет, съехать в проде на ветку лонг-терм


1-е Правило WiFi - Везде где только можно откажитесь от WiFi!
2-е Правило WiFi -Устройство, которое пользователь не носит с собой постоянно, должно подключаться кабелем!!

Микротики есть разные: черные, белые, красные. Но все равно хочется над чем нибудь заморочится.
SalaVila
Сообщения: 12
Зарегистрирован: 30 дек 2013, 15:42

Я бы сказал что вчерашний инцедент - это продолжение описанной в первом посте истории
Логическая схема прежняя. Инет приходит от провайдера в нетегированный порт в N вилане свитча CRS354-48G-4S+2Q+ v6.48.3 (как бы ядро сети), далее раздаётся на 5 устройств -, также нетегированным портом на внешний порт 4011 , тегом через Bonding х2 порты на сервера Hyper-V и Bonding х4 порты на несколько HPE (1820,1910,1920) с одного из которых опять таки тегом инет получает виртуалка на Proxmox.
Неожиданно выявились глюки на пограничной виртуальной машине - не работали некоторые сервисы, при этом VPN сервер функционировал, к не му можно было подключиться извне, отрывался Web сервер и т.д. В процессе поиска неисправности перегрузил виртуальную машину и "всё пропало" через внешний порт с внешним IP можно было пингануть внешний интерфейс соседнего 4011 на котором инет был и всё работало. Убил два дня, загружал на виртуалке live инструменты для проверки - нифига, пингуется в обе стороны только один внешний IP на 4011 (второй нет) и ещё одно устройство. Попутно выяснилось что другая виртуалка на другом хосте хандрит и не видит проблемную машину и инет. Винду уже готов был снести, останавливало только то что с Live тоже не работало.
В результате было принято решение ребутнуть CRS354 и.... всё заработало. UpTime на момент инцедента был с 18.06.21 по 26.04.22.

Сейчас цена на CRS354 какая то заоблачная, а HPE 1930 по прежнему стоит дешевле, правда их 100 летняя гарантия под сомнением в нынешней ситуации.


[CRS354-48G-4S+2Q+] [wAP ac | G-5HacT2HnD] [HEX | 750G r3] [RB4011iGS+] [cAP ac | RBcAPGi-5acD2nD] [hAP ac² | RBD52G-5HacD2HnD]
[951G-2HnD] [951Ui-2HnD] [RouterOS CHR]
SalaVila
Сообщения: 12
Зарегистрирован: 30 дек 2013, 15:42

Продолжение истории или вопрос к знатокам.
Расстановка следующая:
По прежнему CRS354 в который 4-мя аплинками воткнут HPE 1820-24G J9980A. Сто стороны CRS354 mode - 802.3.ad ,
со стороны HPE
Static Mode - "Disabled"
Load Balance - "Source/Destination MAC, VLAN, Ethertype, Incoming Port"

Проблема следующая. при копировании данных (ежедневный бэкап) между двумя серверами (win 2019) один из которых подключен 2х10Gbit агрегатом в CRS354 а другой 2x1Gbit агрегатом в HPE узким местом становится 4x1Gbit агрегат между CRS и HPE. Используется только один из 4-х каналов. я это вижу с помощью "solarwinds real time bandwidth monitor" которым мониторю как сам транк так и отдельно входящие в него каналы, С каналами от коммутаторов к серверам всё нормально, Win2019 умеет балансировать нагрузку на отдачу и при неопределённых условиях на получение даже при работе с одним клиентом. А вот как заставить коммутаторы балансировать нагрузку между каналами я не знаю.
Да, если параллельно несколькими (4+) компьютерами скачивать с одного сервера , то поток в транке между коммутаторами распределяется по всем четырём входищим в транк линиям.

В ходе тестов выявились некоторые закономерности.
Так балансировка на серверных транках из гигабитных каналов каждый раз замечается при отдаче трафика и не всегда при получении,
На 10 гигабитных серверных транках балансировка включается при "заполнении" одного из каналов
При при получении трафика с нескольких серверов подключеных к CRS на один подключеный к HPE 1820 в какой то момент заметил что при получении трафика с 2-х серверов было загружено 3 канала транка между свичами.

Вопрос не праздный или у вас бэкап проходит за 8 часов или за 16-20 и при этом ещё накладывается на другие процессы.


Изображение


[CRS354-48G-4S+2Q+] [wAP ac | G-5HacT2HnD] [HEX | 750G r3] [RB4011iGS+] [cAP ac | RBcAPGi-5acD2nD] [hAP ac² | RBD52G-5HacD2HnD]
[951G-2HnD] [951Ui-2HnD] [RouterOS CHR]
SalaVila
Сообщения: 12
Зарегистрирован: 30 дек 2013, 15:42

Уточнение к первому посту - проблема с Gigaset A540ip наблюдается конкретно при использовании Mode "balance rr" с обоих сторон, после смены на 802.3ad (LACP) телефон нормально подключается ко всем SIP PBX соединение с которыми проходит через обсуждаемый Bonding.


[CRS354-48G-4S+2Q+] [wAP ac | G-5HacT2HnD] [HEX | 750G r3] [RB4011iGS+] [cAP ac | RBcAPGi-5acD2nD] [hAP ac² | RBD52G-5HacD2HnD]
[951G-2HnD] [951Ui-2HnD] [RouterOS CHR]
Ответить