Перейти к основному содержимому
Перейти к основному содержимому

Параметрические агрегатные функции

Некоторые агрегатные функции могут принимать не только аргументы-колонки (используемые для сжатия), но и набор параметров – констант для инициализации. Синтаксис состоит из двух пар скобок вместо одной. Первая — для параметров, а вторая — для аргументов.

histogram

Вычисляет адаптивную гистограмму. Он не гарантирует точные результаты.

histogram(number_of_bins)(values)

Функция использует A Streaming Parallel Decision Tree Algorithm. Границы гистограммы настраиваются по мере поступления новых данных в функцию. В обычном случае ширины гистограмм не равны.

Аргументы

valuesExpression, возвращающая входные значения.

Параметры

number_of_bins — Верхний предел для количества корзин в гистограмме. Функция автоматически вычисляет количество корзин. Она пытается достичь указанного количества, но если не удается, использует меньшее количество.

Возвращаемые значения

  • Array Tuples следующего формата:

    [(lower_1, upper_1, height_1), ... (lower_N, upper_N, height_N)]
    
    • lower — Нижняя граница корзины.
    • upper — Верхняя граница корзины.
    • height — Вычисленная высота корзины.

Пример

SELECT histogram(5)(number + 1)
FROM (
    SELECT *
    FROM system.numbers
    LIMIT 20
)
┌─histogram(5)(plus(number, 1))───────────────────────────────────────────┐
│ [(1,4.5,4),(4.5,8.5,4),(8.5,12.75,4.125),(12.75,17,4.625),(17,20,3.25)] │
└─────────────────────────────────────────────────────────────────────────┘

Вы можете визуализировать гистограмму с помощью функции bar, например:

WITH histogram(5)(rand() % 100) AS hist
SELECT
    arrayJoin(hist).3 AS height,
    bar(height, 0, 6, 5) AS bar
FROM
(
    SELECT *
    FROM system.numbers
    LIMIT 20
)
┌─height─┬─bar───┐
│  2.125 │ █▋    │
│   3.25 │ ██▌   │
│  5.625 │ ████▏ │
│  5.625 │ ████▏ │
│  3.375 │ ██▌   │
└────────┴───────┘

В этом случае следует помнить, что вы не знаете границы корзин гистограммы.

sequenceMatch

Проверяет, содержит ли последовательность цепочку событий, соответствующую шаблону.

Синтаксис

sequenceMatch(pattern)(timestamp, cond1, cond2, ...)
примечание

События, которые происходят в одну и ту же секунду, могут находиться в последовательности в неопределенном порядке, что влияет на результат.

Аргументы

  • timestamp — Колонка, которая считается содержащей временные данные. Типичные типы данных: Date и DateTime. Вы также можете использовать любой из поддерживаемых UInt типов данных.

  • cond1, cond2 — Условия, которые описывают цепочку событий. Тип данных: UInt8. Вы можете передать до 32 аргументов условий. Функция учитывает только события, описанные в этих условиях. Если последовательность содержит данные, которые не описаны в условии, функция пропускает их.

Параметры

Возвращаемые значения

  • 1, если шаблон совпадает.
  • 0, если шаблон не совпадает.

Тип: UInt8.

Синтаксис шаблона

  • (?N) — Совпадает с аргументом условия на позиции N. Условия нумеруются в диапазоне [1, 32]. Например, (?1) совпадает с аргументом, переданным параметру cond1.

  • .* — Совпадает с любым количеством событий. Вам не нужны условные аргументы, чтобы соответствовать этому элементу шаблона.

  • (?t operator value) — Устанавливает время в секундах, которое должно отделять два события. Например, шаблон (?1)(?t>1800)(?2) совпадает с событиями, которые происходят более чем через 1800 секунд друг от друга. Произвольное количество любых событий может находиться между этими событиями. Вы можете использовать операторы >=, >, <, <=, ==.

Примеры

Рассмотрим данные в таблице t:

┌─time─┬─number─┐
│    1 │      1 │
│    2 │      3 │
│    3 │      2 │
└──────┴────────┘

Выполните запрос:

SELECT sequenceMatch('(?1)(?2)')(time, number = 1, number = 2) FROM t
┌─sequenceMatch('(?1)(?2)')(time, equals(number, 1), equals(number, 2))─┐
│                                                                     1 │
└───────────────────────────────────────────────────────────────────────┘

Функция нашла цепочку событий, где число 2 следует за числом 1. Она пропустила число 3 между ними, так как число не описано как событие. Если мы хотим учесть это число при поиске цепочки событий, заданной в примере, нам следует сделать условия для него.

SELECT sequenceMatch('(?1)(?2)')(time, number = 1, number = 2, number = 3) FROM t
┌─sequenceMatch('(?1)(?2)')(time, equals(number, 1), equals(number, 2), equals(number, 3))─┐
│                                                                                        0 │
└──────────────────────────────────────────────────────────────────────────────────────────┘

В этом случае функция не смогла найти цепочку событий, соответствующую шаблону, так как событие для числа 3 произошло между 1 и 2. Если в том же случае мы проверим условие для числа 4, последовательность совпадет с шаблоном.

SELECT sequenceMatch('(?1)(?2)')(time, number = 1, number = 2, number = 4) FROM t
┌─sequenceMatch('(?1)(?2)')(time, equals(number, 1), equals(number, 2), equals(number, 4))─┐
│                                                                                        1 │
└──────────────────────────────────────────────────────────────────────────────────────────┘

См. также

sequenceCount

Считает количество цепочек событий, которые совпали с шаблоном. Функция ищет цепочки событий, которые не перекрываются. Она начинает искать следующую цепочку после совпадения текущей.

примечание

События, которые происходят в одну и ту же секунду, могут находиться в последовательности в неопределенном порядке, что влияет на результат.

Синтаксис

sequenceCount(pattern)(timestamp, cond1, cond2, ...)

Аргументы

  • timestamp — Колонка, которая считается содержащей временные данные. Типичные типы данных: Date и DateTime. Вы также можете использовать любой из поддерживаемых UInt типов данных.

  • cond1, cond2 — Условия, которые описывают цепочку событий. Тип данных: UInt8. Вы можете передать до 32 аргументов условий. Функция учитывает только события, описанные в этих условиях. Если последовательность содержит данные, которые не описаны в условии, функция пропускает их.

Параметры

Возвращаемые значения

  • Количество неперекрывающихся цепочек событий, которые совпали.

Тип: UInt64.

Пример

Рассмотрим данные в таблице t:

┌─time─┬─number─┐
│    1 │      1 │
│    2 │      3 │
│    3 │      2 │
│    4 │      1 │
│    5 │      3 │
│    6 │      2 │
└──────┴────────┘

Посчитаем, сколько раз число 2 встречается после числа 1 с любым количеством других чисел между ними:

SELECT sequenceCount('(?1).*(?2)')(time, number = 1, number = 2) FROM t
┌─sequenceCount('(?1).*(?2)')(time, equals(number, 1), equals(number, 2))─┐
│                                                                       2 │
└─────────────────────────────────────────────────────────────────────────┘

sequenceMatchEvents

Возвращает временные метки событий самых длинных цепочек событий, которые совпали с шаблоном.

примечание

События, которые происходят в одну и ту же секунду, могут находиться в последовательности в неопределенном порядке, что влияет на результат.

Синтаксис

sequenceMatchEvents(pattern)(timestamp, cond1, cond2, ...)

Аргументы

  • timestamp — Колонка, которая считается содержащей временные данные. Типичные типы данных: Date и DateTime. Вы также можете использовать любой из поддерживаемых UInt типов данных.

  • cond1, cond2 — Условия, которые описывают цепочку событий. Тип данных: UInt8. Вы можете передать до 32 аргументов условий. Функция учитывает только события, описанные в этих условиях. Если последовательность содержит данные, которые не описаны в условии, функция пропускает их.

Параметры

Возвращаемые значения

  • Массив временных меток для совпадающих аргументов условий (?N) из цепочки событий. Позиция в массиве соответствует позиции аргумента условия в шаблоне.

Тип: Array.

Пример

Рассмотрим данные в таблице t:

┌─time─┬─number─┐
│    1 │      1 │
│    2 │      3 │
│    3 │      2 │
│    4 │      1 │
│    5 │      3 │
│    6 │      2 │
└──────┴────────┘

Вернем временные метки событий для самой длинной цепочки:

SELECT sequenceMatchEvents('(?1).*(?2).*(?1)(?3)')(time, number = 1, number = 2, number = 4) FROM t
┌─sequenceMatchEvents('(?1).*(?2).*(?1)(?3)')(time, equals(number, 1), equals(number, 2), equals(number, 4))─┐
│ [1,3,4]                                                                                                    │
└────────────────────────────────────────────────────────────────────────────────────────────────────────────┘

См. также

windowFunnel

Ищет цепочки событий в скользящем временном окне и вычисляет максимальное количество событий, которые произошли из цепочки.

Функция работает по следующему алгоритму:

  • Функция ищет данные, которые вызывают первое условие в цепочке, и устанавливает счетчик событий на 1. Это тот момент, когда начинается скользящее окно.

  • Если события из цепочки происходят последовательно в окне, счетчик увеличивается. Если последовательность событий нарушается, счетчик не увеличивается.

  • Если в данных есть несколько цепочек событий с различными точками завершения, функция выдает только размер самой длинной цепочки.

Синтаксис

windowFunnel(window, [mode, [mode, ... ]])(timestamp, cond1, cond2, ..., condN)

Аргументы

  • timestamp — Имя колонки, содержащей временную метку. Поддерживаемые типы данных: Date, DateTime и другие типы без знака (обратите внимание, что хотя временная метка поддерживает тип UInt64, его значение не может превышать максимум Int64, который равен 2^63 - 1).
  • cond — Условия или данные, описывающие цепочку событий. UInt8.

Параметры

  • window — Длина скользящего окна, это временной интервал между первым и последним условиями. Единица измерения window зависит от самого timestamp и может варьироваться. Определяется с помощью выражения timestamp of cond1 <= timestamp of cond2 <= ... <= timestamp of condN <= timestamp of cond1 + window.
  • mode — Это необязательный аргумент. Можно установить один или несколько режимов.
    • 'strict_deduplication' — Если одно и то же условие выполняется для последовательности событий, то такое повторяющееся событие прерывает дальнейшую обработку. Примечание: может работать неожиданно, если несколько условий совпадают для одного события.
    • 'strict_order' — Не допускайте вмешательства других событий. Например, в случае A->B->D->C он прекращает поиск A->B->C на D, и максимальный уровень событий будет 2.
    • 'strict_increase' — Применяйте условия только к событиям с строго возрастающими временными метками.
    • 'strict_once' — Считайте каждое событие только один раз в цепочке, даже если оно выполняет условие несколько раз.

Возвращаемое значение

Максимальное количество последовательных срабатывающих условий из цепочки в пределах скользящего временного окна. Все цепочки в выборке анализируются.

Тип: Целое.

Пример

Определите, хватает ли заданного времени пользователю, чтобы выбрать телефон и купить его дважды в интернет-магазине.

Установите следующую цепочку событий:

  1. Пользователь вошел в свой аккаунт в магазине (eventID = 1003).
  2. Пользователь ищет телефон (eventID = 1007, product = 'phone').
  3. Пользователь разместил заказ (eventID = 1009).
  4. Пользователь снова разместил заказ (eventID = 1010).

Входная таблица:

┌─event_date─┬─user_id─┬───────────timestamp─┬─eventID─┬─product─┐
│ 2019-01-28 │       1 │ 2019-01-29 10:00:00 │    1003 │ phone   │
└────────────┴─────────┴─────────────────────┴─────────┴─────────┘
┌─event_date─┬─user_id─┬───────────timestamp─┬─eventID─┬─product─┐
│ 2019-01-31 │       1 │ 2019-01-31 09:00:00 │    1007 │ phone   │
└────────────┴─────────┴─────────────────────┴─────────┴─────────┘
┌─event_date─┬─user_id─┬───────────timestamp─┬─eventID─┬─product─┐
│ 2019-01-30 │       1 │ 2019-01-30 08:00:00 │    1009 │ phone   │
└────────────┴─────────┴─────────────────────┴─────────┴─────────┘
┌─event_date─┬─user_id─┬───────────timestamp─┬─eventID─┬─product─┐
│ 2019-02-01 │       1 │ 2019-02-01 08:00:00 │    1010 │ phone   │
└────────────┴─────────┴─────────────────────┴─────────┴─────────┘

Узнаем, на сколько далеко пользователь user_id смог пройти по цепочке в период с января по февраль 2019 года.

Запрос:

SELECT
    level,
    count() AS c
FROM
(
    SELECT
        user_id,
        windowFunnel(6048000000000000)(timestamp, eventID = 1003, eventID = 1009, eventID = 1007, eventID = 1010) AS level
    FROM trend
    WHERE (event_date >= '2019-01-01') AND (event_date <= '2019-02-02')
    GROUP BY user_id
)
GROUP BY level
ORDER BY level ASC;

Результат:

┌─level─┬─c─┐
│     4 │ 1 │
└───────┴───┘

retention

Функция принимает в качестве аргументов набор условий из 1 до 32 аргументов типа UInt8, которые указывают, было ли выполнено определенное условие для события. Любое условие может быть указано в качестве аргумента (как в WHERE).

Условия, кроме первого, применяются парами: результат второго будет истинным, если истинны первое и второе, третьего — если истинны первое и третье, и т.д.

Синтаксис

retention(cond1, cond2, ..., cond32);

Аргументы

  • cond — Выражение, которое возвращает результат UInt8 (1 или 0).

Возвращаемое значение

Массив из 1 или 0.

  • 1 — Условие было выполнено для события.
  • 0 — Условие не было выполнено для события.

Тип: UInt8.

Пример

Рассмотрим пример вычисления функции retention для определения трафика на сайте.

1. Создание таблицы для иллюстрации примера.

CREATE TABLE retention_test(date Date, uid Int32) ENGINE = Memory;

INSERT INTO retention_test SELECT '2020-01-01', number FROM numbers(5);
INSERT INTO retention_test SELECT '2020-01-02', number FROM numbers(10);
INSERT INTO retention_test SELECT '2020-01-03', number FROM numbers(15);

Входная таблица:

Запрос:

SELECT * FROM retention_test

Результат:

┌───────date─┬─uid─┐
│ 2020-01-01 │   0 │
│ 2020-01-01 │   1 │
│ 2020-01-01 │   2 │
│ 2020-01-01 │   3 │
│ 2020-01-01 │   4 │
└────────────┴─────┘
┌───────date─┬─uid─┐
│ 2020-01-02 │   0 │
│ 2020-01-02 │   1 │
│ 2020-01-02 │   2 │
│ 2020-01-02 │   3 │
│ 2020-01-02 │   4 │
│ 2020-01-02 │   5 │
│ 2020-01-02 │   6 │
│ 2020-01-02 │   7 │
│ 2020-01-02 │   8 │
│ 2020-01-02 │   9 │
└────────────┴─────┘
┌───────date─┬─uid─┐
│ 2020-01-03 │   0 │
│ 2020-01-03 │   1 │
│ 2020-01-03 │   2 │
│ 2020-01-03 │   3 │
│ 2020-01-03 │   4 │
│ 2020-01-03 │   5 │
│ 2020-01-03 │   6 │
│ 2020-01-03 │   7 │
│ 2020-01-03 │   8 │
│ 2020-01-03 │   9 │
│ 2020-01-03 │  10 │
│ 2020-01-03 │  11 │
│ 2020-01-03 │  12 │
│ 2020-01-03 │  13 │
│ 2020-01-03 │  14 │
└────────────┴─────┘

2. Группируем пользователей по уникальному ID uid, используя функцию retention.

Запрос:

SELECT
    uid,
    retention(date = '2020-01-01', date = '2020-01-02', date = '2020-01-03') AS r
FROM retention_test
WHERE date IN ('2020-01-01', '2020-01-02', '2020-01-03')
GROUP BY uid
ORDER BY uid ASC

Результат:

┌─uid─┬─r───────┐
│   0 │ [1,1,1] │
│   1 │ [1,1,1] │
│   2 │ [1,1,1] │
│   3 │ [1,1,1] │
│   4 │ [1,1,1] │
│   5 │ [0,0,0] │
│   6 │ [0,0,0] │
│   7 │ [0,0,0] │
│   8 │ [0,0,0] │
│   9 │ [0,0,0] │
│  10 │ [0,0,0] │
│  11 │ [0,0,0] │
│  12 │ [0,0,0] │
│  13 │ [0,0,0] │
│  14 │ [0,0,0] │
└─────┴─────────┘

3. Подсчитаем общее количество посещений сайта за день.

Запрос:

SELECT
    sum(r[1]) AS r1,
    sum(r[2]) AS r2,
    sum(r[3]) AS r3
FROM
(
    SELECT
        uid,
        retention(date = '2020-01-01', date = '2020-01-02', date = '2020-01-03') AS r
    FROM retention_test
    WHERE date IN ('2020-01-01', '2020-01-02', '2020-01-03')
    GROUP BY uid
)

Результат:

┌─r1─┬─r2─┬─r3─┐
│  5 │  5 │  5 │
└────┴────┴────┘

Где:

  • r1 — количество уникальных посетителей, которые посетили сайт 1 января 2020 года (условие cond1).
  • r2 — количество уникальных посетителей, которые посетили сайт в период между 1 и 2 января 2020 года (условия cond1 и cond2).
  • r3 — количество уникальных посетителей, которые посетили сайт 1 и 3 января 2020 года (условия cond1 и cond3).

uniqUpTo(N)(x)

Вычисляет количество различных значений аргумента до указанного предела, N. Если количество различных значений аргумента превышает N, эта функция возвращает N + 1, в противном случае вычисляет точное значение.

Рекомендуется использовать с небольшими N, до 10. Максимальное значение N — 100.

Для состояния агрегатной функции эта функция использует объем памяти, равный 1 + N * размер одного значения в байтах. При работе со строками эта функция хранит некриптографический хеш размером 8 байт; вычисление является приблизительным для строк.

Например, если у вас есть таблица, регистрирующая каждый поисковый запрос, сделанный пользователями на вашем сайте. Каждая строка в таблице представляет собой отдельный поисковый запрос, с колонками для идентификатора пользователя, поискового запроса и временной метки запроса. Вы можете использовать uniqUpTo, чтобы создать отчет, который показывает только те ключевые слова, которые использовали по крайней мере 5 уникальных пользователей.

SELECT SearchPhrase
FROM SearchLog
GROUP BY SearchPhrase
HAVING uniqUpTo(4)(UserID) >= 5

uniqUpTo(4)(UserID) вычисляет количество уникальных значений UserID для каждой SearchPhrase, но учитывает только до 4 уникальных значений. Если уникальных значений UserID для SearchPhrase больше 4, функция возвращает 5 (4 + 1). Затем предложение HAVING фильтрует значения SearchPhrase, для которых количество уникальных значений UserID меньше 5. Это предоставит вам список поисковых ключевых слов, которые были использованы как минимум 5 уникальными пользователями.

sumMapFiltered

Эта функция работает так же, как и sumMap, за исключением того, что она также принимает массив ключей для фильтрации в качестве параметра. Это может быть особенно полезно при работе с высокой кардинальностью ключей.

Синтаксис

sumMapFiltered(keys_to_keep)(keys, values)

Параметры

  • keys_to_keep: Array ключей для фильтрации.
  • keys: Array ключей.
  • values: Array значений.

Возвращаемое значение

  • Возвращает кортеж из двух массивов: ключи в отсортированном порядке и значения, сложенные для соответствующих ключей.

Пример

Запрос:

CREATE TABLE sum_map
(
    `date` Date,
    `timeslot` DateTime,
    `statusMap` Nested(status UInt16, requests UInt64)
)
ENGINE = Log

INSERT INTO sum_map VALUES
    ('2000-01-01', '2000-01-01 00:00:00', [1, 2, 3], [10, 10, 10]),
    ('2000-01-01', '2000-01-01 00:00:00', [3, 4, 5], [10, 10, 10]),
    ('2000-01-01', '2000-01-01 00:01:00', [4, 5, 6], [10, 10, 10]),
    ('2000-01-01', '2000-01-01 00:01:00', [6, 7, 8], [10, 10, 10]);
SELECT sumMapFiltered([1, 4, 8])(statusMap.status, statusMap.requests) FROM sum_map;

Результат:

   ┌─sumMapFiltered([1, 4, 8])(statusMap.status, statusMap.requests)─┐
1. │ ([1,4,8],[10,20,10])                                            │
   └─────────────────────────────────────────────────────────────────┘

sumMapFilteredWithOverflow

Эта функция работает так же, как и sumMap, за исключением того, что она также принимает массив ключей для фильтрации в качестве параметра. Это может быть особенно полезно при работе с высокой кардинальностью ключей. Она отличается от функции sumMapFiltered тем, что выполняет сложение с переполнением — т.е. возвращает тот же тип данных для сложения, что и тип данных аргумента.

Синтаксис

sumMapFilteredWithOverflow(keys_to_keep)(keys, values)

Параметры

  • keys_to_keep: Array ключей для фильтрации.
  • keys: Array ключей.
  • values: Array значений.

Возвращаемое значение

  • Возвращает кортеж из двух массивов: ключи в отсортированном порядке и значения, сложенные для соответствующих ключей.

Пример

В этом примере мы создаем таблицу sum_map, вставляем в нее данные и затем используем как sumMapFilteredWithOverflow, так и sumMapFiltered и функцию toTypeName для сравнения результатов. Где requests был типа UInt8 в созданной таблице, sumMapFiltered повысил тип суммированных значений до UInt64, чтобы избежать переполнения, в то время как sumMapFilteredWithOverflow сохранил тип как UInt8, который недостаточно велик для хранения результата — т.е. переполнение произошло.

Запрос:

CREATE TABLE sum_map
(
    `date` Date,
    `timeslot` DateTime,
    `statusMap` Nested(status UInt8, requests UInt8)
)
ENGINE = Log

INSERT INTO sum_map VALUES
    ('2000-01-01', '2000-01-01 00:00:00', [1, 2, 3], [10, 10, 10]),
    ('2000-01-01', '2000-01-01 00:00:00', [3, 4, 5], [10, 10, 10]),
    ('2000-01-01', '2000-01-01 00:01:00', [4, 5, 6], [10, 10, 10]),
    ('2000-01-01', '2000-01-01 00:01:00', [6, 7, 8], [10, 10, 10]);
SELECT sumMapFilteredWithOverflow([1, 4, 8])(statusMap.status, statusMap.requests) as summap_overflow, toTypeName(summap_overflow) FROM sum_map;
SELECT sumMapFiltered([1, 4, 8])(statusMap.status, statusMap.requests) as summap, toTypeName(summap) FROM sum_map;

Результат:

   ┌─sum──────────────────┬─toTypeName(sum)───────────────────┐
1. │ ([1,4,8],[10,20,10]) │ Tuple(Array(UInt8), Array(UInt8)) │
   └──────────────────────┴───────────────────────────────────┘
   ┌─summap───────────────┬─toTypeName(summap)─────────────────┐
1. │ ([1,4,8],[10,20,10]) │ Tuple(Array(UInt8), Array(UInt64)) │
   └──────────────────────┴────────────────────────────────────┘

sequenceNextNode

Возвращает значение следующего события, которое соответствует цепочке событий.

Экспериментальная функция, установите SET allow_experimental_funnel_functions = 1, чтобы включить её.

Синтаксис

sequenceNextNode(direction, base)(timestamp, event_column, base_condition, event1, event2, event3, ...)

Параметры

  • direction — Используется для навигации по направлениям.

    • forward — Движение вперед.
    • backward — Движение назад.
  • base — Используется для установки базовой точки.

    • head — Установить базовую точку на первое событие.
    • tail — Установить базовую точку на последнее событие.
    • first_match — Установить базовую точку на первое совпавшее event1.
    • last_match — Установить базовую точку на последнее совпавшее event1.

Аргументы

  • timestamp — Имя колонки, содержащей метку времени. Поддерживаемые типы данных: Date, DateTime и другие беззнаковые целочисленные типы.
  • event_column — Имя колонки, содержащей значение следующего события для возврата. Поддерживаемые типы данных: String и Nullable(String).
  • base_condition — Условие, которое должна выполнить базовая точка.
  • event1, event2, ... — Условия, описывающие цепочку событий. UInt8.

Возвращаемые значения

  • event_column[next_index] — Если шаблон соответствует, и следующее значение существует.
  • NULL - Если шаблон не соответствует или следующее значение не существует.

Тип: Nullable(String).

Пример

Её можно использовать, когда события имеют вид A->B->C->D->E, и вы хотите узнать событие, которое следует за B->C, то есть D.

Запрос, ищущий событие, следующее за A->B:

CREATE TABLE test_flow (
    dt DateTime,
    id int,
    page String)
ENGINE = MergeTree()
PARTITION BY toYYYYMMDD(dt)
ORDER BY id;

INSERT INTO test_flow VALUES (1, 1, 'A') (2, 1, 'B') (3, 1, 'C') (4, 1, 'D') (5, 1, 'E');

SELECT id, sequenceNextNode('forward', 'head')(dt, page, page = 'A', page = 'A', page = 'B') as next_flow FROM test_flow GROUP BY id;

Результат:

┌─id─┬─next_flow─┐
│  1 │ C         │
└────┴───────────┘

Поведение для forward и head

ALTER TABLE test_flow DELETE WHERE 1 = 1 settings mutations_sync = 1;

INSERT INTO test_flow VALUES (1, 1, 'Home') (2, 1, 'Gift') (3, 1, 'Exit');
INSERT INTO test_flow VALUES (1, 2, 'Home') (2, 2, 'Home') (3, 2, 'Gift') (4, 2, 'Basket');
INSERT INTO test_flow VALUES (1, 3, 'Gift') (2, 3, 'Home') (3, 3, 'Gift') (4, 3, 'Basket');
SELECT id, sequenceNextNode('forward', 'head')(dt, page, page = 'Home', page = 'Home', page = 'Gift') FROM test_flow GROUP BY id;

                  dt   id   page
 1970-01-01 09:00:01    1   Home // Базовая точка, совпадение с Home
 1970-01-01 09:00:02    1   Gift // Совпадение с Gift
 1970-01-01 09:00:03    1   Exit // Результат

 1970-01-01 09:00:01    2   Home // Базовая точка, совпадение с Home
 1970-01-01 09:00:02    2   Home // Не совпадение с Gift
 1970-01-01 09:00:03    2   Gift
 1970-01-01 09:00:04    2   Basket

 1970-01-01 09:00:01    3   Gift // Базовая точка, не совпадение с Home
 1970-01-01 09:00:02    3   Home
 1970-01-01 09:00:03    3   Gift
 1970-01-01 09:00:04    3   Basket

Поведение для backward и tail

SELECT id, sequenceNextNode('backward', 'tail')(dt, page, page = 'Basket', page = 'Basket', page = 'Gift') FROM test_flow GROUP BY id;

                 dt   id   page
1970-01-01 09:00:01    1   Home
1970-01-01 09:00:02    1   Gift
1970-01-01 09:00:03    1   Exit // Базовая точка, не совпадение с Basket

1970-01-01 09:00:01    2   Home
1970-01-01 09:00:02    2   Home // Результат
1970-01-01 09:00:03    2   Gift // Совпадение с Gift
1970-01-01 09:00:04    2   Basket // Базовая точка, совпадение с Basket

1970-01-01 09:00:01    3   Gift
1970-01-01 09:00:02    3   Home // Результат
1970-01-01 09:00:03    3   Gift // Базовая точка, совпадение с Gift
1970-01-01 09:00:04    3   Basket // Базовая точка, совпадение с Basket

Поведение для forward и first_match

SELECT id, sequenceNextNode('forward', 'first_match')(dt, page, page = 'Gift', page = 'Gift') FROM test_flow GROUP BY id;

                 dt   id   page
1970-01-01 09:00:01    1   Home
1970-01-01 09:00:02    1   Gift // Базовая точка
1970-01-01 09:00:03    1   Exit // Результат

1970-01-01 09:00:01    2   Home
1970-01-01 09:00:02    2   Home
1970-01-01 09:00:03    2   Gift // Базовая точка
1970-01-01 09:00:04    2   Basket  // Результат

1970-01-01 09:00:01    3   Gift // Базовая точка
1970-01-01 09:00:02    3   Home // Результат
1970-01-01 09:00:03    3   Gift
1970-01-01 09:00:04    3   Basket
SELECT id, sequenceNextNode('forward', 'first_match')(dt, page, page = 'Gift', page = 'Gift', page = 'Home') FROM test_flow GROUP BY id;

                 dt   id   page
1970-01-01 09:00:01    1   Home
1970-01-01 09:00:02    1   Gift // Базовая точка
1970-01-01 09:00:03    1   Exit // Не совпадение с Home

1970-01-01 09:00:01    2   Home
1970-01-01 09:00:02    2   Home
1970-01-01 09:00:03    2   Gift // Базовая точка
1970-01-01 09:00:04    2   Basket // Не совпадение с Home

1970-01-01 09:00:01    3   Gift // Базовая точка
1970-01-01 09:00:02    3   Home // Совпадение с Home
1970-01-01 09:00:03    3   Gift // Результат
1970-01-01 09:00:04    3   Basket

Поведение для backward и last_match

SELECT id, sequenceNextNode('backward', 'last_match')(dt, page, page = 'Gift', page = 'Gift') FROM test_flow GROUP BY id;

                 dt   id   page
1970-01-01 09:00:01    1   Home // Результат
1970-01-01 09:00:02    1   Gift // Базовая точка
1970-01-01 09:00:03    1   Exit

1970-01-01 09:00:01    2   Home
1970-01-01 09:00:02    2   Home // Результат
1970-01-01 09:00:03    2   Gift // Базовая точка
1970-01-01 09:00:04    2   Basket

1970-01-01 09:00:01    3   Gift
1970-01-01 09:00:02    3   Home // Результат
1970-01-01 09:00:03    3   Gift // Базовая точка
1970-01-01 09:00:04    3   Basket
SELECT id, sequenceNextNode('backward', 'last_match')(dt, page, page = 'Gift', page = 'Gift', page = 'Home') FROM test_flow GROUP BY id;

                 dt   id   page
1970-01-01 09:00:01    1   Home // Совпадение с Home, результат равен null
1970-01-01 09:00:02    1   Gift // Базовая точка
1970-01-01 09:00:03    1   Exit

1970-01-01 09:00:01    2   Home // Результат
1970-01-01 09:00:02    2   Home // Совпадение с Home
1970-01-01 09:00:03    2   Gift // Базовая точка
1970-01-01 09:00:04    2   Basket

1970-01-01 09:00:01    3   Gift // Результат
1970-01-01 09:00:02    3   Home // Совпадение с Home
1970-01-01 09:00:03    3   Gift // Базовая точка
1970-01-01 09:00:04    3   Basket

Поведение для base_condition

CREATE TABLE test_flow_basecond
(
    `dt` DateTime,
    `id` int,
    `page` String,
    `ref` String
)
ENGINE = MergeTree
PARTITION BY toYYYYMMDD(dt)
ORDER BY id;

INSERT INTO test_flow_basecond VALUES (1, 1, 'A', 'ref4') (2, 1, 'A', 'ref3') (3, 1, 'B', 'ref2') (4, 1, 'B', 'ref1');
SELECT id, sequenceNextNode('forward', 'head')(dt, page, ref = 'ref1', page = 'A') FROM test_flow_basecond GROUP BY id;

                  dt   id   page   ref
 1970-01-01 09:00:01    1   A      ref4 // Голова не может быть базовой точкой, потому что колонка ref головы не совпадает с 'ref1'.
 1970-01-01 09:00:02    1   A      ref3
 1970-01-01 09:00:03    1   B      ref2
 1970-01-01 09:00:04    1   B      ref1
SELECT id, sequenceNextNode('backward', 'tail')(dt, page, ref = 'ref4', page = 'B') FROM test_flow_basecond GROUP BY id;

                  dt   id   page   ref
 1970-01-01 09:00:01    1   A      ref4
 1970-01-01 09:00:02    1   A      ref3
 1970-01-01 09:00:03    1   B      ref2
 1970-01-01 09:00:04    1   B      ref1 // Хвост не может быть базовой точкой, потому что колонка ref хвоста не совпадает с 'ref4'.
SELECT id, sequenceNextNode('forward', 'first_match')(dt, page, ref = 'ref3', page = 'A') FROM test_flow_basecond GROUP BY id;

                  dt   id   page   ref
 1970-01-01 09:00:01    1   A      ref4 // Эта строка не может быть базовой точкой, потому что колонка ref не совпадает с 'ref3'.
 1970-01-01 09:00:02    1   A      ref3 // Базовая точка
 1970-01-01 09:00:03    1   B      ref2 // Результат
 1970-01-01 09:00:04    1   B      ref1
SELECT id, sequenceNextNode('backward', 'last_match')(dt, page, ref = 'ref2', page = 'B') FROM test_flow_basecond GROUP BY id;

                  dt   id   page   ref
 1970-01-01 09:00:01    1   A      ref4
 1970-01-01 09:00:02    1   A      ref3 // Результат
 1970-01-01 09:00:03    1   B      ref2 // Базовая точка
 1970-01-01 09:00:04    1   B      ref1 // Эта строка не может быть базовой точкой, потому что колонка ref не совпадает с 'ref2'.