Login

Lost your password?
Don't have an account? Sign Up

Датасет

Датасет это база знаний, регламент из которого модель ИИ будет брать информацию для формирования ответа.

Датасет — важнейший элемент в структуре ИИ-ассистента. От того, насколько хорошо Вы его подготовите, будет зависеть качество ответов chatGPT.

Важно знать, что при анализе текста языковая модель разбивает его на токены.
Токен — это минимальная единица текста, которая может быть обработана моделью. В модели gpt-3.5-turbo используется токенизация на основе байтовой пары (BPE), которая разбивает текст на подслова или символы в зависимости от частоты их появления в обучающих данных.
Например, слово «токенизация» может быть разбито на токены «токен», «из», «ац», «ия». Каждому токену присваивается уникальный идентификатор, который используется моделью для представления входных и выходных данных. В случае ввода форматированного текста, например как html, токеном будет также символ разметки, хотя смысловой нагрузки в нем не будет.
Поэтому датасет готовится как простой текст, без какого либо форматирования (html, word, markdown и т.д.) для большей содержательности данных и уменьшения расходов на обработку.

Подготовленный датасет представляет собой набор смысловых блоков, собранных в следующую структуру.

Структура датасета:

————————————

#paragraph
Название блока
Тело блока

————————————

где #paragraph — якорь по которому идет смысловое разделение.
#paragraph используется только для поиска релевантного контекста и исключается из обработки языковой моделью.
Название блока — смысловое название, название раздела, главы, подается на обучение.
Тело блока — собственно информация, связанная по смыслу с названием. Не рекомендуется использовать большие блоки, так как это может приводить к перегрузке входного канала и, как следствие к ошибке получения ответа. Также большие блоки ведут к увеличению затрат на запрос.

Такая структура датасета позволяет эффективно искать данные, связные с запросом пользователя и сокращать обучающий контекст, исключая неподходящую информацию.

Данное форматирование не является обязательным и модель ИИ может работать с любым текстом. Но качество ответов может сильно ухудшиться.

Пример подготовленного датасета:

———————————————————————-

#paragraph
title: Беспроводные наушники Sony WF-1000XM4
Name: Наушники
Type: Bluetooth наушники
Brand: Sony
Model: WF-1000XM4
Color: Различные цвета
Size: Размер универсальный
Price: 22000
Description: Беспроводные наушники Sony WF-1000XM4 обеспечивают отличное качество звука, активное шумоподавление, удобное управление и длительное время работы от одной зарядки.
Advantage: Превосходное качество звука и работа активного шумоподавления.

#paragraph
title: Повербанк Anker PowerCore 20100mAh
Name: Anker PowerCore 20100mAh
Type: Портативное зарядное устройство
Brand: Anker
Model: PowerCore 20100mAh
Color: Черный
Size: 160 x 62 x 22 мм
Price: 4000
Description: Портативное зарядное устройство Anker PowerCore 20100mAh обеспечит ваше устройство дополнительной энергией в любое время. Имеет компактные размеры и большой запас заряда.
Advantage: Большой объем заряда при компактных размерах. Быстрая зарядка.

#paragraph
title: Беспроводная зарядная станция Belkin Boost Up
Name: Belkin Boost Up
Type: Зарядная станция
Brand: Belkin
Model: Boost Up
Color: Различные
Size: Различные
Price: 5500
Description: Беспроводная зарядная станция Belkin Boost Up обеспечивает быструю и удобную зарядку вашего устройства. Совместима с различными моделями смартфонов и других устройств, поддерживающих беспроводную зарядку.
Advantage: Быстрая зарядка, удобство использования

———————————————————————-