Обзор применяемых технических методов решения поставленной задачи

РефератПомощь в написанииУзнать стоимостьмоей работы

Обзор применяемых технических методов решения поставленной задачи (реферат, курсовая, диплом, контрольная)

В данной работе основная часть поставленной задачи была реализована с помощью машинного обучения (Gradient Boosting) и технологии Word2Vec, созданной для семантического анализа языков на основе векторного представления слов [1]. Алгоритм Gradient Boosting используется в программе при выявлении слова-ассоциации в русском языке для вводимого английского слова. В программе созданная модель Word2Vec используется для выявления отношений между определенными словами в выводимом после поиска ассоциаций предложении-примере для запоминания слов. В мире Word2Vec обычно используется для таких задач как поиск семантически близких слов, кластеризация запроса, выявление семантического отношения между словами, оценка важности определенных слов в запросе. Также существуют похожие технологии Doc2Vec, Word2Phrase, Sentence2Vec, работающие по схожему принципу.

Word2Vec был создан командой исследователей компании Google в 2013 году. Работа самой технологии заключается в следующем: программа получает большой корпус текста, создает словарь из полученных слов и обучается на входных данных, затем каждое слово представляется в качестве вектора, на выходе выдаются координаты слов [2]. Принцип векторного представления базируется на том, что слова, находящиеся рядом с одними и теми же словами в корпусе, имеют схожее значение [3]. При создании Word2Vec использовались 2 различных метода: Skip-gram и Continuous Bag of Words (CBOW). Skip-gram предполагает предсказание определенного слова на основе анализа рядом стоящих слов, у метода CBOW противоположное предназначение — он предсказывает окружающие слова на основе одного слова. Пользователь данной модели может выбирать то, какой из этих двух методов лучше использовать для поставленной задачи [4].

Машинное обучение (Machine Learning) — раздел искусственного интеллекта, изучающий методы и алгоритмы программного самообучения. Данная наука использует методы оптимизации, статистики, теории графов и других математических дисциплин. Ее целью является выявление закономерностей на основе существующих данных. Машинное обучение также тесно связано с интеллектуальным анализом данных (Data Mining) [5][10]. Алгоритмы машинного обучения подразделяются на 3 типа:

1) Обучение с учителем — в системе существуют некоторые описания объекта и возможные ответы, зависимость между объектом и ответом необходимо установить программой;
2) Обучение без учителя — существует только описание объекта без возможных ответов, необходимо самостоятельно выявить закономерности;
3) Обучение с подкреплением — система самообучается, взаимодействуя со средой, сигналами подкрепления являются ее положительные отклики на некоторые решения системы.

В данной работе алгоритм программы использует обучение с учителем. Gradient Boosting (градиентное добавление) — метод машинного обучения для задач регрессии и классификации, при котором создается ансамбль слабо предсказывающих деревьев принятия решений. Используемая формула в алгоритме следующая:

Обзор применяемых технических методов решения поставленной задачи.

где начальное приближение, параметр, определяющий скорость обучения и влияние каждого дерева на общую модель, регрессионное дерево решений.

Алгоритм градиентного добавления основывается на том, что из нескольких деревьев принятия решений формируется комитет, в котором каждое дерево должно компенсировать недостатки предыдущих [6]. На первом этапе строится дерево решений, ограниченное по количество узлу. Затем вычисляется разность результата данного дерево, умноженного на его коэффициент слабости, и искомой переменной. После на основе данной разницы производится следующая итерация. Цикл работает, пока результат работы алгоритма не прекратит улучшаться. Преимуществами Gradient Boosting является то, что алгоритм отличается высоким качеством результатов, даже если работает с большим количеством данных, получившаяся модель небольшая из-за начальных ограничений на размеры, оптимальная модель может быть быстро достигнута. К недостаткам алгоритма можно отнести то, что алгоритм требует хорошую тренировочную выборку, параллелизация вычислений невозможна, возможно переобучение, получившееся решение сложно поддается интерпретации [7][8]. Схема работы алгоритма приведена на рисунке 2.

Рис. 2. Схема работы алгоритма Gradient Boosting

2. ПРАКТИЧЕСКАЯ ЧАСТЬ.

Показать весь текст

Заполнить форму текущей работой

Другие работы

Эффективность применения систем

Внедрение АБИС способствует уменьшению роста бюджетных затрат, а не вообще снижению их. В среднем заработная плата персонала составляет от 60 до 70% бюджета медицинского учреждения. При рационализации функционирования стационара основная идея заключается в уменьшении затрат на заработную плату персонала. С помощью распределения работ и ответственности, а так же изменений в процессе организации…

Реферат