- Функционал GeoStat
- Обзор интерфейса
- Блок STATISTICA системы GeoStat
- Стартовое окно системы GeoStat
- Блок Анализ зависимостей в GeoStat
- Кригинг
- Форматы отчетов
Система GeoStat открывает широкому кругу пользователей новые возможности для анализа геологических данных. Решение синтезирует классические и современные методы анализа данных и отражает уникальный опыт компании StatSoft в решении реальных прикладных геофизических задач.
Функционал GeoStat
В рамках единой системы пользователи могут провести всесторонний анализ с визуальным представлением, позволяющим интерпретировать результаты. GeoStat разработана как решение для обработки и анализа геологических данных, построения зависимостей, предсказательного моделирования, методов пространственной интерполяции, включая геостатистические методы кригинга и вариограммы.
Составной частью системы являются методы машинного обучения, нейронные сети, CART-модели (деревья классификации и регрессии), многомерные адаптивные сплайны и др. - весь арсенал современных средств, позволяющий специалистам проводить всестороннее исследования данных, начиная от описательных моделей и визуализации до построения сложных предсказательных моделей с помощью уникальных алгоритмов. С помощью технологий data mining вы сможете выполнить всесторонний анализ разведочных и промысловых данных с целью выявления зависимостей в изменении параметров и влияния на появление определенных признаков, найти связи между этими признаками, решить актуальные задачи геологоразведки. Система учитывает специфику геологических данных и обеспечивает выбор адекватных методов анализа и построение моделей в удобном для исследователя интерфейсе, отражающем интуитивное представление исследователя о характере данных.
Обзор интерфейса
От пользователей системы не требуется глубоких знаний математики и методов анализа данных. Весь анализ проводится в диалоговом режиме; нагрузка по выбору методов и запуску вычислительных процедур максимально снимается с человека.
Несколькими нажатиями кнопок пользователь может провести факторный и кластерный анализы, проверить однородность данных, отделить геологические объекты методом опорных векторов, выполнить мультиэлементный анализ проб, провести мультиатрибутный анализ сейсмических данных, выбрать наиболее значимые признаки, найти связи признаков и т.д.
Основная целевая аудитория системы - геологи-исследователи, занимающиеся нефтеразведкой, мониторингом, разведкой рудных запасов полезных ископаемых, оценкой запасов. Анализ в системе направлен на всестороннее исследование имеющихся данных (геохимических, сейсмических, спектральных, данных каротажа и др.) и получение исчерпывающего ответа на запросы исследователя.
Блок STATISTICA системы GeoStat
Вычислительным ядром GeoStat является STATISTICA с ее уникальными аналитическими и визуальными средствами. Система GeoStat работает в режиме COM-server (компонентная объектная модель). Для построения сложных моделей используются также функционал пакетов статистической обработки R, интеграция которых реализована по схеме: GeoStat <-> STATISTICA <-> R.
В качестве источников исходных данных используются базы данных, поддерживающие технологию OLE DB/ODBC (например, Microsoft SQL Server, Oracle и др.). Также система GeoStat может использовать табличные файлы с форматом Microsoft Excel (.xls, .xlsx) и таблицы STATISTICA (.sta).
Итак, несколько слов об основных блоках системы.
Стартовое окно системы GeoStat
Блок Подгонки распределений позволяет подобрать распределение к исследуемому набору данных. Далее можно провести статистическое моделирование методом Монте-Карло, увеличить размер выборок и провести дальнейший анализ с построением доверительных интервалов.
В системе реализованы методы кластерного анализа: иерархическая кластеризация, метод k средних, DBSCAN.
Блок построения объяснительных моделей позволяет всесторонне исследовать наличие связей между имеющимися переменными, построить модель зависимости целевой переменной от имеющихся в выборке характеристик. Данные модели помогут понять, какие характеристики имеют влияние на целевую переменную. Это могут быть, например, проницаемость, пористость, расчлененности пласта, коэффициент песчанистости, вязкость.
В системе доступны линейные и нелинейные модели. Пользователь выбирает зависимую переменную, для которой строится модель, и независимые переменные (предикторы), которые объясняют зависимую переменную.
В задачах регрессии в зависимости от типа исследуемых характеристик пользователь может воспользоваться следующими методами анализа:
- анализ с последовательным включением предикторов в модель;
- анализ с последовательным исключением предикторов;
- стандартная модель с включением всех предикторов и оценкой их значимости.
Доступны разнообразные методы оценки адекватности модели и анализа остатков, а также нелинейные модели: логит-регрессия для переменных с бинарным откликом, пробит-регрессия, пользовательская модель с заданием функции пользователем и оценкой параметров методом наименьших квадратов и др.
Если зависимая переменная является категориальной, пользователю доступны такие методы классификации, как дискриминантный анализ, деревья классификации.
Блок Анализ зависимостей в GeoStat
Пример визуализации данных в системе GeoStat
Кригинг
Одним из способов построения прогноза является кригинг - интерполяция с использованием вариограмм. Прогноз можно строить как для множества точек, например, располагающихся в узлах регулярной сетки (тогда это называется гридинг), так и для нескольких выбранных точек.
Отчеты
Итоговые результаты сохраняются в виде аналитических отчетов (опция Файл/Сохранить результаты в меню Результатов анализа), при этом часть наиболее важных результатов будет отображена непосредственно в окне системы. Файл отчета может быть сохранен в различных форматах:
- PDF - стандартный формат для документооборота.
- RTF (Rich Text Format) - популярный метод кодировки форматированного текста и графики. Отчет об исследовании, сохраненный в формате RTF (*.rtf), можно читать и редактировать в любом RTF-совместимом приложении (например, в Microsoft Word). Кроме того, доступна опция, при которой в отчет будут включаться объекты STATISTICA. Данная опция позволяет редактировать и дооформлять отчеты, даже когда они уже были получены. В таком случае, редактирование будет происходить через интерфейс системы STATISICA.
- HTML-формат (*.html, *.htm) позволяет быстро адаптировать результаты исследований для публикации в Интернете.