Статистика словарь терминов - файл n1.doc

Статистика словарь терминов
Скачать все файлы (123.5 kb.)

Доступные файлы (1):
n1.doc124kb.17.02.2014 17:20скачать

n1.doc



СТАТИСТИКА СЛОВАРЬ ТЕРМИНОВ

Аппроксимация

Аппроксимация, или приближение (от approximation) - замена математического объекта более простым объектом, имеющим сходные свойства.

Аппроксимация позволяет упростить исследование характеристик объекта, сведя задачу к изучению более простых или более известных объектов.

Наиболее распространенный в аналитической химии пример аппроксимации - это приближение градуировочной функции прямой. Такой прием позволяет упростить вычисления и просто и наглядно представить градуировочные характеристики.

Выборка

Выборка (выборочная совокупность) - часть объектов из генеральной совокупности, отобранных для изучения, с целью получения информации о всей генеральной совокупности.

Число объектов, составляющих выборочную совокупность, называется объемом выборки.

Методы математической статистики позволяют оценить случайную ошибку изучаемых признаков выборки определенного объема. Также можно решить обратную задачу - определить объем выборки, удовлетворяющий заданным требованиям точности.

Кроме объема выборки, существенную роль играет способ формирования выборки. Не вдаваясь в детали, можно отметить, что выборка, которая сохраняет все свойства генеральной совокупности, называется репрезентативной выборкой. Свойство репрезентативности - необходимое условие для того, чтобы выводы, сделанные для выборочной совокупности, можно было распространить на генеральную совокупность.

Градуировка

Градуировка - процесс построения градуировочной функции (градуировочной характеристики) опытным путем.

В аналитической химии градуировочная функция связывает аналитический сигнал и содержание определяемого компонента. В случае однокомпонентной градуировки градуировочная функция может быть наглядно представлена в виде градуировочного графика.

Большинство методов анализа требуют построения градуировки. Исключение составляют абсолютные методы анализа.

Одной из важных задач метрологии является определение погрешности градуировки.

Дисперсия

Дисперсия - (от лат. dispersio - рассеяние), в математической статистике наиболее употребительная мера рассеивания, отклонения случайных значений от среднего.

Для выборочной совокупности дисперсия рассчитывается по следующей формуле:

(1)

где n - число измерений, xi - единичное значение, - среднее значение.

Дисперсия является случайной величиной и подчиняется хи-квадрат распределению. Достоверность дисперсии определяется числом степеней свободы f. В данном случае (1) f = n-1

Применительно к обработке результатов измерения дисперсия характеризует случайную погрешность. Наряду с дисперсией используется стандартное отклонение, которое равно квадратному корню из дисперсии.

Если на результат измерения влияют несколько независимых случайных факторов, то вступает в силу закон сложения дисперсий: дисперсия результата равна сумме "составляющих" дисперсий.

Индекс

Индекс - относительная величина, показывающая, во сколько раз уровень изучаемого явления в данных условиях отличается от уровня того же явления в других условиях. Различие условий может проявляться во времени (территориальные индексы), в выборе в качестве базы сравнения какого-либо условного уровня, например планового показателя, уровня договорных обязательств или, если плановый уровень сравнивается с уровнем предыдущего периода, - индекс планового задания

Интерполяция

Интерполяция - метод нахождения промежуточных значений некоторой величины по известному дискретному набору значений.

Набор значений исследуемой величины обычно получают экспериментальным методом. Часто бывает необходимо построить фунцию, которая позволит предсказать получаемые значения этой величины. Другими словами, необходимо доопредилить функцию в промежутках между имеющимися дискретными значениями.

Построение функции в общем случае называется аппроксимацией. Интерполяцию можно рассматривать как частный случай аппроксимации, при котором кривая построенной функции проходит точно через имеющиеся точки данных.

Аппроксимация в применяется в аналитической химии при построении градуировки методом наименьших квадратов. Суть метода заключается в поиске наиболее близкой к имеющимся экспериментальным точкам прямой, при этом получаемая прямая не обязательно должна проходить через все точки.

Примером примерения метода интерполяции может служить интерполяция спектра: спектральный сигнал измеряют через определенные промежутки длин волн (или энергий), т.е. дискретно. Затем с помощью интерполяции спектр описывают некоторой непрерывной кривой, на которой лежат все экспериментальные точки.

Существует множество алгоритмов интерполяции. Наиболее часто в методе интерполяции используются полиномы (например, полином Лагранжа), а также различные виды сплайн-интерполяции.

Кластерный анализ

При этом используется кластерная модель представления объектов - объекты со схожими свойствами относятся к одному классу.

Кластерный анализ - метод группировки объектов в классы на основании экспериментальных данных о свойствах объектов.

При этом используется кластерная модель представления объектов - объекты со схожими свойствами относятся к одному классу.

Кластерный анализ включает в себя набор различных алгоритмов классификации (в качестве примера метода кластерного анализа можно привести метод дендрограмм).

При этом, как правило, количество классов и принципы разделения на классы определяются заранее исходя из общей информации о наборе объектов и целей кластерного анализа.

Методы кластерного анализа дополняется методами дискриминантного анализа, которые позволяют определить границы между кластерами и использовать их для решения задач анализа и классификации данных.

Ковариация

Ковариация (от англ. covariation - "совместная вариация") - мера линейной зависимости двух величин.

Ковариация несет тот же смысл, что и коэффициент корреляции - она показывает, есть ли линейная взаимосвязь между двумя случайными величинами, и может рассматриваться как "двумерная дисперсия". Однако, в отличие от коэффициента корреляции, который меняется от -1 до 1, ковариация не инвариантна относительно масштаба, т.е. зависит единицы измерения и масштаба случайных величин.

Знак ковариации указывает на вид линейной связи между рассматриваемыми величинами: если она > 0 - это означает прямую связь (при росте одной величины растет и другая), ковариация < 0 указывает на обратную связь. При ковариации = 0 линейная связь между переменными отсутствует.

Основная разница - в "масштабируемости". Т.е. ковариация - в абсолютных единицах, а корреляция - в относительных. Это как можно сказать "прибыль составила 20 000 руб", а можно сказать "прибыль составила 5%". Используют то, что удобнее в данном конкретном случае

Линейный дискриминантный анализ

Линейный дискриминантный анализ - метод классификации, относящийся к группе граничных методов. Алгоритм линейного дискриминатного анализа предполагает, что границы между классами аппроксимируются с помощью линейных функций. Для вычисления параметров граничной функции используется подход, основанный на анализе и моделировании функций условной плотности (conditional density functions). В линейном дискриминатном анализе предполагается, что данные подчиняются закону нормального распределения. Однако, есть и другие методы, в которых функции условной плотности предполагают другие виды распределения – например, метод Нейва Байеса, который предполагает биномиальное распределение.

Метод К ближайших соседей

Метод К ближайших соседей - один из наиболее простых алгоритмов классификации, относящийся к группе структурных методов.

В качестве обучающей выборки используется набор объектов, каждый из которых принадлежит к одному из двух или более классов. Каждый объект может быть представлен точкой в n-мерном пространстве, где n – число аналититических признаков, используемых для классификации.

Неизвестный объект относится к одному из классов по следующему принципу: находится K ближайших объектов из обучающей выборки в пространстве образов (обычно используется мера расстояния Евклида). Затем определяется, к какому классу принадлежит большинство ближайших объектов обучающей выборки – к этому классу относится и неизвестный объект. Оптимальное число K, как правило, подбирают экспериментальным путем. Увеличение K приводит к уменьшению влияния случайных погрешностей в данных, но при этом разделение на классы становится менее четким.

Метод наименьших квадратов

Метод наименьших квадратов (МНК) - метод оценки параметров модели на основании экспериментальных данных, содержащих случайные ошибки. В основе метода лежат следующие рассуждения: при замене точного (неизвестного) параметра модели приблизительным значением необходимо минимизировать разницу между экспериментальными данными и теоретическими (вычисленными при помощи предложенной модели). Это позволяет рассчитать параметры модели с помощью МНК с минимальной погрешностью.

Мерой разницы в методе наименьших квадратов служит сумма квадратов отклонений действительных (экспериментальных) значений от теоретических. Выбираются такие значения параметров модели, при которых сумма квадратов разностей будет наименьшей – отсюда название метода:
= min

где Y – теоретическое значение измеряемой величины, y – экспериментальное.

При этом полученные с помощью МНК параметры модели являются наиболее вероятными.

Метод наименьших квадратов, а также его различные модификации (нелинейный МНК, взвешенный МНК и т.д.) широко используется в аналитической химии, в частности, при построении градуировочной модели. Как правило, предполагается линейная зависимость (параметры которой требуется установить) между аналитическим сигналом и содержанием определяемого вещества. В этом случае метод наименьших квадратов позволяет оптимизировать параметры градуировки (и получить наименьшую погрешность анализа), а сумма квадратов разностей теоретического и экспериментального значения аналитического сигнала является мерой погрешности градуировки и линейно связана с так называемой остаточной дисперсией (дисперсией адекватности модели)

Метрология

Метрология - наука об измерениях, методах достижения их единства и требуемой точности. Помимо общей теории измерения метрология содержит следующие основные разделы:

1) Единицы физических величин, системы единиц (например, система СИ), шкала измерения.

2) Проблема единства измерений - эталоны, образцовые средства измерения, схемы поверки и градуировки измерительных приборов. Для законодательного контроля единства измерений создаются метрологические службы.

3) Оценка погрешности измерений методами математической статистики и теории вероятностей.

Методики измерения проходят стандартизацию и сертификацию, существует государственная система стандартизация (госстандарты, ГОСТы), регламентирующие измерительные процедуры

Погрешность измерения

Погрешность измерения - отклонение результата измерения от действительного значения измеряемой величины.

Также для обозначения этого понятия иногда используют термин ошибка.

Любой экспериментально полученный результат содержит погрешность, причем можно выделить две ее составляющие: случайную и систематическую.

Случайная погрешность, как понятно из названия, изменяется случайным образом в серии повторных экспериментов, проведенных в одинаковых условиях. В аналитической химии для нее используется термин воспроизводимость, которая характеризуется дисперсией. Дисперсия - (от лат. dispersio - рассеяние), в математической статистике наиболее употребительная мера рассеивания, отклонения случайных значений от среднего.

Систематическая погрешность остается постоянной в серии повторных экспериментов. В аналитической химии для этой величины используется термин правильность.

Общая ошибка (систематическая и случайная) характеризует точность метода.

Для того, чтобы количественно охарактеризовать погрешность измерения, проводят ее вероятностную оценку. Проще всего оценить случайную составляющую с помощью дисперсии - для этой цели используется критерий Стьюдента. При этом выявить систематическую ошибку на фоне случайной - сложная и часто нерешаемая задача.

Регрессионный анализ, регрессия

Регрессионный анализ – статистический метод, используемый для исследования отношений между двумя величинами.

Регрессия в математической статистике – зависимость среднего значения одной величины (y) от другой величины (или нескольких величин) x. В отличие от строгой функциональной зависимости y = f(x) в регрессионной модели одному и тому же значению величины x могут соответствовать несколько значений величины y, иными словами, при фиксированном значении x величина y имеет некоторое случайное распределение.

Регрессионный анализ используется для определения общего вида уравнения регрессии (наиболее часто используется линейная модель), оценки параметров этого уравнения, а также проверки различных статистических гипотез относительно регрессии.

Регрессионная модель основана на предположении о том, что величина x является контролируемой величиной, значения которой задаются во время эксперимента, а величина y является наблюдаемой в ходе эксперимента.

В аналитической химии линейный регрессионный анализ используется при построении градуировочной модели. В качестве величины x выбирается содержание определяемого компонента (которое является установленной величиной для серии образцов сравнения), а в качестве наблюдаемой величины y выступает аналитический сигнал, который подчиняется случайному распределению.

Необходимо отметить, что в том случае, если величина x также является случайной, то для изучения связи между величинами используются методы корреляционного анализа.

В аналитической химии также применяется множественный регрессионный анализ - при исследовании многомерных зависимостей (например, при построении многокомпонентной градуировки используется множественная регрессия и т.д.)

Теория вероятностей

Теория вероятностей - раздел математики, занимающийся вычислением вероятностей ожидаемых случайных событий, которые зависят от неопределенных или недостаточно известных причин.

Теория вероятности изучает законы, или статистические закономерности, которым подчиняются связи случайных событий. Так, например, если при условиях S событие A имеет определенную вероятность P, то можно утверждать, что при достаточно длинной серии из n испытаний при данных условиях событие A произойдет m раз, причем приблизительно будет выполняться соотношение m/n = P - эта формула выражает так называемое классическое определение вероятности.

Пример: если кидать шестигранный игральный кубик (это условие S) достаточно много раз, то четверка выпадет (это событие A) примерно в 1/6 случаях, т.е. P = 1/6.

В приведенном примере выпавшее на кубике число является случайной величиной, которая может принимать значение от 1 до 6, вероятность появления каждого из этих значений равно 1/6. Набор возможных значений случайной величины и соответствующих им вероятностей называется распределением вероятностей случайной величины. В случае с игральным кубиком набор значений случайной величины носит дискретный характер, однако на практике чаще встречаются непрерывные распределения. Так, результаты химического анализа обычно подчиняются распределению Гаусса. В таких случаях вместо полного перечисления значений случайной величины и соответствующих вероятностей используют числовые характеристики распределения, наиболее употребительными из которых являются математическое ожидание и дисперсия

При изучении совместного распределения нескольких случайных величин пользуются коэффициентами корреляции и методами корреляционного анализа.

Теория вероятности широко применяется при изучении случайных величин и процессов в различных областях естествознания.

Факторный анализ

Факторный анализ - метод многомерного статистического анализа, позволяющий на основе экспериментального наблюдения признаков объекта выделить группу переменных, определяющих корреляционную взаимосвязь между признаками. Например, при проведении элементного анализа предельных углеводородов можно отдельно измерять массовую долю углерода и массовую долю водорода - два признака. Однако, эти признаки не являются независимыми (коррелируют между собой) и оба определяются длиной углеродной цепи. В этом и состоит суть факторного анализа - на основе исследования корреляционных взаимосвязей признаков находить причины, определяющие эти взаимосвязи.

В общем случае моделью описываемой взаимосвязи является набор линейных уравнений. Коэффициентами этих уравнений являются так называемые нагрузки, которые показывают "вес" каждого из факторов для данного признака. В матричном виде эта система уравнений может быть записана как X = S*F + E (1) где X - матрица признаков (или переменных), S - матрица нагрузок, F - матрица новых - "латентных" - переменных, E - матрица остатков. Это уравнение, по сути, описывает переход от первичных переменных (признаков) к новым переменным (факторам). Такое преобразование позволяет:

1. Выделить переменные, определяющие исследуемый набор признаков, проанализировать их число и природу

2. Сжать данные - вместо большого объема переменных система полностью описывается несколькими факторами. Так, например, спектр поглощения смеси красителей представляет собой массив данных - значений интенсивности для различных длин волн. Этот же спектр можно описать значениями концентраций компонентов смеси.

Факторный анализ часто применяется при решении задач классификации, а также при простроении многомерных градуировочных моделей. В качестве недостатков этого метода можно перичислить следующие:

1. Нет однозначного подхода к определению числа значимых переменных. Экспериментальные данные, как правило, содержат случайную ошибку, что вызывает появление дополнительных факторов, которые по сути бесполезны и описывают погрешность эксперимента. Существует множество способов отделения значимых переменных от незначимых, однако в кадом конкретном случае требуется индивидуальный подход.

2. Сложность интерпретации переменных - преобразование (1) можно провести бесконечным множеством способов, при этом выяснить физическую суть каждой новой переменной довольно сложно, а часто и невозможно. Так, например, если применить факторное преобразование к спектру смеси красителей, то каждая новая переменная, скорее всего, будет представлять собой не сами концентрации индивидуальных красителей, а некую линейную комбинацию концентраций.

Наиболее распространенные алгоритмы факторного анализа - метод главных компонент (principal component analysis, PCA) и разложение по сингулярным значениям (singular value decomposition, SVD).

Хемометрика

Хемометрика - наука, которая связывает экспериментальные данные, полученные для химических систем или процессов с состоянием системы посредством применения методов математической статистики.

В хемометрику входит широкий круг методов обработки экспериментальных данных:

1. Методы, касающиеся сбора данных: оптимизация параметров эксперимента, план эксперимента, калибровка, обработка сигнала и др.

2. Методы, позволяющие извлекать полезную информацию из экспериментальных данных: распознавание образов, моделирование, оценка количественных связей структура-свойство и др.

Экстраполяция

Экстраполяция - один из видов аппроксимации, при котором функция достраивается не между имеющимися значениями, а вне этого интервала.

Метод экстраполяции позволяет опредилить приближенное значение функции в точках вне некоторого отрезка по имеющимся значениям внутри этого отрезка, т.е. "продлить" функцию.

Следует отметить, что экстраполяция при построении градуировки в аналитической химии нежелательна, т.к. за пределами заданного интервала резко возрастает погрешность анализа, что связано с высокой погрешностью экстраполяции. Рекомендуется выбирать интервал градуировки таким образом, чтобы в него попадали все возможные измеряемые значения.


Учебный текст
© perviydoc.ru
При копировании укажите ссылку.
обратиться к администрации