Примеры преобразования данных


Представление текста в цифровой форме наиболее очевидно и распространено. Текст естественно рассматривать как последовательность символов, причем общее количество допустимых символов ограничено. В текстах, посвященных вопросам биотестирования, вероятность встретить шумерскую клинопись невелика, поэтому разумно исключить шумерские иероглифы из определяемого диапазона значений. Преобразование текста в численную форму, таким образом, заключается в замене последовательности символов последовательностью чисел, однозначно им соответствующих. Следует иметь в виду, что последовательность символов «12,568» будет при таком преобразовании рассмотрена именно как последовательность символов, а не как число. Для обнаружения в этой символьной последовательности заложенного математического смысла требуются некоторые дальнейшие манипуляции, без которых математическая обработка данных не имеет ожидаемого смысла.
Представление физических параметров, таких как изменение оптической плотности, может быть осуществлено различными способами. Наименее точным и эффективным, но, к сожалению, наиболее распространенным является способ визуальной регистрации. Исследователь сам читает показания прибора и вручную вводит их в ту или иную компьютерную программу. В некоторых случаях применение этого способа неизбежно, например, при проведении единичных измерений, когда затраты на разработку и внедрение компьютеризованной системы неоправданны.
Однако во всех других случаях, особенно при проведении серийных измерений, можно рекомендовать применение аналогово- цифрового преобразователя (АЦП). Аналоговым сигналом называют любой непрерывный сигнал: например, колебания стрелки спектрофотометра происходят без скачков, непрерывно. В противоположность аналоговому сигналу цифровой сигнал отражает изменения величины не непрерывно. АЦП представляет собой устройство, преобразующее аналоговый сигнал в цифровой. Многие модели современного научного оборудования снабжены встроенным АЦП, который позволяет отображать данные на цифровых дисплеях или выводить данные на печать.
Точность оцифровки данных АЦП обычно выражают в его битовой разрядности. Так, 8-битные АЦП позволяют представить весь диапазон возможных значений на входе как диапазон целых чисел от 0 до 255 (28 = 256), а 12-битные — от 0 до 4 095 (212 = 4 096). Таким образом, если на входе 12-битного АЦП напряжение сигнала может колебаться в пределах 0—1 В, то чувствительность установки составит -0,24 мВ (1/4096 В). Стоимость АЦП обычно тем выше, чем выше его разрядность.
Во многих случаях существует возможность вывода оцифрованных данных на внешний принтер или передачу их в персональный компьютер, для чего чаще всего используется стандартный коммуникационный кабель RS-232. При реализации такого способа подключения измерительный прибор обычно пересылает данные в виде текстовых строк. Это удобно при использовании принтера и позволяет в простейшем случае обходиться обычными программами эмуляции терминала. В более сложном случае, например для автоматической передачи данных в электронные таблицы, приходится предусматривать программную возможность анализа текстовых строк.
К сожалению, не все производители предусматривают возможность подключения внешних устройств (например, персонального компьютера) к встроенному АЦП. Кроме того, точность встроенного АЦП может быть ниже физической точности самого прибора. Однако многие приборы снабжены аналоговым выходом, предназначенным главным образом для подключения самописца. Сигнал с этого выхода можно подать на дополнительный внутренний или внешний АЦП, подключенный к персональному компьютеру. Часто АЦП рассчитаны на одновременное обслуживание нескольких каналов, так что возможно подключение нескольких приборов к одному персональному компьютеру.
Основным подходом к преобразованию изображений в цифровую форму является растеризация. Изображение при этом разбивают на участки (пиксели, точки), образующие прямоугольную матрицу (растр). Любой информацией о неравномерности изображения в пределах одного пикселя пренебрегают. Все изображение, таким образом, представляет собой последовательность чисел, которые характеризуют цвет точек. Оцифровку изображений обычно осуществляют с помощью камеры или сканера.
Существуют различные подходы для численного описания цвета. С одной стороны, можно определить, что число цветов в изображении ограничено и полутонами можно пренебречь. В таком случае можно каждому из цветов присвоить некоторое числовое значение из диапазона. Например, при представлении черно-белых фотографий всему диапазону цветов — от черного до белого — чаще всего присваивают числа от 0 (черный) до 255 (белый). Чем меньше диапазон возможных значений, тем меньше места может занять информация об изображении в памяти компьютера и тем быстрее может происходить его обработка. При сохранении информации о рисунке тушью достаточно ограничить диапазон двумя цветами — черным (0) и белым (1). Если рисунок выполнен красной тушью, то парой цветов будет красный (0) и белый (1), а при использовании красной и черной туши палитра будет состоять из трех цветов: белого (2), черного (0) и красного (1). Во всех этих случаях сопоставление тех или иных чисел с цветом условно, однако при дальнейшей математической обработке изображения выбранные числа каким-то образом должны характеризовать цвета. Так, в случае палитры из трех названных цветов, белый цвет наиболее ярок, черный наименее ярок, а красный занимает промежуточное положение, поэтому черному цвету соответствует наименьшее, а белому — наибольшее число.

Описанный подход может применяться во многих случаях. Например, при обработке изображений электрофоретических гелей в иммунологических исследованиях мы успешно используем палитру синих тонов (от черного как самого темного до белого как самого светлого). Однако при обработке других изображений даже большой палитры бывает недостаточно. В таком случае сложный цвет представляют суммой простых цветов. Например, если в качестве простых цветов выбрать красный, зеленый и синий и возможные значения каждого из них описывать диапазоном 0 — 255[‡‡‡‡], то желтый цвет будет соответствовать сумме
желтый = (красный у. 255) + (зеленый х 255) + (синий хО).
Очевидно, что белому и черному цветам будут соответствовать суммы
белый = (красныйх 255) + (зеленыйх 255) + (синийх 255);
черный = (красный хО) + (зеленый хО) + (синий хО).

Система представления любого цвета как суммы трех простых цветов используется наиболее широко, однако не позволяет описать все множество возможных цветов. Предложены и другие алгоритмы, например разложение сложного цвета на сумму четырех или описание цвета, исходя из его физических характеристик.
Очевидно, что при переводе изображения в цифровую форму происходит потеря части информации (точности). С одной стороны, теряются детали изображения при растеризации, с другой — даже при использовании совершенных алгоритмов цветопередачи бесконечное множество цветов будет описано конечным набором возможных значений. Таким образом, подбор параметров оцифровки изображения требует ответственного к себе отношения.
При хранении изображений в цифровой форме часто прибегают к специальным способам сжатия. Сжатые данные занимают существенно меньше места в памяти компьютера. Одни алгоритмы позволяют достигать хорошего сжатия изображений без потери информации за счет поиска и удаления повторов, другие дают возможность существенно уменьшать размер хранимого изображения за счет исключения из него несущественной информации.
Сжатие данных, используемое в стандарте GIF, предназначено только для изображений с палитрой до 256 цветов и обеспечивает полностью обратимое сжатие данных. Развитием стандарта GIF является постепенно завоевывающий все большую популярность стандарт PNG, обеспечивающий сжатие без потери качеств изображений как с палитрой, так и в других форматах. Такие стандарты сжатия рационально применять для изображений, в которых важны мелкие детали. Для работы с изображениями природных объектов рационально применять стандарт JPEG, который позволяет добиваться хорошего сжатия за счет удаления из изображения малозначительных деталей и шума.
В самом сжатии данных нет ничего сверхъестественного. В большинстве изображений можно отыскать повторяющиеся мотивы (последовательности пикселей) или сходные фрагменты. Применение того или иного алгоритма сжатия позволяет при записи сжатых данных обойтись без сохранения избыточной информации, например записать определенный мотив один раз, а в последующем ограничиться ссылкой на него.
Описанные способы преобразования данных позволяют представить некоторые данные в форме, доступной для обработки компьютером. Не следует, однако, забывать, что в основе преобразования любых данных лежит условность. Так, изображение текстовой страницы, переведенное в цифровую форму при помощи сканера, является не текстом, а изображением, и чтобы подойти к его обработке как к обработке текста, требуется предпринять дополнительные действия (произвести распознавание при помощи специальных программных средств).

Приведем пример компьютерной обработки данных, которые можно получить в рамках выполнения задач биотестирования. При постановке, например, электрофореза в иммунологических исследованиях изображение дорожек можно оцифровать при помощи сканера. Полученное изображение будет представлено матрицей N х М точек (направление движения образцов от 0 к М). Информация о цвете каждой точки представлена числом в диапазоне О (наибольшее окрашивание) — 255 (наименьшее окрашивание, т. е. наибольшему окрашиванию соответствует наименьшая яркость точки). Можно усреднить значения всех точек п = 0... N для каждого т и построить усредненный профиль[§§§§]. Работа с таким профилем во многих случаях более удобна и наглядна, и его построение без применения компьютера затруднительно.
В случае с простыми образцами, содержащими небольшое число хорошо отличающихся фракций, такого профиля вполне достаточно. Однако для более сложных образцов, когда может происходить наложение пиков, даже по профилю не всегда удается провести исчерпывающий анализ полученных результатов. В этих случаях требуется дополнительная работа с привлечением тех или иных математических приемов. Общая стратегия включает: получение аналитического вида профиля, т.е. построение такой функции, которая с известной долей достоверности описывала бы полученные эмпирические данные[*****]; вычисление первой и (при необходимости) второй производной этой функции, исследование которых позволит обнаружить экстремумы (точки максимальной концентрации) и точки перегиба (те участки, где меньший пик сливается с большим). 
<< | >>
Источник: О. П. Мелехова, Е. И. Егорова, Т. И. Евсеева. Биологический контроль окружающей среды: биоиндикация и биотестирование : учеб, пособие для сгуд. высш. учеб, заведений. 2007

Еще по теме Примеры преобразования данных:

  1. Соотношение филогенеза и онтогенеза в свете палеонтологических данных
  2. СОЗДАНИЕ РЕГИОНАЛЬНОГО БАНКА ДАННЫХ РЕСУРСОВТОРФЯНО-БОЛОТНЫХ ЭКОСИСТЕМ
  3. Значение данных селекции для вскрытия механизма действия естественного отбора
  4. Значение эмбриологических данных для изучения эволюции подчеркивал еще Дарвин
  5. ПРЕДСТАВЛЕНИЯ О СТРУКТУРЕ ТВЕРДЫХ ГОРЮЧИХ ИСКОПАЕМЫХНА ОСНОВАНИИ ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ МЕТОДА ЭПР С. Г. Прохоров
  6. Примеры формирования ценотических систем
  7. Примеры адаптаций
  8. Примеры видообразования
  9. 6-5. Простые примеры применения диатропики
  10. Примеры включения навоза в систему удобрения
  11. Третий пример (пределы точности измерения)
  12. 8-11* Пример связи эмбриологии и палеонтологии
  13. 3.4. Примеры априорного подхода
  14. Второй пример (броуновское движение, диффузия)
  15. Примеры контакта различных биот
  16. Примеры действия естественного отбора
  17. Способы преобразования органов и функций
  18. Суточные ритмы активности на примере рыб
  19. СТРОЕНИЕ ХОРДОВОГО ЖИВОТНОГО НА ПРИМЕРЕ РЫБЫ