Бизнес-аналитика. Извлечение, преобразование и загрузка данных | страница 9



Изучаем исходный текст и обнаруживаем один настоящий пробел. Похоже при составлении данной страницы каждый год в таблицу дивидендов добавляли новую строчку. И данные за 2015 год ввели по-другому. Может быть, использовали другой редактор HTML. А, может, просто была плохая погода. Или, наоборот, хорошая. Нас интересует получить числа. А по пути приходится выяснять причины ошибок и справляться с ними.


Рис. 3.31. Третий столбец после удаления NBSP


Задание. Изучите результаты замены для 2015 года.


Задаём поиск и удаление обычного пробела.

Пробел исчезает. Остаются красивые числа.

Изменяем тип данных на числовой.

Теперь в третьем столбце появились числа.

А в пустых ячейках появилось слово NULL. Это не число «ноль». Это «ничего», то есть «данные отсутствуют». Скорее всего, этот столбец добавили в 2013 году. А, может быть, до 2013 года действительно не объявляли размер дивидендов.


Рис. 3.32. Третий столбец — числовые значения


Задание. Удалите пробелы.


Нажимаем кнопку Закрыть редактор и загрузить данные:

Close & Load.

Мы здесь не просто редактировали табличку в Excel.

Мы на самом деле редактировали запрос на извлечение, преобразование и загрузку данных. Когда данные на исходной странице сайта изменятся, наша табличка обновится. И нам не нужно будет ещё раз её редактировать вручную.

Рассмотрим, что же мы загрузили (рис. 3.33).


Рис. 3.33. Результаты загрузки


Задание. Изучите результаты загрузки.


Числа в третьем столбце выводятся в формате с плавающей точкой. То есть 3,0 умножить на десять в тринадцатой степени. Это приятно для программиста, но тяжело воспринимается на глаз.

Зададим формат вывода без дробной части и с разделителями тысяч-миллионов.

Выделяем диапазон числовых значений в третьей колонке.

Вызываем контекстное меню и выбираем форматирование ячеек (рис. 3.34):

Format Cells.

Number — Category — Number — Decimal places — 0.

Дополнительно выбираем пункт с разделителями:

Use 1000 separator (,).

Здесь только один вариант разделителя — запятая.

Результат форматирования нам сразу же показывают в разделе предварительного просмотра

Sample.

Само число можно видеть в строке формул. Здесь число даётся без украшательства.

Теперь у нас числа читаются немного легче. Можно посчитать тройки и выяснить, что речь идёт о миллионах или о чём-то ещё.


Рис. 3.34. Формат числа с разделителями


Задание. Настройте формат вывода длинных чисел на экран.


Обратим внимание, что колонка «Год» получила вещественный числовой тип. Это подчёркивается обозначением 1.2. То есть одна целая и две десятых.