Бизнес-аналитика. Извлечение, преобразование и загрузка данных | страница 9
Изучаем исходный текст и обнаруживаем один настоящий пробел. Похоже при составлении данной страницы каждый год в таблицу дивидендов добавляли новую строчку. И данные за 2015 год ввели по-другому. Может быть, использовали другой редактор HTML. А, может, просто была плохая погода. Или, наоборот, хорошая. Нас интересует получить числа. А по пути приходится выяснять причины ошибок и справляться с ними.
Рис. 3.31. Третий столбец после удаления NBSP
Задание. Изучите результаты замены для 2015 года.
Задаём поиск и удаление обычного пробела.
Пробел исчезает. Остаются красивые числа.
Изменяем тип данных на числовой.
Теперь в третьем столбце появились числа.
А в пустых ячейках появилось слово NULL. Это не число «ноль». Это «ничего», то есть «данные отсутствуют». Скорее всего, этот столбец добавили в 2013 году. А, может быть, до 2013 года действительно не объявляли размер дивидендов.
Рис. 3.32. Третий столбец — числовые значения
Задание. Удалите пробелы.
Нажимаем кнопку Закрыть редактор и загрузить данные:
Close & Load.
Мы здесь не просто редактировали табличку в Excel.
Мы на самом деле редактировали запрос на извлечение, преобразование и загрузку данных. Когда данные на исходной странице сайта изменятся, наша табличка обновится. И нам не нужно будет ещё раз её редактировать вручную.
Рассмотрим, что же мы загрузили (рис. 3.33).
Рис. 3.33. Результаты загрузки
Задание. Изучите результаты загрузки.
Числа в третьем столбце выводятся в формате с плавающей точкой. То есть 3,0 умножить на десять в тринадцатой степени. Это приятно для программиста, но тяжело воспринимается на глаз.
Зададим формат вывода без дробной части и с разделителями тысяч-миллионов.
Выделяем диапазон числовых значений в третьей колонке.
Вызываем контекстное меню и выбираем форматирование ячеек (рис. 3.34):
Format Cells.
Number — Category — Number — Decimal places — 0.
Дополнительно выбираем пункт с разделителями:
Use 1000 separator (,).
Здесь только один вариант разделителя — запятая.
Результат форматирования нам сразу же показывают в разделе предварительного просмотра
Sample.
Само число можно видеть в строке формул. Здесь число даётся без украшательства.
Теперь у нас числа читаются немного легче. Можно посчитать тройки и выяснить, что речь идёт о миллионах или о чём-то ещё.
Рис. 3.34. Формат числа с разделителями
Задание. Настройте формат вывода длинных чисел на экран.
Обратим внимание, что колонка «Год» получила вещественный числовой тип. Это подчёркивается обозначением 1.2. То есть одна целая и две десятых.