spvd.ru
spvd.ru
Павел Селиванов. Статьи, обзоры, заметки

Процессор против электроконфорки, или размышления о будущем охлаждения вычислительной техники

2 декабря 2010 г. RSS 1
Статьи » Разное ,

Несколько недель назад на сайте проекта "Intel IT Galaxy" завершился конкурс "Задай вопрос эксперту НР", были там и три моих вопроса. Хочу поблагодарить Александра Старыгина и Григория Юдина, отвечавших на мои вопросы, а так же других экспертов Hewlett-Packard. Сами вопросы и ответы доступны по этой ссылке, а от себя добавлю, что ответы Григория Юдина подтолкнули меня провести собственное небольшое исследование, с результатами которого я познакомлю вас далее.

Занимательная математика

Возьмём представительницу одного из самых распространённых типов электрических конфорок – конфорку ЭКЧ 180-1,5, диаметр 18 см, максимальная мощность 1,5 кВт. Поделив мощность на площадь рабочей поверхности, получим значение чуть менее 6 Вт/см2.

Теперь заглянем в недавно опубликованный ноябрьский рейтинг Top500 суперкомпьютеров. Семнадцатую строку в нём занимает запущенный в 2009 году один из суперкомпьютеров Московского государственного университета. Суперкомпьютер построен на базе 8840 четырёхядерных процессоров Intel Xeon серии X55xx, выполненных по 45нм технологии, кодовое имя Nehalem-EP. Площадь кристалла Nehalem-EP 263 мм2, TDP у Intel Xeon X5570 до 95 Вт. Аналогичный предыдущему расчёт даёт цифру уже 36 Вт/см2, что в шесть раз больше удельной мощности конфорки электрической кухонной плиты.

Таким образом, мощность, выделяемая на одних только процессорах самого мощного, на данный момент, российского суперкомпьютера в моменты максимальной загрузки эквивалентна более чем 500 одновременно включённым электрическим конфоркам ЭКЧ 180-1,5, всё равно, что в дворике из трёх-четырёх домов (каждый 9 этажей, 6 подъездов) одновременно в каждой квартире решили вскипятить на плите чайник.

Но ведь процессоры далеко не единственные потребители электроэнергии в вычислительной системе, добавим сюда память, систему хранения данных, сеть и т. д. – и получится, что чайники кипятят уже несколько дворов.

Не стоит забывать и об инженерных системах датацентра.

На рисунке представлена типичная картина распределения энергии ЦОД с резервированием 2N и потреблением около 1 МВт, по версии компании APC by Schneider Electric. Обратите внимание, какая доля энергии приходится на собственно ИТ-аппаратуру, и вот уже в нашем сравнении чайники кипятит целый микрорайон. По данным разных исследователей, около двух процентов всей вырабатываемой в мире электроэнергии уже сейчас уходит на нужды вычислительных центров.

Настоящее

В представленной перспективе, полагаю, понятно, что инициативы по "озеленению" вычислений, по контролю энергоэффективности вычислительной техники и её повышению – самая, что ни на есть, насущная необходимость. Что в этом направлении делается уже сейчас, посмотрим на примере Intel, причём в случае Intel появляется возможность взглянуть сразу с двух точек зрения: как потребителя, владеющего собственными центрами обработки данных, и как законодателя мод среди чипмейкеров, ведь не зря считается, что один из источников сложностей проектирования систем охлаждения ЦОД – слабое взаимодействие между разработчиками ИТ-оборудования и инженерами-дизайнерами ЦОД. И те, и другие это понимают, и, хочется надеяться, предпринимают шаги навстречу друг другу.

Снова вернёмся к рейтингу Top500, но на этот раз обратим внимание на занимающий первую строчку (ноябрь 2010) суперкомпьютер Национального суперкомпьютерного центра в Тяньцзине (Китай). Этот суперкомпьютер построен уже на шестиядерных процессорах Intel Xeon X5670, кодовое имя Westmere-EP (справедливости ради отмечу, что в этом суперкомпьютере вычислительные задачи возлагаются не только на процессоры Intel, но также на чипы nVidia Tesla M2050). Процессор Xeon X5670, в отличие от X5570, выполнен уже по 32нм технологии, что позволило, сохранив TDP на уровне 95 Вт, разместить на кристалле уже 1,17 млрд. транзисторов против 731 млн. у X5570, и при этом уменьшить площадь кристалла до 248 мм2, а это, возвращаясь к расчётам в начале статьи, даёт показатель около 38 Вт/см2.

Таким образом, на двух нижних уровнях, компонентов и шасси, налицо две тенденции: с одной стороны, увеличение удельной вычислительной мощности на единицу потребляемой, что радует, и с другой – рост потребляемой мощности на единицу объёма, что в итоге, рано или поздно, наверняка приведёт к изменению подхода в системах отвода тепла от микросхем или требований по рабочим температурам самих микросхем. Но об этом чуть позже.

А пока вернёмся к датацентрам и посмотрим, что происходит на уровне шкафов и всего ЦОД в целом. Примером послужит подход Intel к построению собственных центров обработки данных.

Представленная ниже информация о датацентрах Intel во многом основывается на увиденном мной в одном из ЦОДов Intel собственными глазами, а так же на комментариях Леонида Шишлова, менеджера центра обработки данных Intel, в ходе трёхдневного посещения подразделения Intel в Нижнем Новгороде (с моим очень кратким рассказом об этой поездке можно ознакомиться здесь).

На уровне шкафов и стоек Intel применяет традиционное воздушное охлаждение. Лучшей сложившейся практикой, постепенно внедряющейся в датацентрах Intel, признано применение увеличенных в глубину закрытых сзади шкафов специальной конструкции (на кадре справа, над шкафом хорошо заметен вертикальный воздуховод): холодный воздух, поступающий через решётки фальшпола, забирается с передней стенки, прошедший через аппаратуру нагретый воздух воздуховодом в верхней части шкафа уводится непосредственно за навесной потолок, откуда возвращается к кондиционеру и вновь охлаждённый подаётся под фальшпол. Такая система убивает сразу двух зайцев: во-первых, исключается перемешивание потоков горячего и холодного воздуха, что увеличивает эффективность охлаждения оборудования в каждом отдельном шкафу и, как следствие, увеличивает предел допустимой энергетической нагрузки на стойку, и, во-вторых, отпадает необходимость в выдерживании расстояния между рядами для "горячего" коридора, что позволяет эффективнее использовать площади помещения датацентра.

Из помещения с ИТ-оборудованием ЦОДов Intel тепло отводится чиллерной системой. Однако взгляните ещё раз на схему распределения энергии, представленную в начале статьи – чиллер может потреблять электроэнергию в количестве, сравнимом со всем ИТ-оборудованием датацентра, вместе взятым, а потому внедрение технологий, уменьшающих энергетические затраты на охлаждение – отличный путь повышения энергоэффективности ЦОД в целом. И здесь на помощь приходят различные технологии, известные под общим названием free cooling. Суть проста – зачем тратить энергию на охлаждение, если вокруг и так есть достаточно холодный воздух (или вода)? Одна проблема – непостоянство температуры окружающей среды, что приводит к тому, что сегодняшние технологии free cooling’а наиболее эффективны только в холодное время года, плюс очень сказывается географическое расположение.

Есть ещё один аспект – а нельзя ли генерируемое датацентром тепло не бестолково выбрасывать в атмосферу, а направить на полезные нужды? Можно, и даже нужно – решили в Inlel, и запустили работы по проекту, в котором тепло от центра обработки данных пойдёт на обогрев и хозяйственные нужды здания, в котором располагается ЦОД.

Будущее

Настала очередь самого интересного – а что же дальше, какие изменения в технологиях отвода тепла могут прийти в датацентры в будущем? Вооружимся знаниями о текущих разработках, в том числе в области производства чипов, и попробуем спрогнозировать. В своих предположениях я буду двигаться от уровня всего центра обработки данных и далее, глубже, через стойки, шасси, на уровень компонентов.

На уровне ЦОД одна из основных задач в теме данной статьи – отвести тепло с наименьшими затратами на сам процесс отвода. Лучшее решение здесь – отказаться от энергозатрат на производство холода, например, для чиллерной установки, и довольствоваться разницей температур с внешней средой. Эффективность теплообмена напрямую зависит от градиента температур теплоносителя на выходе и внешней среды. На ум сразу приходят два очевидных решения: размещение датацентров исключительно в холодных регионах и повышение температуры внутри ЦОД. Первое решение затруднительно по множеству причин, не связанных непосредственно с инженерными и ИТ-системами, второе напрямую касается производителей оборудования и компонентов и допустимых температурных режимов работы их продуктов. Работы в этом направлении уже ведутся, например, два года назад организация ASHRAE (American Society of Heating, Refrigerating, and Air-Conditioning Engineers) пересмотрела некоторые стандарты и подняла верхнюю планку рекомендаций допустимых температур воздуха на входе в серверное оборудование до 27˚C, слово за производителями техники. Сравним это с климатической статистикой в моём родном Новосибирске и окрестностях: среднегодовая температура воздуха за последние 10 лет колебалась от 0 до 2˚C, среднее количество дней в году с температурой более 15˚C – около 80, средняя температура воздуха в самом жарком месяце июле за последние 10 лет 18-21˚C (данные Новосибирского центра Всемирной службы погоды). Получается, что увеличив температуру внутри датацентра, появляется возможность использовать free cooling практически круглый год. Итак, первый прогноз: температура в центрах обработки данных будущего станет выше.

Но не всё так просто с подъёмом температуры внутри датацентра. Простой подъём температуры для сохранения той же эффективности теплоотдачи от оборудования на уровне стойки потребует или увеличения площади теплообмена, или скорости движения теплоносителя, или смены теплоносителя на более теплоёмкий. Увеличение площади теплообмена противоречит тенденции по увеличению плотности компоновки элементов, а повышение скорости движения или теплоёмкости (в частности, переход на более плотный теплоноситель, например, от воздуха к воде) теплоносителя потребует дополнительных затрат на его перемещение при той же дистанции. Выход – сократить расстояние, проходимое теплоносителем первого контура. Основываясь на этом, прогноз второй: внутренние системы отвода тепла переедут в непосредственную близость к оборудованию, в стойку, а то и внутрь корпусов. И это уже происходит, достаточно вспомнить такие решения, как межрядные кондиционеры и жидкостный отвод тепла от стоек, корпусов и даже компонентов.

Перечисленные выше технологии в принципе доступны уже сейчас, однако прогресс не стоит на месте, чипмейкеры радуют нас уменьшением топологических норм и всё большей интеграцией функций на кристалл. Про открывающиеся в связи с этим возможности по увеличению плотности компоновки я уже говорил, но есть и побочные эффекты: высокоинтегрированная микросхема с уменьшением техпроцесса становится более подвержена негативному влиянию градиента температур в её толще, образующемуся от разной степени загруженности её функциональных блоков. Кроме того, есть серьёзные основания полагать, что в ближайшие годы мы увидим многослойные чипы – одна из предпосылок к этому хотя-бы то, что с ростом количества функциональных блоков в одной микросхеме существенно усложняется их коммутация между собой (растёт длина проводников, их количество и количество их пересечений). Выход из плоскости снимет данное ограничение. Но представьте себе хотя-бы трёхслойный чип, где каждый слой по тепловыделению эквивалентен упомянутому выше Xeon X5670. От квадратного сантиметра верхней поверхности такого бутерброда понадобилось бы отводить более 100 Вт. Решение проблемы – внутричиповое охлаждение. Работы в этом направлении уже ведутся, причём в нескольких направлениях. Это миниатюризация до уровня чипов достаточно традиционных схем охлаждения с теплоносителем, интеграция с микроканальными теплообменниками, и нетрадиционные методы, вроде поверхностного ионного охладителя. Прогноз третий: в будущем элементы системы отвода тепла от микросхем станут их неотъемлемой частью, интегрируемой на этапе разработки и производства.

Кстати, работы, в которых предлагалось для улучшения охлаждения мощных микросхем применять жидкостное охлаждение, а теплоноситель прокачивать через микроканалы, вытравленные на обратной стороне кристалла, начали публиковаться, наверное, лет тридцать назад. Однако на тот момент не было достаточно эффективной технологии производства каналов в кремнии, например, такой, как DRIE (Deep Reactive Ion Etching, глубокое реактивное ионное травление), да и предел воздушного охлаждения ещё не подступил настолько близко, и воздушные технологии так же активно развивались. Только в последние несколько лет приближение к пределу воздушного охлаждения и появление новых технологий обработки кремния вновь подтолкнули исследования в данной области, а наилучшим найденным пока решением можно считать отдельное изготовление из кремниевой пластины микроканального охладителя и склеивание его с кристаллом будущей микросхемы высокотеплопроводным составом в процессе упаковки. Раздельное изготовление – чтобы не влиять на выход годных чипов, из кремния – применение того же материала простейший способ согласовать коэффициент термического расширения.

И напоследок хотелось бы заглянуть ещё дальше в будущее. Есть ещё один вариант, потенциально позволяющий сделать качественный скачок и сильно упростить существующие системы охлаждения вычислительной техники. Рабочая температура электрической конфорки из начала статьи около 400˚C. Представьте, как изменились бы подходы к охлаждению электроники, если бы материалы, применяющиеся в ней, смогли работать в аналогичном диапазоне температур? И такие материалы уже найдены.

На снимке показан процесс проверки элемента (правда, в данном случае светодиода) на чипе, в основе которого кристалл карборунда (карбида кремния, SiC) в одном из экспериментов NASA. Чип лежит на раскалённой до температуры около 600˚C плите.

Оцените материал: 
twitter.com facebook.com vkontakte.ru odnoklassniki.ru mail.ru ya.ru rutvit.ru myspace.com blogger.com liveinternet.ru livejournal.ru memori.ru google.com yandex.ru
Комментариев: 1
  1. Безымянный | 2011-02-23 в 16:27:16

    Хороший у вас сайт ) Интересные статьи. Может быть профессионалы в сфере ИТ и не оценили бы информации, отраженной здесь, но мне как дилетанту и просто любознательному человеку было приятно почитать. В общем автор пиши ещё )

Оставить комментарий

Отправка комментария без регистрации. Комментарий публикуется после проверки.

Имя и сайт используются только при регистрации

Комментарий с авторизацией. Также можно сразу зарегистрироваться одновременно с первым комментарием. Для регистрации потребуется указать адрес электронной почты и придумать пароль, на электронную почту придет письмо с дальнейшей инструкцией по завершению регистрации. Комментарий публикуется после проверки.

(обязательно)