Как стать автором
Обновить

Как найти чужое мыло

Время на прочтение 19 мин
Количество просмотров 85K
image
Руководство содержит описание поиска личных и корпоративных email различными методами с использованием специальных сервисов и поисковых систем. Включает практические примеры поиска email и рекомендации для начинающих.

1. Общие сведения о корпоративных и личных email


Теоретически электронные адреса (email) можно разделить на email сайтов и личные.
1. Email сайтов — «безличностные» электронные адреса сайтов, традиционно привязанные к домену сайта. Существуют сложившиеся правила, по которым они создаются:
  • info domen.com — основной email сайта
  • sales domen.com – отдел продаж
  • editorial domen.com, editor domen.com – редактор
  • webmaster domen.com — вебмастер
  • feedback domen.com, contact domen.com — email для связи
  • support domen.com — служба поддержки
  • subscribe domen.com — технический email исключительно для подписки на новости, обновления и т.д.
  • custserv domen.com, customerservice domen.com – служба заказов товаров или услуг
  • admissions@, library@, registrary@, enquiries@ — типичные составляющие email университетов и колледжей (например, http://www.cam.ac.uk/global/contact.html)

Примеры использования форматов корпоративных email — в приложении 2.
Соотношение различных форматов корпоративных email за период развития интернета существенно поменялось.
Основное изменение- это резкое увеличение (почти в 4 раза) числа email, которые привязаны к домену, но имеют не стандартный формат, за счет снижения фактически всех остальных. Больше чем на 60 % уменьшилось число email формата feedback@, admin@ и webmaster@. Эти изменения тесно связаны с развитием самого интернета. Первое и самое главное- это доступность в создании и размещении сайтов. Так, создать и поддерживать небольшой сайт сейчас может даже школьник или домработница, а для размещения есть большой выбор не дорогих и бесплатных хостингов. К тому же использование стандартных форматов email в разы увеличивает вероятность попадания его спамерам.
Email формата editor@ потерял свои позиции меньше других (27%) за счет того, что большое развитие в сети получили электронные средства массовой информации.
Коммерческие структуры также все больше входят в интернет, создавая сайты для преставления своих организаций в сети и продажи товаров и услуг. Доля таких email возросла на 19%.
Представленные статистические данные собраны по базе 54000 корпоративных email. Погрешность составляет 5%. Подробная таблица — в приложении 1.
image
На сайтах, которые поддерживает постоянная группа людей, создаются личные email, привязанные к домену. Доля именных email сократилась на 28%, но по-прежнему составляет почти пятую часть всех корпоративных email. Это связано скорее с удобством в создании таких форматов, особенно в организациях с большим числом сотрудников.
image
2. Личный email чаще всего привязан к почтовым службам поисковых систем и связан с именем и фамилией владельца. Например, стандартный вид личного email на gmail.com — username@gmail.com.
Наиболее крупными являются три почтовых сервиса: gmail.com, yahoo.com, hotmail.com. Согласно статистическим данным, cоотношение количества размещенных на сайтах email этих почтовых служб за эти годы существенно не поменялось. Данные собраны по базе 4500 контакных email, погрешность составляет 5%.
image
Поиск email сайтов и личных email имеет свои особенности.

2. Поиск email сайтов


Искать email сайтов можно тремя методами:
  • На страницах сайта
  • По сервису Who is
  • С помощью поисковых запросов

В таблице приведены примерное соотношение этих методов в случайной выборке сайтов различной тематики и параметров. Поиск начинался со страниц сайта, затем по сервису Who is, затем с помощью поисковых запросов. Это оптимальная схема, позволяющая сократить время поиска. В среднем на поиск email по поисковым запросам требуется в 2-3 раза больше времени, чем время для просмотра нужных страниц сайта.
Где найдены email % %
На страницах сайта 62
из них:
на страницах «Home», «Contact», «About», «Feedback» 61
на странице «Privacy Policy» 16
на других страницах («Terms of Use», «Media», «Event») 23
Через сервис www.who.is (не технические) 20
справочно:
«хорошие»- корпоративные или личные email владельца 67
«плохие»- технические (hostmaster@, dns@) 23
С помощью поисковых запросов 16
из них:
с помощью стандартных поисковых запросов вида domen.com email, site:domen.com intext: domen.com, site:domen.com intext:@ 8
с помощью сложных запросов (анализ информации на сайте, поиск по владельцу и участникам проекта) 8
Не были найдены (не обновляемые более 8 лет сайты на поддеменах, хозяина которых установить не удалось) 2

Рассмотрим подробнее каждый из них методов.

2.1. Поиск по сайту

Поиск email начинается с поиска на страницах сайта. Чаще всего email размещают на страницах «Home», «Contact», «About», «Feedback», «Privacy Policy». К контактам, размещенным на странице «Privacy Policy» следует отнестись осторожно, т.к. на них могут использовать технические email (например, copyright@, copyrightagent@, privacy@).
Чаще всего контакты на страницах сайтов можно найти
  • на новостных сайтах- 94%
  • на сайтах организаций и предприятий- 84%
  • на сайтах небольших коммерческих организаций, предоставляющих услуги- 86%
  • сайтов университетов, колледжей и госструктур- 100%

На личных, информационно-образовательных и сайтах интернет магазинов email размещают в среднем в 50%. В остальных случаях предлагают связь через контактную форму.
В среднем поиск на страницах сайта занимает 1-2 минуты.
Для упрощения поиска удобно использовать функцию «поиск» для браузера. Вызывается она горячими клавишами Ctrl + F (подробнее о горячих клавишах для различных операционных систем на http://en.wikipedia.org/wiki/Table_of_keyboard_shortcuts -« Go to find»). Если в появившееся окошко поиска вставить символ @, то браузер покажет все имеющиеся символы на странице.
Однако в среднем в 10-15% случаев это не работает потому, что владельцы сайтов не размещают такую информацию открыто, защищая свои контакты от попадания в спамерские списки. Роботы, собирающие email со страниц сайтов, ориентируются на символ @ и на часть кода, содержащую ссылку на email вида <a href=«mailto:...>. Поэтому владельцы сайтов прибегают к хитростям, размещая email закодированным.
Размещенные на страницах email в среднем в 10% защищены различными способами:
  • с помощью скрипта- 60%
  • кодировкой – 20%
  • другими способами- 20%

Сложный скрипт, разбивающий email в коде страницы на части, считается одним из надежных способов защиты от спамроботов. На странице такой email сложно заметить сразу, т.к. он бывает скрыт под фамилией, словом «Email», картинкой, по которой пользователь должен догадаться, что искать нужно именно здесь (чаще всего виде конверта). Если email обнаружен, нужно нажать правой мышью по ссылке, в появившемся окне выбрать «Копировать электронный адрес» (Copy email address) и вставить найденный email в любой текстовый документ.
image

2.1.1. Закодированные email


Замена основных символов email «@» и «.» — один из распространенных способов кодировки. Таким образом закодировано около 8% от размещенных на сайтах email. Например, email такого вида:
westra at mso dot anu dot edu dot au после замены at на @ и dot на. (точка)
приобретает стандартный вид westra@mso.anu.edu.au.

Варианты могут быть самыми различными, например, ej*AT*eviljeff-DOT-com – ej@eviljeff.com.
Другой вариант кодировки- содержащаяся в email часть текста, которую следует удалить. Например, в meREMOVE@mydomain.com следует удалить REMOVE. Аналогично email me@NOSPAM.mydomain.com, me@SPAM.mydomain.com, me@Delite_This.mydomain.com содержат части, которые следует удалить.
Стремление уберечься от спама породило различные сочетания этих способов, доходящие до порой до абсурда.
henderso [the-at-symb] cs.columbia.edu
»holly.hsb(at) (attempting to alleviate spam) highoctavehealing.com"
datafriend @ gmail-.-com
venomdoc666[change this to @]gmail[insert period here]com
queries ((that little «at» thingie)) theoldentimes ((the dot thingie)) com
webmaster[~at~]ediblelandscaping.com
info{@}ediblelandscaping.com
breadbox [whirlpool] muppetlabs [spot] com
PhrozenSmoke ['at'] yahoo.com
thomas (a t) crampton dot com
business[attherateof]a2zknowledgevisuals[dot]com
webmaster (at) geeknativ + e (dot) co +m
b-s (@t) noonanco.com
i-n-f-o- @-p-e-t-r-i-s-.-c-o-m
miyata[atmark]med.tohoku.ac.jp
«Зашифрованные» email в таком виде могут индексироваться поисковыми системами. Например, в поисковой выдаче Google baris@barisderin.com нет, а baris (at) barisderin.com – есть. Это можно использовать при поиске email через поисковые системы.
image

2.1.2. Размещение email в виде картинки

В виде картинки на сайтах размещено около 3% email. В этом случае email может не отображаться в выдаче поисковых систем.
image
Email в виде картинки обычно размещают на контактных страницах. Этот способ используют не только владельцы небольших сайтов, но и достаточно крупные сайты, которые скрывают контактную информацию не от пользователей, а от спамерских роботов. Такие email невозможно скопировать со страницы в текстовом формате, их можно переписать только вручную.
image
Иногда картинкой скрывают не весь email, а только символ @. Например, на странице http://www.cse.scitech.ac.uk/database/staff.jsp?forename=john&surname=purton. В этом случае нужно быть внимательным при копировании, т.к. email переносится без символа @ (в примере- john.purtonstfc.ac.uk).
image
Следующие способы кодировки используются крупными специализированными сайтами или сообществами с большим количеством участников для кодировки личных email, расположенных на сайте.

2.1.3. Кодировка вида firstname.lastname domen.com

Запись email в виде firstname.lastname domen.com. В этом случае firstname надо заменить именем, а lastname — фамилией.
image
В данном примере email Martinа Prochazka будет выглядеть как a-Martin.Prochazka@casualconnect.org.

2.1.4. Кодировка с помощью капчи

На сайтах программистов часто используется другой метод кодировки, когда часть email можно прочитать только после введения капчи.
image
Аналогичный метод используется и на web.archiveorange.com/archive/v/vz5lXpiL0zTcQnLEJcMq.
Иногда разработчики скрывают email в недоступных обычному пользователю местах- на страницах, запрещенных к сканированию поисковыми системами, или в служебных файлах robots.txt. Подобные ситуации крайне редкие -не более 1% случаев. Например, http://www.facebook.com/robots.txt.

2.2. Поиск с помощью поисковых запросов

Иногда владелец сайта размещает контакты на «нетипичных» страницах. В этом случае воспользуемся поиском с помощью поисковых запросов.
Остановимся на некоторых правилах составления поисковых запросов.
Для поиска email сайта обычно используют запросы двух типов.
  1. domen.com email – в выдаче будут страницы сайтов, на которых встречается сочетание домена и email.
  2. site:domen.com intext: domen.com – поисковой запрос, который составлен с использованием операторов Google. «site», «intext»- операторы, «domen.com», « domen.com»- ключевые слова. Между оператором и ключевым словом ставится двоеточие без пробела. Поиск будет ограничен страницами указанного домен, содержащими конкретный запрос, в нашем случае — domen.com, т.е. часть корпоративного email.

Рассмотрим на примере сайта http://www.newzoo.org/.
На главной и на странице «О нас» email нет. Составим запрос для Google site:newzoo.org intext:@newzoo.org
В выдаче поиска есть один емейл volunteer@newzoo.org, который размещен на внутренних страницах сайта.
В выдаче по второму запросу newzoo.org email мы нашли еще один, более предпочтительный email info@newzoo.org. Второй запрос в этом случае дал лучший результат. Поиск происходил по всей сети, а не только на страницах самого сайта.
Поиск с помощью поисковых запросов является основным и для поиска личных email. Нужно понимать, что единого универсального рецепта нет, и для каждой конкретной ситуации можно составить запрос, отвечающий ей. Ниже будут рассмотрены подобные примеры.

2.3. Поиск по сервису Who is

Иногда владелец вообще не размещает email на страницах сайта, а использует для связи контактную форму или ссылки на социальные сети. В 48% случаев email можно найти на сервисе www.who.is.
image
Существуют аналогичные сервисы, представляющие данные о владельце сайта, например, http://www.showsiteinfo.appspot.com/, http://websitetrafficestimator.com/. Однако здесь есть свои подводные камни. Адреса вида hostmaster@; domain_administrators@; dnsadmin@; domainadmin@; @domainactive.com; @domainbank.com; @domaindiscreet.com; @domainsbyproxy.com; @whoisguard.com; @whoisprivacyprotect.com являются техническими. В среднем, из собранных через этот сервис email, около 30% оказываются не пригодными для связи.
Если вам предстоит поиск большого количества электронных адресов, есть смысл установить плагин для браузера Google Chrome SEO Site Tools. На вкладке Server / Domain Info можно посмотреть нужную информацию не переходя на сам сайт сервиса.
image

2.4. Поиск по сервису email-format.com

Для поиска корпоративных email американских компаний можно использовать сервис email-format.com. По заверению владельцев, он содержит большую базу. Сервис имеет понятный интерфейс. Искать можно с помощью окна поиска или выбрав нужную организацию в размещенном в алфавитном порядке списке.

Например, для
  • www.olivetti.com (http://email-format.com/d/olivetti.com/)- найдено 8 личных email;
  • www.omejo.com (http://email-format.com/d/omejo.com/) — корпоративный email. Его нет на указанной странице, но проверка через Google показывает, что email действительный;
  • www.olympus-europa.com (http://email-format.com/d/olympus-europa.com/) – более 30 личных и корпоративных email.


3. Поиск личных email


3.1. Поиск личных email по сервисам

Любой пользователь интернета имеет личный email, а иногда и не один. Для облегчения поиска существуют несколько сервисов: http://people.yahoo.com/, http://about.me/search/, http://www.spokeo.com/, http://www.123people.com/, http://www.yasni.com/, http://peoplesearch.whowhere.com/people/, http://www.iaf.net/, http://www.four11.com/, http://www.lookup.com/. Эти сервисы имеют различные поисковые алгоритмы. Но для пользователя принцип поиска у всех одинаковый — надо ввести в поисковое поле имя и фамилию и искать в результатах нужного человека.
image
С нашей точки зрения эти сервисы имеют ряд недостатков:
  • Больше предназначены для поиска людей, а не email
  • Содержат большое количество однофамильцев
  • Для адекватного поиска необходимо знать много дополнительных данные о человеке- место проживания, возраст, телефон и т.д.

По этим причинам этими сервисами удобно пользоваться только для поиска email «обычных» пользователей сети.
Поиск email владельцев сайтов, членов различных сообществ, блогеров, редакторов, научных деятелей, людей, которые создают и наполняют сеть, имеет свои особенности.

3.2. Поиск редакторов сайтов

Чем крупнее сайт, тем больше человек над ним работает, тем больше контактов потенциально на нем расположено. Достаточно крупные сайты пользуются услугами своих редакторов, их координаты можно найти на страницах «О нас» или «Сотрудники» (Editorial Staff, Editorial Board, Editor Staff). В этом случае email авторов-редакторов могут быть как на самой с странице, так и на страницах- профилях (Editorial Staff, Editorial Board, Editor Staff). Например, контакты редакторов научного журнала сельского хозяйства департамента США (U.S. Department of Agriculture's science magazine ) расположены на странице http://www.ars.usda.gov/is/AR/edstaff.htm.
На странице http://governor.wy.gov/staff/Pages/default.aspx визуально email не видно. Не показывает их и поиск при помощи функции поиска браузера с символом @. Но при наведении мышки на фамилию стрелка активируется. На этой странице email прописаны, но защищены скриптом. Нужно нажать правой мышью по ссылке (Имени и Фамилии), в появившемся окне выбрать «Копировать электронный адрес» (Copy email address) и вставить найденный email в любой текстовый документ.
http://img853.imageshack.us/img853/2856/bookofemails13.jpg
Если на редакционной странице email не прописаны, можно попробовать их найти при помощи поисковых запросов. Например, редактора журнала American School Board Journal имеют свою персональную страницу http://www.asbj.com/FooterCategory/EditorialStaff, но прямой контакт не указан. Попробуем найти контакт Kathleen Vail. Поисковый запрос site:asbj.com intext:@asbj.com желаемого email не выдает, а запрос Kathleen Vail@asbj.com на второй странице выдал нужную информацию «Kathleen Vail (kvail@nsba.org) is managing editor of American School Board Journal».

3.3. Поиск авторов, журналистов, копирайтеров, фрилансеров, обозревателей

Достаточно часто сайты публикуют статьи не только своих сотрудников, но и журналистов, копирайтеров, фрилансеров, обозревателей. Поиск email этих авторов во многом зависит от того, какую информацию сайт размещает об авторе статьи. Обычно это фотография, краткая биография, ссылки на наиболее популярные социальные сети, ссылка на личный сайт и email для связи (в различных комбинациях).
Научно-популярный журнал http://www.wired.com/ публикует авторские статьи, и размещает их контактный email сразу рядом с фамилией автора. Надо лишь нажать правой кнопкой мышки на иконку и скопировать электронный адрес (как было описано выше). В среднем, контактный email размещается рядом со статьей автора в 7% случаев.
image

3.4. Поиск с помощью социальных сетей

Самые популярные социальные сети, на которых есть профили авторов- Twitter, Google+, Facebook и Linkedin.
image
Информация на Twitter лаконичная. Журналисты, копирайтеры и фрилансеры в 93% случаев размещают на странице ссылку на личный блог и в 3% — контактный email. На личных блогах контактный email можно найти в 69% случаев. Twit-имя (никнэйм) является «визитной карточкой» автора, поэтому 8% случаев его используют для создания email.
Например, Fred Sauer имеет Twit-имя fredsa (http://twitter.com/#!/fredsa) и email fredsa@google.com. Это, конечно, работает далеко не во всех случаях, но если информации мало, то стоит попробовать. Правильность email можно проверить по запросу Fred Sauer fredsa@google.com.
На Google+ и Facebook email тоже размещают не часто (около 1%). Полезными могут быть ссылки на личные блоги и сайты, где автор публикует свои статьи (Google+ — социальная сеть, особенно любимая копирайтерами).
Linkedin — профессиональная социальная сеть. Актуальную информацию о профессии, месте работы и месте проживания можно использовать для составления поисковых запросов.
Например, Abe Olandres – автор статьи на http://www.blogherald.com/2007/01/14/has-google-forgotten-all-about-measuremap/. Никаких данных о нем на сайте нет. Составим запрос, содержащий имя, фамилию и домен сайта abe olandres blogherald.com linkedin. Первым в выдаче будет http://ph.linkedin.com/in/abeolandres.
image
Abe Olandres – бывший редактор blogherald.com, а сейчас он издатель Yugatech.com. На сайте можно найти его email- abeolandres@gmail.com.

3.5. Поиск по обзорной биографии

Иногда об авторе статьи есть только короткая биография. Опыт показывает, что автор, публикуя свои статьи на различных сайтах, размещают одинаковую биографию. Можно попробовать использовать это для поиска других сайтов, на которых публикуется автор, личного сайта или другой полезной информации.
Например, Hance Haney опубликовал свою статью на сайте http://techliberation.com/2009/02/03/republican-nominees-for-fcc/. Ссылок на социальные сети и другой информации кроме краткой биографии нет. Попробуем скопировать первую строчку и, заключив ее в кавычки, использовать как поисковый запрос. Первым в выдаче будет страница http://www.discovery.org/p/204, но email на ней нет. Составим запрос Hance Haney@discovery.org. На второй странице находим нужный email.
image

3.6. Альтернативные способы поиска email

Есть еще ряд способов облегчить и ускорить поиск email. Они не гарантируют 100 % результат, но заслуживают внимания.
  • Поиск по «профессии»

Люди различных профессий часто объединяются в профессиональные социальные сети и проекты. Например, мы ищем email Chris Schiffner, хозяина сайта http://www.schiffner.com/. Его деятельность связана с технологиями и программированием. Поиск email всеми вышеописанными способами результата не дал. В проекте https://github.com участвуют многие программисты США, они участвуют в обсуждениях программ, и многие имеют там личные профили. Поиск по сайту профиля Chris Schiffner не нашел, но показал проекты, в которых он принимал участие. В одном из них есть нужный email (имя, фамилия и доменное имя сайта совпадают).
image
  • Поиск по «месту работы»

По опыту этот метод хорошо использовать для поиска контактов людей, работающих в университетах и лабораториях. Например, на странице http://www.ed.ac.uk/schools-departments/biology/people?option=inst&inst=1&cw_xml=menu.php есть все координаты сотрудников. Если же вы знаете только имя, фамилию и название университета, то можно составить поисковый запрос, например, lara crossland edinburgh email.
  • Поиск по принципу «подобия»

Обычно крупные фирмы и компании используют одинаковый подход в создании личных email сотрудников. Например, vineeta.durani@us.ibm.com – типичный email работника компании IBM. Поэтому если есть необходимость найти email человека, который работает в данной компании, можно подставить имя и фамилию в email и использовать его как запрос в Google. Если все верно, он отразится в выдаче. Однако практика показывает, что отсутствие email в поисковой выдаче не означает того, что его нет. Он может быть размещен на страницах, которые закрыты от индексации, или вообще не размещен в сети. В этом случае можно проверить такой email на валидность через он-лайн сервис.
Также для облегчения поиска можно использовать запрос вида «email**domen.com» или «name**domen.com». Поисковая выдача по первому запросу покажет какие корпоративные email есть на сайте и в сети, а также, соответственно, облегчит поиск принятого формата email для данного сайта. Второй запрос- есть ли сочетание имени-фамилии с доменом. Запрос можно менять, увеличивая количество «звездочек»: «email***domen.com», «email****domen.com».
Например, email Lia P Davis, работающей в компании IBM, легко найти по запросу «Lia P Davis**ibm.com», email Chris Ramsdale, работающего в Google- по запросу «Chris Ramsdale**google.com».
image
  • Поиск по фото

Сервис http://www.tineye.com/ позволяет найти одинаковые изображения на различных сайтах. Удобно установить плагин для браузера Google Chrome TinEye Reverse Image Search. По щелчку правой кнопкой мыши по фото можно перейти на сервис и увидеть, есть ли в сети еще такие фото.
Например, на сайте http://www.blogherald.com/author/david/ информация об авторе David Krug скудная и неверная (возможно, устаревшая). Использование плагина приведет на страницу контакта личного сайта автора.
image

4. Примеры поиска email


К описанным выше методам поиска email стоит относиться скорее не как к правилам, а как к набору инструментов. Если email не найден сразу, надо быть готовым проявить смекалку, внимательность и умение составлять поисковые запросы в каждом отдельном случае.

1. Paul Bloom написал статью для http://www.huffingtonpost.com/paul-bloom/how-green-is-your-smartphone_b_1123205.html?ref=technology Paul Bloom. Вкладка «биография» содержит только фразу «CTO Telecom Research, IBM».
Составим поисковый запрос, используя эти данные: Paul Bloom CTO Telecom Research IBM email
image
В выдаче поиска есть email (можно проверить, перейдя по ссылке), и фраза «CTO Telecom Research, IBM» является подтверждением того, что email принадлежит именно этому человеку.
2. Daniel Lim пишет обзоры для http://www.slashgear.com/new-lenses-from-sigma-50-150mm-and-70-200mm-038813/. На сайте есть только краткая информация на странице http://www.slashgear.com/about/. Составить запрос: Daniel Lim slashgear.com email.
image
Email в выдаче нет, но первая страница поисковой выдачи- презентационная статья об авторе http://www.slashgear.com/introducing-our-photo-genius-daniel-lim-052333/ на нашем сайте. В этой статье есть ссылка на личный сайт автора с контактным email.
3. Необходимо найти автора Deck Hazen, публикующего новости на http://mintywhite.com/author/deck/ и владельца личного сайта http://www.hazen.co.nz/.
  • Поиск по личному сайту http://www.hazen.co.nz/ результата не дал
  • Запрос: site:hazen.co.nz intext:@hazen.co.nz результата не дал
  • Поиск по http://www.who.is/website-information/hazen.co.nz/ показывает deck@hazen.co.nz как емейл владельца сайта
  • Для проверки составим еще один запрос: Deck Hazen hazen.co.nz emailПример поиска автора статьи

image
В выдаче последнего запроса мы нашли личный email deck.hazen@gmail.com

4. Необходимо найти автора Antonella Napolitano, которая публикует статьи на http://techpresident.com/blogs/antonella-napolitano.
  • http://techpresident.com/blogs/antonella-napolitano -на странице информации об авторе нет.
  • Проверим возможность ее участия в редакционном составе. Перейдем на страницу «About us» http://personaldemocracy.com/node/21444 (на другой домен нас перебросило автоматически- значит над этими сайтами работает один редакционный состав).
  • Antonella Napolitano работает редактором (Europe Editor), но email нет. Есть ссылка на личный блог http://svaroschi.blogspot.com/.
  • Перейдем на личный блог. На странице есть скрытый скриптом email. Правой кнопкой мыши копируем anapolitano@gmail.com и переносим в текстовый документ.

image
5. Статья Ryan E. Smith опубликована на сайте http://people.uis.edu/rschr1/et/?p=2909. Разберем пошагово поиск его контактного email:
  • На странице сайте есть ссылка, откуда статья перепечатана. http://www.jewishjournal.com/education/article/using_laptops_offers_lessons_in_ethics_of_technology_20110817/ Перейдем на сайт первоисточника.
  • Об авторе рядом со статьей нет никакой информации. Можно предположить, что он является сотрудником сайта (редактором). Проверим это. Перейдем на страницу «Контактов» http://www.jewishjournal.com/newspaper/contact_us/. Чтобы ускорить поиск воспользуемся функцией поиска браузера и внесем в поисковое окно Ryan E. Smith. Поиск результата не дал.
  • Проверим страницу http://www.jewishjournal.com/current_edition/, также воспользовавшись поиском браузера. На странице есть статья автора, его локализация (Los Angeles) и активная ссылка на самого автора. Перейдем по ссылке на страницу http://www.jewishjournal.com/about/author/68157/
  • На странице автора также никаких данных. Перейдем к поиску через поисковые запросы.
  • Составим запрос из имени, фамилии и сайта, на котором есть его публикации: Ryan E. Smith jewishjournal.com email.В выдаче email нет.
  • Просмотр страниц из выдачи показывает, что его статьи перепечатывают со ссылкой на источник без дополнительной информации.
  • Попробуем использовать в запросе место локализации- Los Angeles: Ryan E. Smith jewishjournal.com Los Angeles email. В выдаче email нет.
  • Другой информации об авторк у нас нет, попробуем изменять запрос:
  • Ryan E.Smith jewishjournal.com Los Angeles email
  • Ryan E.Smith jewishjournal.com Los Angeles
  • RyanE.Smith jewishjournal.com Los Angeles — этот вариант (без пробелов в имени и фамилии в выдаче дал ссылку на http://twitter.com/readryansmith с описанием, в которм выделены наши ключевые слова поиска:«Sign up for Twitter to follow Ryan Smith (@ReadRyanSmith).… as matzah ball soup, and they've got a restaurant riding on it. jewishjournal.com/food/article/s…… NameRyan Smith; Location Greater Los Angeles; Web www.readry. ...»
  • Перейдем по ссылке http://twitter.com/readryansmith, а затем на личный сайт, указанный там http://www.readryansmith.com/.
  • На странице «Resume» есть информация, что он действительно пишет для The Jewish Journal of Greater Los Angeles, Los Angeles (2010-present)
  • На странице «About Me» есть контактный email.
  • Скопируем его правой кнопкой мыши и вставим в страницу- rysmith@bex.net. Email не совпадает с указанным на странице, поэтому скопируем его со страницы простым выделением- rysmith3@yahoo.com.
  • Проверим оба email валидатором, например http://www.validateemailaddress.org/. rysmith@bex.net- «плохой» email, видимо оставлен автором для защиты от спама. rysmith3@yahoo.com- валидный.


5. Синтаксис email: стандарты, ошибки при сборе и валидация


Основные правила синтаксиса email прописаны в интернет стандартах — (STD) (http://www.apps.ietf.org/rfc/stdlist.html).
Email состоит из 2 частей:
  • до символа @- имя пользователя. Имя пользователя может содержать строчные и прописные латинские буквы, цифры и различные символы (!#$%&'*+-/=?^_`{|}~). Email, в которых используется латинский алфавит с диакритическими знаками (французский, сербский, польский другие языки), а также иероглифы и кириллица, не будут работать со многими почтовыми серверами нынешнего поколения.

image
  • после символа @- доменная зона. Она не может содержать никаких других символов кроме точки. Подробнее http://en.wikipedia.org/wiki/Email_address.

Отдельно хочется остановиться на email с символом +. Он служит для создания «разовых» email. К существующему основному email вида username domen.com можно добавлять с символом + различные слова (в качестве тегов), описывающие определенное направление или вид деятельности — для офиса, работы, проекта, форума и т.д. Например, username+office domen.com, username+work domen.com, username+forum domen.com.
image
Это позволяет легче сортировать почту по виду деятельности и следить за источником спама. Широкое распространение такие email получили среди программистов.
image
Для получения основного email достаточно удалить часть с символом +, в нашем примере — joshgeenen@gmail.com. Некоторые почтовые сервисы и сайты не поддерживают такие email. Подробнее об использовании “разовых” email, возможностях и проблемах можно прочитать на сайте Университета штата Пенсильвания (http://css.its.psu.edu/news/nlsp05/emailplus.html).
При сборе большого количества данных число email с синтаксическими ошибками составляет 2-5%. Рассмотрим типичные ошибки.
  • Пробел внутри email. Данная ошибка обычно возникает при замене символов и знаков в закодированных email (at на @, dot на .). Пробелы до и после email синтаксической ошибкой не является, но составляет проблему при проверке на дубли в большой базе email. Проверить и удалить на пробелы легко в таблице Google Docs (https://docs.google.com):

  1. выделить колонку с email;
  2. выбрать “Формат”;
  3. выбрать “Условное форматирование”;
  4. «Текст содержит» указать пробел, в поле «Фон» выбрать цвет красный (или любой другой);
  5. «Сохранить правила»;
  6. В результате все email, содержащие пробелы, будут выделены красным фоном. После исправления фон исчезнет. Аналогично можно добавлять и другие правила, например, “плохие” части email (hostmaster@; domain_administrators@; dnsadmin@; domainadmin@; @domainactive.com).

image
  • Различные символы в конце или начале email (,.; ‘). Эта ошибка возникает чаще всего при копировании методом выделения email мышкой, когда “захватывается” лишняя часть теста. Например, “envirovet@vetmed.illinois.edu;”, “jwalton@stlzoo.org.” На эти символы (за исключением точки) можно также создать правила в Google Docs.
  • Расположенные подряд две точки(..). Ошибка обычно возникает при ручном наборе email.
  • Пропущен символ @. Ошибка возникает при копировании email (когда под картинкой прячут не весь email целиком, а только символ @).

Для проверки email на ошибки существует много он-лайн сервисов. Они проверяют не только на синтаксические ошибки, но и на существования самого email. Например, http://www.validateemailaddress.org/, http://verify-email.org/, http://www.ip-address.org/verify/email-checker.php и др. Однако относиться к ним нужно осторожно, т.к. различные сервисы не всегда выдают одинаковый результат. Так, например, сервис http://verify-email.org/ email со знаком + в имени пользователя (joshgeenen+amo@gmail.com) определяет как невалидный, а два других — как валидный.

6. Практические советы, сокращающие время поиска


  1. Используйте функцию поиска браузера (горячие клавиши Ctrl + F) с символом @, просматривая результат выдачи Google. Это помогает быстрее увидеть имеющиеся на странице электронные адреса.
  2. Опыт показывает, что если email не найден на первых пяти страницах поисковой выдачи, то дальше искать нет смысла, а следует использовать другой запрос.
  3. Для проверки email удобно заключить его в кавычки. Поисковая выдача будет содержать только те страницы, на которых он есть.
  4. Экспериментируйте с поисковыми запросами, сочетая фамилию и имя со страной проживания, никнеймом, местом работы, т.е. любыми данными, которыми вы располагаете.


7. Приложение



1. Форматы корпоративных email за 1992 — 2011 г.г.
image
2. Примеры использования форматов корпоративных email
image
image
image
image
image
image
image
image
image

Перевод с английского яз., источник: webhostinggeeks.com
Брошюра в PDFке: Book of Emails
Теги:
Хабы:
+35
Комментарии 17
Комментарии Комментарии 17

Публикации

Истории

Ближайшие события

Московский туристический хакатон
Дата 23 марта – 7 апреля
Место
Москва Онлайн
Геймтон «DatsEdenSpace» от DatsTeam
Дата 5 – 6 апреля
Время 17:00 – 20:00
Место
Онлайн