Pull to refresh
60
0
Александр @S2nek

User

Send message

multi_get — качаем сайты оптом

Reading time 4 min
Views 1.7K
Топик будет интересен тем, кто хочет индексировать Интернет-сайты на предельных скоростях (самодельные поисковики, анализы частоты слов, сервисы по анализу html'я и т.п.) Threading тут не дает предельных скоростей, urllib — тем более… Решение здесь в использовании асинхронных запросов из libcurl.

Скорость?
На 500MHZ (очень-очень слабенький VPS) — около 100 URLов в секунду (100 соединений, 2 процесса).
На Amazon EC2 «High-CPU Medium Instance» (.2$/час) ~ 1200 URLов в секунду (300 соединений, 5 одновременных процессов). В один процесс до 660 URLов в секунду.

Для выкачивания множества сайтов и дальнейшей обработки, хочу поделиться одной своей полезной функцией — multi_get — по сути она — удобный wrapper для CurlMulti (libcurl), модифицированный из их примера CurlMulti.

>>> urls = ['http://google.com/', 'http://statcounter.com/']
>>> res = {}
>>> multi_get(res, urls, num_conn = 30, timeout = 5, percentile = 95)
>>> res['http://google.com/']
'<html><title>Google....
# тут обрабатываем res, который содержит HTML всех для URL'ок
Читать дальше →
Total votes 16: ↑14 and ↓2 +12
Comments 11

Бизнес-Веб в примерах

Reading time 1 min
Views 1.3K
В прошлой серии была предложена классификация B2C и C2B коммуникаций. Продолжая тему, хочу проиллюстрировать эту систему англоязычными примерами:
B2C | Бизнес обращается к потребителям:
C2B | Потребители ищут и выбирают бизнесы/продукты

Вопросы
  1. Какие проекты и направления незаслужено забыты?
  2. Насколько реально, по вашему мнению, представить единый интерфейс доступа ко всем C2B инструментам для потребителя?
  3. Насколько реально представить единый интерфейс доступа ко всем B2C инструментам для бизнеса?
Total votes 22: ↑21 and ↓1 +20
Comments 20

Интернет магазин — 15000 евро за первый месяц

Reading time 6 min
Views 90K
В народе есть известная поговорка „Первый Блин Комом“, чего не могу сказать о своём свежем опыте интернет торговли. Скорее всего, это просто исключение подтверждающее правило, но, тем не менее, хочется рассказать о тех небольших выводах, что я сделал за последний месяц.

Итак, небольшая история о том, как можно довольно легко заработать за один месяц минимум 15 000 евро.

Мой профессиональный род деятельности — веб-разработка. Занимаюсь R&D в одной небольшой IT компании, пишу «навороченные» приложения для корпоративных интранетов и, в принципе, на жизнь не жалуюсь. Конечно, при таком раскладе хочется параллельно вести какой-нибудь интересный проект, чем неоднократно занимался в мире Open Source. Со временем, правда, захотелось на побочных проектах так же как-то зарабатывать, что с Open Source оказалось не так просто, как может показаться из статей на Хабре :) Потому и решил попробовать для себя что-то принципиально новое — открыть интернет магазин.

Читать дальше →
Total votes 517: ↑493 and ↓24 +469
Comments 389

Взлом каптчи файлообменника

Reading time 9 min
Views 44K

Введение



В данной статье коротко рассказывается о процессе взлома captcha с ifolder.ru. Применение в процессе языка Python и сторонних библиотек. Применение алгоритма преобразований Хафа в составе библиотеки Open Computer Vision © Intel позволит нам избавиться от шума на изображении, простая в использовании и быстрая библиотека FANN (Fast Artificial Neural Network) сделает возможным применение искусственной нейронной сети для задачи распознавания образа.

Моя мотивация состояла, прежде всего, в том, чтобы попробовать язык Python. Как известно, лучший способ изучить язык — решить на нём какую-нибудь прикладную задачу. Поэтому параллельно описанию процесса обработки изображения я буду рассказывать о том, какие библиотеки и для чего я использовал.
Сломать мозг
Total votes 183: ↑178 and ↓5 +173
Comments 68

Логика английских времен

Reading time 6 min
Views 71K
Изучавшие или изучающие английский язык знают, каким страшным может казаться множество английских временных форм глаголов.
Всего в английском 12 временных форм. А в русском-то, на первый взгляд, всего 3, и как их связать с английскими, для новичка может быть совершенно не понятно.
Читать дальше →
Total votes 196: ↑173 and ↓23 +150
Comments 202

Наконец я стал лидером рейтинга

Reading time 1 min
Views 435
Правда вот этого habrahabr.ru/people/unhabred



Вобщем должен сказать, что возвращенная система действительно объективна.
Я веть на самом деле такая сволочь! Хоть и сложно иногда это признать.
Читать дальше →
Total votes 150: ↑107 and ↓43 +64
Comments 58

Откуда появляются первые 10 клиентов?

Reading time 3 min
Views 914
Примечание: ниже находится перевод статьи «Getting those first 10 Clients», в которой автор рассуждает о способах привлечения первых клиентов для начинающего интернет-бизнеса.

В моей первой заметки я спрашивал у своих читателей, о каких вещах мне стоит написать. Часть из них задало несколько совершенно невероятных вопросов, в том числе, о маркетинге и как мне удалось получить свои первые заказы с нуля.
Читать дальше →
Total votes 35: ↑24 and ↓11 +13
Comments 37

authorize.net — подключение и работа

Reading time 5 min
Views 6.7K
Довелось мне делать интернет магазин, в котором оплату нужно было проводить кредитными картами. И всё не беда, если бы заказчика устроил PayPal.Точнее тогда я об этом ещё не знал. Заказчик имел мерчант-аккаунт на authorize.net. В ходе поисков нормальной системы оплаты авторайз был мною отброшен по причине убогости сайта. Сайт оставляет ощущение, что проект давно заброшен, и никто им не занимается. Ну да ладно. Клиент всегда прав. Итак.

Что делает в первую очередь разработчик столкнувшись с задачей стандартной, но доселе им не реализованной? Правильно! Идёт в интернет и ищет готовые решения. Не исключено что это я плохой пользователь Гугла. Но, тем не менее — все готовые реализации были не более чем копиями sample кода взятого на сайте конторы. Ни тебе комментариев в коде, ни тебе сопроводительной записки.

Следующий шаг: курениечтение мануала на сайте разработчика. Единственное что помог сделать мануал — понять, что на самом деле лишнее в сэмпл коде. Далее я предлагаю свои советы по работе с данным сервисом. Это частично и перевод руководства, и личный опыт.

Читать дальше →
Total votes 13: ↑12 and ↓1 +11
Comments 6

Django: Не изобретая велосипед

Reading time 2 min
Views 2.7K
Хотел поделиться списком django-проектов, которые могут быть очень полезны при старте любого нового проекта. Чтобы, как говориться, «не изобретать велосипед».

Читать дальше →
Total votes 18: ↑14 and ↓4 +10
Comments 3

Word придумал Штирлиц? Информация к размышлению

Reading time 3 min
Views 2.6K
Итак, грустная история, которую мне поведал мой друг-админ.
Прошу заметить, это не какой-нибудь копи-паст, а история полученная мной (manuscriptum'ом) из первых уст.
Читать дальше →
Total votes 113: ↑113 and ↓0 +113
Comments 97

Лицензия CC+ обеспечит авторам пожизненный доход

Reading time 1 min
Views 1.2K
Организация Creative Commons разработала новый договор для лицензии CC, чтобы авторы «свободных» работ получили, наконец, возможность легально зарабатывать на коммерческом распространении своих произведений. Новая система (т.е. лицензия CC плюс новый договор) получила название CC+ (CCPlus).

Если автор публикует свою работу под знаком CC+, то тем самым он позволяет кому угодно использовать её в коммерческих целях, при этом автор получает заранее определённый процент от будущей прибыли или оплату по фиксированной ставке.

Таким образом, CC+ представляет собой сочетание свободной лицензии CC и стандартного коммерческого договора. Даже если работа опубликована под обычной лицензией CC, в случае заинтересованности коммерческих издателей можно быстро перевести её под CC+.
Total votes 25: ↑23 and ↓2 +21
Comments 36

Давид Ян: Йоси Варди назвал Cybiko самым крупным изобретением человечества после MP3

Reading time 21 min
Views 3.4K
Оригинал и аудиозапись интервью вы найдете в этом блоге

На мои вопросы отвечает основатель компании ABBYY, компании Cybiko — не так давно нашумевшей в США со своей инновационной разработкой.
Его зовут Давид Ян и он один из самых знаменитых предпринимателей, работающих в IT-области в России. Его биография включена в американский справочник «Кто есть кто — 2001». Давид Ян является лауреатом премии Правительства России в области науки и техники.

Давид Ян — основатель ABBYY

Кроме IT-сферы, Давид еще занимается ресторанным бизнесом. В числе его проектов можно выделить FAQCafe и ARTEFAQ — заведения для встреч творческих людей и приятного времяпровождения. Но от IT далеко не уйти и поэтому Давид и Ко совсем недавно запустили новый проект под названием IIKO — систему управления ресторанным бизнесом.
Если вы хотите ближе познакомится с неординарной личностью Давида Яна — читайте интервью.

Читать дальше →
Total votes 54: ↑46 and ↓8 +38
Comments 37

Кто и зачем заказывает спам в блогах?

Reading time 8 min
Views 1.2K
Вы даже не представляете, насколько загажена российская блогосфера. Работая над антиспамерским сервисом, я вручную прочесал пару сотен популярных блогов и отсмотрел пару тысяч сайтов, на которые ссылаются комментаторы.

Попадались посты, в которых из десяти комментариев восемь были спамерскими, причем эти кретины даже «переговаривались» друг с другом фразами типа «ничо не понял» или «круто, автору респект».

Читать дальше →
Total votes 63: ↑59 and ↓4 +55
Comments 60

«Обычный дурацкий интернет»

Reading time 1 min
Views 587
Вчера, совершая вечернюю пробежку по Сети, я случайным образом оказался на заглушке сайта «Тематические Медиа» и набрел на интересное изображение.


«Тематические Медиа» — это дружественный Futurico стартап, который лучше всех в России умеет создавать тематические медиа с элементами ролевых игр (RPG).
Решил продублировать из комментариев, чтобы данный вопрос больше не поднимался (-:.

Чувство юмора, как всегда, на высшем уровне ;-).
Total votes 40: ↑28 and ↓12 +16
Comments 38

Тренажерный зал для мозга

Reading time 1 min
Views 1.5K
Хочу рассказать вам о книге Тома Вуджека «Тренировка ума». Книга показалась мне достаточно интересной.

Эта книга — практическое пособие по тренировке мозга, умственных способностей.

Книга состоит из двенадцати глав. Каждая глава — это своего рода тренажер, предназначенный для развития определенного качества вашего ума. На одних тренажерах вы будете попеременно то прилагать усилия, то расслабляться, погружаясь в безмятежное спокойствие; на других вам придется муштровать свой ум «до седьмого пота». Одни упражнения предназначены для активации вашего левого полушария — аналитической, логической части мозга, другие — для правого полушария, интуитивной части мозга, также ответственной и за пространственное восприятие. А все вместе тренажеры обеспечат вам всестороннюю интеллектуальную тренировку.

Скачать книгу (1,23 мб)

Оригинал заметки: Саморазвитие для умных людей
Total votes 27: ↑23 and ↓4 +19
Comments 29

WordPress превратят в распределённую социальную сеть

Reading time 1 min
Views 487
Способна ли блогерская платформа WordPress стать основой для глобальной социальной сети? Это вполне возможно, если получит развитие оригинальный проект DiSo, что означает “distributed social networking”. Проект создан для того, чтобы вобрать в себя все возможные микроформаты, открытые программные интерфейсы, софт open source и технологии, которые должны лечь в основу единого стандартного движка для всемирной распределённой социальной сети.

Сама идея DiSo очень похожа на концепцию GGG, которую сформулировал Тим Бернерс-Ли. Речь идёт о формировании «глобального графа», то есть всеобщей стандартизированной социальной сети в интернете.

Первый «кирпичик» в проекте DiSo — это движок WordPress. Он хорошо подходит для этой цели, потому что имеет функционал, необходимый для социальной сети: это ведение блога, блогроллы и встроенная поддержка OpenID.

via GigaOM
Total votes 18: ↑15 and ↓3 +12
Comments 12

Есть ли у вас права на созданный сайт?

Reading time 3 min
Views 8.4K
Данной статьей хотелось бы внести ясность во взаимоотношения между заказчиком и исполнителем при создании веб-сайта. Думается, что понятнее всего это сделать, разобрав конкретные примеры.

Читать дальше →
Total votes 40: ↑35 and ↓5 +30
Comments 53

Программирование как искусство

Reading time 6 min
Views 4.8K
Мой приятель, директор крупной компании, жалуется: «Представляешь, не могу найти программиста поддерживать работающую систему. Приглашаю, показываю. Если переписывать с нуля — соглашаются за половину зарплаты. Если поддерживать — не соглашаются за две».

Это очень показательная ситуация. В России программисты считают программирование искусством. И никому не удается их в этом разубедить. Маркетологи не считают, что их работа это искусство, так же не считают директора, продавцы, бухгалтера, архитекторы и многие другие специалисты — спокойно относятся к своему призванию. Но не путают творчество в работе и отношение к работе как к искусству в ущерб целям и задачам этой работы.
Читать дальше →
Total votes 162: ↑154 and ↓8 +146
Comments 236

Information

Rating
Does not participate
Location
Россия
Date of birth
Registered
Activity