|
Можно ли средствами 1С делать Скрапинг веб-сайтов |
☑ |
0
Бертыш
26.02.17
✎
08:01
|
Можно ли средствами 1С делать скрапинг веб-сайтов?
Если можно то каким образом отправлять запросы сайту дабы получить в обратку странички? Понятно что из странички прочиее ссылки надо будет получать самому, но вот з запросами к сайту и блужданиям по страницам как? Мне в идеале надобно на одном сайте залогиниться и выдернуть нужную мне информацию собрав её в какой-нибудь RTF файл в собственном формате
|
|
1
Jump
26.02.17
✎
08:08
|
Можно поскольку она умеет работать с сетью.
Но это крайне медленно, ресурсоемко и офигенно неудобно.
Проще использовать пайтон или повершелл.
Если в сайте плотно используется JS то может и не получиться с 1с вообще.
|
|
2
Jump
26.02.17
✎
08:10
|
Все общение с сайтом идет в режиме "вопрос - ответ"
Ты шлешь запрос, получаешь ответ, парсишь его выдергивая нужную тебе информацию.
|
|
3
Бертыш
26.02.17
✎
08:43
|
Я вот нашёл вроде бы статью,
но не понял всё равно как можно залогиниться и выдернуть то что мне надо будет выдёргивать. Как эксплуатировать средствами 1С Cookies там не описано
|
|
4
Юрий Лазаренко
26.02.17
✎
08:53
|
(0) Можно, но лучше не через http-соединение, а через com подключаться к ИЕ и делать паузу после загрузки, чтобы скрипты выполнились.
|
|
5
Юрий Лазаренко
26.02.17
✎
08:54
|
Но вообще бесполезная работа. Лучше взять уже готовое решение, которое сохранит все в файлы, и парсить файлы.
|
|
6
Юрий Лазаренко
26.02.17
✎
08:59
|
|
|
7
Web00001
26.02.17
✎
09:22
|
(0) http://catalog.mista.ru/public/255881/ да все там нормально, если тебе конечно не надо парсить по 200страниц в секунду.
|
|
8
Jump
26.02.17
✎
09:50
|
(3) Проблема в том что там куча заморочек, и если ты будешь каждую заморочку вроде авторизации и работы с кукисами писать вручную - ты будешь месяц его писать и отлаживать.
А в том же пайтоне есть библиотеки для парсинга, которые сами делают такие банальные вещи, вроде работы с кукисами и прочим.
Например библиотека Grab.
|
|
9
Garykom
гуру
26.02.17
✎
09:54
|
(0) Позвони/напиши владельцам сайта да и все, возможно получить инфу в нужной форме будет дешевше чем оттуда ее выдергивать ))
Еще можно через админа сайта или кого помельче там, известно же что через секретаря чиновника мелкую штуку провести проще/быстрее и дешевле чем через самого чиновника.
|
|
10
Jump
26.02.17
✎
10:13
|
(9) В стиле-
Здравствуйте уважаемый владелец сайта, я бедный камбоджийский парсер.
У меня нет умений чтобы написать скрипт который будет парсить ваш сайт.
У меня нет денег чтобы заказать написание скрипта.
Не будете ли вы столь любезны отправлять распарсенные данные с вашего сайта на такой-то адрес, ежедневно не позднее 21.00 по Гринвичу?
|
|
11
Garykom
гуру
26.02.17
✎
10:30
|
(10) 5 баллов за стиль!
|
|
Чтобы обнаруживать ошибки, программист должен иметь ум, которому доставляет удовольствие находить изъяны там, где, казалось, царят красота и совершенство. Фредерик Брукс-младший