page 0 - << : 0 : >>
* GetHTMLWにお引き取り願う
ログを見たら、"Pockey-GetHTML/4.12.0 (Win32; GUI; ix86)"を名乗るUAがものすごい勢い(秒間数アクセス)で根こそぎ(RandomNoteの項目まで)さらっていった形跡があった。
検索してみたところ、GetHTMLWとのこと。
あ゛ー、俺、昔使っていたよ…。ダイヤルアップ時代ならともかく、数メガbps当たり前の今日日動かすと恐ろしいことになるのだな。
プロキシモードで一度見た記事をため込んで使う分にはとても便利で有用なソフトだと思うのだけど、まるごと取得は勘弁。
というわけで、ちゃんとrobots.txtは読むので、一部動的ページからお引き取り願うことにした。
4.12以前は丸ごとお引き取り願うべきかなー。
参考:
先読みソフトについて [Archive] - XREA SUPPORT BOARD
http://sb.xrea.com/archive/index.php/t-1388.html
#Web
検索してみたところ、GetHTMLWとのこと。
あ゛ー、俺、昔使っていたよ…。ダイヤルアップ時代ならともかく、数メガbps当たり前の今日日動かすと恐ろしいことになるのだな。
★★ GetHTML Ver.4.13, GetHTMLW Ver.7.13 より、★★とのことだけど、使用者は古いのを使っていたようだな。
(1) 同一サーバ(ホスト)への同時取得数が 1 に固定されました
(2) 同一サーバ(ホスト)への連続取得に対し、1秒の wait をデフォルトで入れました
上記は、ブロードバンド化に伴う Web サーバへの負荷を軽減する為の措置です。
プロキシモードで一度見た記事をため込んで使う分にはとても便利で有用なソフトだと思うのだけど、まるごと取得は勘弁。
というわけで、ちゃんとrobots.txtは読むので、一部動的ページからお引き取り願うことにした。
4.12以前は丸ごとお引き取り願うべきかなー。
参考:
先読みソフトについて [Archive] - XREA SUPPORT BOARD
http://sb.xrea.com/archive/index.php/t-1388.html
#Web
* DSBLは効果絶大
公開プロキシ弾きを投入してからspammerがやってくるのを今か今かと待っていたのだが、やっとやってきた。
spammerがコストをかけずにあちこちからspamをばらまくにはいわゆる公開プロキシを使うぐらいしか手がないだろう。よって、公開プロキシを弾くことは簡便で極めて効果的な掲示板spam対策だと思う。
(botnetを使う手もあるが、そういうクラックをできるspammerはかなり少ないだろう)
#掲示板spam対策 #Web
2006/07/12,16:24:26,222.113.48.67,"","-","-",GET,"/BBS/BBS.cgi","","1.0",404,660 2006/07/12,16:24:30,59.10.196.81,"","-","-",GET,"/BBS/BBS.cgi","","1.0",404,660 2006/07/12,16:24:33,219.251.229.245,"","-","-",GET,"/BBS/BBS.cgi","","1.0",404,660はい、さようなら。
spammerがコストをかけずにあちこちからspamをばらまくにはいわゆる公開プロキシを使うぐらいしか手がないだろう。よって、公開プロキシを弾くことは簡便で極めて効果的な掲示板spam対策だと思う。
(botnetを使う手もあるが、そういうクラックをできるspammerはかなり少ないだろう)
#掲示板spam対策 #Web
* いわゆる公開プロキシからのアクセスを弾く
* spammerは踏み台を使う、ならば
spammerっぽいアクセスは、全部いわゆる公開プロキシからのものだった。
ならば、書き込み処理があったときにプロキシかどうかを調べれば良さそう。
書き込み時に、http://dsbl.org/listing?hogeの問い合わせをして、リストに載っているなら弾けばいいだろう。
問答無用で弾くと誤認識だったときに申し訳ないから、その場合にだけ人間かどうかのチェックボックスとかを出せばいいかな。
#掲示板spam対策 #Web
ならば、書き込み処理があったときにプロキシかどうかを調べれば良さそう。
書き込み時に、http://dsbl.org/listing?hogeの問い合わせをして、リストに載っているなら弾けばいいだろう。
問答無用で弾くと誤認識だったときに申し訳ないから、その場合にだけ人間かどうかのチェックボックスとかを出せばいいかな。
#掲示板spam対策 #Web
* elm-chan.orgを閲覧できなくなった
ここ数日、
えるむ - Electronic Lives Mfg.
http://elm-chan.org/index_j.html
を閲覧できなかった。
困った。色々と大いに参考になるページなのに。
アクセスすると、www.pir.orgに飛ばされる。どうやら、ロボット対策とかの絡みらしい。UA名やIPアドレスで弾いているそうだ。心当たりないんだけどなぁ…。
幸い、使っているケーブルテレビがHTTPプロキシサーバを用意していて、それ経由だと普通に閲覧できた。elm-chanを読ませていただくときだけは、それを使うことにしよう。
ブラウザをsleipnir(IE)じゃなくてFirefoxやOperaにしてみたり、鯖をおいてあるYahoo!BB回線からアクセスしてもだめだった。鯖をおいてあるホストは80番ポートを開けてあるからいわゆる公開proxyとして誤認される可能性があるけど、自宅のケーブルテレビ回線からでもダメなのはどういうわけなんだろ?
Web 電子工作
えるむ - Electronic Lives Mfg.
http://elm-chan.org/index_j.html
を閲覧できなかった。
困った。色々と大いに参考になるページなのに。
アクセスすると、www.pir.orgに飛ばされる。どうやら、ロボット対策とかの絡みらしい。UA名やIPアドレスで弾いているそうだ。心当たりないんだけどなぁ…。
幸い、使っているケーブルテレビがHTTPプロキシサーバを用意していて、それ経由だと普通に閲覧できた。elm-chanを読ませていただくときだけは、それを使うことにしよう。
ブラウザをsleipnir(IE)じゃなくてFirefoxやOperaにしてみたり、鯖をおいてあるYahoo!BB回線からアクセスしてもだめだった。鯖をおいてあるホストは80番ポートを開けてあるからいわゆる公開proxyとして誤認される可能性があるけど、自宅のケーブルテレビ回線からでもダメなのはどういうわけなんだろ?
Web 電子工作
* mixi外からmixiへのアクセスを防ぐ
Proxomitorn用フィルタ
※単純に文字列の置換を行うだけなので、Javascriptで難読化されたりすると通用しない。
#悪用のヒントを出すのはどうかとも思うが、どーせ悪用するような人はそれぐらい思いつくだろう。
(ReadMore...)
[Patterns] Name = "Block mixi form not mixi (IP)" Active = TRUE URL = "(^mixi.jp)" Limit = 512 Match = "59.106.41." Name = "Block mixi form not mixi" Active = TRUE URL = "(^mixi.jp)" Limit = 512 Match = "mixi.jp" Replace = "mixotron.jp"mixi.jp以外のサイトではmixi.jpという文字列を片っ端から書き換えてしまうという力業。
※単純に文字列の置換を行うだけなので、Javascriptで難読化されたりすると通用しない。
#悪用のヒントを出すのはどうかとも思うが、どーせ悪用するような人はそれぐらい思いつくだろう。
(ReadMore...)
