自分自身のための ものづくり / 自分自身のためのものづくりメモ

* GetHTMLWにお引き取り願う

 ログを見たら、"Pockey-GetHTML/4.12.0 (Win32; GUI; ix86)"を名乗るUAがものすごい勢い(秒間数アクセス)で根こそぎ(RandomNoteの項目まで)さらっていった形跡があった。

 検索してみたところ、GetHTMLWとのこと。
 あ゛ー、俺、昔使っていたよ…。ダイヤルアップ時代ならともかく、数メガbps当たり前の今日日動かすと恐ろしいことになるのだな。
★★ GetHTML Ver.4.13, GetHTMLW Ver.7.13 より、★★

(1) 同一サーバ(ホスト)への同時取得数が 1 に固定されました
(2) 同一サーバ(ホスト)への連続取得に対し、1秒の wait をデフォルトで入れました

上記は、ブロードバンド化に伴う Web サーバへの負荷を軽減する為の措置です。
とのことだけど、使用者は古いのを使っていたようだな。

 プロキシモードで一度見た記事をため込んで使う分にはとても便利で有用なソフトだと思うのだけど、まるごと取得は勘弁。

というわけで、ちゃんとrobots.txtは読むので、一部動的ページからお引き取り願うことにした。
 4.12以前は丸ごとお引き取り願うべきかなー。


参考:
先読みソフトについて [Archive] - XREA SUPPORT BOARD
http://sb.xrea.com/archive/index.php/t-1388.html
#Web

* DSBLは効果絶大

公開プロキシ弾きを投入してからspammerがやってくるのを今か今かと待っていたのだが、やっとやってきた。
2006/07/12,16:24:26,222.113.48.67,"","-","-",GET,"/BBS/BBS.cgi","","1.0",404,660
2006/07/12,16:24:30,59.10.196.81,"","-","-",GET,"/BBS/BBS.cgi","","1.0",404,660
2006/07/12,16:24:33,219.251.229.245,"","-","-",GET,"/BBS/BBS.cgi","","1.0",404,660
はい、さようなら。

 spammerがコストをかけずにあちこちからspamをばらまくにはいわゆる公開プロキシを使うぐらいしか手がないだろう。よって、公開プロキシを弾くことは簡便で極めて効果的な掲示板spam対策だと思う。
(botnetを使う手もあるが、そういうクラックをできるspammerはかなり少ないだろう)

#掲示板spam対策 #Web

* いわゆる公開プロキシからのアクセスを弾く

掲示板へのspamが激しくなりつつあるので対策。
(ReadMore...)

* spammerは踏み台を使う、ならば

 spammerっぽいアクセスは、全部いわゆる公開プロキシからのものだった。
 ならば、書き込み処理があったときにプロキシかどうかを調べれば良さそう。

 書き込み時に、http://dsbl.org/listing?hogeの問い合わせをして、リストに載っているなら弾けばいいだろう。
 問答無用で弾くと誤認識だったときに申し訳ないから、その場合にだけ人間かどうかのチェックボックスとかを出せばいいかな。

#掲示板spam対策 #Web

* elm-chan.orgを閲覧できなくなった

ここ数日、
えるむ - Electronic Lives Mfg.
http://elm-chan.org/index_j.html
を閲覧できなかった。
 困った。色々と大いに参考になるページなのに。

 アクセスすると、www.pir.orgに飛ばされる。どうやら、ロボット対策とかの絡みらしい。UA名やIPアドレスで弾いているそうだ。心当たりないんだけどなぁ…。
 幸い、使っているケーブルテレビがHTTPプロキシサーバを用意していて、それ経由だと普通に閲覧できた。elm-chanを読ませていただくときだけは、それを使うことにしよう。

 ブラウザをsleipnir(IE)じゃなくてFirefoxやOperaにしてみたり、鯖をおいてあるYahoo!BB回線からアクセスしてもだめだった。鯖をおいてあるホストは80番ポートを開けてあるからいわゆる公開proxyとして誤認される可能性があるけど、自宅のケーブルテレビ回線からでもダメなのはどういうわけなんだろ?

Web 電子工作

* mixi外からmixiへのアクセスを防ぐ

Proxomitorn用フィルタ
[Patterns]
Name = "Block mixi form not mixi (IP)"
Active = TRUE
URL = "(^mixi.jp)"
Limit = 512
Match = "59.106.41."

Name = "Block mixi form not mixi"
Active = TRUE
URL = "(^mixi.jp)"
Limit = 512
Match = "mixi.jp"
Replace = "mixotron.jp"
mixi.jp以外のサイトではmixi.jpという文字列を片っ端から書き換えてしまうという力業。
※単純に文字列の置換を行うだけなので、Javascriptで難読化されたりすると通用しない。
#悪用のヒントを出すのはどうかとも思うが、どーせ悪用するような人はそれぐらい思いつくだろう。
(ReadMore...)