- Web検索にてOKWave系のを排除する
- Becomebot再排除
- 掲示板へのspam投稿が、久々にチェックをすり抜けた
- 無神経な根こそぎGetの馬鹿やろーっ!
- RandomNoteの検索用クローラ対策
- RandomNoteの敵はspam投稿用クローラ
- (文字の画像による)CAPTCHA関連 メモ
- リファラspam?
- 掲示板spam対策いろいろ
- iptables -L
- deny from 64.124.85.0/24
- 色々な掲示板spam
- e-SocietyRobotよ、動的ページの扱い方をなんとかしろよ
- Yahoo!オークションWebサービスで商品詳細のデータ取得が可能に!!
- 新種のspam投稿ロボット「6fNS6」(仮称)
* Web検索にてOKWave系のを排除する
#Web #メモ
"-回答者 -質問者 -回答件数"
OKWaveのクローン爆発しろ!
本体も、どちらかというと要らないかなぁ。検索結果にOKWaveと2chがあったら、参考になる情報がある可能性は2chのほうがはるかに高い印象がある。というか、OKWaveに参考になる情報がある印象が無い。
上記の除外条件では、OKWaveの他のQ&Aサイト(q.hatena.ne.jpとか)も除外される。だが、それによる見逃しの害よりも、ノイズ除去の利の方が多いと思う。「教えて」系のが「参考になる」可能性は低い。
"-回答者 -質問者 -回答件数"
OKWaveのクローン爆発しろ!
本体も、どちらかというと要らないかなぁ。検索結果にOKWaveと2chがあったら、参考になる情報がある可能性は2chのほうがはるかに高い印象がある。というか、OKWaveに参考になる情報がある印象が無い。
上記の除外条件では、OKWaveの他のQ&Aサイト(q.hatena.ne.jpとか)も除外される。だが、それによる見逃しの害よりも、ノイズ除去の利の方が多いと思う。「教えて」系のが「参考になる」可能性は低い。
* Becomebot再排除
#Web #RandomNote
RandomeNoteの検索履歴が、またかき回された。犯人はBecomeBot。
robots.txt BecomeBot締め出し
http://baku.homeunix.net/WiKi/rnx/index.rb?1138996756.txt
deny from 64.124.85.0/24
http://baku.homeunix.net/WiKi/rnx/index.rb?1171846535.txt
…にて排除していたのに。
サーバ変更で色々再構築して、ついでに.htaccessの使用は最小限に抑えたためだ。
さようなら、BecomeBot。
RandomeNoteの検索履歴が、またかき回された。犯人はBecomeBot。
robots.txt BecomeBot締め出し
http://baku.homeunix.net/WiKi/rnx/index.rb?1138996756.txt
deny from 64.124.85.0/24
http://baku.homeunix.net/WiKi/rnx/index.rb?1171846535.txt
…にて排除していたのに。
サーバ変更で色々再構築して、ついでに.htaccessの使用は最小限に抑えたためだ。
さようなら、BecomeBot。
iptables -A INPUT -j DROP -s 64.124.85.0/24
* 掲示板へのspam投稿が、久々にチェックをすり抜けた
#掲示板spam対策 #Web
name="mail"なのにURLを書いてきたのは、狙ってのことか?!
(ReadMore...)
1204215628 Fri Feb 29 01:20:28 JST 2008
HOST 201.86.240.210
page 0
1204215664 Fri Feb 29 01:21:04 JST 2008
HOST 201.86.240.210
rep_num 0
pass XXXXXXXX
page 0
jikan 1204215628
do post
name jammarlibre
data Very good web site, great work and thank you for your service.
mail http://enavivo.info/cookie-monster
subj cookie-monster
name="mail"なのにURLを書いてきたのは、狙ってのことか?!
(ReadMore...)
* 無神経な根こそぎGetの馬鹿やろーっ!
RandomNoteの検索履歴をしっちゃけめっちゃかにかき回していきやがって…。
まぁ、こっち側で対策するべきことではあるが、どうやって区別したものやら…。
あと、根こそぎ巡回するのは別にかまわないのだが、秒間2アクセスとかは勘弁してくれ。これは問答無用でツールとその利用者が悪い。
…って、ログを調べるとUAを色々変えつつ(詐称?)766回のクエリかよ…。悪意はないんだろうけどその無神経さは許容範囲の外だな…。
ま、ここまで無神経なアクセスは滅多にないので、対策はべつにいいか。
2008年1月12日追記
zia-httpmirrorの作者と利用者のばかやろーっ!!!
上に書いたのよりはマシだけど、履歴が滅茶苦茶になるのは同じだ。せっかく、「超整理法」的に出番が多いのが上になっていたのに。
とりあえず、.htaccess をいじって、/から閉め出すことにした。
上に書いたようにこーゆーのは滅多にない、けど、時々は確実にあるんだよな…。
#RandomNote #Web
まぁ、こっち側で対策するべきことではあるが、どうやって区別したものやら…。
あと、根こそぎ巡回するのは別にかまわないのだが、秒間2アクセスとかは勘弁してくれ。これは問答無用でツールとその利用者が悪い。
…って、ログを調べるとUAを色々変えつつ(詐称?)766回のクエリかよ…。悪意はないんだろうけどその無神経さは許容範囲の外だな…。
ま、ここまで無神経なアクセスは滅多にないので、対策はべつにいいか。
2008年1月12日追記
zia-httpmirrorの作者と利用者のばかやろーっ!!!
上に書いたのよりはマシだけど、履歴が滅茶苦茶になるのは同じだ。せっかく、「超整理法」的に出番が多いのが上になっていたのに。
とりあえず、.htaccess をいじって、/から閉め出すことにした。
上に書いたようにこーゆーのは滅多にない、けど、時々は確実にあるんだよな…。
#RandomNote #Web
* RandomNoteの検索用クローラ対策
#RandomNote #Web #掲示板spam対策
googleやらyahooやらmsnやらが、入れ替わり立ち替わり、smode=sumやらsmode=countやらcmd=editやらのついたページを、別々のものと見なしてGETしていく。
こっちにもあっちにも無駄な負荷がかかる、とても不幸なことだ。
ただし、spam投稿用クローラが心配。textもtextareaもないのにPOSTする馬鹿がいるかもしれない、と危惧している。
ロボットか?の判断は、user_agentにhttp:が入っているかどうか。
さらに、ロボットに送るデータ量が減るという恩恵もあった。無駄なデータが減るのは、互いにとって有益だ。
googleやらyahooやらmsnやらが、入れ替わり立ち替わり、smode=sumやらsmode=countやらcmd=editやらのついたページを、別々のものと見なしてGETしていく。
こっちにもあっちにも無駄な負荷がかかる、とても不幸なことだ。
とりあえずの対策として、それらへのリンクをformにしてみた。
検索エンジンは、いくらなんでもsubmitしないだろうから、無駄にリンクを辿らなくなると期待。ただし、spam投稿用クローラが心配。textもtextareaもないのにPOSTする馬鹿がいるかもしれない、と危惧している。
ロボットの類相手では、cmd=editとかsmode=hogeとかあったら、404を返すようにした
既にsmode=hogeとかのページのurlが記録されていて、リンクが無くなっても読みに来る。だから、ロボットの類相手にそれらのページは404を返すようにした。ロボットか?の判断は、user_agentにhttp:が入っているかどうか。
ロボットなどに対して、サイドバーを渡さないようにした
検索の邪魔だよね。本文にないキーワードがあるのは。さらに、ロボットに送るデータ量が減るという恩恵もあった。無駄なデータが減るのは、互いにとって有益だ。
* RandomNoteの敵はspam投稿用クローラ
#RandomNote #掲示板spam対策 #Web
対策が必要とは思ってるのだけど、たまにしかないし、投稿その物はBASIC認証で弾かれるしで、面倒なので1年以上放置してる。
後述のような感じで、2時間半にわたり、GETとPOST合わせて800回以上のアクセスを行う酷いロボットだった。
401で弾かれているのに延々と試行するのは無駄で、馬鹿なプログラムだと思う。ふつー、エラーが出たらとっととあきらめて他の無防備なBBSとかblogとかWikiを探すよう組むと思う。
(ReadMore...)
2007/09/23
久々に、RandomNoteをspam投稿ロボットが引っかき回していった。対策が必要とは思ってるのだけど、たまにしかないし、投稿その物はBASIC認証で弾かれるしで、面倒なので1年以上放置してる。
後述のような感じで、2時間半にわたり、GETとPOST合わせて800回以上のアクセスを行う酷いロボットだった。
401で弾かれているのに延々と試行するのは無駄で、馬鹿なプログラムだと思う。ふつー、エラーが出たらとっととあきらめて他の無防備なBBSとかblogとかWikiを探すよう組むと思う。
(ReadMore...)
* (文字の画像による)CAPTCHA関連 メモ
#Web #CAPTCHA
PWNtcha - captcha decoder
http://sam.zoy.org/pwntcha/
Breaking a Visual CAPTCHA
http://www.cs.sfu.ca/~mori/research/gimpy/
/aiCAPTCHA : CAPTCHA Comment Spammer
http://www.mperfect.net/aiCaptcha/
Radium Software Development
http://www.radiumsoftware.com/0611.html#061107
zuzara : カタカナでCAPTCHAをつくるPHPコード
http://blog.zuzara.com/2006/11/27/166/
PHPで使えるCAPTCHA画像作成ライブラリまとめ:phpspot開発日誌
http://phpspot.org/blog/archives/2006/11/phpcaptcha.html
自分自身のためのものづくり@hatena - はてなダイアリーのcaptcha
http://d.hatena.ne.jp/bakuchikujuu/20070608
PWNtcha - captcha decoder
http://sam.zoy.org/pwntcha/
Breaking a Visual CAPTCHA
http://www.cs.sfu.ca/~mori/research/gimpy/
/aiCAPTCHA : CAPTCHA Comment Spammer
http://www.mperfect.net/aiCaptcha/
Radium Software Development
http://www.radiumsoftware.com/0611.html#061107
zuzara : カタカナでCAPTCHAをつくるPHPコード
http://blog.zuzara.com/2006/11/27/166/
PHPで使えるCAPTCHA画像作成ライブラリまとめ:phpspot開発日誌
http://phpspot.org/blog/archives/2006/11/phpcaptcha.html
自分自身のためのものづくり@hatena - はてなダイアリーのcaptcha
http://d.hatena.ne.jp/bakuchikujuu/20070608
* リファラspam?
#Web #掲示板spam対策?
ApacheLogViewerを用いてアクセスログに目を通していたら、リファラspamらしきアクセスがあった。
一見、人間がIE6を使って普通に閲覧したように見えるが、色々不自然。
リファラにあるページはコスプレ衣装の販売サイトのナコルルの衣装。
リファラspamって、効果あるのかねぇ? 関連する単語による検索で引っかかるページに関連する内容のページのリファラにてspamってのは無差別よりも効果的とはいえ…。
リファラを公に表示するWebページってHNSによる日記ぐらいしか思い浮かばない。…訂正。tDiaryによるblogもあるな。HNSよりもずっと多そうだ。
あるいは、サイト管理者が「アクセス解析」からアクセスする事を期待しているのかな?だとすれば、わざわざ画像にもアクセスしていることの説明にもなる。
リファラ周りのバグという線は、たぶん、無いと思う。Windows版IE6.0にそんなバグは無い…はず。
まず、繰り返しになるけど、アクセス間隔がほぼ1秒おき(画像を含め、ファイルサイズ問わず)ってが猛烈に胡散臭い。また、ほぼ同じアクセスが2回繰り返されてたのは謎だが、人間のアクセスっぽくなく、やはり胡散臭い。(以下では片方しか挙げていない)
以下は当該ログ
(ReadMore...)
ApacheLogViewerを用いてアクセスログに目を通していたら、リファラspamらしきアクセスがあった。
一見、人間がIE6を使って普通に閲覧したように見えるが、色々不自然。
- そもそも、リファラのアドレスに当該ページへのリンクが無い
- 画像を含めて、間髪入れずにほぼきっかり1秒の間隔をおいてアクセス
- /dolls/2003_0810/へのアクセスのリファラはhttp://baku.homeunix.net/dolls/2004_0227/とあるが、そういうリンクは張ってない
リファラにあるページはコスプレ衣装の販売サイトのナコルルの衣装。
fairyのサイトはリンクフリーです。 リンクは、http://fairy.cosnet.to/ にお願いします。とあるのに、直接リンクを張られることを期待してリファラspamを行うとは、笑わせてくれる。
リファラspamって、効果あるのかねぇ? 関連する単語による検索で引っかかるページに関連する内容のページのリファラにてspamってのは無差別よりも効果的とはいえ…。
リファラを公に表示するWebページってHNSによる日記ぐらいしか思い浮かばない。…訂正。tDiaryによるblogもあるな。HNSよりもずっと多そうだ。
あるいは、サイト管理者が「アクセス解析」からアクセスする事を期待しているのかな?だとすれば、わざわざ画像にもアクセスしていることの説明にもなる。
リファラ周りのバグという線は、たぶん、無いと思う。Windows版IE6.0にそんなバグは無い…はず。
まず、繰り返しになるけど、アクセス間隔がほぼ1秒おき(画像を含め、ファイルサイズ問わず)ってが猛烈に胡散臭い。また、ほぼ同じアクセスが2回繰り返されてたのは謎だが、人間のアクセスっぽくなく、やはり胡散臭い。(以下では片方しか挙げていない)
以下は当該ログ
(ReadMore...)
* 掲示板spam対策いろいろ
* iptables -L
#Web #掲示板spam対策
迷惑なアクセスをしてくる連中は、TCP/IPレベルで弾くことにした。
いちいちHTTPに応答するのもかったるい。
迷惑なアクセスをしてくる連中は、TCP/IPレベルで弾くことにした。
いちいちHTTPに応答するのもかったるい。
~$ sudo iptables -L Chain INPUT (policy ACCEPT) target prot opt source destination DROP all -- 66.232.96.0/19 anywhere DROP all -- 222.32.0.0/11 anywhere DROP all -- 72.232.0.0/16 anywhere DROP all -- 72.36.128.0/17 anywhere DROP all -- 72.21.32.0/19 anywhere DROP all -- 222.32.0.0/11 anywhere DROP all -- ns.km23553.keymachine.de anywhere DROP all -- test-20464.mts-nn.ru anywhere
* deny from 64.124.85.0/24
#Web
再び、BecomeBotに検索履歴をかき回されたので、.htaccessにて排除することにした。
robots.txt BecomeBot締め出し
http://baku.homeunix.net/WiKi/rnx/index.rb?1138996756.txt
にてのけ者にしたはずなのだが、BecomeJPBotは別物というわけか。え゛ー。
ちなみに、robots.txtは最初にちゃんと読んでる。
20秒に一度のアクセスだったり、UAの項に載っている http://www.become.co.jp/site_owners.htmlは「お客様が指定されたページは見つかりませんでした。」だったり、かなり感じ悪い。
(ちなみに、正しくは、http://www.become.co.jp/site_owner.html だそうだ。その辺の食い違いも感じ悪いぞ)
また、他の多くのクローラの挙動と違ってリファラを送る点で、RandomeNoteの敵。
↓はた迷惑なアクセスの記録
(ReadMore...)
再び、BecomeBotに検索履歴をかき回されたので、.htaccessにて排除することにした。
robots.txt BecomeBot締め出し
http://baku.homeunix.net/WiKi/rnx/index.rb?1138996756.txt
にてのけ者にしたはずなのだが、BecomeJPBotは別物というわけか。え゛ー。
ちなみに、robots.txtは最初にちゃんと読んでる。
20秒に一度のアクセスだったり、UAの項に載っている http://www.become.co.jp/site_owners.htmlは「お客様が指定されたページは見つかりませんでした。」だったり、かなり感じ悪い。
(ちなみに、正しくは、http://www.become.co.jp/site_owner.html だそうだ。その辺の食い違いも感じ悪いぞ)
また、他の多くのクローラの挙動と違ってリファラを送る点で、RandomeNoteの敵。
↓はた迷惑なアクセスの記録
(ReadMore...)
* 色々な掲示板spam
* e-SocietyRobotよ、動的ページの扱い方をなんとかしろよ
#Web
動的生成されるページを10秒に一回GETするってのは、締め出しくらっても自業自得だと思うぞ。
robots.txtは読むらしいので、このメモからはお引き取り願うことにした。
割と昔からログに散見される割には、いまいち成果が見えなくて、いっそ/からDisallowしたくなる。
e-Society 先進的なストレージ技術およびWeb解析技術
http://cif.iis.u-tokyo.ac.jp/e-society/database/Kitsuregawa_t.html
の「コミュニティ時系列解析」なんかは面白そうなのにな。
Webに負荷をかけるからには、何らかの見返りをWebに返さないと、そのうちWebから閉め出されちゃうぞー。
動的生成されるページを10秒に一回GETするってのは、締め出しくらっても自業自得だと思うぞ。
2006/12/14,07:49:42,"-",GET,"/WiKi/rnx/index.rb","cmd=search&word=#掲示板spam対策","1.1",200,30313,"-","","e-SocietyRobot(http://www.yama.info.waseda.ac.jp/~yamana/es/)"
2006/12/14,07:49:53,"-",GET,"/WiKi/rnx/index.rb","cmd=search&word=#電子工作","1.1",200,28519,"-","","e-SocietyRobot(http://www.yama.info.waseda.ac.jp/~yamana/es/)"
2006/12/14,07:50:14,"-",GET,"/WiKi/rnx/index.rb","cmd=random","1.1",200,33033,"-","","e-SocietyRobot(http://www.yama.info.waseda.ac.jp/~yamana/es/)"
2006/12/14,07:50:25,"-",GET,"/WiKi/rnx/index.rb","cmd=edit","1.1",200,9501,"-","","e-SocietyRobot(http://www.yama.info.waseda.ac.jp/~yamana/es/)"
2006/12/14,07:50:35,"-",GET,"/WiKi/rnx/index.rb","rss","1.1",200,9118,"-","","e-SocietyRobot(http://www.yama.info.waseda.ac.jp/~yamana/es/)"
2006/12/14,07:50:50,"-",GET,"/WiKi/rnx/index.rb","cmd=referer","1.1",200,350139,"-","","e-SocietyRobot(http://www.yama.info.waseda.ac.jp/~yamana/es/)"
2006/12/14,07:51:01,"-",GET,"/WiKi/rnx/index.rb","cmd=change_log","1.1",200,32010,"-","","e-SocietyRobot(http://www.yama.info.waseda.ac.jp/~yamana/es/)"
2006/12/14,07:51:12,"-",GET,"/WiKi/rnx/index.rb","page=1","1.1",200,27836,"-","","e-SocietyRobot(http://www.yama.info.waseda.ac.jp/~yamana/es/)"
2006/12/14,07:51:23,"-",GET,"/WiKi/rnx/index.rb","page=2","1.1",200,28107,"-","","e-SocietyRobot(http://www.yama.info.waseda.ac.jp/~yamana/es/)"
2006/12/14,07:51:33,"-",GET,"/WiKi/rnx/index.rb","page=3","1.1",200,28679,"-","","e-SocietyRobot(http://www.yama.info.waseda.ac.jp/~yamana/es/)"
2006/12/14,07:51:44,"-",GET,"/WiKi/rnx/index.rb","page=4","1.1",200,32334,"-","","e-SocietyRobot(http://www.yama.info.waseda.ac.jp/~yamana/es/)"
2006/12/14,07:51:55,"-",GET,"/WiKi/rnx/index.rb","page=5","1.1",200,14081,"-","","e-SocietyRobot(http://www.yama.info.waseda.ac.jp/~yamana/es/)"
2006/12/14,07:52:06,"-",GET,"/WiKi/rnx/index.rb","1165944355.txt","1.1",200,12767,"-","","e-SocietyRobot(http://www.yama.info.waseda.ac.jp/~yamana/es/)"
2006/12/14,07:52:16,"-",GET,"/WiKi/rnx/index.rb","fname=1165944355.txt&cmd=edit","1.1",200,11869,"-","","e-SocietyRobot(http://www.yama.info.waseda.ac.jp/~yamana/es/)"
robots.txtは読むらしいので、このメモからはお引き取り願うことにした。
割と昔からログに散見される割には、いまいち成果が見えなくて、いっそ/からDisallowしたくなる。
e-Society 先進的なストレージ技術およびWeb解析技術
http://cif.iis.u-tokyo.ac.jp/e-society/database/Kitsuregawa_t.html
の「コミュニティ時系列解析」なんかは面白そうなのにな。
Webに負荷をかけるからには、何らかの見返りをWebに返さないと、そのうちWebから閉め出されちゃうぞー。
* Yahoo!オークションWebサービスで商品詳細のデータ取得が可能に!!
#ヤフオク #Web
キタ━━━━(゜∀゜)━━━━ッ!!
Yahoo!デベロッパーネットワーク - Yahoo!オークション - REST - 商品詳細
http://developer.yahoo.co.jp/auctions/rest/auctionitem/V1/auctionitem.html
キタ━━━━(゜∀゜)━━━━ッ!!
Yahoo!デベロッパーネットワーク - Yahoo!オークション - REST - 商品詳細
http://developer.yahoo.co.jp/auctions/rest/auctionitem/V1/auctionitem.html