「Linux ブラウザ式クローラー 備忘録2 (2025/11/6)」


「"ブラウザの見ている画面"データをn分毎に自動セーブする」方法






さて、一般的に。
ブラウザはセキュリティ上の理由で

 ・ローカルファイルに書き込みできない。
 
 ・自作ブラウザ拡張で、カスタムスクリプトを仕込んで。
  外部サーバーに送信しようとしても。
  CORSで止められる。



データの盗聴/盗難を防ぐために、
ブラウザのここらは
ガチガチに規制されてます。(当然の措置なのですが)


いったい、どーやったらデータをブラウザの外に持ち出せるの? ^^A;





私が見つけた解法4つをご紹介します。


〜〜〜〜〜解法A〜〜〜〜〜

単純に
 「キーボード / マウス の動きを再現するマクロ」
を作って、
「ページの保存」を定期的に実行する。




非常に原始的な手法・・・

原始的ゆえに、間違いなく動く。シュアな方法ですが。

スマートとは言い難い。




〜〜〜〜〜解法B〜〜〜〜〜

(Windows限定)

・自作でプロキシーソフトPを作る。

・ブラウザはPを通してサイトにアクセスし。

・Pがデータを覗き見。そこでセーブ。



もっともこれは、「データの盗聴」
そのものであり。(汗)

セキュリティ上の観点で
実行可能なOSと不可能なOSがあります。
 

Windows系はここらの規制が緩い。

このプロキシーを挟む手法で「データの盗聴」どころか、
やろうと思えば「データの改変」もできました。

何故かユルユル。




で、Linuxだと。この行動がNGになります。



同じ事をしようとすると。
OSが「データの盗聴」を検知して、
通信がブロックされてしまう。


・・・その指摘はごもっとも。

実際、わたくし。
(セルフとは言えど)盗聴行為をしようとしています。
言い訳の余地はございません。



ここが。私がLinuxに乗り換えた時。

どーしても、この
(Windowsでは使えていた)プロキシー手法が
Linuxには移植できず。

すんごい苦労しました。





違う、これじゃない。

「"ブラウザの見ている画面"データをn分毎に自動セーブする」方法



たかがテキストデータを
取得するのがこんなにむずかしいとは。
なにか、他に手はないのか。


次回に続く。