స్క్రీమింగ్ ఫ్రాగ్ యొక్క SEO స్పైడర్ ఉపయోగించి పెద్ద సైట్ను క్రాల్ చేయడం మరియు డేటాను సంగ్రహించడం ఎలా
మేము ప్రస్తుతం Marketo వలసలతో అనేక మంది క్లయింట్లకు సహాయం చేస్తున్నాము. పెద్ద కంపెనీలు ఇలాంటి ఎంటర్ప్రైజ్ సొల్యూషన్లను ఉపయోగించుకుంటున్నందున, కంపెనీలకు ప్రతి టచ్పాయింట్ గురించి కూడా తెలియనంత వరకు ఇది స్పైడర్ వెబ్ లాంటిది.
Marketo వంటి ఎంటర్ప్రైజ్ మార్కెటింగ్ ఆటోమేషన్ ప్లాట్ఫారమ్తో, ఫారమ్లు సైట్లు మరియు ల్యాండింగ్ పేజీల అంతటా డేటా యొక్క ఎంట్రీ పాయింట్. కంపెనీలు తరచుగా తమ సైట్లలో వేలకొద్దీ పేజీలు మరియు వందలాది ఫారమ్లను కలిగి ఉంటాయి, వీటిని నవీకరించడానికి తప్పనిసరిగా గుర్తించాలి.
దీనికి గొప్ప సాధనం స్క్రీమింగ్ ఫ్రాగ్ యొక్క SEO స్పైడర్… సైట్ నుండి క్రాల్ చేయడం, ఆడిటింగ్ చేయడం మరియు డేటాను సంగ్రహించడం కోసం SEO మార్కెట్లో అత్యంత ప్రజాదరణ పొందిన ప్లాట్ఫారమ్. ఫీచర్-రిచ్ ప్లాట్ఫారమ్ మీకు అవసరమైన ప్రతి పని కోసం వందలాది ఎంపికలను అందిస్తుంది. ఫీచర్లు శోధన కోసం ఆప్టిమైజేషన్కు మించి విస్తరించి ఉన్నాయి, అయినప్పటికీ, క్రాల్ అవుతున్నప్పుడు మీ సైట్ నుండి డేటాను సంగ్రహించడానికి ఒక అద్భుతమైన ఉపయోగకరమైన ఫీచర్తో.
స్క్రీమింగ్ ఫ్రాగ్ SEO స్పైడర్: క్రాల్ అండ్ ఎక్స్ట్రాక్ట్
స్క్రీమింగ్ ఫ్రాగ్ SEO స్పైడర్ యొక్క ముఖ్య లక్షణం ఏమిటంటే మీరు దాని ఆధారంగా కస్టమ్ వెలికితీతలను చేయవచ్చు రెగెక్స్, XPathలేదా CSSPath ప్రత్యేకతలు. మేము క్లయింట్ యొక్క సైట్లను క్రాల్ చేయడానికి మరియు పేజీల నుండి MunchkinID మరియు FormId విలువలను ఆడిట్ చేయడానికి మరియు సంగ్రహించాలనుకుంటున్నందున ఇది చాలా ఉపయోగకరంగా ఉంటుంది.
సాధనంతో, తెరవండి కాన్ఫిగరేషన్> కస్టమ్> సంగ్రహణ మీరు సంగ్రహించదలిచిన అంశాలను గుర్తించడానికి.
వెలికితీత స్క్రీన్ వాస్తవంగా అపరిమిత డేటా సేకరణను అనుమతిస్తుంది:
Regex, XPath మరియు CSSPath సంగ్రహణ
MunchkinID కోసం, ఐడెంటిఫైయర్ పేజీలో ఉన్న ఫారమ్ స్క్రిప్ట్లో ఉంది:
<script type='text/javascript' id='marketo-fat-js-extra'>
/* <![CDATA[ */
var marketoFat = {
"id": "123-ABC-456",
"prepopulate": "",
"ajaxurl": "https:\/\/yoursite.com\/wp-admin\/admin-ajax.php",
"popout": {
"enabled": false
}
};
/* ]]> */
మేము అప్పుడు వర్తింపజేస్తాము a రెగెక్స్ నియమం పేజీలో చొప్పించిన స్క్రిప్ట్ ట్యాగ్ నుండి ఐడిని సంగ్రహించడానికి:
Regex: ["']id["']: *["'](.*?)["']
ఫారం ID కోసం, డేటా మార్కెట్ రూపంలో ఇన్పుట్ ట్యాగ్లో ఉంది:
<input type="hidden" name="formid" class="mktoField mktoFieldDescriptor" value="1234">
మేము ఒక దరఖాస్తు XPath నియమం పేజీలో చొప్పించిన ఫారమ్లో నుండి ఐడిని క్యాప్చర్ చేయడానికి. XPath ప్రశ్న పేరుతో ఇన్పుట్తో ఫారమ్ కోసం చూస్తుంది ఫార్మిడ్, అప్పుడు వెలికితీత ఆదా చేస్తుంది విలువ:
XPath: //form/input[@name="formid"]/@value
ఇన్లైన్ స్టైల్ ట్యాగ్లను సంగ్రహించండి
పేజీతో వర్చువల్గా ప్రతి ఎలిమెంట్ను అనుకూలీకరించడానికి ఎలిమెంటర్ ప్లగిన్లో ఇన్లైన్ స్టైల్లను ఉపయోగించిన సైట్ను క్లయింట్ శుభ్రం చేయడంలో మేము సహాయం చేస్తున్నాము. ఇన్లైన్ స్టైల్స్ ఎక్కడ ఉపయోగించబడ్డాయో గుర్తించడానికి, మేము కస్టమ్ ఎక్స్ట్రాక్షన్ కోసం అనేక RegEx నియమాలతో సైట్ను స్క్రాప్ చేసాము:
- స్పాన్ ఇన్లైన్ శైలి:
<span\s+(?:[^>]*?\s+)?style\s*=\s*"([^"]*)"
- యాంకర్ ట్యాగ్ ఇన్లైన్ స్టైల్:
<a\s+(?:[^>]*?\s+)?style\s*=\s*"([^"]*)"
- డివ్ ట్యాగ్ ఇన్లైన్ స్టైల్:
<div\s+(?:[^>]*?\s+)?style\s*=\s*"([^"]*)"
- హెడ్డింగ్ ట్యాగ్ ఇన్లైన్ శైలి:
<h+(?:[^>]*?\s+)?style\s*=\s*"([^"]*)"
మినహాయింపులు
At Martech Zone, మేము వివిధ సబ్డొమైన్లలో బహుళ భాషలలో సైట్ని అందిస్తాము. అన్ని ఆస్తులు మరియు సమాచారం కోర్ సైట్పై ఆధారపడినందున ఈ అనువాదాలను క్రాల్ చేయడం అవసరం లేదు. దీని కారణంగా, మేము మినహాయింపు జాబితా కాన్ఫిగరేషన్ను ప్రారంభించాము మరియు క్రింది నియమాన్ని జోడించాము:
.*\.martech.zone
మీరు జోడించడం ద్వారా ట్యాగ్ల వంటి అనవసరమైన మార్గాలను క్రాల్ చేయడాన్ని దాటవేయడానికి కూడా దీన్ని ఉపయోగించవచ్చు:
martech.zone/tag/.*
మేము మా AMP పేజీలను క్రాల్ చేయకూడదనుకుంటున్నాము, ఇది ముగుస్తుంది ?amp=1
, కాబట్టి లో
https?://[^\s]+?\?amp=1
ప్లాట్ఫారమ్లో కొన్నింటిని పరీక్షించడానికి మంచి పద్ధతి కూడా ఉంది URL లు మీరు మీ సైట్ని క్రాల్ చేయడానికి ముందు అవి సరిగ్గా పని చేస్తున్నాయని నిర్ధారించుకోవడానికి నిబంధనలకు విరుద్ధంగా.
స్క్రీమింగ్ ఫ్రాగ్ SEO స్పైడర్ జావాస్క్రిప్ట్ రెండరింగ్
స్క్రీమింగ్ ఫ్రాగ్ యొక్క మరొక గొప్ప ఎంపిక ఏమిటంటే మీరు వీటికే పరిమితం కాదు HTML పేజీలో, మీరు మీ సైట్లో ఫారమ్లను చొప్పించే ఏదైనా జావాస్క్రిప్ట్ను రెండర్ చేయవచ్చు. లోపల కాన్ఫిగరేషన్> స్పైడర్, మీరు రెండరింగ్ టాబ్కు వెళ్లి దీన్ని ప్రారంభించవచ్చు.
సైట్ను క్రాల్ చేయడానికి ఇది కొంచెం సమయం పడుతుంది, అయితే మీరు జావాస్క్రిప్ట్ ద్వారా క్లయింట్-సైడ్ గా ఇవ్వబడిన ఫారమ్లతో పాటు సర్వర్ వైపు చొప్పించిన ఫారమ్లను పొందుతారు.
ఇది చాలా నిర్దిష్టమైన అనువర్తనం అయితే, మీరు పెద్ద సైట్లతో పని చేస్తున్నప్పుడు ఇది చాలా ఉపయోగకరంగా ఉంటుంది. మీ ఫారమ్లు సైట్ అంతటా పొందుపరచబడిన చోట మీరు ఖచ్చితంగా ఆడిట్ చేయాలనుకుంటున్నారు.
స్క్రీమింగ్ ఫ్రాగ్ SEO స్పైడర్ను డౌన్లోడ్ చేయండి
ప్రకటన: Martech Zone ఈ కథనంలో దాని అనుబంధ లింక్లను ఉపయోగిస్తోంది.