Hack 1-28

วันอังคารที่ ๑๐ เมษายน พ.ศ. ๒๕๕๐

HACK#13 การใช้เครื่องหมาย Wildcards ในแบบของ Google

เครื่องหมาย Wildcard ใน Google สามารถใช้แทน keyword ใดๆ ก็ได้ ในคำสั่งที่ใช้สำหรับการค้นหาหรือสืบค้น

Search Engine บางตัวจะสนับสนุนเทคนิคที่เรียกว่า “Stemming” ซึ่งจะหมายถึงการใส่เครื่องหมาย wildcard โดยเฉพาะเครื่องหมายดอกจันทร์ (*) แทนคำที่ต้องการ หรือบางครั้งก็จะใช้เครื่องหมายคำถาม (?) ลงในคำสั่งซึ่งจะทำให้ Search Engine ใช้เครื่องหมายนี้เป็นคำที่ไม่เฉพาะเจาะจงลงไป ยกตัวอย่างเช่น การระบุคำว่า moon* จะทำให้ Search Engine ไปสืบค้นทั้งคำว่า moons, moonlight และ moonshot รวมถึงคำอื่นๆที่มีคำว่า moon อยู่ด้วย แต่สำหรับ Google เองแล้วไม่ได้สนับสนุนวิธีการ stemming เช่นนี้

สิ่งที่ Google สนับสนุนคือ full-word wildcard ซึ่งแม้ว่าคุณจะไม่สามารถใส่เครื่องหมาย wildcard ไว้เป็นส่วนหนึ่งของคำได้ แต่คุณสามารถที่จะแทรกเครื่องหมาย wildcard (ในกรณีของ Google คือเครื่องหมาย *) ลงในวลีและให้เครื่องหมาย wildcard ทำงานเสมือนการแทนที่ในคำโดด เช่น คุณอาจจะระบุให้ Google ค้นหาวลี “three * mice” ซึ่งคุณจะได้ผลลัพธ์เป็น three blind mice , three blue mice และ three green mice เป็นต้น

คุณอาจสงสัยว่า full-word wildcard นั้นดีอย่างไร แม้ประโยชน์ของมันจะไม่มากมายเท่ากับวิธีการแบบ stemming ก็ตาม ทว่ามันก็สร้างความสับสนให้น้อยกว่า โดยเฉพาะอย่างยิ่งสำหรับผู้เริ่มต้น เพราะเครื่องหมายดอกจันทร์หนึ่งดอกหมายถึงการแทนด้วยคำหนึ่งคำ และดอกจันทร์สองดอกจะใช้แทนได้สองคำ เช่นนี้ไปเรื่อยๆ ดังนั้น full-word wildcard จะใช้ได้ดีในกรณีต่อไปนี้คือ

การหลีกเลี่ยงข้อจำกัดของ Google ที่ให้ใช้คำค้นหาได้เพียง 10 คำ ( Hack #5) คุณจะเจอกับกรณีเช่นนี้ได้เมื่อคุณพยายามที่จะหาเนื้อเพลงหรือคำคมต่างๆ เช่น การใส่ข้อความว่า “Fourscore and seven year ago, our father brought forth on this continent” ลงใน Google ซึ่งจะทำให้ Google สืบค้นได้ถึงคำว่า “on” เท่านั้น และจะไม่สนใจคำที่เหลืออยู่หลังจากนั้นเลย
การตรวจสอบความถี่ที่ปรากฏในผลการค้นหาของวลีที่ต้องการ หรือบางส่วนของวลี เช่นใน intitle:“methinks the * doth protest too much” และ intitle: “the * of Seville”
การเติมคำลงในช่องว่างให้กับส่วนที่หลงลืมไป เพราะในบางครั้งคุณอาจจะจำเนื้อเพลงที่คุณต้องการค้นหาได้เพียงบางส่วน แต่คุณก็ยังสามารถสืบค้นด้วยคำที่คุณจำได้ โดยไม่ต้องเดาสุ่มหาคำอื่นๆ มาใส่ให้ครบ

ลองดูตัวอย่างจากการค้นหาเพลงในยุคดิสโกที่ชื่อ “Goodtimes” ของวง Chic และดูเนื้อเพลงในท่อนที่ว่า “you silly fool, you can’t change your fate” ดูเป็นตัวอย่างสักหน่อยก็ได้

บางทีคุณอาจจะเคยได้ยินทำนองของเพลงนี้ แต่คุณอาจจะจำไม่ได้ตรงคำว่า “fool” ว่าเป็นคำนี้หรือเป็นคำอื่น หากคุณจำผิด (สมมติว่าเนื้อร้องที่ถูกต้องของท่อนนี้ คือ “you silly child, you can’t change your fate”) คุณก็จะไม่ได้ผลลัพธ์อะไร และคุณก็อาจจะลุกจากที่นั่งขึ้นมาด้วยความสลดใจว่า ไม่มีใครใส่ใจที่จะนำเอาเพลงของวงนี้มาใส่ไว้ในอินเทอร์เน็ตเลย

ทางออกของคุณก็คือ การระบุคำสั่งค้นหาด้วยการใส่เครื่องหมาย wildcard แทนคำที่คุณจำไม่ได้ เช่น

“you silly *, you can’t change your fate”

นอกจากนี้คุณยังสามารถที่จะใช้เทคนิคนี้กับคำสั่งต่างๆ เนื้อเพลง บทกลอน และอื่นๆ แต่อย่างไรก็ตาม คุณควรจำไว้ว่า ควรจะระบุคำที่คุณคิดว่าจะได้ผลลัพธ์ ใกล้เคียงกับสิ่งที่ต้องการให้มากที่สุด หากคุณระบุเพียง “you * fool” เพียงสั้นๆเท่านี้ ก็จะทำให้คุณได้สิ่งที่ไม่ต้องการติดขึ้นมาอีกมากมาย

วันจันทร์ที่ ๕ มีนาคม พ.ศ. ๒๕๕๐

HACK#28 การสืบค้นใน Google ด้วย Bookmarklet

การสร้าง Interactive Bookmarklets เพื่อเรียกใช้ Google จาก Browser ของคุณ

คุณคงรู้จัก Bookmark กันเป็นอย่างดีแล้ว แต่คุณรู้จัก Bookmarklet หรือไม่? Bookmarklet ก็คล้ายกับ Bookmark แต่พิเศษตรงที่มีคำสั่ง Java Script ติดมาด้วย ทำให้เราสามารถใช้งานมันได้มากกว่า Bookmark ธรรมดา เพราะมันสามารถที่จะเปิดหน้าจอใหม่ได้ และสามารถที่จะแยกแยะคำที่ไฮไลท์เอาไว้จาก Web Page ได้ด้วย หรือสามารถที่จะส่งคำสั่งค้นหาไปยัง Search Engine ตัวใดตัวหนึ่งก็ได้ นอกจากนี้ยังมี Bookmarklet อีกหลายตัวที่จะช่วยให้คุณสามารถเรียกใช้ Google จาก Browser ของคุณเองได้ด้วย

Tip: หากคุณ Internet Explorer สำหรับวินโดว์อยู่ ก็นับว่าโชคดีเพราะ Bookmarklet เหล่านี้ ส่วนใหญ่แล้วก็จะทำงานได้ตามที่ประกาศเอาไว้ แต่หากว่าคุณใช้ Browser ที่เป็นที่นิยมน้อยกว่านั้น (เช่น Opera ) หรือใช้ระบบปฏิบัติการ (operating system) ที่คนส่วนใหญ่ไม่ค่อยได้ใช้ (เช่น OS X ของแม็คอินทอซ) คุณต้องใส่ใจกับข้อกำหนดและคำสั่งให้ดี เพราะอาจมีขั้นตอนพิเศษที่จะให้คำสั่ง Bookmark ทำงาน หรือไม่คุณก็ไม่สามารถที่จะใช้งาน Bookmarklet ได้เลย

ก่อนที่คุณจะลองสืบค้นจากเว็บไซต์อื่น ขอให้ลองปุ่มคำสั่ง Browser ของ Google (ซึ่งก็คือปุ่มที่เขียนไว้ว่า Bookmarklet ) เสียก่อนโดยที่คำสั่ง Google Search จะทำการสืบค้น Google เพื่อหาคำที่คุณได้ไฮไลท์เอาไว้ใน Web Page หน้าปัจจุบัน ส่วนคำสั่ง Google Scout จะทำงานแบบเดียวกับซินแท็กซ์ related: (ดูใน “คำสั่งพิเศษ”) เพื่อสืบค้นใน Web Page หน้าปัจจุบัน

ก่อนจะลงในรายละเอียดมากกว่านี้ คงต้องแจ้งให้ทราบสักนิดหนึ่งว่า Bookmarklet ของ Google ถูกออกแบบมาสำหรับใช้กับ Internet Explorer เป็นหลักมากกว่า Browser ตัวอื่น

คำสั่ง Google Translate!

(http://www.microcontentnews.com/resounces/translator.htm)

เป็นการใส่คำสั่งแปลภาษาของ Google (Hack #2) ลงใน Bookmarklet จะทำให้คุณสามารถที่จะแปล Web Page หน้าปัจจุบันได้ด้วยการกดปุ่มเพียงปุ่มเดียว

คำสั่ง Google Jump

(http://www.angelfire.com/dc/dcbookmarketlab/Bookmarklets/script002.html)

แสดงกรอบให้คุณใส่คำสั่งสืบค้น (search term) และทำการสืบค้นด้วย Google จากนั้นจะนำคุณตรงไปยังผลลัพธ์แรก (top result) ที่พบ ด้วยคุณสมบัติการทำงานของ I’m Feeling Lucky ของ Google (ดูใน “พื้นฐานเกี่ยวกับ Google”)

หมายเหตุ: บาง Link ไม่มีข้อมูลแล้ว เนื่องจากหนังสือเล่มนี้เขียนเมื่อปี 2546

คำสั่ง Dooyoo Bookmarklets

(http://dooyoo-uk.tripod.com/bookmarklets2.html)collection

ช่วยให้คุณมีฟีเจอร์ของ Bookmarklet หลายๆข้อรวมกัน เพื่อใช้กับ Search Engine ต่างๆ ซึ่งสำหรับ Google เองจะมี 2 ข้อ ซึ่งจะสร้างปุ่มคล้ายๆปุ่มคำสั่ง Browser (browser button) ของ Google เอง โดยที่ปุ่มหนึ่งจะค้นหาเฉพาะคำที่ถูกไฮไลท์ (highlighted text) และอีกปุ่มหนึ่งสำหรับ Web Page ที่เกี่ยวข้อง (related page)

Joe Maller’s Translation Bookmarklets

(http://www.joemaller.com/translation_bookmarklets.shtml)

จะทำการแปล Web Page หน้าปัจจุบันให้เป็นภาษาที่ระบุเอาไว้ โดยทำงานผ่าน Google หรือ AltaVista อีกที

Bookmarklets for Opera

(http://www.philburns.com/bookmarklets.html)

จะมี Bookmarklet สำหรับการแปลของ Google และ Bookmarklet ที่จำกัดการสืบค้นเฉพาะใน Domain ปัจจุบัน รวมถึง Bookmarklet ที่สืบค้น Google Groups (Hack #30) และดังเช่นที่คุณได้คาดการณ์ไว้แน่นอนว่า Bookmarklet เหล่านี้ถูกสร้างมาเพื่อใช้กับ Opera เป็นหลัก

Google It!

(http://www.code9.com/Googleit.html)

เป็น Bookmarklet อีกตัวหนึ่งที่สืบค้นหาคำใดๆก็ตาม ที่คุณได้ไฮไลท์เอาไว้ใน Web Page หน้าปัจจุบัน

HACK#2 เครื่องมือเกี่ยวกับภาษา (Language Tools)

แม้ว่าคุณจะไม่สามารถไว้ใจเครื่องมือเกี่ยวกับภาษาใน Google เพื่อช่วยในการแปลข้อมูลให้คุณได้ร้อยเปอร์เซนต์ แต่เครื่องมือนี้ก็สามารถช่วยการสืบค้นของคุณได้พอสมควร

ในยุคต้นๆของเครือข่ายเว็บ ดูเหมือนว่า Web Page ทั้งหลายจะเป็นภาษาอังกฤษ แต่เมื่อนานาประเทศต่างเข้าสู่ระบบออนไลน์มากขึ้นบทความต่างๆก็เริ่มมีหลากหลายภาษามากขึ้น รวมถึงภาษาที่ไม่ได้มีจุดกำเนิดอยู่ในประเทศใดประเทศหนึ่งโดยเฉพาะ เช่นภาษา Esperanto และ Klingon เป็นต้น
Google มีเครื่องมือเกี่ยวกับภาษามากมายหลายอย่างด้วยกัน ซึ่งรวมไปถึงเครื่องมือช่วยในการแปล และเครื่องมือช่วยในการติดต่อกับอินเตอร์เฟสของ Google ซึ่งมีขีดความสามารถมากกว่าเครื่องมือช่วยในการแปลเพียงอย่างเดียว แต่เฉพาะการแปลก็มีตัวเลือกให้คุณได้ใช้งานอยู่มากมายแล้วเช่นกัน

การใช้งาน
คุณสามารถคลิกที่คำสั่ง “Language Tools” ซึ่งอยู่ที่หน้าแรกของ Google หรือจะไปที่ http://www.google.com/language_tools?hl=en. ก็ได้

เครื่องมือแรก คือเครื่องมือที่จะช่วยให้คุณสามารถสืบค้นบทความได้จากประเทศและ/หรือภาษาที่ต้องการ นี่คืออีกวิธีหนึ่งซึ่งเป็นวิธีที่ดีที่จะทำให้คุณได้ผลลัพธ์ที่ใกล้เคียงมากที่สุด ยกตัวอย่างเช่น การสืบค้น Web Page หน้าที่เป็นภาษาฝรั่งเศสจากเว็บไซต์ในประเทศญี่ปุ่น ย่อมจะทำให้คุณได้ผลการสืบค้นน้อยกว่า การสืบค้น Web Page หน้าที่เป็นภาษาฝรั่งเศสจากเว็บไซต์ต่างๆในประเทศฝรั่งเศสเองอย่างไม่ต้องสงสัย นอกจากนี้คุณสามารถที่จะสืบค้นให้ละเอียดลงไปถึงการใช้คำสแลงในภาษาต่างประเทศด้วย เช่น อาจลองค้นหาคำว่า “bonce” ซึ่งเป็นคำสแลงในภาษาอังกฤษ ใน Web Page หน้าที่เป็นภาษาฝรั่งเศสจากเว็บไซต์ในประเทศญี่ปุ่นดูก็ได้

เครื่องมือที่สอง ใน Web Page หน้านี้จะช่วยให้คุณได้คำแปลของกลุ่มคำที่ต้องการ หรือแปล Web Page ทั้งหน้าจากภาษาหนึ่งไปยังอีกภาษาหนึ่ง ซึ่งส่วนใหญ่แล้วจะเป็นการแปลจากภาษาอังกฤษไปเป็นภาษาอื่น หรือแปลจากภาษาอื่นไปเป็นภาษาอังกฤษอย่างใดอย่างหนึ่ง

อย่างไรก็ตามการแปลด้วยเครื่องคอมพิวเตอร์ย่อมได้ผลไม่ดีเท่ากับการใช้คนแปล ดังนั้นขอจงอย่ายึดเอาคำแปลที่ได้นี้เป็นมาตรฐาน หรือคาดหวังว่าจะถูกต้องร้อยเปอร์เซ็นต์ แต่ใช้มันเป็นเพียงเครื่องมือที่จะช่วยให้คุณ “จับประเด็น” ในสิ่งที่คุณต้องการได้ง่ายขึ้นก็พอ

จริงๆแล้วคุณอาจจะไม่จำเป็นที่จะต้องเข้ามาใน Web Page หน้านี้เพื่อใช้เครื่องมือแปลก็ได้ เพราะเมื่อคุณทำการสืบค้นอะไรก็ตาม คุณจะเห็นว่าบางครั้งผลลัพธ์ที่คุณได้ก็ไม่ใช่ภาษาที่คุณเลือกใช้หรือกำหนดค่าเอาไว้ใน Preference Page ตั้งแต่แรก แต่ถ้าสังเกตุดูจะเห็นว่า ใกล้ๆกับรายชื่อของผลลัพธ์ที่ได้จะมีข้อความภายใต้วงเล็บว่า “[Translate this page]” ซึ่งคุณสามารถคลิกที่นี่ จากนั้นคุณจะได้คำแปลของ Web Page หน้านี้ออกมา และจากด้านบนของหน้านี้ คุณจะสามารถเลือกดู Web Page ในภาษาต้นฉบับได้ และยังสามารถกลับมายัง Web Page หน้าที่แปลแล้ว

เครื่องมือที่สาม คือเครื่องมือที่จะช่วยให้คุณเลือกภาษาที่ใช้เป็นภาษาสืบค้นของ Google ซึ่งมีให้เลือกตั้งแต่ภาษา African ไปจนกระทั่งภาษา Welsh นอกจากนี้บางภาษายังเป็นภาษารูปภาพ (เช่น Bork-Bork-Bork และ Elmer Fudd) อีกด้วย แต่ก็สามารถทำงานได้เช่นกัน

Tip ข้อควรระวังคือ หากคุณเลือกภาษาเป็นภาษาแปลกๆเช่นภาษา Klingon คุณควรจะต้องรู้จักภาษา Klingon ด้วย เพื่อที่ว่าคุณจะได้อ่านคำสั่งต่างๆที่จะนำคุณกลับคืนมาสู่ภาษาที่ต้องการได้
แต่หากว่าคุณทำงานต่อไปไม่ได้จริงๆ คุณสามารถแก้ปัญหาโดยการลบคุ๊กกี้ของ Google ออกไป แล้วเข้าไปยังหน้าที่ต้องการกลับเข้าไปใหม่อีกครั้ง วิธีนี้จะช่วยกำหนดความต้องการต่างๆให้กลับคืนสู่สถานะตามค่ากำหนดเดิม (default setting) อีกครั้งหนึ่ง

เหตุที่ Google มีภาษากลางได้หลากหลายภาษาในขณะที่มีภาษาที่แปลได้อยู่เพียงไม่กี่ภาษา ก็เพราะ Google ที่อยู่ในภาษาที่คุณใช้นั้นมีอาสาสมัครจากทั่วโลกมาช่วยแปล (หาข้อมูลเพิ่มเติมสำหรับโครงการอาสาสมัครได้จาก http://www.google.com/intl/en/language.html)

และสุดท้าย Web Page หน้า Language Tool จะให้มีรายชื่อโฮมเพจของ Google ในรูปแบบภาษาต่างๆ โดยแยกเป็นเขตๆตามพื้นที่ ซึ่งมีประมาณ 30 เขตด้วยกัน ตั้งแรกภาษา Deutschland ไปจนถึงภาษา Latvija

การใช้ประโยชน์จาก Google Language Tool ให้ได้มากที่สุด
ถึงแม้ว่าคุณไม่ควรไว้วางใจเครื่องมือการแปลจาก Google มากไปกว่าการช่วยให้คุณสามารถ “จับประเด็น” ความหมายของสิ่งที่คุณต้องการก็ตาม แต่ทว่าคุณสามารถที่จะใช้เครื่องมือการแปลเพื่อผลลัพธ์ที่ใกล้เคียงมากที่สุดได้ วิธีแรกที่ได้อธิบายไปแล้ว คือวิธีที่ใช้ระบุตัวเลือกที่เป็นภาษาและประเทศร่วมกัน ส่วนวิธีที่สองคือการใช้เครื่องมือช่วยแปล

ลองเลือกคำขึ้นมาคำหนึ่งให้อยู่ในเนื้อหาที่คุณต้องการ จากนั้นใช้เครื่องมือช่วยแปลในการแปลให้เป็นภาษาอื่น (เครื่องมือช่วยแปลของ Google ทำงานได้ดีสำหรับการสืบค้นคำโดดๆ) ต่อไปลองสืบค้นหาคำนี้โดยเลือกภาษาและประเทศที่ไม่เกี่ยวข้องกับคำนี้ เช่น คุณอาจจะสืบค้นคำว่า “LandstraBe” (แปลว่าทางหลวง) โดยเลือกภาษาที่ต้องการเป็นภาษาฝรั่งเศสและประเทศที่เป็นที่ตั้งของเว็บไซต์ที่ต้องการเป็นประเทศแคนาดา วิธีนี้คุณจะต้องเลือกคำที่ไม่มีใช้ในภาษาอังกฤษ ไม่เช่นนั้นผลลัพธ์ที่ได้จะมากมายจนดูกันไม่ไหว

HACK#27 GAPIS

Gapis เป็นแอ๊พพลิเคชั่นการสืบค้นของ Google ที่อยู่ในวินโดว์

กฎการแฮ็กหลายๆ ข้อในหนังสือเล่มนี้มักจะอิงกับ Browser หรือไม่ก็ถูกรวม (integrated) อยู่ในแอ๊พพลิเคชั่นต่างๆ แต่กลับไม่ค่อยมีแอ๊พพลิเคชั่นตัวใดที่จะถูกสร้างขึ้นมาเพื่อใช้ประโยชน์จากความสามารถในการสืบค้นของ Google โดยเฉพาะ แต่สำหรับ GAPIS (Google API Searching in an Application) แล้ว เป็นแอ๊พพลิเคชั่นเล็กๆที่ทำงานเป็นอิสระ (stand alone) และทำการสืบค้นจาก Google ได้ด้วยตัวของมันเอง (มันสามารถถูกกำหนดให้สืบค้นจาก Browser ได้)

GAPIS (http://www.searchenginelab.com/common/products/gapis/) มีให้ดาว์นโหลดได้ฟรีในรูปแบบเป็นแอ๊พพลิเคชั่นที่พร้อมทำงานได้ และมาพร้อมกับคำสั่ง uninstall หรือดาว์นโหลดในแบบไฟล์ที่สามารถเรียกทำงานได้แต่ไม่มีคำสั่ง uninstall ซึ่ง GAPIS จะทำงานภายใต้วินโดว์ 95 หรือเวอร์ชั่นที่สูงกว่านั้น และด้วยเหตุที่มันใช้ Google Web API คุณจะต้องมีคีย์สำหรับ Google API เพื่อที่จะสืบค้นด้วย

หน้าตาของ GAPIS มีรูปแบบที่ง่ายมาก ด้วยการใช้หน้าต่างหนึ่งในการสืบค้นและอีกอันหนึ่งสำหรับเป็นหน้าต่างออปชัน

ในส่วนเกี่ยวกับคำสั่งจะมีช่องให้ใส่รหัส (develop’s key) วางอยู่ในระนาบเดียวกันกับช่องสำหรับกรอกคำที่ต้องการค้นหา (query box) และมีส่วนที่เป็นเมนูตัวเลือก (pull-down menu) ที่จะให้คุณสามารถเรียกคำสืบค้นเก่าๆ (previous query) ได้ โดยจะมีมุมมองสองแบบคือ แบบธรรมดาซึ่งจะให้ข้อมูลเกี่ยวกับผลการสืบค้นเช่นเดียวกับที่คุณได้รับจากการสืบค้นด้วย Google และแบบที่แสดงข้อมูลในรูปแบบตาราง เช่น ที่คุณได้เห็นโปรแกรมสเปรดชีดทั่วไป ดังภาพที่ 1-19 ซึ่งเป็นหน้าตาโปรแกรม GAPIS

ภาพ 1-19 หน้าตาของ GAPIS

ตัวเลือกต่างๆ (option)

ในหน้าต่างตัวเลือก (option windows) นั้นจะให้คุณกำหนดตัวเลือกสำหรับการสืบค้นต่างๆ รวมไปถึง Filter แบบ SafeSearch หรือ Filter ที่คัดเอาผลลัพธ์ที่เหมือนกันออกไป รวมถึงตัวเลือกจำนวนผลการสืบค้นที่มากที่สุดที่จะได้รับ (GAPIS จะให้ผลการสืบค้นมากถึง 30 รายการ) ภาพที่ 1-20 จะแสดงหน้าต่างตัวเลือกนี้

การสืบค้น

เมื่อคุณทำการสืบค้น GAPIS จะแสดงรายชื่อของผลการสืบค้นในหน้าแรกด้วยรูปแบบที่คุณได้เลือกเอาไว้ (รูปแบบธรรมดาหรือรูปแบบสเปรดชีท ดังแสดงในภาพ 1-21)

หากต้องการที่จะเปิดผลลัพธ์ด้วย Browser ของคุณ ให้ดับเบิ้ลคลิกที่ URL ที่ลิสต์อยู่ หรือหากคุณต้องการสืบค้นด้วย Browser ของคุณเองอีกครั้ง (เช่นในกรณีที่คุณต้องการได้ผลลัพธ์มากกว่า 30 รายการ) ให้คลิกที่ปุ่ม Search In Browser

หากคุณต้องการที่จะมีเครื่องมือสืบค้นแบบง่ายๆสำหรับเรื่องโปรดของคุณ ซึ่งอาจเพียงแค่ให้ผลเป็นข้อมูลทั่วๆไปที่ไม่ต้องละเอียดมากนัก ก็ถือได้ว่า GAPIS นับเป็นเครื่องมือที่ทำงานได้รวดเร็วและตอบสนองจุดประสงค์ดังกล่าวได้ดีเลยทีเดียว

ภาพที่ 1-20 Web Page เแสดงตัวเลือก (options) ของ GAPIS

ภาพที่ 1-21 GAPIS ขณะแสดงผลการค้นหาในรูปแบบสเปรดชีท

HACK#14 ซินแท็กซ์ inurl: และ site:

การใช้ inurl เพื่อค้นหาไดเร็กทอรี่ย่อยของเว็บไซต์

ซินแท็กซ์ site: จะทำงานได้อย่างสมบูรณ์ในกรณีที่คุณต้องการจำกัดการสืบค้นไปที่ Domain ใด Domain หนึ่งเท่านั้น หรือสืบค้นที่ตัวลงท้ายของ Domain (domain suffix) เช่น “example.com” หรือ “www.example.org” หรือ “edu” เช่น คำสั่ง site: edu แต่มันจะสะดุดในกรณีที่คุณพยายามที่จะค้นหาเว็บไซต์ที่อยู่ลึกลงไปจากหน้าโฮมเพจ (เช่นในไดเร็กทอรี่ย่อย /~ sam/album/)

ยกตัวอย่างเช่น หากคุณกำลังค้นหาสิ่งที่อยู่ภายใต้เว็บไซต์ Geocities ซึ่งเป็นเว็บไซต์หลัก คุณไม่สามารถที่จะใช้ซินแท็กซ์‌ site: เพื่อที่จะค้นหา Web Page ทั้งหมดในไดเร็กทอรี่ย่อย http://www.geocities.com/heartland/meadows/6485 ได้ เพราะ Google จะไม่สามารถค้นหาผลลัพธ์ให้กับคุณได้ แต่ถ้าคุณใช้ซินแท็กซ์พิเศษเป็น inurl: เพื่อที่จะระบุคำที่อาจจะพบได้ใน URL ที่เป็นผลการสืบค้น คำสั่งนี้จะทำงานให้ตามที่คุณต้องการ โดยมีรูปแบบดังนี้คือ

inurl:www.geocities.com/heartland/meadows/6485/

Tip : ในขณะที่ site: จะไม่สนใจคำว่า http:// ที่อยู่หน้าชื่อเว็บไซต์ แต่คุณจะได้ผลการสืบค้นจำนวนน้อยกว่า หากคุณระบุ http:// ลงใน inurl: ดังนั้นเพื่อผลการสืบค้นที่ดีที่สุด คุณจึงไม่ควรใสคำว่า http:// เมื่อใช้ inurl:

คุณจะเห็นว่าการใช้ inurl: แทน site: จะมีข้อได้เปรียบอยู่สองประการคือ

คุณสามารถใช้ inurl: ได้โดยไม่ต้องระบุซินแท็กซ์ค้นหาอื่นๆ (ซึ่งคุณไม่สามารถทำได้เมื่อใช้ site:)
คุณสามารถใช้ซินแท็กซ์นี้เพื่อสืบค้นไดเร็กทอรี่ย่อยภายใต้เว็บไซต์นั้นๆได้

การสืบค้นภายใต้ Subdomain

คุณสามารถใช้ inurl: ร่วมกับ site: เพื่อที่จะสืบค้นข้อมูลเกี่ยวกับ Subdomain ได้ ยกตัวอย่างเช่น คุณต้องการทราบว่าเว็บไซต์ OReilly.com มี Subdomain เป็นอย่างไรบ้าง ซึ่งคุณไม่สามารถที่จะได้คำตอบนี้จากคำสั่ง site:oreilly.com หรือ จากคำสั่ง inurl:“*.oreilly.com” ได้ (ซินแท็กซ์นี้จะสืบค้นทั้ง Web Page ที่เป็น mirrors (ดู Hack #91) และ Web Page อื่นๆ ซึ่งมีคำว่า oreilly.com ที่อยู่นอกเหนือจากเว็บไซต์ของ O’Reilly)

แต่คุณต้องใช้ซินแท็กซ์ต่อไปนี้ร่วมกันกันจึงจะสามารถที่จะทำงานได้

site:oreilly.com inurl:“*.oreilly” -inurl:“www.oreilly”

คำสั่งข้างต้นนี้บอกให้ Google สืบค้นที่เฉพาะเว็บไซต์ OReilly.com ซึ่งมี Web Page หน้าที่ชื่อ URL มีคำว่า ‘*.oreilly’ อยู่ด้วย (Hack #13) โดยการใช้เครื่องหมาย wildcard แทนหน้าใดๆก็ได้ที่อยู่ภายในเว็บไซต์แห่งนี้ แต่ให้ยกเว้น URL ที่มีคำว่า “www.oreilly’ ” (เพราะคุณคุ้นเคยกับ Domain นี้ดีอยู่แล้ว)

HACK#22 การหาคำนิยามของศัพท์ทางเทคนิค

หากคุณติดอยู่กับ “ภาษาทางเทคนิค” Google อาจช่วยหาคำตอบให้คุณได้

โดยปกติแล้วคำศัพท์ที่เป็นคำเฉพาะส่วนใหญ่ จะไม่ค่อยมีการเปลี่ยนแปลงความหมายบ่อยนัก แต่ศัพท์แสงทางคอมพิวเตอร์ไม่ได้เป็นเช่นนั้น เพราะจะมีคนคิดคำใหม่ๆ หรือคำนิยามใหม่ๆ ที่เกี่ยวกับคอมพิวเตอร์หรืออินเทอร์เน็ตแทบจะทุกๆ 12 นาทีเลยก็ว่าได้ และในอีก 12 นาทีต่อมามันก็กลายเป็นคำล้าสมัยหรือมีความหมายเปลี่ยนไปโดยสิ้นเชิง และมักจะมีความหมายมากกว่าหนึ่งอย่างซะอีกด้วย จริงๆแล้วมันอาจจะไม่เลวร้ายขนาดนั้นก็ได้ เพียงแต่ว่ามันทำให้เรารู้สึกเช่นนั้นต่างหาก

Google มีวิธีที่จะช่วยคุณได้สองวิธีได้แก่ การช่วยสืบค้นหาคำที่คุณต้องการและช่วยคุณหาความหมายของคำที่คุณต้องการทราบแต่ยังไม่มีความรู้เกี่ยวกับคำนี้เลย

คำนิยามของศัพท์ทางเทคนิค

สมมติว่าคุณเพิ่งจะออกจากห้องประชุม และมีคำใหม่ๆประดังเข้ามาในสมองของคุณเต็มไปหมด ปัญหาก็คือว่าในขณะนั้นคุณยังไม่รู้แน่ว่าคำที่คุณได้ยินนั้นเป็นคำสแลงหรือเป็นคำนิยามใหม่ๆ ทางฮาร์ดแวร์หรือซอฟต์แวร์ หรือเป็นคำนิยามทั่วๆไปกันแน่ แล้วคุณจะแยกออกได้อย่างไรว่าคำไหนเป็นคำไหน?

ในทำนองเดียวกัน คำศัพท์ใหม่ๆอื่นๆคุณคงจะต้องใช้วิธีเดาจากรูปแบบการใช้คำเช่น คำนี้ถูกใช้ในช่วงไหนของการสนทนา หรือถูกใช้เพื่อหมายถึงสิ่งหนึ่งสิ่งใดเป็นส่วนใหญ่ และมีคนเดียวที่ใช้ศัพท์คำนี้หรือไม่ เพราะมันอาจจะเป็นคำสแลงก็ได้ (Hack #4) หรือว่ามีการเขียนคำนี้เอาไว้ที่ไหนบ้าง พยายามรวบรวมข้อมูลเกี่ยวกับคำดังกล่าวให้มากที่สุด หากคุณไม่สามารถหาข้อมูลได้ และเจ้านายของคุณก็ยื่นศีรษะเข้ามาในส่วนที่กั้นเป็นที่ทำงานของคุณ และพูดว่า “เรากำลังจะทุ่มเม็ดเงินถึง 20 ล้านเหรียญเพื่อโครงการนี้ ด้วยการใช้… คุณมีความเห็นว่าอย่างไร?” ขอให้คิดไว้ก่อนว่าเจ้าสิ่งทีเจ้านายคุณจะใช้เป็นคำที่เป็นศัพท์ทั่วไป

Google Glossary

ก่อนที่คุณจะเริ่มการสืบค้นจาก Google ตรวจสอบดูเสียก่อนว่าบริการ Google Labs (Hack # 35) นั้นยังให้บริการ Google Glossary อยู่หรือเปล่า (http://labs.google.com/glossary/) ซึ่ง Google Glossary จะให้คำนิยามทั้งศัพท์เทคนิคและศัพท์ทั่วไป และหากว่าคุณไม่ได้สิ่งที่ต้องการ ให้กลับไปใช้ Google ตามปกติ

การสืบค้นศัพท์บัญญัติจาก Google

ก่อนอื่นกรุณาอย่าใส่คำย่อลงไปในช่องคำสั่ง เช่น คำว่า XSLT นั้นจะให้ผลการสืบค้นถึง 900,000 รายการเลยทีเดียว และแม้ว่าคุณจะได้รับคำตอบจากการเข้าไปหาข้อมูลจากเว็บไซต์เหล่านั้นก็ตาม ทว่ามันยังมีวิธีที่ง่ายกว่านั้นอีก ด้วยการแทรกคำว่า “stands +for” ลงไปในช่องคำสั่งหากคุณกำลังสืบค้นคำย่อหรืออักษรย่อ เช่น คำสั่ง “XSLT Stands +for” นั้นจะให้ผลการสืบค้นเพียง 29 รายการ และรายการแรกจะเป็นอภิธานศัพท์ หากว่าคุณยังได้ผลลัพธ์มากเกินไปแล้วละก็ (เช่น “XML stands +for” จะให้ผลลัพธ์เกือบ 1,000 รายการ) ให้ลองใส่คำว่า beginners หรือ newbie ลงไปด้วยเช่น “XML Stands +for” beginners จะเหลือผลลัพธ์เพียง 35 รายการเท่านั้น โดยรายการแรกคือ “XML for beginners”

หากคุณยังไม่ได้คำตอบที่ต้องการ ลองพิมพ์คำว่า “What is X?” หรือ “X + is short + for” หรือ X beginners FAQ (X คือคำย่อหรือศัพท์บัญญัติที่คุณต้องการ) วิธีนี้น่าจะถือเป็นการสืบค้นขั้นที่สอง เพราะเว็บไซต์ส่วนใหญ่มักจะไม่ใช้คำที่ใช้กันโดยทั่วไป และ X นั้นก็อาจจะแปลกใหม่จนเกินไป (หรืออาจจะเชยไปแล้วก็เป็นได้) และยังไม่มีปรากฏอยู่ในส่วนที่เป็น FAQ อย่างไรก็ตามคุณอาจใช้เวลาแตกต่างกันไปสำหรับแต่ละวิธีการ ทว่ามันก็คุ้มค่าที่จะลองดู เพราะมีคำนิยามรอให้คุณค้นหาอยู่มากมายเหลือเกิน หากคุณมีศัพท์บัญญัติในหมวดของฮาร์ดแวร์หรือซอฟต์แวร์ หรือคำที่เกี่ยวกับฮาร์ดแวร์หรือซอฟต์แวร์ ลองระบุคำนั้นร่วมกับการใช้งานเท่าที่คุณทราบ เช่น Dynaloader เป็นศัพท์บัญญัติที่เกี่ยวกับซอฟต์แวร์ มันคือโมดูลหนึ่งของ Perl จากความรู้เท่านี้คุณก็สามารถที่จะระบุคำสั่งสืบค้นเป็น

dynaloader Perl

หากผลการสืบค้นของคุณได้คำตอบที่ยากเกินไป เพราะมีข้อสมมติฐานว่าคุณรู้จักคำว่า Dynaloader ดีอยู่แล้ว ในกรณีนี้ลองใช้คำว่า beginners newbie และคำอื่นๆ เพื่อทำให้คุณได้ข้อมูลใกล้เคียงสำหรับผู้เริ่มต้น เช่น

Dynaloader Perl Beginners

หากคุณยังไม่พบคำที่ต้องการอีก ก็อาจะเป็นเพราะสาเหตุต่อไปนี้คือ คำสแลงนั้นอาจจะเป็นคำที่เฉพาะสำหรับสาขาอาชีพของคุณ หรือไม่คุณก็อาจจะถูกเพื่อนร่วมงานแกล้ง หรือคุณอาจจะได้ยินมาผิดๆก็ได้ (หรืออาจจะมีการสะกดคำผิดในเอกสารที่คุณได้รับ) หรือไม่มันอาจจะเป็นคำใหม่เอามากๆเลยทีเดียว

คุณจะสืบค้นได้จากที่ไหนอีกหากไม่ใช่จาก Google

แม้ว่าคุณจะได้ความพยายามอย่างที่สุดแล้ว คุณก็ยังไม่สามารถที่จะหาคำนิยามที่ดีจาก Google ได้ ยังมีเว็บไซต์อีกหลายแห่งที่คุณจะสืบค้นได้ คือ

Whatis (http://whatis.techtarget.com)

เป็นอินเด็กซ์การสืบค้นที่เกี่ยวกับศัพท์คอมพิวเตอร์และซอฟต์แวร์ไปจนถึงโทรคมนาคม เว็บไซต์นี้จะมีประโยชน์มากหากคุณต้องการสืบค้นคำศัพท์ที่เกี่ยวกับฮาร์ดแวร์หรือซอฟต์แวร์เพราะจะแบ่งคำนิยามออกเป็นหมวดหมู่ และคุณสามารถที่จะเห็นที่เป็นลักษณะการเรียงตามตัวอักษรจาก A ถึง Z ได้ มีการให้คำอธิบายประกอบที่ดี และมักจะมีการจัดทำอินเด็กซ์ที่อ้างอิงกลับไปกลับมาได้ด้วย

Webopedia (http://www.pcwebopedia.com)

สามารถสืบค้นได้ด้วย keyword หรือเลือกหาจากหมวดหมู่ที่จัดทำไว้ นอกจากนี้ยังมีรายชื่อของคำใหม่ๆอยู่ในหน้าแรกให้คุณได้สืบค้นหาคำใหม่ๆด้วย

Netlingo (http://www.netlingo.com/framesindex.html)

เว็บไซต์แห่งนี้จะปรากฏขึ้นพร้อมด้วยคำทางด้านซ้ายมือ โดยมีคำต่างๆอยู่ทางด้านซ้ายและมีคำนิยามอยู่ทางด้านขวา ซึ่งจะมีคำอ้างอิงให้มากมายรวมถึงคำสแลงเก่าๆด้วย

Tech Encyclopedia (http://www.techweb.com/encyclopedia)

มีคำนิยามและข้อมูลอื่นๆกว่า 20,000 คำ นอกจากนี้ยังแสดงคำที่ถูกสืบค้นมากที่สุด 10 อันดับแรก ซึ่งจะทำให้คุณได้เห็นว่ามีใครบ้างที่สนใจคำๆเดียวกับคุณอยู่

คุณอาจจะเห็นศัพท์ในภาษากรีกปรากฏมากขึ้นเรื่อยๆพอๆกับ Web Page ต่างๆ จงอย่ากังวลใจกับมันมากนัก ทางที่ดีคุณควรจะใช้ Google เพื่อเป็น “แหล่งอ้างอิงสำเร็จรูป” สำหรับคำนิยามที่คุณต้องการจะดีกว่า

สำหรับข้อมูลเพิ่มเติมในส่วนนี้ โปรดดูที่

คำำศัพท์เฉพาะ : คำสแลงและศัพท์บัญญัติ ( Hack # 4)
บริการ Google Labs (Hack #35)

บทที่ 1 เจาะ Google ให้รู้แจ้ง (Hack #1 - 28)

คุณจะเห็นว่าหน้าแรกของ Google นั้นแสนจะเรียบง่ายมีเพียงแบบฟอร์มการค้นหาและปุ่มคำสั่งเพียงไม่กี่ปุ่ม ทว่าเบื้องหลังความเรียบง่ายนั้นคือศักยภาพแห่งความเป็น Search Engine ขนานแท้ ซึ่งจะเป็นเครื่องมือสำคัญที่จะทำให้คุณสามารถเข้าถึงขุมทรัพย์ข้อมูลอันมหาศาลได้ และหากว่าคุณสามารถที่จะใช้งาน Google ได้อย่างเต็มศักยภาพแล้วละก็ เครือข่ายเว็บทั้งหมดก็จะกลายเป็นเหมืองทองแห่งความรู้ให้กับคุณไปโดยฉับพลัน
แต่ก่อนอื่น คุณจะต้องรู้เสียก่อนว่า มีอะไรบ้างที่ไม่ใช่สิ่งที่ Google เป็น

สิ่งที่ไม่มีอยู่ในความเป็น Google

จริงๆแล้วอินเทอร์เน็ตไม่ใช่ห้องสมุด แต่ข้อเปรียบเทียบที่ว่าอินเทอร์เน็ตเปรียบเสมือนห้องสมุดก็ได้แสดงให้เราเห็นอะไรได้หลายอย่าง เช่น แสดงให้เห็นว่าอินเทอร์เน็ตคือศูนย์รวมข้อมูลและความรู้ต่างๆมากมาย แสดงให้เห็นถึงความขยันขันแข็งของเจ้าหน้าที่ในการจัดเรียงเอกสารใหม่ๆที่เพิ่มเข้ามาเรื่อยๆ และแสดงถึงการวิธีการเรียนรู้อย่างเป็นระบบ รวมถึงเรื่องอื่นๆอีกมากมาย ซึ่งการพยายามคิดถึงอินเทอร์เน็ตในแง่ของการเป็นห้องสมุดแต่เพียงถ่ายเดียวนั้นอาจเป็นความเข้าใจที่ยังไม่ถูกต้องนักก็เป็นได้
เราจึงควรขจัดความเข้าใจที่ไม่ถูกต้องเหล่านี้ออกไปกันเสียก่อน ดังนี้

Google Index (ดัชนีหรืออินเด็กซ์ที่ Google จัดทำขึ้นเพื่อใช้อ้างอิงข้อมูลที่มีอยู่) เป็นเพียงภาพรวมของสิ่งที่ออนไลน์ทั้งหมดเท่านั้น ทั้งนี้เพราะไม่มี Search Engine ตัวไหนที่จะรู้ดีไปหมดทุกอย่าง แม้กระทั่ง Google เองก็ตาม เพราะสิ่งที่ออนไลน์อยู่นั้นมันช่างมากมายมหาศาล และหลั่งไหลเข้ามารวดเร็วมากเสียจนเราติดตามกันไม่ไหว โดยอาจอยู่ในรูปแบบเนื้อหาที่แตกต่างกันออกไป เช่น เป็นภาพยนตร์ เป็นแถบเสียง เป็นภาพการ์ตูนเคลื่อนไหว และข้อมูลที่มีการจัดเก็บในรูปแบบเฉพาะอีกหลากหลายรูปแบบจนนับไม่ถ้วนเลยทีเดียว

สิ่งที่ปรากฏอยู่บนเครือข่ายอินเตอร์เน็ตเชื่อถือได้หรือไม่? คำตอบก็คือไม่ เพราะสิ่งที่เราเห็นในนั้นอาจมีอคติ ถูกบิดเบือน หรือกระทั่งไม่มีความถูกต้องเอาเสียเลยก็เป็นได้ ไม่ว่าจะด้วยความตั้งใจหรือไม่ก็ตาม คุณอาจลองพิสูจน์ข้อเท็จจริงนี้ โดยการเข้าไปเยี่ยมชมเว็บที่ชื่อว่า Urban Legends Reference Pages (http://www.snopes.com/) ดูก็ได้ แล้วคุณจะได้สัมผัสกับตำนานต่างๆที่คลาดเคลื่อนและข้อมูลที่ผิดๆมากมายที่มีอยู่ในอินเทอร์เน็ต

Filter หรือตัวกรองเนื้อหาอาจจะช่วยปกป้องคุณจากเนื้อหาที่น่ารังเกียจทั้งหลายได้ แม้ว่า Filter ของ Google ที่เป็นสิ่งที่คุณจะเลือกใช้หรือไม่ก็ได้นั้น จะทำงานอยู่ในเกณฑ์ดี และถือว่ามีประโยชน์พอสมควรก็ตาม แต่ทว่ามันก็ยังไม่สมบูรณ์แบบโดยไร้ที่ติเลยซะทีเดียว เพราะแม้จะใช้ Filter คุณก็ยังอาจได้พบเจอเนื้อหาที่ไม่เหมาะสมได้อยู่ดี

สำหรับ Google Index คงไม่สามารถอยู่นิ่งๆเสมือนเป็น Snapshot ของเครือข่ายเว็บได้อย่างแน่นอน เพราะอินเด็กซ์ดังกล่าวจะต้องผันแปรไปตามเครือข่ายซึ่งมีการเปลี่ยนแปลงอยู่ตลอดเวลา โดยที่แต่ละแขนงของเครือข่ายต่างก็มี Web Page ใหม่ๆส่งเข้ามาอยู่ไม่ขาดสาย อีกทั้งยังมีเรื่องของการเปลี่ยนแปลงแก้ไขข้อมูลเดิมที่มีอยู่แล้ว รวมถึง Web Page ที่ถูกลบทิ้งไปอีกด้วย นอกจากนี้แล้ววิธีการของ Google เองก็เปลี่ยนไปเรื่อยๆตามนวัตกรรมใหม่ๆที่ผู้ออกแบบระบบได้ศึกษาและพัฒนาขึ้นมา ดังนั้นจงอย่าจำกัดตนเองด้วยวิธีการค้นหาแบบเดิมๆ เพราะการทำเช่นนั้นมีแต่จะจำกัดตัวคุณไม่ให้เข้าถึงวิวัฒนาการที่ใหม่และดีขึ้นกว่าของ Google นั่นเอง

สิ่งที่ Google เป็นอยู่

วิธีการที่คนส่วนใหญ่ใช้งาน Search Engine ก็คือการพิมพ์ keyword สองสามคำลงไปและรอดูผลลัพธ์ (search result) ว่าจะได้อะไรกลับคืนมาบ้าง วิธีการเช่นนี้อาจใช้ได้ผลดีสำหรับ Domain บางประเภท ทว่าเมื่ออินเทอร์เน็ตขยายตัวใหญ่มากขึ้นเรื่อยๆ วิธีนี้ก็จะใช้ได้ผลน้อยลงตามลำดับเช่นกัน
ดังนั้น Google จึงพัฒนาส่วนเพิ่มเติมที่เรียกว่า “ซินแท็กซ์พิเศษ” (Special Syntax) มาให้เราใช้ด้วย และในบทนี้ก็จะพูดถึงซินแท็กซ์พิเศษเหล่านั้นโดยละเอียดเลยทีเดียว ซึ่งเราอาจสรุปได้ดังต่อไปนี้

การสืบค้นภายใน Web Page (within the page)

Google มีซินแท็กซ์พิเศษที่จะทำให้คุณกำหนดการสืบ

ค้นของคุณในระดับ Web Page เช่นการระบุชื่อ หรือ URL (Uniform Resource Locator) ของ Web Page ที่ต้องการได้

ประเภทของ Web Page (kinds of page)

Google ยอมให้คุณสามารถกำหนดการสืบค้นตามประเภทของเว็บไซต์ (search by domain category) ได้ด้วย เช่น เว็บไซต์ที่มี Domain เป็นเรื่องเกี่ยวกับการศึกษา (.edu) หรือค้นหา Web Page ที่ได้มีการจัดทำอินเด็กซ์ (indexing) ในช่วงวันที่ต้องการ (specified date range) เป็นต้น

รูปแบบของเนื้อหา (kinds of content)

เมื่อสืบค้นด้วย Google คุณสามารถที่จะค้นหาไฟล์ได้หลากหลายรูปแบบ ยกตัวอย่างเช่น เอกสารที่เป็นไมโครซอฟต์เวิร์ด สเปรดชีทของเอ็กเซล หรือไฟล์ PDF ก็ตามที นอกจากนี้คุณยังจะสามารถค้นหา Web Page ที่เขียนด้วยภาษา XML, SHTML
หรือกระทั่ง RSS ได้ด้วย

รูปแบบเฉพาะ (special collections)

Google มีคุณสมบัติในการค้นหาให้คุณได้เลือกใช้อยู่มากมายหลายแบบ และบางแบบก็ยังไม่ถูกลบออกไปจากอินเด็กซ์ดังเช่นที่คุณเข้าใจ คุณอาจจะนึกถึง Google Index ในแง่การเป็นอินเด็กซ์ของเรื่องราวใหม่ๆหรือภาพใหม่ๆเท่านั้น ทว่าคุณเคยรู้เกี่ยวกับวิธีสืบค้นข้อมูลเฉพาะ (specific information) สำหรับงานต่างๆในระดับมหาวิทยาลัยบ้างหรือไม่ หรือคุณรู้บ้างไหมว่า คุณสามารถใช้
Google ทำการค้นหาโดยแยกตาม Topic เช่น Topic ต่างๆที่มีความเกี่ยวข้องกับระบบปฎิบัติการ BSD ไม่ทางใดก็ทางหนึ่ง
หรือจะเกี่ยวกับลีนุกซ์ หรือแอ๊ปเปิล หรือไมโครซอฟต์ เป็นต้น รวมถึง Topic ที่เป็นเรื่องเกี่ยวกับรัฐบาล (U.S Government) เพียงอย่างเดียวเท่านั้น

ซินแท็กซ์‌ต่างๆเหล่านี้สามารถใช้ร่วมกันได้ด้วย ซึ่งนี่แหละคือความสามารถอันพิเศษของ Google เพราะคุณจะสามารถทำการสืบค้นได้ถึงระดับรูปแบบ Web Page ที่ต้องการ ไปจนถึงระดับเนื้อหาและประเภทของ Web Page เลยทีเดียว

กล่าวโดยรวมแล้ว ประโยชน์ที่คุณจะได้รับจากหนังสือเล่มนี้ก็คือ โอกาสที่ไร้ขอบเขตนั่นเอง หนังสือเล่มนี้จะแนะนำคุณเกี่ยวกับเทคนิคต่างๆมากมายเกินจะบรรยายได้หมด แต่หากว่าคุณเพียงแต่รับรู้ในทางทฤษฎีโดยไม่ยอมนำมันไปปฏิบัติ คุณก็จะไม่ได้รับประโยชน์อะไรเลยเช่นกัน ดังนั้นคุณต้องฝึกฝนด้วยการลองผิดลองถูกไปด้วย โดยการกำหนดสิ่งที่คุณต้องการจะค้นหาขึ้นมา และพยายามใช้สิ่งที่คุณได้จากหนังสือเล่มนี้เพื่อการสืบค้นสิ่งที่ต้องการ จากนั้นจึงค่อยสรุปเทคนิคดีๆที่คุณใช้ได้ผลเอาไว้ใช้ในภายหลัง

รู้จักพื้นฐานการทำงานของ Google

จะว่าไปแล้ว ในอินเทอร์เน็ตมี Search Engine อยู่สองประเภทหลักๆด้วยกัน ประเภทแรกเราจะเรียกว่าเป็น Search Engine ที่สืบค้นด้วยอินเด็กซ์หัวเรื่อง (searchable subject index) ซึ่งจะทำการสืบค้นเฉพาะชื่อหรือคำอธิบายของเว็บไซต์เท่านั้น แต่จะไม่ทำการสืบค้นในระดับ Web Page ตัวอย่างของ Search Engine ประเภทนี้ก็เช่น Yahoo! เป็นต้น อีกประเภทหนึ่งได้แก่ Search Engine ที่ทำการสืบค้นเนื้อหาทุกอย่างด้วยวิธีแบบ Full Text Search ซึ่งจะใช้การสืบค้นด้วยระบบการประมวลผลแบบ “สไปเดอร์” (spider) เพื่อที่จะจัดทำอินเด็กซ์ให้กับ Web Page ซึ่งมีเป็นล้านๆหน้า หรืออาจจะถึงหลายพันล้านหน้า ทำให้เราสามารถสืบค้นถึงในระดับ Web Page ด้วยการระบุคำที่ต้องการค้นหา (query word) ที่ต้องการ และได้ผลลัพธ์ที่ใกล้เคียงมากกว่าการสืบค้นแบบแรก ซึ่ง Google จัดอยู่ใน Search Engine ประเภทหลังนี้

เมื่อคุณสืบค้นด้วย keyword มากกว่าหนึ่งคำในแต่ละครั้งนั้น Google จะมีวิธีในการจัดการกับ keyword นั้นๆ ว่าจะสืบค้น keyword ดังกล่าวไปพร้อมๆกัน หรือจะแยกสืบค้น keyword แต่ละคำออกจากกันต่างหาก วิธีการก็คือ Google จะดูที่โอเปอเรเตอร์ตามค่าเริ่มต้น (default operator) ที่ถูกกำหนดเอาไว้ก่อนหน้านี้ ซึ่งอาจเป็นโอเปอเรเตอร์ AND (สืบค้น keyword ดังกล่าวพร้อมๆกัน) หรือโอเปอเรเตอร์ OR (สืบค้นด้วย keyword ใด keyword หนึ่งก่อน) ก็ได้ และหากว่าโอเปอเรเตอร์ซึ่งเป็นค่าเริ่มต้นของ Google เป็น AND (หมายถึงคุณไม่จำเป็นต้องใส่คำว่า AND แทรกลงไปตรงกลางระหว่าง keyword เหล่านี้) แล้วล่ะก็ คุณก็ยังมีวิธีที่จะสั่งให้ทำการสืบค้น keyword แต่ละคำแยกกันด้วยโอเปอเรเตอร์ OR ได้ เพียงแต่ Google จะต้องรู้ก่อนว่าคุณต้องการให้มันทำอะไรกันแน่ ด้วยการดูจากโอเปอเรเตอร์ที่คุณระบุลงไปนั่นเอง

ทำความรู้จักการค้นหาแบบ Boolean Search กันสักนิด

โดยปกติแล้ว ค่าเริ่มต้นแบบ Boolean Search ของ Google ก็คือ AND นั่นเอง ซึ่งหมายความว่าเมื่อคุณป้อน keyword ที่เป็นคำที่ต้องการค้นหามากกว่าหนึ่งคำเป็นคำสั่งค้นหา (query) โดยไม่แทรก modifier ใดๆเพิ่มเข้าไปเลย กรณีนี้ Google จะสืบค้น keyword ทุกคำพร้อมกันไปเลย ยกตัวอย่างเช่น คุณจะสืบค้นคำว่า

snowblower Honda “GreenBay”

ในคำสั่งนี้ Google จะสืบค้น keyword ข้างต้นให้ทุกคำ แต่หากความต้องการของคุณเพียงแค่ว่า ถ้าค้นเจอเพียงคำใดคำหนึ่งก็พอแล้ว คุณสามารถที่จะใส่โอเปอเรเตอร์ OR ลงไปในระหว่าง keyword ดังนี้

snowblower OR snowmobile OR “GreenBay”

แต่ถ้าคุณต้องการผลลัพธ์ (search result) ที่ต้องมีคำใดคำหนึ่งอยู่ด้วยเสมอ และมีคำที่เหลือเพียงคำใดคำหนึ่งร่วมอยู่ด้วยเพียงคำเดียวเท่านั้นก็พอ คุณสามารถใช้เครื่องหมายวงเล็บเพื่อระบุความต้องการดังกล่าวได้ ดังนี้

snowblower (snowmobile OR “GreenBay”)

ด้วยคำสั่งนี้ Google จะค้นหาคำว่า “snowmobile” หรือ “Green Bay” อย่างใดอย่างหนึ่งไปพร้อมๆกับการค้นหาคำว่า “snowblower” ในเวลาเดียวกัน ซึ่งอันที่จริงแล้วโอเปอเรเตอร์ OR นี้ ก็มีที่มาจากรูปแบบการเขียนโปรแกรมคอมพิวเตอร์ (computer programming) นั่นเอง ด้วยการใช้เครื่องหมาย (pipe) แทนโอเปอเรเตอร์ OR ดังนี้

snowblower (snowmobile “GreenBay”)

ในทางกลับกัน หากว่าคุณต้องการที่จะระบุว่า ไม่ต้องการให้คำใดคำหนึ่งปรากฏในผลลัพธ์การสืบค้นนั้นๆ คุณก็สามารถที่จะสั่งด้วยการใช้เครื่องหมาย – (ลบ) ได้ เช่น

snowblower snowmobile - “GreenBay”

คำสั่งนี้จะทำให้ Google สืบค้นได้ผลลัพธ์เฉพาะ Web Page ที่มีทั้งคำว่า “snowblower” และ “snowmobile” เท่านั้น แต่จะไม่มีคำว่า “GreenBay” โดยเด็ดขาด

การสืบค้นอย่างง่ายและฟีเจอร์ I’am Feeling Lucky (ค้นปุ๊บเจอปั๊บ)

I’am Feeling Lucky นั้นเป็นฟีเจอร์ที่เก่งกาจพอดู คือแทนที่จะให้ผลลัพธ์เป็นรายการหางว่าวยาวเหยียด คุณจะได้รับเฉพาะ Web Page หน้าที่ Google เห็นว่ามีความใกล้เคียงกับสิ่งที่คุณต้องการมากที่สุด เช่น เฉพาะผลลัพธ์รายการแรก (top result) รายการเดียวเท่านั้น คุณอาจทดล องพิมพ์คำว่า washington post และคลิกที่ปุ่มคำสั่ง I am Feeling Lucky ดูก็ได้ จะเห็นว่าคุณจะถูกลิงก์ไปที่ http://www.washingtonpost.com / โดยตรงเลย หรือลองพิมพ์คำว่า president ดูอีกสักคำ ซึ่งคำดังกล่าวจะนำคุณตรงเข้าไปที่เว็บไซต์ http://www.whitehouse.gov/ ในทันทีเช่นกัน

ตัวพิมพ์ใหญ่และตัวพิมพ์เล็ก

Search Engine บางตัวจะแยกแยะตัวพิมพ์ใหญ่ (uppercase) และตัวพิมพ์เล็ก (lowercase) นั่นคือ Search Engine จะคำนึงถึงความแตกต่างของตัวพิมพ์ใหญ่และตัวพิมพ์เล็กด้วย (case sensitive) เช่นในการค้นหาด้วยคำว่า “GEORGE WASHINGTON” คุณจะไม่พบผลลัพธ์ที่มี “George Washington” หรือ “george washington” เลยแม้แต่รายการเดียว แต่สำหรับ Google แล้ว เป็น Search Engine ที่ไม่ได้คำนึงถึงความแตกต่างดังกล่าวเลย ดังนั้นไม่ว่าคุณจะสืบค้นด้วยคำว่า Three หรือ three หรือ THREE ก็ตาม คุณก็จะได้ผลลัพธ์ออกมาเหมือนๆกัน

ข้อควรระวังอื่นๆ

ยังมีข้อควรระวังอื่นๆที่คุณควรจะจำไว้เมื่อใช้ Google ข้อแรกก็คือ Google ยอมรับคำที่คุณใช้เป็น keyword ในการสืบค้น (query word) ไม่เกินกว่า 10 คำในแต่ละครั้งเท่านั้น โดยนับรวมคำที่เป็นซินแท็กซ์พิเศษ (special syntax) ด้วย และถ้าหากคุณระบุ keyword มากกว่าสิบคำแล้วละก็ คำเหล่านั้นก็จะไม่ถูกสืบค้นไปโดยปริยาย อย่างไรก็ตาม ถ้าสิ่งนี้เป็นปัญหาสำหรับคุณ เราก็ยังพอมีทางออกสำหรับเรื่องนี้บ้างเหมือนกัน (ดู Hack #5)

ข้อที่สองก็คือ Google ไม่สนับสนุนการสืบค้นแบบ “stemming” หรือการใช้เครื่องหมายดอกจันทน์ (หรือเครื่องหมายแสดงความไม่เฉพาะเจาะจงอื่นๆ) แทนการค้นหาด้วยข้อความ ยกตัวอย่างเช่น การระบุคำว่า moon* ลงไปใน Search Engine ที่สนับสนุนการสืบค้นแบบ stemming เราจะได้คำว่า “moonlight” “moonshot” “moonshadow” และอื่นๆอีกมากกลับคืนมา เป็นต้น แต่อย่างไรก็ตาม Google ก็ยังคงสนับสนุนการใช้เครื่องหมายดอกจันทน์กับคำที่อยู่ในวลีต่างๆ ( Hack #13) เช่น เมื่อค้นหาคำว่า “three * mice” ใน Google คุณก็จะได้คำว่า “three blind mice” “three blue mice” “three red mice” และอื่นๆอันมีลักษณะเดียวกันกลับคืนมา เป็นต้น

ดังนั้นการใช้ซินแท็กซ์พิเศษที่ถูกต้อง จะต้องประกอบกับการคิดหา keyword อย่างรอบคอบไว้ล่วงหน้าด้วย ซึ่งจะช่วยให้คุณได้อะไรๆมากมายจากการสืบค้นนี้ ยิ่งบวกเข้ากับซินแท็กซ์ที่เราจะพูดถึงในหัวข้อต่อไปด้วยแล้ว คุณก็จะมีภาษาการสืบค้นที่ทรงอานุภาพไว้ในมืออย่างแท้จริง

ซินแท็กซ์พิเศษแบบต่างๆ (Special Syntax)

ดังได้เกริ่นไปบ้างแล้ว ว่านอกเหนือจากการสืบค้นด้วย AND และ OR รวมถึงคำเฉพาะบางคำแล้ว Google ยังมีซินแท็กซ์พิเศษเพิ่มเติมให้คุณได้เลือกใช้ตามความเหมาะสม เพื่อช่วยในการค้นหาสิ่งที่คุณต้องการได้ดีขึ้นอีกด้วยในฐานะที่เป็น Search Engine แบบ Full Text Search ตามที่ได้กล่าวไว้ข้างต้น จึงมีการจัดทำอินเด็กซ์ (indexing) ของ Web Page ทุกหน้าในเว็บไซต์ต่างๆ แทนที่จะจัดทำเพียงอินเด็กซ์จาก Title หรือ Description ของเว็บไซต์นั้นๆเพียงเท่านั้น ดังนั้นเพื่อให้ผู้ใช้สามารถสืบค้นได้ถึงส่วนที่เฉพาะเจาะจงของ Web Page หรือรูปแบบข้อมูลที่เฉพาะเจาะจงได้ Google จึงมีซินแท็กซ์พิเศษเพิ่มเติมให้ด้วย ซึ่งเป็นสิ่งที่มีประโยชน์มากเมื่อคุณต้องเผชิญกับ Web Page เป็นจำนวนสองพันล้านหน้าหรือมากกว่านั้น และต้องการที่จะให้ได้ผลลัพธ์ที่ออกมาใกล้เคียงกับสิ่งที่ต้องการมากที่สุด โดยเฉพาะอย่างยิ่ง การระบุว่าให้ค้นหาเฉพาะ Web Page ที่มี Title หรือ URL มีคำที่คุณค้นหาอยู่ด้วยนั้นเป็นวิธีที่ดีมาก ที่จะทำให้คุณได้ผลที่ใกล้เคียงที่สุดโดยไม่ต้องระบุ keyword ให้ละเอียดมากจนเกินไป

Tip ซินแท็กซ์ต่อไปนี้ บ้างก็ใช้งานได้ดี บ้างก็ใช้งานได้ไม่ดีนัก จนกระทั่งถึงบางตัวที่ทำงานได้ไม่ดีเอาซะเลย สำหรับรายละเอียดว่าซินแท็กซ์ใดใช้ร่วมกันได้ และซินแท็กซ์ใดใช้ร่วมกันไม่ได้ โปรดดูที่ Hack # 8

intitle:
intitle: เป็นซินแท็กซ์สำหรับการสืบค้นเฉพาะส่วน Title ของ Web Page ส่วน allintitle: จะสืบค้นหา Web Page หน้าที่มี Title ประกอบด้วย keyword ทุกๆคำที่คุณระบุเอาไว้ในคำสั่งที่ใช้ในการค้นหา แต่ทางที่ดีคุณควรหลีกเลี่ยงการใช้ allintitle: จะดีกว่า เพราะมันไม่สามารถใช้ร่วมกับซินแท็กซ์บางตัวได้

intitle: “george bush”
allintitle: “money supply” economics

inurl:
inurl: จะจำกัดการสืบค้นของคุณให้อยู่เฉพาะ Web Page หน้าที่มี URL ตรงกับ keyword ที่ใช้ในการค้นหาเท่านั้น ซินแท็กซ์ตัวนี้มักจะใช้งานได้ดีในการค้นหา Web Page หน้าที่เป็น Search and Help Page เท่านั้น เพราะมักจะมีหน้าตาคล้ายคลึงกันเป็นส่วนใหญ่ ส่วน allinurl: จะช่วยค้นหา Web Page หน้าที่มี URL ประกอบด้วย keyword ทุกคำที่คุณใช้อยู่ใน URL ดังกล่าว แต่จะไม่สามารถใช้ร่วมกันได้กับซินแท็กซ์บางตัวได้

inurl: “help”
allinurl: search help

intext:
intext: จะค้นหาเฉพาะในส่วนของรายละเอียด (description) ซึ่งเป็นคำที่ไม่ได้อยู่ในส่วนของ Link , URL หรือ Title) เท่านั้น อีกตัวหนึ่งคือ allintext: ซึ่งก็ใช้งานได้ไม่ดีนักเมื่อใช้ร่วมกับซินแท็กซ์อื่นๆ แม้ว่าจะมีการใช้งานที่ค่อนข้างจำกัด แต่ intext: ก็สามารถใช้งานได้ดีกับการสืบค้นคำที่มักจะพบได้บ่อยๆในการสืบค้นจาก URL หรือ Title ด้วยเช่นกัน ตัวอย่างเช่น

intext : “yahoo.com”
intext : html

inanchor:
inanchor: ใช้สำหรับค้นหาคำที่เป็นคำอธิบาย Web Link (link anchor) ยกตัวอย่าง เช่น คำอธิบาย Web Link ในภาษา HTML ของคำสั่ง O’Reilly and Associates คือคำว่า “O’Reilly and Associates.” เป็นต้น ตัวอย่างการใช้ เช่น

inanchor: “tom peters”

site:
site: เป็นการระบุการสืบค้นในระดับเว็บไซต์ ถ้าใช้ซินแท็กซ์ตัวนี้แล้วตามด้วย Domain Name (รวมถึง Subdomain ด้วย) ของเว็บไซต์ที่ต้องการสืบค้น จะเป็นการค้นหาข้อมูลทั้งหมดที่อยู่ในเว็บไซต์แห่งนั้นเลย สำหรับใน Search Engine ตัวอื่นก็มีซินแท็กซ์ลักษณะนี้ด้วยเหมือนกัน ยกตัวอย่างเช่น AltaVista ที่มีใช้อยู่สองรูปแบบ (คือ host: และ domain:) แต่ใน Google จะมีรูปแบบเดียวเท่านั้น ตัวอย่างการใช้ เช่น

site:loc.gov
site:thomas.loc.gov
site:edu
site:nc.us

link:
link: จะให้ผลลัพธ์เป็นรายชื่อของ Web Page ที่ลิงก์มายัง Web Page ภายใต้ URL ที่คุณระบุ เช่น ถ้าคุณใส่คำว่า link:www.google.com คุณก็จะได้รับรายชื่อของ Web Page ต่างๆที่ลิงก์มาที่ Google โดยไม่ต้องเป็นกังวลกับการใส่คำว่า http// เพราะจะใส่หรือไม่ก็ให้ผลเหมือนกัน เนื่องจากเอง Google ก็ไม่ได้ใส่ใจกับมันอยู่แล้ว แม้ว่าคุณจะใส่มาด้วยก็ตาม ซินแท็กซ์ตัวนี้ใช้การได้ดีทั้งกับ URL ที่มีรายละเอียดมากๆ เช่น http://www.raelity.org/lang/perl/blosxom/ และ URL ที่มีรายละเอียดไม่มากนัก เช่น raelity.org เป็นต้น

cache:
cache: จะสืบค้นส่วนที่เป็นหน้าที่ถูก cache เอาไว้ของ Web Page ที่อยู่ใน Google Index ซึ่งปกติแล้ว Google จะ cache Web Page ทุกหน้าที่ได้ทำอินเด็กซ์เอาไว้เสมอ เพื่อให้สืบค้นในภายหลังได้แม้ Web Page ภายใต้ URL นั้นจะไม่มีอีกต่อไปแล้ว หรือว่ามีการเปลี่ยนแปลงเนื้อหาไปหมดแล้วก็ตาม ซินแท็กซ์ตัวนี้เป็นประโยชน์มากในการค้นหา Web Page หน้าที่มีการเปลี่ยนแปลงบ่อยๆ
ถ้าผลลัพธ์ของ Google ที่ได้ออกมาใกล้เคียงกับสิ่งที่คุณสืบค้น ข้อสันนิษฐานเบื้องต้นขอให้คุณมั่นใจได้ว่าสิ่งที่คุณสืบค้นนั้นมาจากส่วนของ cache ที่เป็นเวอร์ชั่นที่ล่าสุดแล้ว ตัวอย่างเช่น

cache:www.yahoo.com

daterange:
daterange: เป็นซินแท็กซ์ที่จะช่วยจำกัดช่วงเวลาสำหรับการสืบค้น โดยจำกัดเฉพาะ “วันที่” (date) หรือ “ช่วงของวันที่” (date range) ที่ได้มีการจัดทำอินเด็กซ์ Web Page หน้านั้นๆเอาไว้ สิ่งที่สำคัญก็คือว่า การสืบค้นจะยึดวันที่มีการจัดทำอินเด็กซ์ Web Page หน้านั้นใน Google Index เป็นหลักมากกว่า ยกตัวอย่างเช่น Web Page หน้าที่สร้างขึ้นเมื่อวันที่ 2 กุมภาพันธ์ แต่ยังไม่ได้ถูกจัดทำอินเด็กซ์ให้อยู่ใน Google Index จนกระทั่งมาถูกจัดทำอินเด็กซ์ในวันที่ 11 เมษายน เช่นนี้จะถูกสืบค้นพบด้วย daterange: โดยการระบุวันครอบคลุมวันที่ 11 เมษายนแทนที่จะเป็น 2 กุมภาพันธ์ เป็นต้น อีกอย่างหนึ่งที่จะต้องจำไว้ก็คือ Google จะปรับปรุงอินเด็กซ์ (reindex) ของตนอย่างสม่ำเสมอ การเปลี่ยนวันที่ของอินเด็กซ์จะขึ้นอยู่กับว่า มีการเปลี่ยนแปลงเนื้อหาของ Web Page หน้านั้นด้วยหรือไม่ ยกตัวอย่างเช่น Google จัดทำอินเด็กซ์ Web Page หน้าหนึ่งไว้เมื่อวันที่ 1 มิถุนายน และได้จัดทำอินเด็กซ์ (reindex) Web Page หน้านี้ซ้ำอีกครั้งหนึ่งในวันที่ 13 สิงหาคม แต่ถ้า Web Page หน้านี้ยังคงมีเนื้อหาเหมือนเดิมทุกอย่าง วันที่สำหรับการสืบค้นสำหรับ Web Page หน้านี้ก็จะยังคงเป็นวันที่ 1 มิถุนายนเช่นเดิม

โปรดพึงระวังว่า daterange: มีการใช้วันที่แบบ Julian Date (นับวันด้วยตัวเลขที่แสดงว่าเป็นวันที่เท่าไหร่ โดยเริ่มนับตั้งแต่วันที่ 1 มกราคม 4,713ปี ก่อนคริสต์ศักราช) ไม่ใช่วันที่แบบ Gregorian Date ซึ่งเป็นวันที่ตามปฏิทินที่เราใช้กันทุกวันนี้ แต่กับปัญหาดังกล่าว ยังมีซินแท็กซ์พิเศษที่ช่วยแปลงวันที่จากระบบหนึ่งไปยังอีกระบบหนึ่งขณะที่คุณออนไลน์อยู่ได้เหมือนกัน คุณสามารถที่จะเข้าไปที่เว็บไซต์ที่เป็นตัวกลางให้กับ Google ได้ที่เว็บไซต์ FaganFinder (http://faganfinder.com/engines/google.shtml) ซึ่งจะทำให้คุณใช้ daterange: โดยเลือกเปลี่ยนระบบของวันที่ได้จากเมนูของวันที่แบบ Gregorian Date ที่ใช้กันอยู่ในปัจจุบัน ซึ่งกฎการแฮ็กหลายข้อในหนังสือเล่มนี้ก็ใช้ daterange: ในการสืบค้นด้วยเช่นกัน ดังนั้นคุณจะได้เห็นซินแท็กซ์ตัวนี้ปรากฎอยู่บ่อยครั้งตลอดเนื้อหาในหนังสือเล่มนี้ ตัวอย่างได้แก่

“George Bush” daterange:2452389-2452389
neurosurgery daterange:2452389-2452389

filetype:
ซินแท็กซ์ filetype: จะสืบค้นคำลงท้าย (suffix) หรือคำที่ระบุถึงนามสกุลของไฟล์ (file extension) ซึ่งทั้งสองอย่างนี้อาจจะให้ผลลัพธ์ที่แตกต่างกัน ยกตัวอย่างเช่น การค้นหาด้วยคำสั่ง filetype:htm และ filetype:html นั้น จะทำให้คุณได้ผลลัพธ์ที่แตกต่างกันแม้ว่าทั้งสองแบบจะหมายถึงไฟล์ที่สร้างด้วยภาษา HTML เหมือนกัน คุณอาจทำการสืบค้นด้วยการระบุภาษาที่สร้าง Web Page ที่แตกต่างกันออกไป เช่น ASP, PHP, CGI หรือภาษาอื่นๆก็ตามที โดยมีข้อแม้ว่า Web Page เหล่านั้นจะต้องไม่ถูกซ่อนไว้ด้วยวิธีการอย่างใดอย่างหนึ่ง (เช่น ด้วยวิธี redirect หรือการใช้ proxy) โดยผู้ดูแลเว็บไซต์นั้นๆ และสำหรับ Google เองก็ได้มีการจัดทำอินเด็กซ์ให้กับไฟล์หลักๆของไมโครซอฟต์ที่อยู่ในรูปแบบต่างๆ เช่นไฟล์พาเวอร์พอยต์ (PPT) ไฟล์เอ็กเซล (XLS) และไฟล์ไมโครซอฟต์เวิร์ด (DOC) ด้วย ตัวอย่างเช่น

homeschooling filetype:pdf
“leading economic” filetype:ppt

related:
related: เป็นซินแท็กซ์ที่จะค้นหา Web Page ซึ่งจัดอยู่ในประเภทหรือหมวด (category) เดียวกันกับ Web Page ที่คุณต้องระบุในคำสั่ง ซึ่งเป็นวิธีที่ดีสำหรับการค้นหาโดยแบ่งแยกตามประเภทของ Web Page เช่นคำสั่ง related: google.com จะให้รายการผลลัพธ์ที่จัดอยู่ในประเภท Search Engine ทั้งหมด เช่น HotBot, Yahoo หรือ Northern Light เป็นต้น

related:www.yahoo.com
related:www.cnn.com

info:
info: จะให้รายชื่อ Web Link ที่ให้ข้อมูลเพิ่มเติมเกี่ยวกับ Web Page ภายใต้ URL ที่ระบุ ข้อมูลเหล่านี้ยังรวมไปถึงส่วนที่เป็น cache ของ Web Page หน้านั้นๆ และรายชื่อบรรดา Web Page ที่ลิงก์ไปยัง Web Page ภายใต้ URL นั้นๆ และที่ต้องไม่ลืมคือ การที่จะได้รับข้อมูลเหล่านั้นอย่างไรขึ้นอยู่กับว่า Google ได้จัดทำอินเด็กซ์สำหรับ Web Page ภายใต้ URL นั้นเข้าไว้ใน Google Index แล้วหรือไม่ด้วย หากว่า Google ไม่ได้ทำอินเด็กซ์ Web Page ภายใต้ URL ดังกล่าวเอาไว้ ข้อมูลที่ได้ก็จะค่อนข้างจำกัดด้วยเช่นกัน ตัวอย่างการใช้ได้แก่

info:www.oreilly.com
info:www.nytimes.com/technology

phonebook:
phonebook: เป็นซินแท็กซ์ที่ใช้สำหรับค้นหาหมายเลขโทรศัพท์ รายละเอียดของซินแท็กซ์ตัวนี้โปรดดูใน Hack #17 สำหรับตัวอย่างเบื้องต้น ได้แก่

phonebook:John Doe CA
Phonebook:(510) 555-1212

ยิ่งได้ใช้ซินแท็กซ์พิเศษเหล่านี้บ่อยมากเท่าไหร่ คุณก็จะใช้งานได้คล่องขึ้นเท่านั้น และ Google เองก็มักจะเพิ่มเติมซินแท็กซ์พิเศษชนิดใหม่ๆอยู่เรื่อยๆ จึงเป็นที่ชื่นชอบของผู้ที่ใช้ Google ประเภทขาประจำเป็นอย่างมาก
แต่หากว่าคุณต้องการ ซินแท็กซ์ที่มีแบบแผนมากกว่าซินแท็กซ์เพียงหนึ่งบรรทัด และเห็นตัวอย่างชัดเจนกว่านี้ โปรดดูที่หัวข้อ “การสืบค้นขั้นสูง” ในส่วนถัดไป

การสืบค้นขั้นสูง (Advanced Search)

การสืบค้นขั้นสูง (advanced search) จะช่วยให้เราค้นหาสิ่งที่ต้องการได้อย่างมีประสิทธิภาพมากกว่าการสืบค้นปกติ (basic search) ด้วยการระบุสิ่งที่ต้องการเช่น วันที่ ภาษา หรือ Filter ที่ต้องการลงในแบบฟอร์ม เป็นต้น

แม้ว่าในการสืบค้นแบบธรรมดาซึ่งเป็นรูปแบบการสืบค้นทั่วไปนั้น คุณจะสามารถใช้ลูกเล่นของซินแท็กซ์พิเศษได้บ้าง ทว่าก็ยังไม่มากมายนัก ในหน้าการสืบค้นขั้นสูง (http://www.google.com/advanced_search?hl=en) คุณจะระบุความต้องการได้มากขึ้นเช่น วันที่และ Filter ที่ต้องการ โดยกรอกลงใน Text Box ที่กำหนดมาให้ วิธีนี้ช่วยให้คุณไม่ต้องพะวงกับการจดจำซินแท็กซ์ต่างๆมากจนเกินไปนัก
ตัวเลือกหรือออปชันต่างๆต่อไปนี้ ส่วนใหญ่จะอธิบายตัวมันเองอยู่แล้ว แต่เราจะมาดูกันในส่วนที่ทำได้ไม่ง่ายนัก กรณีที่ใช้แต่เพียงซินแท็กซ์พิเศษอย่างเดียว

การระบุคำสั่ง (Query Input)

ด้วยเหตุที่ Google ใช้ AND เป็นโอเปอเรเตอร์เริ่มต้น (default operator) ในการสืบค้น ในบางครั้งจึงเป็นการยากที่จะแยกแยะผลลัพธ์ออกมาให้ใกล้เคียงสิ่งที่คุณต้องการ การกรอกคำสั่งลงใน Text Box จะช่วยให้คุณสามารถระบุคำ วลี หรือกลุ่มคำที่ต้องการให้ Google แสดงผลอย่างใดอย่างหนึ่งได้ รวมไปถึงคำที่คุณไม่ต้องการให้แสดงผลออกมาในรายการผลลัพธ์ด้วย

ภาษา (Language)

คุณสามารถที่จะเลือกภาษาที่ต้องการให้แสดงผลลัพธ์ได้จากเมนูตัวเลือก (option)

Filter

การสืบค้นขั้นสูงของ Google จะกรองผลลัพธ์ด้วยการใช้ Safesearch ซึ่งเป็น Filter ที่จะกรองเฉพาะเนื้อหาที่เกี่ยวกับเรื่องทางเพศ หรือเว็บไซต์ที่มีเนื้อหาที่ไม่เหมาะสมในลักษณะสื่อไปในเชิงทางเพศเท่านั้น (ซึ่งจะแตกต่างจาก Filter ของบางระบบที่ทำการกรองภาพลามกอนาจาร บทความที่น่ารังเกียจ ข้อมูลที่เกี่ยวกับการพนันขันต่อ หรืออื่นๆอันเป็นสิ่งไม่เหมาะสมนอกจากนี้ได้ด้วย) อย่างไรก็ตามพึงระลึกไว้ว่าระบบการกรองนั้นไม่สามารถที่จะกลั่นกรองได้หมดทั้งร้อยเปอร์เซ็นต์เลยซะทีเดียว

ชนิดของไฟล์ (File Format)

ตัวเลือกสำหรับชนิดของไฟล์ใน Google จะยอมให้คุณเลือกชนิดของไฟล์ของไมโครซอฟต์ทั้งที่ต้องการและไม่ต้องการให้แสดงในรายการผลลัพธ์ เช่น ไฟล์ของไมโครซอฟต์เวิร์ดหรือเอ็กเซล รวมไปถึงไฟล์ของโปรแกรม Adobe (ส่วนใหญ่จะเป็นไฟล์ PDF) และไฟล์ที่มีรูปแบบเป็น Rich-Text Format และนี่คือส่วนที่เป็นข้อจำกัดของการสืบค้นขั้นสูง นอกจากนี้ยังมีไฟล์ชนิดอื่นๆที่ Google จะช่วยสืบค้นให้คุณได้ แต่จะเป็นตัวเลือกย่อยเท่านั้น

วันที่ (Date)

ในส่วนของวันที่คุณสามารถที่จะระบุการสืบค้นช่วงของข้อมูลที่ได้รับการปรับปรุงภายในระยะเวลาสามเดือน หกเดือน หรือหนึ่งปี การสืบค้นด้วยช่วงเวลาภายใต้การสืบค้นขั้นสูงนี้จะมีข้อจำกัดมากกว่าการใช้ซินแท็กซ์ daterange: ข้างต้น (ดู Hack #11) ซึ่งจะสามารถให้ข้อมูลในช่วงที่แคบที่สุดคือหนึ่งวันได้ แต่ในการสืบค้นขั้นสูงนี้คุณจะต้องเลือกใช้ตัวเลือกที่มีอยู่เท่านั้น เพราะ Google ไม่สนับสนุนการใช้ daterange: กับการสืบค้นประเภทนี้

ส่วนที่เหลือของหน้าสืบค้นขั้นสูง (advanced search page) จะเป็นแบบฟอร์มการกรอกข้อมูลเพื่อระบุคุณสมบัติอื่นๆของ Google เช่น การสืบค้นเกี่ยวกับข่าว (news search) หรือสืบค้น Web Page ที่เฉพาะเจาะจงไปด้านใดด้านหนึ่ง (page-specific search) รวมถึงการสืบค้น Web Link ต่างๆที่นำคุณตรงไปยัง Web Page ที่เป็นเรื่องเฉพาะทาง (topic-specific search) อื่นๆ ซึ่งการสืบค้นเกี่ยวกับข่าวและการสืบค้นเรื่องเฉพาะทางนั้นจะทำงานแยกกันกับการสืบค้นขั้นสูงจากแบบฟอร์มที่เรากรอกเอาไว้

หน้าสืบค้นขั้นสูง (advance search page) จะเป็นประโยชน์สำหรับในกรณีที่คุณต้องการใช้คุณสมบัติที่พิเศษนี้หรือเมื่อคุณต้องสืบค้นด้วยคำสั่งที่ซับซ้อนมากขึ้น การระบุด้วยการกรอกแบบสอบถามแบบนี้จะเป็นประโยชน์ทั้งสำหรับผู้ที่เพิ่งจะเรียนรู้การใช้งานใหม่ๆหรือผู้ที่ต้องการใช้งานในขั้นสูงโดยได้รับผลลัพธ์ที่แม่นยำถูกต้อง เนื่องจากความยากของการใช้งานซินแท็กซ์พิเศษชนิดต่างๆอาจสร้างความผิดพลาดได้ง่าย ตัวอย่างเป็นต้นว่า ในการใช้ OR นั้น มันเป็นไปไม่ได้เลย ที่คุณจะใช้คำสั่ง site:edu OR site:org เป็นต้น

นอกจากที่กล่าวมาทั้งหมดแล้วนี้ คุณยังมีวิธีการที่จะช่วยให้ได้ผลลัพธ์การสืบค้นจาก Google ดีขึ้น โดยไม่เกี่ยวกับคุณสมบัติการสืบค้นแบบพื้นฐานหรือในขั้นสูงอีกอย่างหนึ่ง นั่นก็คือการใช้ Preference Page หรือคุณสมบัติการปรับแต่งตัวเลือกเพิ่มเติม

Hack 1-28

วันอังคารที่ ๑๐ เมษายน พ.ศ. ๒๕๕๐

HACK#13 การใช้เครื่องหมาย Wildcards ในแบบของ Google

วันจันทร์ที่ ๕ มีนาคม พ.ศ. ๒๕๕๐

HACK#28 การสืบค้นใน Google ด้วย Bookmarklet

HACK#2 เครื่องมือเกี่ยวกับภาษา (Language Tools)

HACK#27 GAPIS

HACK#14 ซินแท็กซ์ inurl: และ site:

HACK#22 การหาคำนิยามของศัพท์ทางเทคนิค

บทที่ 1 เจาะ Google ให้รู้แจ้ง (Hack #1 - 28)

ผู้ให้ข้อมูลร่วมกัน

Thaiventure Search

Text Link Ads

Google Link

คลังบทความของบล็อก